Вместо вступления
На прошедшем в конце июня 2015-го Форуме переводчиков России произошел любопытный эпизод. Один из участников дискуссии о программных средствах контроля качества, представительный пожилой мужчина, начал агрессивно высказываться о бесполезности и ущербности «всех этих программ», а потом и обвинять ведущих в том, что они не гуманитарии и поэтому никогда не поймут, что программа по самой сути своей несет переводу гибель. В аудитории нашелся еще один гуманитарий, и страсти начали закипать. Положение спасла я, взяв микрофон и высказав свое мнение, что программные средства контроля качества никогда не заменят редактора, да и не предназначены для этого.
Потом ко мне подошел один из участников дискуссии и процитировал меня так, как услышал. Оказывается, я «сказала», что машинный перевод никогда не заменит человека.
Неожиданно.
Пришествия машинного перевода с нетерпением ожидают корпоративные заказчики и панически боятся коллеги. Но насколько обоснованы эти надежды и страхи? Быть может, нас действительно ждет уродливое будущее, где бессмертные строки Чехова будут переводиться машиной на уровне “вся ваша база принадлежать нам”, а специалисты с мировым именем отправятся просить милостыню? Или же действительно можно будет одним нажатием кнопки точно и красиво переводить гигабайты, не тратя ни гроша? Что нас ждет? И главное – когда?
Джорджтаунский эксперимент: “Через три года у нас будет машинный перевод!”
Надо сказать, этому напряженному ожиданию уже не один год и даже не один десяток лет. Машинный перевод – это “праздник, которого ждут со дня на день”… аж с 1954 года. Именно тогда состоялся знаменитый Джорджтаунский эксперимент – первая в истории демонстрация работающего машинного переводчика. Эксперимент имел оглушительный успех, был широко разрекламирован IBM и наполнил карманы исследователей бессчетными деньгами, а их сердца – бешеным энтузиазмом. Казалось, на горизонте появились очертания новой “Энигмы”.
Чтобы понять заразительность этого энтузиазма, обратимся к личности одного из главных участников событий – профессора Джорджтаунского университета Леона Достерта. Лингвист по образованию, личный переводчик Эйзенхауэра, после войны он был назначен ответственным за переводческую деятельность на Нюрнбергском процессе. На этом посту Достерт создал первую в мире крупномасштабную систему синхронного перевода, которую на следующий год внедрил в ООН. Оборудование для обеих систем предоставила IBM, с чьим президентом Томасом Уотсоном Достерт дружил с середины 30-х годов.
Именно опыт работы с электронным оборудованием в переводческой индустрии и привел Достерта – к тому времени директора Института языков и лингвистики при Джорджтаунском университете – на первый конгресс по машинному переводу, состоявшийся в Массачусетском технологическом летом 1952 г.
Поначалу Достерт отнесся к идее автоматизации перевода скептически, но к концу конференции резко изменил свое мнение, окрыленный новыми возможностями. Будучи по натуре практиком, он решил не ждать, когда наконец теория сделает все необходимые шаги, а немедленно поставить маленький, но настоящий эксперимент, который подтвердит или опровергнет жизнеспособность машинного перевода. За содействием он, естественно, обратился в IBM.
И вот 8 января 1954 г. Томас Уотсон и Леон Достерт явили миру первый в истории машинный переводчик. Вычислительная машина IBM 701 перевела с русского на английский шестьдесят предложений по общей тематике и органической химии. Словарь автопереводчика составлял 250 слов, использовалось шесть грамматических правил. Русские тексты в латинской транскрипции вводились в компьютер на перфокартах, которые прямо при зрителях пробивала машинистка.
В последующие дни в Штатах не было ни одной уважающей себя газеты, которая не процитировала бы слова Достерта: “Хотя сейчас еще нельзя вложить в приемный лоток книгу на русском и получить на выходе книгу на английском, через 3-5 лет мы получим работающий машинный перевод на нескольких языках, пригодный для важных областей человеческой деятельности”.
Сейчас многие считают, что Джорджтаунский эксперимент принес больше вреда, чем пользы, резко завысив ожидания публики. И когда прошло целое десятилетие гигантских финансовых вливаний, а машинный переводчик так и не заработал, маятник качнулся в обратную сторону. Да так, что мало не показалось никому.
Великое Закрытие и итоги первого бума
К 1960-м годам обнаружились фундаментальные проблемы машинного перевода.
Например, ученые недооценили многозначность слов и важность контекста. Для перевода машине требовалось знать, о чем вообще речь, иначе появлялись совершенно идиотские ошибки. Общеизвестным примером стал перевод на русский и обратно фразы “the spirit is willing but the flesh is weak” (“дух крепок, но плоть слаба”), превратившейся в результате в “the vodka is good but the meat is rotten” (“водка хорошая, но мясо протухло”).
Время шло, деньги текли, а обещанного результата так и не было, и в какой-то момент случилось то, что всегда случается в такое время – проверка.
Устав ждать результатов, правительство США в 1964 г. сформировало комиссию по изучению перспектив машинного перевода, известную как комиссия ALPAC. Перед ней поставили задачу – оценить результаты работ и дать рекомендации по дальнейшему финансированию. Комиссия проработала два года, изучила гору материала, провела десятки экспериментов и в итоге опубликовала разгромный отчет (попутно разработав одну из первых методологий оценки качества перевода).
Вердикт был неутешителен: машинный перевод оказался дороже, хуже и медленнее ручного, а машинный перевод без последующего редактирования (именно тогда и прозвучало хорошо знакомое нам сейчас слово “постредактура”) – вообще никуда не годным.
Авторы отчета не смягчали выражений: “Хотя перевод текстов общенаучной тематики с помощью компьютера и существует, полезного машинного перевода нет. Мало того, нет и немедленных или хотя бы предсказуемых перспектив его появления”.
Один из выводов отчета ALPAC заключался в том, что дальнейшее развитие машинного перевода тормозится прежде всего состоянием лингвистики. Комиссия рекомендовала забросить машинный перевод и спонсировать: а) лингвистику как таковую, причем не как прикладные исследования, а как науку – т.е. не требуя от нее немедленной отдачи, и б) усовершенствование процесса перевода и разработку практических методов оценки его качества.
Отчет ALPAC многие критиковали как однобокий и близорукий, но так или иначе, правительство вняло его рекомендациям – и закрыло проект, в который к тому моменту успело вложить 20 миллионов долларов (130 млн. в ценах 2015 г.), без какой-либо надежды получить эти деньги обратно. Примеру США последовали и другие западные страны, за редкими исключениями. Ситуацию усугубила начавшаяся в 1970-е годы глобальная “зима ИИ”, когда закрылось финансирование и по другим направлениям, связанным с искусственным интеллектом.
…Но действительно ли все эти миллионы были выброшены на ветер?
Уже в 1956 г. активный участник работ по машинному переводу в МИТе Ноам Хомский разработал иерархию формальных языков, а через год выпустил свою знаменитую книгу «Синтаксические структуры», осуществившую переворот в лингвистике. Иерархия Хомского положила начало идее алгоритмических языков и сейчас известна каждому программисту.
В 1964 г. был запущен машинный переводчик GAT (Georgetown’s Automatic Translator). Он был установлен в МАГАТЭ и в Европейской комиссии по атомной энергии (EURATOM), где кое-как проработал до 1976 года, переводя научную литературу с русского.
В 1968 г. Питер Тома, участник проекта GAT, разработал еще один машинный переводчик – SYSTRAN, доживший до наших дней и регулярно обновляемый. В 1973 г. он использовался для переводов с английского на русский в рамках проекта “Союз-Аполлон”, а в 1976 г. был приобретен Еврокомиссией. В 2010 г. SYSTRAN стал первым движком машинного перевода, реализовавшим гибридный подход.
Уже во время “зимы ИИ” появился TAUM-METEO – специальный машинный переводчик для прогнозов погоды. Он был запущен в 1977 г. и проработал до 2001 г., переводя около 80 тысяч слов в день, или 30 млн слов в год.
Кроме того, в рамках проектов по машинному переводу велись работы и по оптическому распознаванию текста (чтобы обойтись без машинистки), и по распознаванию речи, тоже попавшие под каток. Результаты тех работ широко используются в нынешних сканерах и системах голосового управления.
Сейчас Анна — глава отдела локализаций агентства переводов «ТрансЛинк».