Байки из локализаторской: краткая история машинного перевода, часть 1

article-localization-tales-machine-translation-part-1-imgАвтор: АННА КИСЕЛЁВА

Вместо вступления

На прошедшем в конце июня 2015-го Форуме переводчиков России произошел любопытный эпизод. Один из участников дискуссии о программных средствах контроля качества, представительный пожилой мужчина, начал агрессивно высказываться о бесполезности и ущербности «всех этих программ», а потом и обвинять ведущих в том, что они не гуманитарии и поэтому никогда не поймут, что программа по самой сути своей несет переводу гибель. В аудитории нашелся еще один гуманитарий, и страсти начали закипать. Положение спасла я, взяв микрофон и высказав свое мнение, что программные средства контроля качества никогда не заменят редактора, да и не предназначены для этого.

Потом ко мне подошел один из участников дискуссии и процитировал меня так, как услышал. Оказывается, я «сказала», что машинный перевод никогда не заменит человека.

Неожиданно.

Пришествия машинного перевода с нетерпением ожидают корпоративные заказчики и панически боятся коллеги. Но насколько обоснованы эти надежды и страхи? Быть может, нас действительно ждет уродливое будущее, где бессмертные строки Чехова будут переводиться машиной на уровне “вся ваша база принадлежать нам”, а специалисты с мировым именем отправятся просить милостыню? Или же действительно можно будет одним нажатием кнопки точно и красиво переводить гигабайты, не тратя ни гроша? Что нас ждет? И главное – когда?

Джорджтаунский эксперимент: “Через три года у нас будет машинный перевод!”

Надо сказать, этому напряженному ожиданию уже не один год и даже не один десяток лет. Машинный перевод – это “праздник, которого ждут со дня на день”… аж с 1954 года. Именно тогда состоялся знаменитый Джорджтаунский эксперимент – первая в истории демонстрация работающего машинного переводчика. Эксперимент имел оглушительный успех, был широко разрекламирован IBM и наполнил карманы исследователей бессчетными деньгами, а их сердца – бешеным энтузиазмом. Казалось, на горизонте появились очертания новой “Энигмы”.

Перфокарта с Джорджтаунского эксперимента.

Перфокарта с Джорджтаунского эксперимента.

Чтобы понять заразительность этого энтузиазма, обратимся к личности одного из главных участников событий – профессора Джорджтаунского университета Леона Достерта. Лингвист по образованию, личный переводчик Эйзенхауэра, после войны он был назначен ответственным за переводческую деятельность на Нюрнбергском процессе. На этом посту Достерт создал первую в мире крупномасштабную систему синхронного перевода, которую на следующий год внедрил в ООН. Оборудование для обеих систем предоставила IBM, с чьим президентом Томасом Уотсоном Достерт дружил с середины 30-х годов.

Именно опыт работы с электронным оборудованием в переводческой индустрии и привел Достерта – к тому времени директора Института языков и лингвистики при Джорджтаунском университете – на первый конгресс по машинному переводу, состоявшийся в Массачусетском технологическом летом 1952 г.

А тут машинистка пробивает перфокарту.

А тут машинистка пробивает перфокарту.

Поначалу Достерт отнесся к идее автоматизации перевода скептически, но к концу конференции резко изменил свое мнение, окрыленный новыми возможностями. Будучи по натуре практиком, он решил не ждать, когда наконец теория сделает все необходимые шаги, а немедленно поставить маленький, но настоящий эксперимент, который подтвердит или опровергнет жизнеспособность машинного перевода. За содействием он, естественно, обратился в IBM.

И вот 8 января 1954 г. Томас Уотсон и Леон Достерт явили миру первый в истории машинный переводчик. Вычислительная машина IBM 701 перевела с русского на английский шестьдесят предложений по общей тематике и органической химии. Словарь автопереводчика составлял 250 слов, использовалось шесть грамматических правил. Русские тексты в латинской транскрипции вводились в компьютер на перфокартах, которые прямо при зрителях пробивала машинистка.

В последующие дни в Штатах не было ни одной уважающей себя газеты, которая не процитировала бы слова Достерта: “Хотя сейчас еще нельзя вложить в приемный лоток книгу на русском и получить на выходе книгу на английском, через 3-5 лет мы получим работающий машинный перевод на нескольких языках, пригодный для важных областей человеческой деятельности”.

Сейчас многие считают, что Джорджтаунский эксперимент принес больше вреда, чем пользы, резко завысив ожидания публики. И когда прошло целое десятилетие гигантских финансовых вливаний, а машинный переводчик так и не заработал, маятник качнулся в обратную сторону. Да так, что мало не показалось никому.

Перфоратор для электронно-вычислительных машин. Я такие еще застала на школьном УПК, но они уже выглядели пережитками прошлого... зато на перфокартах было так удобно делать заметки!

Перфоратор для электронно-вычислительных машин. Я такие еще застала на школьном УПК, но они уже выглядели пережитками прошлого… зато на перфокартах было так удобно делать заметки!

Великое Закрытие и итоги первого бума

К 1960-м годам обнаружились фундаментальные проблемы машинного перевода.

Например, ученые недооценили многозначность слов и важность контекста. Для перевода машине требовалось знать, о чем вообще речь, иначе появлялись совершенно идиотские ошибки. Общеизвестным примером стал перевод на русский и обратно фразы “the spirit is willing but the flesh is weak” (“дух крепок, но плоть слаба”), превратившейся в результате в “the vodka is good but the meat is rotten” (“водка хорошая, но мясо протухло”).

Кислородное голодание
Машине был неведом ни здравый смысл, ни история человечества, ни контекстная связь между словами. В одной из управленческих теорий подобные вещи носят меткое название “кислород”: очевидное условие, забытое именно по причине очевидности.

Время шло, деньги текли, а обещанного результата так и не было, и в какой-то момент случилось то, что всегда случается в такое время – проверка.

Устав ждать результатов, правительство США в 1964 г. сформировало комиссию по изучению перспектив машинного перевода, известную как комиссия ALPAC. Перед ней поставили задачу – оценить результаты работ и дать рекомендации по дальнейшему финансированию. Комиссия проработала два года, изучила гору материала, провела десятки экспериментов и в итоге опубликовала разгромный отчет (попутно разработав одну из первых методологий оценки качества перевода).

ЭВМ IBM 701, однотипная с той, на которой проводили Джорджтаунский эксперимент, и будущий президент США Рональд Рейган (тогда снимался в телерекламе General Electric).

ЭВМ IBM 701, однотипная с той, на которой проводили Джорджтаунский эксперимент, и будущий президент США Рональд Рейган (тогда снимался в телерекламе General Electric).

Вердикт был неутешителен: машинный перевод оказался дороже, хуже и медленнее ручного, а машинный перевод без последующего редактирования (именно тогда и прозвучало хорошо знакомое нам сейчас слово “постредактура”) – вообще никуда не годным.

Авторы отчета не смягчали выражений: “Хотя перевод текстов общенаучной тематики с помощью компьютера и существует, полезного машинного перевода нет. Мало того, нет и немедленных или хотя бы предсказуемых перспектив его появления”.

Один из выводов отчета ALPAC заключался в том, что дальнейшее развитие машинного перевода тормозится прежде всего состоянием лингвистики. Комиссия рекомендовала забросить машинный перевод и спонсировать: а) лингвистику как таковую, причем не как прикладные исследования, а как науку – т.е. не требуя от нее немедленной отдачи, и б) усовершенствование процесса перевода и разработку практических методов оценки его качества.

Отчет ALPAC многие критиковали как однобокий и близорукий, но так или иначе, правительство вняло его рекомендациям – и закрыло проект, в который к тому моменту успело вложить 20 миллионов долларов (130 млн. в ценах 2015 г.), без какой-либо надежды получить эти деньги обратно. Примеру США последовали и другие западные страны, за редкими исключениями. Ситуацию усугубила начавшаяся в 1970-е годы глобальная “зима ИИ”, когда закрылось финансирование и по другим направлениям, связанным с искусственным интеллектом.

Не всё впустую
Деньги правительство в конце концов вернуло: один из множества разнообразных проектов по ИИ и МП, которые правительство США когда-то финансировало, оказался успешным и уже в 90-е годы окупил все остальные.

…Но действительно ли все эти миллионы были выброшены на ветер?

"Отец современной лингвистики", профессор MIT Ноам Хомский в 1968 г.

“Отец современной лингвистики”, профессор MIT Ноам Хомский в 1968 г.

Уже в 1956 г. активный участник работ по машинному переводу в МИТе Ноам Хомский разработал иерархию формальных языков, а через год выпустил свою знаменитую книгу «Синтаксические структуры», осуществившую переворот в лингвистике. Иерархия Хомского положила начало идее алгоритмических языков и сейчас известна каждому программисту.

В 1964 г. был запущен машинный переводчик GAT (Georgetown’s Automatic Translator). Он был установлен в МАГАТЭ и в Европейской комиссии по атомной энергии (EURATOM), где кое-как проработал до 1976 года, переводя научную литературу с русского.

GATкое качество
По отзывам, “качество перевода было отвратительным по сравнению с ручным, но для наших целей – быстро просканировать документы и определить их содержание и уровень интереса – система GAT была вне конкуренции по сравнению с единственно возможными другими вариантами: дорогой и медленный ручной перевод или вообще никакого”.
Философ, по-прежнему профессор MIT Ноам Хомский среди участников митинга "Захвати Уолл-Стрит" (2011). Хомского шатало изрядно, правда, он еще до того, как стать гением лингвистики, был юным анархистом.

Философ, по-прежнему профессор MIT Ноам Хомский среди участников митинга “Захвати Уолл-Стрит” (2011 г.). Хомского шатало изрядно, правда, он еще до того, как стать гением лингвистики, был юным анархистом.

В 1968 г. Питер Тома, участник проекта GAT, разработал еще один машинный переводчик – SYSTRAN, доживший до наших дней и регулярно обновляемый. В 1973 г. он использовался для переводов с английского на русский в рамках проекта “Союз-Аполлон”, а в 1976 г. был приобретен Еврокомиссией. В 2010 г. SYSTRAN стал первым движком машинного перевода, реализовавшим гибридный подход.

Уже во время “зимы ИИ” появился TAUM-METEO – специальный машинный переводчик для прогнозов погоды. Он был запущен в 1977 г. и проработал до 2001 г., переводя около 80 тысяч слов в день, или 30 млн слов в год.

Кроме того, в рамках проектов по машинному переводу велись работы и по оптическому распознаванию текста (чтобы обойтись без машинистки), и по распознаванию речи, тоже попавшие под каток. Результаты тех работ широко используются в нынешних сканерах и системах голосового управления.

Продолжение следует…

ОБ АВТОРЕ
AKiselevaАнна Киселёва — ветеран локализации видеоигр. Профессиональный переводчик, закончила МГЛУ. В индустрии с 1999 года, сначала как переводчик, потом как редактор, потом как менеджер проектов. Начинала в «Фаргусе» переводчиком Planescape: Torment. С 2004 по 2014 гг. – в . Руководила локализацией таких разноплановых игр, как Fallout 3 и Sid Meier’s Railroads!, Devil May Cry 4 и Mafia 2, Tearaway и Wolfenstein: The New Order. Контент-менеджер и старший редактор локализации TES 5: Skyrim, которую считает своим высшим достижением.

Сейчас Анна — глава отдела локализаций агентства переводов «ТрансЛинк».