Байки из локализаторской: краткая история машинного перевода, часть 1

Автор: АННА КИСЕЛЁВА

Вместо вступления

На прошедшем в конце июня 2015-го Форуме переводчиков России произошел любопытный эпизод. Один из участников дискуссии о программных средствах контроля качества, представительный пожилой мужчина, начал агрессивно высказываться о бесполезности и ущербности «всех этих программ», а потом и обвинять ведущих в том, что они не гуманитарии и поэтому никогда не поймут, что программа по самой сути своей несет переводу гибель. В аудитории нашелся еще один гуманитарий, и страсти начали закипать. Положение спасла я, взяв микрофон и высказав свое мнение, что программные средства контроля качества никогда не заменят редактора, да и не предназначены для этого.

Потом ко мне подошел один из участников дискуссии и процитировал меня так, как услышал. Оказывается, я «сказала», что машинный перевод никогда не заменит человека.

Неожиданно.

Пришествия машинного перевода с нетерпением ожидают корпоративные заказчики и панически боятся коллеги. Но насколько обоснованы эти надежды и страхи? Быть может, нас действительно ждет уродливое будущее, где бессмертные строки Чехова будут переводиться машиной на уровне “вся ваша база принадлежать нам”, а специалисты с мировым именем отправятся просить милостыню? Или же действительно можно будет одним нажатием кнопки точно и красиво переводить гигабайты, не тратя ни гроша? Что нас ждет? И главное – когда?

Джорджтаунский эксперимент: “Через три года у нас будет машинный перевод!”

Надо сказать, этому напряженному ожиданию уже не один год и даже не один десяток лет. Машинный перевод – это “праздник, которого ждут со дня на день”… аж с 1954 года. Именно тогда состоялся знаменитый Джорджтаунский эксперимент – первая в истории демонстрация работающего машинного переводчика. Эксперимент имел оглушительный успех, был широко разрекламирован IBM и наполнил карманы исследователей бессчетными деньгами, а их сердца – бешеным энтузиазмом. Казалось, на горизонте появились очертания новой “Энигмы”.

Перфокарта с Джорджтаунского эксперимента.

Чтобы понять заразительность этого энтузиазма, обратимся к личности одного из главных участников событий – профессора Джорджтаунского университета Леона Достерта. Лингвист по образованию, личный переводчик Эйзенхауэра, после войны он был назначен ответственным за переводческую деятельность на Нюрнбергском процессе. На этом посту Достерт создал первую в мире крупномасштабную систему синхронного перевода, которую на следующий год внедрил в ООН. Оборудование для обеих систем предоставила IBM, с чьим президентом Томасом Уотсоном Достерт дружил с середины 30-х годов.

Именно опыт работы с электронным оборудованием в переводческой индустрии и привел Достерта – к тому времени директора Института языков и лингвистики при Джорджтаунском университете – на первый конгресс по машинному переводу, состоявшийся в Массачусетском технологическом летом 1952 г.

А тут машинистка пробивает перфокарту.

Поначалу Достерт отнесся к идее автоматизации перевода скептически, но к концу конференции резко изменил свое мнение, окрыленный новыми возможностями. Будучи по натуре практиком, он решил не ждать, когда наконец теория сделает все необходимые шаги, а немедленно поставить маленький, но настоящий эксперимент, который подтвердит или опровергнет жизнеспособность машинного перевода. За содействием он, естественно, обратился в IBM.

И вот 8 января 1954 г. Томас Уотсон и Леон Достерт явили миру первый в истории машинный переводчик. Вычислительная машина IBM 701 перевела с русского на английский шестьдесят предложений по общей тематике и органической химии. Словарь автопереводчика составлял 250 слов, использовалось шесть грамматических правил. Русские тексты в латинской транскрипции вводились в компьютер на перфокартах, которые прямо при зрителях пробивала машинистка.

В последующие дни в Штатах не было ни одной уважающей себя газеты, которая не процитировала бы слова Достерта: “Хотя сейчас еще нельзя вложить в приемный лоток книгу на русском и получить на выходе книгу на английском, через 3-5 лет мы получим работающий машинный перевод на нескольких языках, пригодный для важных областей человеческой деятельности”.

Сейчас многие считают, что Джорджтаунский эксперимент принес больше вреда, чем пользы, резко завысив ожидания публики. И когда прошло целое десятилетие гигантских финансовых вливаний, а машинный переводчик так и не заработал, маятник качнулся в обратную сторону. Да так, что мало не показалось никому.

Перфоратор для электронно-вычислительных машин. Я такие еще застала на школьном УПК, но они уже выглядели пережитками прошлого… зато на перфокартах было так удобно делать заметки!

Великое Закрытие и итоги первого бума

К 1960-м годам обнаружились фундаментальные проблемы машинного перевода.

Например, ученые недооценили многозначность слов и важность контекста. Для перевода машине требовалось знать, о чем вообще речь, иначе появлялись совершенно идиотские ошибки. Общеизвестным примером стал перевод на русский и обратно фразы “the spirit is willing but the flesh is weak” (“дух крепок, но плоть слаба”), превратившейся в результате в “the vodka is good but the meat is rotten” (“водка хорошая, но мясо протухло”).

Кислородное голодание

Машине был неведом ни здравый смысл, ни история человечества, ни контекстная связь между словами. В одной из управленческих теорий подобные вещи носят меткое название “кислород”: очевидное условие, забытое именно по причине очевидности.

Время шло, деньги текли, а обещанного результата так и не было, и в какой-то момент случилось то, что всегда случается в такое время – проверка.

Устав ждать результатов, правительство США в 1964 г. сформировало комиссию по изучению перспектив машинного перевода, известную как комиссия ALPAC. Перед ней поставили задачу – оценить результаты работ и дать рекомендации по дальнейшему финансированию. Комиссия проработала два года, изучила гору материала, провела десятки экспериментов и в итоге опубликовала разгромный отчет (попутно разработав одну из первых методологий оценки качества перевода).

ЭВМ IBM 701, однотипная с той, на которой проводили Джорджтаунский эксперимент, и будущий президент США Рональд Рейган (тогда снимался в телерекламе General Electric).

Вердикт был неутешителен: машинный перевод оказался дороже, хуже и медленнее ручного, а машинный перевод без последующего редактирования (именно тогда и прозвучало хорошо знакомое нам сейчас слово “постредактура”) – вообще никуда не годным.

Авторы отчета не смягчали выражений: “Хотя перевод текстов общенаучной тематики с помощью компьютера и существует, полезного машинного перевода нет. Мало того, нет и немедленных или хотя бы предсказуемых перспектив его появления”.

Один из выводов отчета ALPAC заключался в том, что дальнейшее развитие машинного перевода тормозится прежде всего состоянием лингвистики. Комиссия рекомендовала забросить машинный перевод и спонсировать: а) лингвистику как таковую, причем не как прикладные исследования, а как науку – т.е. не требуя от нее немедленной отдачи, и б) усовершенствование процесса перевода и разработку практических методов оценки его качества.

Отчет ALPAC многие критиковали как однобокий и близорукий, но так или иначе, правительство вняло его рекомендациям – и закрыло проект, в который к тому моменту успело вложить 20 миллионов долларов (130 млн. в ценах 2015 г.), без какой-либо надежды получить эти деньги обратно. Примеру США последовали и другие западные страны, за редкими исключениями. Ситуацию усугубила начавшаяся в 1970-е годы глобальная “зима ИИ”, когда закрылось финансирование и по другим направлениям, связанным с искусственным интеллектом.

Не всё впустую

Деньги правительство в конце концов вернуло: один из множества разнообразных проектов по ИИ и МП, которые правительство США когда-то финансировало, оказался успешным и уже в 90-е годы окупил все остальные.

…Но действительно ли все эти миллионы были выброшены на ветер?

“Отец современной лингвистики”, профессор MIT Ноам Хомский в 1968 г.

Уже в 1956 г. активный участник работ по машинному переводу в МИТе Ноам Хомский разработал иерархию формальных языков, а через год выпустил свою знаменитую книгу «Синтаксические структуры», осуществившую переворот в лингвистике. Иерархия Хомского положила начало идее алгоритмических языков и сейчас известна каждому программисту.

В 1964 г. был запущен машинный переводчик GAT (Georgetown’s Automatic Translator). Он был установлен в МАГАТЭ и в Европейской комиссии по атомной энергии (EURATOM), где кое-как проработал до 1976 года, переводя научную литературу с русского.

GATкое качество

По отзывам, “качество перевода было отвратительным по сравнению с ручным, но для наших целей – быстро просканировать документы и определить их содержание и уровень интереса – система GAT была вне конкуренции по сравнению с единственно возможными другими вариантами: дорогой и медленный ручной перевод или вообще никакого”.

Философ, по-прежнему профессор MIT Ноам Хомский среди участников митинга "Захвати Уолл-Стрит" (2011). Хомского шатало изрядно, правда, он еще до того, как стать гением лингвистики, был юным анархистом.

Философ, по-прежнему профессор MIT Ноам Хомский среди участников митинга “Захвати Уолл-Стрит” (2011 г.). Хомского шатало изрядно, правда, он еще до того, как стать гением лингвистики, был юным анархистом.

В 1968 г. Питер Тома, участник проекта GAT, разработал еще один машинный переводчик – SYSTRAN, доживший до наших дней и регулярно обновляемый. В 1973 г. он использовался для переводов с английского на русский в рамках проекта “Союз-Аполлон”, а в 1976 г. был приобретен Еврокомиссией. В 2010 г. SYSTRAN стал первым движком машинного перевода, реализовавшим гибридный подход.

Уже во время “зимы ИИ” появился TAUM-METEO – специальный машинный переводчик для прогнозов погоды. Он был запущен в 1977 г. и проработал до 2001 г., переводя около 80 тысяч слов в день, или 30 млн слов в год.

Кроме того, в рамках проектов по машинному переводу велись работы и по оптическому распознаванию текста (чтобы обойтись без машинистки), и по распознаванию речи, тоже попавшие под каток. Результаты тех работ широко используются в нынешних сканерах и системах голосового управления.

Продолжение следует…

ОБ АВТОРЕ

Анна Киселёва — ветеран локализации видеоигр. Профессиональный переводчик, закончила МГЛУ. В индустрии с 1999 года, сначала как переводчик, потом как редактор, потом как менеджер проектов. Начинала в «Фаргусе» переводчиком Planescape: Torment. С 2004 по 2014 гг. – в 1С. Руководила локализацией таких разноплановых игр, как Fallout 3 и Sid Meier’s Railroads!, Devil May Cry 4 и Mafia 2, Tearaway и Wolfenstein: The New Order. Контент-менеджер и старший редактор локализации TES 5: Skyrim, которую считает своим высшим достижением.

Сейчас Анна — глава отдела локализаций агентства переводов «ТрансЛинк».

Весенняя распродажа в Steam с Kupikod
The Thaumaturge	81%
Colony Ship: A Post-Earth Role Playing Game	83%

Лидеры по количеству просмотров страниц
Horizon: Forbidden West - Complete Edition	32 464
Fractals of Destiny	23 960
Gore Doctor	21 771
Alpha Protocol	17 147
Callisto Protocol, The	16 998
NightFeed	15 552
Broken Roads	15 458

Broken Roads	8 207
Fractals of Destiny	8 197
Sons of Valhalla	8 083

Игры, вышедшие за последнее время
Harold Halibut	16 апреля 2024
World Turtles	15 апреля 2024
Die Again	12 апреля 2024
Inspire	12 апреля 2024
Lotus Lantern: Rescue Mother	12 апреля 2024
One Last Dinner	12 апреля 2024
Our Adventurer Guild	12 апреля 2024

Релизы ближайших двух месяцев
Eiyuden Chronicle: Hundred Heroes	23 апреля 2024
Phantom Fury	23 апреля 2024
Tales of Kenzera: Zau	23 апреля 2024
Fallout 4	25 апреля 2024
Sand Land	26 апреля 2024
Stellar Blade	26 апреля 2024
Braid: Anniversary Edition	30 апреля 2024

База игр26 310 штук

Компании17 100 штук

Медиаархив921 128 изображений

Новости и статьи

Проекты Riot Pixels

Видео

Новости и статьи на Riot Pixels

Видео на Riot Pixels

Байки из локализаторской: краткая история машинного перевода, часть 1

Вместо вступления

Джорджтаунский эксперимент: “Через три года у нас будет машинный перевод!”

Великое Закрытие и итоги первого бума

Запись стрима Riot Live: L.A. Noire, часть четвертая

Авторы Dead Cells заняты The Rogue Prince of Persia

Endzone 2 обзавелась дебютным геймплейным трейлером

Ролик к выходу постапокалиптической RPG Broken Roads

Дата премьеры и сюжетный трейлер Star Wars: Outlaws

Destructive Creations занята еще одной стратегией про Вторую мировую

Запись стрима Riot Live: “Смута”

Игра «Бессмертный. Сказки Старой Руси» обзавелась первым роликом

«Отцы» Star Control выйдут на Kickstarter с Free Stars: Children of Infinity

Запись стрима Riot Live: Sons of the Forest

South Park: The Stick of Truth — трейлер версий для PS4 и Xbox One

Лидеры по количеству следящих игроков
Cyberpunk 2077	1 578
Ведьмак 3: Дикая охота	1 166
Grand Theft Auto 5	935
Kingdom Come: Deliverance	920
Pillars of Eternity	877
Star Citizen	767
Fallout 4	741