Байки из локализаторской: краткая история машинного перевода, часть 2

Автор: АННА КИСЕЛЁВА

Окончание, начало здесь

Вторая волна: середина восьмидесятых и позже

Следующий подъем интереса к машинному переводу пришелся на 80-е годы. На этот раз основным двигателем прогресса выступила Япония. Многочисленным хайтек-компаниям Страны восходящего солнца требовался перевод с английского и на английский, и практически все они начали разрабатывать собственные программные решения. Этим занимались и Panasonic, и Fujitsu, и Toshiba, и Mitsubishi, и многие другие.

В то же самое время зародились многие «классические» системы, основанные на синтаксическом анализе (так называемые rule-based machine translation, или RBMT-системы): коммерческие METAL и LMT, исследовательские проекты GETA-Ariane, Rosetta, Susy и другие. Однако большого коммерческого успеха они не имели, в первую очередь из-за плохой интеграции с другими системами. К тому же для работы такого переводчика требовался мэйнфрейм.

Положение резко изменилось на рубеже 90-х, с началом РС-бума и появлением статистического машинного перевода (SMT). Идея была проста, как все гениальное: раз никак не получается разобрать язык на кирпичики с помощью синтаксических правил (как в традиционном RBMT), давайте попробуем набрать как можно больше уже существующих переводов в надежде, что найдется достаточно похожий текст. Впервые эта идея была высказана японским учёным Макото Нагао в 1981 г., а всерьез ею заинтересовались после статьи IBM о статистическом машинном переводе в 1988 г. Поскольку для работы такого переводчика требовался как можно больший двуязычный корпус текстов, основное внимание исследователи уделяли его формированию и чистке.

К середине 90-х годов машинные переводчики стали портироваться на РС, а к концу десятилетия появились и интернет-переводчики, такие как бесплатный AltaVista — Systran или платный iTranslator.

Тот самый пресс-релиз IBM
В архиве пресс-релизов компании IBM можно отыскать полный текст анонса от 8 января 1954 года, когда компьютер впервые перевёл текст с русского языка на английский. Для пущей иронии можете перед прочтением пропустить его через Google Translate.

Появление ТМ-систем: «Вам больше не придется переводить одну и ту же фразу дважды»

После того, как идея SMT обрела популярность, рано или поздно кто-то должен был додуматься до ее использования без привязки к машинному переводчику. Что, если вместо машины предоставить этот двуязычный корпус текстов для справки переводчику-человеку? Если найдется достаточно похожий фрагмент, его надо будет лишь подставить в перевод и внести необходимые исправления. Так возникли системы памяти переводов, или Translation Memory (TM). И вот они произвели настоящую революцию в переводческом деле.

За считаные месяцы появились целых четыре (!) ТМ-системы. Три из них, основанные на разработках лаборатории IBM в Штутгарте и базирующиеся на пофразной сегментации — IBM Translation Manager, Trados Translator’s Workbench и Star Transit, — были с энтузиазмом приняты переводческим сообществом. Четвертая, французская Eurolang Optimizer, оказалась чересчур сложной и быстро исчезла с горизонта.

Влияние этого новшества на переводческую отрасль трудно переоценить. Достаточно сказать, что ценовая модель во всей индустрии в одночасье изменилась с постраничной на пословную.

Поскольку IBM TM работала только под OS/2, она не имела существенного распространения за пределами «Голубого гиганта». Остальные системы некоторое время конкурировали друг с другом, пока в 1997 году Microsoft не выбрала Trados для своих внутренних проектов локализации. К концу 90-х годов Trados стала бесспорным лидером индустрии, и свергнуть её с пьедестала конкурентам не удается до сих пор.

Вот так организована работа в SDL Trados Studio: программа находит похожие фразы в базе переводов и подставляет их переводчику для правки.

Нынешнее положение дел

Машинный перевод продолжает развиваться, появляются все новые и новые парадигмы, например интерлингвальный МТ, восходящий еще к идее Лейбница о создании универсального «языка смыслов», или гибридная модель, представляющая собой попытку объединения разных подходов в одно целое. Также большую популярность приобрела идея объединить парадигмы ТМ и SMT: для работы статистического переводчика нужен двуязычный корпус текстов максимально близкой тематики — так почему бы не использовать память переводов заказчика? На сегодняшний момент это одно из самых перспективных направлений развития МТ… или, если называть вещи своими именами, одно из немногих практически пригодных для работы.

Надо сказать, что с машинным переводом сейчас ситуация очень странная: все в один голос утверждают, что он никуда не годится — но все поголовно его используют! Amazon и eBay переводят машиной названия и описания товаров, слово «Гуглтранслейт» уже стало нарицательным, а Microsoft задействует машинный перевод для технических статей. Хотим мы этого или нет, машинный перевод стал свершившимся фактом.

Сейчас использование МТ происходит по двум основным сценариям:

  1. «Непрофессиональный»: машинный перевод используется как есть, без каких-либо доработок.

Достоинства такой модели очевидны: скорость и дешевизна. Так переводятся чаты, маловостребованные инструкции, названия аукционных лотов и т. д. Для ситуаций, когда требуется просто узнать, что здесь вообще написано, или если текст станет неактуальным через пару минут, другого решения, пожалуй, в принципе не найти.

Достерт (в середине) и Уотсон (справа) смотрят на результаты работы железного переводчика.

Недостатки: сырой машинный перевод абсолютно бесполезен для чего бы то ни было, кроме общего представления о смысле текста. В руководстве Google для вебмастеров даже написано, что страницы сайта, переведенные машиной, лучше закрыть от индексации, чтобы поисковый робот не принял такой машинный перевод за спам.

  1. «Профессиональный»: машинный перевод подается на вход переводчику в САТ-системе, подобно содержимому памяти переводов. Потом он дорабатывается (этот процесс называется постредактурой), отправляется редактору и далее по обычной цепочке.

Но надо понимать, что пока сырой машинный перевод остается таким же уродливым, как сейчас, большого роста производительности ждать от этой модели не стоит. В лучших пилотных проектах удается достичь увеличения скорости работы переводчика (т. е. постредактора) на 50-70%, но при этом общий рост скорости всего процесса не столь внушителен и держится в рамках 20-30%. Остальной выигрыш съедается необходимостью значительно более глубокой редактуры.

Итоги

В 1954-м нам обещали работающий машинный переводчик через три года. Прошло 60 с лишним лет, а воз и ныне там.

Но так ли это на самом деле?

Во-первых, мы не знаем и не можем знать, сколько этот «воз» уже проехал и сколько осталось до цели. Далеко не впервые в истории то, что наука обещала вот-вот, реализуется через десятки и даже сотни лет напряженной работы. Такова природа познания: мы не можем оценить, сколько еще предстоит сделать, чтобы достичь результата. Вспомним хотя бы теорему Ферма, наконец-то доказанную в 1994 году с использованием чуть ли не всех достижений математики за прошедшие 300 лет. А о том, сколько времени прошло от поисков философского камня до ядерного синтеза, даже и вспоминать неловко.

Во-вторых, за эти 60 лет мы получили немало того, что сейчас воспринимаем как должное: ТМ-системы, языки программирования, программы оптического распознавания текста и анализаторы речи. Мы даже не задумываемся, что эти ставшие уже привычными решения выросли из идеи машинного перевода.

Но все-таки, когда же появится машинный переводчик, который оставит всех нас без работы?

Как сотрудник переводческой индустрии я очень надеюсь, что не скоро. Но кто знает? И кто знает, какие открытия ждут нас на пути? Как они изменят нашу жизнь?

ОБ АВТОРЕ
AKiselevaАнна Киселёва — ветеран локализации видеоигр. Профессиональный переводчик, закончила МГЛУ. В индустрии с 1999 года, сначала как переводчик, потом как редактор, потом как менеджер проектов. Начинала в «Фаргусе» переводчиком Planescape: Torment. С 2004 по 2014 гг. – в . Руководила локализацией таких разноплановых игр, как Fallout 3 и Sid Meier’s Railroads!, Devil May Cry 4 и Mafia 2, Tearaway и Wolfenstein: The New Order. Контент-менеджер и старший редактор локализации TES 5: Skyrim, которую считает своим высшим достижением.

Сейчас Анна — глава отдела локализаций агентства переводов «ТрансЛинк».

  • timohardy

    Интересно, но хочется ещё.

  • Hater

    Интересно, но думал будет что-то про «Дьявольский крик мея» и с примерами, как бывало обычно. Пока думал что написать — вспомнил фантастику, где человеку что-то или вкололи, или в ухо сунули и он уже всех лунатиков понимает. Интересно, а шутили ли где-то на эту тему, мол, переводчик с «пришельского» сбоил и вызывал казусы?

  • Вавилонскую рыбку (то есть babelfish, так и онлайновый переводчик называется) в «Автостопом по галактике» 🙂

  • Haksaw

    >Но все-таки, когда же появится машинный переводчик, который оставит всех нас без работы?

    Никогда. Ну, по крайней мере в нише перевода всякого худлита и прочего прилегающего. Появился идеальный переводчик человек? А вот нифига, сколько переводчиков — столько и переводов =) Так что даже когда машина будет выдавать отличный текст, всё равно будет куча народу (и машин тогда уж), которые «могут лучше» :Р

  • Ulris Ventis

    Традиционно хорошая статья.
    В целом все правильно, чисто техническую документацию реально перевести с помощью машины, всего-лишь создав нормальную базу терминов и сокращений, чтобы машина не изобретала велосипед.
    Подтянуть бы в самом деле машинный перевод лотов, в частности азиатских на европейские языки — уже был бы неплохой прогресс. Догадаться, что пишет тот же яху японский аук в переводе крайне сложно, как и китайские объявления.
    Перевод именно литературный думаю никогда не смогут заменить, поскольку мы еще слишком далеко от того чтобы машины были в состоянии обрести свой индивидуальный стиль при переводе, за что ценят переводчиков.)
    P.S. Вспомнил. На самом деле переводчики машинные здорово экономят время на полном переводе некоторых фраз, когда можно просто взять за основу вариант и переделать под грамотную и нормальную версию, либо ради моментальной проверки синонимов, что вообще крайне удобно. Вспоминаю времена, когда все это нужно было смотреть руками в словаре с ужасом.

  • humvee3d

    «Но все-таки, когда же появится машинный переводчик, который оставит всех нас без работы?»
    Я думаю, появится он тогда, когда ИИ обретет возможность развиваться самостоятельно.
    А вот когда? Мне кажется, интервал времени будет больше, чем философский камень -> ядерный синтез.
    Спасибо за статью, прочитал на одном дыхании.

  • El Mariachi

    Почему же никогда. Настоящий машинный переводчик вполне может появиться, но с одним условием: не ранее, чем появится полноценный искусственный интеллект.
    А конкретно по художественному переводу: в сравнении с сугубо техническим направлением, там нет таких чётких и строгих критериев и ограничений, особенно в поэзии, и допустимы условно равноценные варианты перевода, поэтому существование разных переводов одного текста-исходника — явление нормальное. И даже приветствуется, т. к. у нас есть выбор почитать, скажем, Шекспира или Байрона в разных переводах и выбрать тот, что нам больше по душе. И только со временем какой-нибудь перевод (причём не всегда самый точный с позиции именно теории перевода) становится общепринятым и классическим.

  • humvee3d

    «На самом деле переводчики машинные здорово экономят время на полном переводе некоторых фраз, когда можно просто взять за основу вариант и переделать под грамотную и нормальную версию, либо ради моментальной проверки синонимов, что вообще крайне удобно»
    Очень точное наблюдение. Я в аспирантуре так кандидатский минимум по английскому языку сдавал, кучу времени сэкономил. Правда, направленность текстов была техническая.

  • El Mariachi

    Анна, спасибо большое за материал! От себя лично могу добавить, что редактура машинного перевода и перевода человеческого по ощущениям отличается тем, что в переводе человека можно понять хотя бы понять логику, он в целом более предсказуем; иногда можно по типичным ошибкам догадаться, что было в оригинале и сделать соответствующее исправление. С машинным переводом сложнее: логика у него своя, машинная, основанная на программных алгоритмах, но нет осознания смысла текста (это, вероятно, будет доступно лишь настоящему ИИ, который пока не изобрели), и порой выбор слов в переводе компьютера такой, что проще и быстрее сделать всё с ноля, чем исправлять результат работы программы.

  • El Mariachi

    А по машинному переводу уже, по большому счёту, добавить и нечего, не вдаваясь в профессиональные детали: Анна в двух статьях изложила все основные моменты. А вот описание работы над какими-то проектами, примеры удачных (и не очень) решений, рассказы о трудностях и сложностях, о забавных и неожиданных случаях из переводческой практики — вот это будет здорово, я считаю.

  • ParasaitoShinguru

    Автопереводы на алиэкспрессе просто божественные. Такое чувство, как будто система там специально выбирает самый наркоманский вариант.
    https://uploads.disquscdn.com/images/72f0641fad9f54a12e1f514b637fffccc6f63b659f50bfbde652f31eb69b8b9f.jpg

  • Reitzteil

    На мокруху собираешься?!!

  • Reitzteil

    Анна, почему вы пишете Amazon и eBay, но Microsoft?

  • Это я пишу, пропустил.

  • Rinso

    Лади-переводчики бывают не лучше машинного перевода. Песни Сони Волкмена в одном переводе произведения Кинга тому пример.

  • Vzhik

    спасиб. с интересом прочитал.

  • laennium

    >Trados стала бесспорным лидером индустрии, и свергнуть её с пьедестала конкурентам не удается до сих пор.

    Memsource зохватит мир, в этом я уверен, к сожалению.

    Not that we benefit much from it.

  • Malfet

    Хм, любопытно, если пойти по ссылке из «В архиве пресс-релизов компании IBM можно отыскать полный текст анонса» — и по совету забить в гугл-перевод, скажем «Мы передаём мысли посредством речи», получим: «We pass the thoughts through speech». Но, если вбить это же транслитом, буквально, скопировав из заметки (
    Mi pyeryedayem mislyi posryedstvom ryechyi) получим: «We transmit thoughts through speech» — корректную версию! Интересные заскоки, однако.

  • Vortex

    Самый сок наступит когда AI станет «президентом». Вот тогда будет долгая счастливая жизнь каждому из нас

  • JC Denton

    Тогда нас всех усыпят и превратят в батарейки, засунув в «Матрицу».

  • JC Denton

    Если человеческий интеллект за десятилетия не может это все систематизировать одинаково, то какой же нужен ИИ тогда? ))

  • ParasaitoShinguru

    Я вот тоже сейчас подумал — может это не товар, а услуга?

  • Marabou

    Вот именно из-за этих переводов я не могу ничего купить на алиэкспрессе. Там раньше со смеху умрешь, чем выберешь что-то.

  • El Mariachi

    Ну, перевод как вид деятельности в целом достаточно стройная система: и теории много, и практических наработок более чем хватает. Именно в направлении художественного перевода всё несколько сложнее, но, тем не менее, критерии всё-таки есть и там. А с ИИ потенциального машинного переводчика всё «просто»: он должен в первую очередь уметь понимать смысл текста. Впрочем, это и у людей не всегда получается, так что… Поживём — увидим.

  • Я был заинтересован в чтении книг. Признательность (=

  • Ulris Ventis

    Я использовал для переводов некоторых през с жуткими корявыми фразами. Корректировал потом предложение во внятный вид, и ставил термины где возникали косяки. А главная беда это наличие большого числа одинаковых разными словами написанных фраз типа шутки из Масс Эффект — ок, хорошо, окей.

  • Viktor Kryshtalev

    Очень интересная статья , за это я и люблю пиксели , за то , что можно тут найти такие интересные статьи

  • JC Denton

    «А с ИИ потенциального машинного переводчика всё «просто»: он должен в
    первую очередь уметь понимать смысл текста. Впрочем, это и у людей не
    всегда получается, так что…»

    Я это и имел в виду. Человек со своим сложным мозгом разобраться не может, а алгоритмическая машина — справится… Ну ну. Мечты такие мечты.

  • lek.sys

    Спасибо за материал. Как всегда, прочитал с интересом.
    Один только момент. Мне кажется, вставку «Тот самый пресс-релиз IBM» стоит перенести в первую часть статьи, где он, собственно, и упоминается.

  • lek.sys

    Я не переводчик, конечно. Но мне иногда приходится читать технические тексты после машинного переводчика, в основном с французского (англ. мне проще читать в оригинале). Как правило, понять о чем собственно речь вполне можно. И логика в основом прослеживается — если машина пасует перед предложением, она переводит дословно (это так мне кажется, как оно на самом деле я не знаю). Из дословного перевода вполне можно восстановить смысл исходного предложения, если речь идет о сухом техническом тексте. Понятно, что читать подобный перевод литературных произведений невозможно.

  • lek.sys

    О, как тут не вспомнить детские споры о том, какой перевод «Властелина колец» более теплый и ламповый, чем остальные. Как правило, однако, первый прочитанный тобой он и кажется лучшим.

  • art477

    Кинга просто в 90-е переводили в огромных объемах с дикой скоростью и совершенно безобразно. Помню в какой ступор меня повергла в одном из ранних переводов ОНО фраза » Из-за угла вышел безногий мальчик»)

  • astro_nom

    С помощью ядерного синтеза невозможно получить золото.

  • lek.sys

    Клаус Гофман «МОЖНО ЛИ СДЕЛАТЬ ЗОЛОТО?» (Klaus Hoffmann «KANN MAN GOLD MACHEN?»).
    Конкретно по теме: http://www.alhimik.ru/read/hoffman64.html

  • astro_nom

    Это не ядерный синтез.

  • lek.sys

    Ок, ядерная реакция деления, осуществляемая путем бомбардировки ядер нейтронами.

  • Dima Trushin

    С французского, итальянского и немецкого (по моему опыту) лучше переводить на английский. Получается в разы понятнее, чем перевод на русский.

    А так, да, полностью согласен, что в технической литературе (где не нужно глубоко знать грамматику языка) можно обойтись пословным переводом. Особые проблемы появляются только с определением залога (пассивный или активный), но, обычно, его можно восстановить по контексту.

  • Dima Trushin

    На самом деле есть куча задач, где машина справляется лучше человека. Помимо очевидных арифметических операций есть и куда более полезные примеры. Скажем, определить наличие металлической стружки в авиатопливе по показаниям приборов пилот не способен, а бортовой компьютер справляется.

    Есть задачи, где у человека с компьютером паритет. Например — восстановление изображений испорченных шумом или определение лиц на фотографии.

    Кроме того, надо не забывать, что уже лет 70 как существуют непрямые вычисления (нейронные сети, машины опорных векторов и прочее, что сейчас относят к машинному обучению). Подобные методы не требуют знать правильный алгоритм заранее и приводят к неожиданно хорошим результатам.

    Все это написано к тому, что совсем не очевидно, что есть какие-то фундаментальные препятствия для машины, чтобы она не справилась с задачей перевода. Может быть мы просто пока чего-то не знаем (глобально, как человечество в целом, или локально, как конкретный человек). Кстати, эти же аргументы говорят, что совсем не обязательно машина должна «мыслить как человек» для успешности в переводе.

  • Dima Trushin

    А как тогда называется процесс образования тяжелых элементов во время взрыва сверхновых?

  • astro_nom

    Ну можно его называть взрывным синтезом. Но это все будут кинетические реакции. Ничего выше изотопов Ni термоядерным синтезом не получить.

  • Minamikaze

    Ну так само собой, если речь идёт о гугле-яндексе. Они со всех языков сначала переводят на английский, а уже с английского на русский. Поэтому всегда лучше остановить машину на первом этапе, чем дать ей играть в испорченный телефон.
    А насчёт технической литературы я согласен, только дело здесь не в грамматике. Её-то машины давно освоили. Всё упирается в лексику, полисемию и фразеологию. Тут без нейросетей или человеческого вмешательства просто никуда. Так вот технические, юридические и прочие формализованные тексты тем и хороши для машинного перевода (и «человеческого» пословного), что там слова имеют своё чёткое значение. Иногда у машинного перевода получается даже лучше, чем у переводчиков-неучей, потому что машины хоть правила знают и не пытаются лепить причастные обороты в английском языке…

  • Wanderdog

    Просто усыпят и превратят в батарейки. Не мечтай о «Матрице». 🙂

  • Trrz

    Вот такая вещь, мне кажется, была бы интересна с точки зрения локализации — https://www.youtube.com/watch?v=eGs11gujRjE (VoCo от Adobe)

    Не знаю, насколько это реально, но было бы круто слышать русскую озвучку голосом Нолана Норфа или Троя Бейкера

  • JC Denton

    Да понятно. )))

  • JC Denton

    Тоже верно. Объем знаний ограничен… Сложно не согласиться.

  • JC Denton

    Погоди. Так синтеза реакция или реакция распада? Вы меня уже запутали. Золото определенно получить можно синтезом. Но как правильно заметили — невыгодно энергетически.

  • El Mariachi

    Дмитрий, сразу подчеркну, что речь идёт о переводе художественной литературы, а не технических текстов, которые имеют стандартную терминологию, структуру и т.д. Так вот, дело не в том, что машина должна мыслить как человек — «всего-то» машина должна понимать текст, написанный человеком; машина должна видеть контекст (даже технические термины вполне могут быть частью терминологии из разных сфер и обозначать разные понятия); машина должна понимать/чувствовать эмоциональную окраску текста-источника, чтобы передать это всё в переводе и выдать текст, имеющий также и художественную ценность. То есть, машина должна иметь ИИ, не уступающий человеческому не только в части когнитивных функций, но и в части способности чувствовать, распознавать эмоции. А вот это на сегодняшний день пока из области фантастики.

  • ГрустныйКазуал

    Не обязательно даже художку в пример привлекать, достаточно глянуть, как SMT’ы управляются с любыми текстами на языках с сильно контекстозависимой семантикой, типа китайских или японского. ParasaitoShinguru вон привёл примерчик.

  • Tembl4

    Так было уже. http://riotpixels.com/localization-tales-04-translation-ordeals/

  • Dima Trushin

    корня термо в первой версии фразы не было) Без этой добавки, любую сборку атомов можно назвать ядерным синтезом.
    Кстати, а никель точно получается при термояде? Я всегда думал, что Fe — последний доступный для него элемент.

  • astro_nom

    Метастабильные изотопы никеля получаются. Железо — последний стабильный.

  • Dima Trushin

    Про гугл сразу возник вопрос: а в любой ли связке языков он переводит через английский? Понятно, что для редких языков это так, но вот для всех ли. Эта информация скорее всего даже ищется.

    > А насчёт технической литературы я согласен, только дело здесь не в грамматике. Её-то машины давно освоили.

    Не уверен, что знаю хоть один переводчик, который непосредственно использует грамматику языка.

    >Так вот технические, юридические и прочие формализованные тексты тем и хороши для машинного перевода (и «человеческого» пословного), что там слова имеют своё чёткое значение.

    Это не совсем правда. Сложных уникальных терминов там больше, за счет этого доля однозначно трактуемых слов больше. Но, скажем, в математических текстах такие слова как: фактор, модуль, представление, многообразие и прочие вы на английский никогда не переведете правильно (и в обратную сторону тоже), если не знаете точно, что имеется в виду.

    Бонус технической литературы, на мой взгляд, совсем в другом. В языке, грубо говоря, всегда есть две части: обиходная и синтетическая. Обиходная — повседневные фразы, исторически сложившиеся, которые мало подчиняются общим правилам. Скажем, если ты не знаешь, как по-английски сказать «мне холодно», то вряд ли догадаешься. И наоборот, «I am cold» — это «я холодный» или все же «мне холодно»? А вот синтетическая часть — длинные сложные предложения, которые как раз и используются в технической литературе, которые более или менее по одним принципам собираются в разных языках. То есть конкретные правила могут разниться, но из них как из кирпичиков можно составить что угодно. Потому структуру такого предложения уловить проще. Тут даже вероятностный подход срабатывает хорошо.

    К слову, есть даже книжка Сосинского «Как написать математическую статью на английском», которая на процесс перевода смотрит, как на сборку из шаблонов. Книга, кстати, лучше всех остальных учебников английского языка вместе взятых.

  • Marabou

    >> Есть задачи, где у человека с компьютером паритет. Например —
    восстановление изображений испорченных шумом или определение лиц на
    фотографии.

    А паритет ли? Я несколько лет не работала в этой области, но вообще, человек куда лучше справляется с ассоциированием абстрактных образов с конкретными объектами — распознаванием лиц и вещей. Как минимум быстрее человек это все делает. Автоматическая ретушь потерь — медленное и не очень эффективное занятие.

    >> Кстати, эти же аргументы говорят, что совсем не обязательно машина должна «мыслить как человек» для успешности в переводе.

    Так проблема не в том, что машина что-то неправильно делает, а в том, что человек еще должен понять, что это вообще машина такое понаписала.

  • Dima Trushin

    Есть два отдельных никак не связанных между собой вопроса:
    1) Как должен быть устроен внутри машинный переводчик.
    2) Какие из желаемых возможностей переводчика можно воплотить хотя бы теоретически на уровне сегодняшних технологий.

    По поводу (2), я согласен, что нет даже приблизительно понимания, как чего-то из этого добиться.

    По поводу (1). Я понимаю, что кажется очевидным, что машина должна обладать навыками, которые мы видим у человека. Другое дело, что совсем не очевидно, что внутри черного ящика должен быть человеко-подобный ИИ. Как основной пример возьми задачи решаемые классическими алгоритмами и ANN или SVM. Распознавание образов — вообще недоступная для классики задача, а ANN справляется, хотя к человеческому интеллекту она отношения не имеет (кроме самой идеи нейронной сети).

  • Dima Trushin

    > А паритет ли?

    По крайней мере, это машина делать умеет на достойном уровне.

    > Так проблема не в том, что машина что-то неправильно написала, а в том, что человек еще должен понять, что это вообще за текст.

    Я искренне не понял, что тут сказано.

  • Marabou

    >> Я искренне не понял, что тут сказано.

    Вот-вот.

  • Minamikaze

    Смотря что считать редкими. С итальянского и немецкого он гарантированно сначала переводит на английский, я это лично по работе несколько раз проверял (и как уже писал в комментах к прошлой теме, переводит весьма неплохо – главное, не давать ему переводить дальше). Знакомые мне говорили, что с японским та же картина.

    Грамматику языка использует тот же гугл, и, опять же, как я уже писал в прошлый раз, синтаксис и грамматику английского он в целом знает. Не на высшем уровне, но уже выходит за рамки простого пословного переноса. Он даже порядок слов менять научился. Вот честное слово, мне периодически попадаются творения людей-переводчиков, которые в синтаксисе и грамматике разбираются хуже гугла. Собственно, по нему заметно, что он обучается примерно так же, как CAT-системы. Иногда, правда, предлагает совершенно наркоманские варианты, но тут уже рука тех, кто ему эти варианты скармливает.

    Ну и насчёт технической литературы и кирпичиков я полностью согласен. Что до многозначности – в специализированной литературе она зачастую определяется темой. В пределах одной статьи всё же одно и то же слово используется в одном значении. Хотя остается проблема с границами словосочетаний. По сути тут весьма бы помогла система тегов, указывающая программе, какие словари подгружать. Таким образом можно было бы избежать как минимум всяких голых кондукторов. С художественными или вольными текстами всё куда сложнее: даже человек не всегда поймёт, к чему делалась отсылка и какое из значений имел в виду автор. Тут и нейросеть на её текущем уровне развития спасует, поможет только языковое чутьё, общая эрудиция и сравнение в контексте с другими текстами автора. Для того и приходилось нашим легендарным художественным переводчикам штудировать личную переписку авторов.

  • Oleg Kubaneishvili

    Полноценную локализацию на основе этого не сделаешь, но вот дополнительная редакция и постобработка кажутся вполне возможными.
    А вообще в голову пришла одна идея: актер дубляжа произносит несколько переведенных фраз, после чего запись пропускают через специальную программу и — вуаля ! — голос Владимира Кузнецова в новой звуковой дорожке не отличить от голоса Троя Бейкера.

  • Victor Serpentus

    Есть задачи, где у человека с компьютером паритет. Например — восстановление изображений испорченных шумом или определение лиц на фотографии.
    Это сейчас паритет. А еще каких-то лет 10 назад человек это делал на порядок лучше машины. И прогресс в этой области пока не остановился и даже не замедлился, насколько я знаю. Вполне вероятно, что еще лет через 10 машинное распознавание уйдет далеко вперед.

    нейронные сети
    Кстати, «Гугл» совсем недавно объявил, что переходит на исключительное использование своей новой нейросетевой системы перевода для онлайн-сервисов. Правда улучшения качества перевода «ГуглТранслейта» я что-то не заметил.

  • Dima Trushin

    Я вот как раз поглядел статью от гугл на arxiv. Я так и не понял, они уже это внедрили и постфактум статью написали или это только в планах?

  • Victor Serpentus

    Я так понял, что уже внедрили.

  • Dima Trushin

    Я думаю, что понял мысль. Тут, кстати, вылазит очень хороший нежданчик. Для начала человек должен научиться понимать человека! Ибо (проверено на детях) речь человека не несет вообще говоря информации, она несет некий информационно эмоциональный посыл, который приблизительно направляет тебя в ту сторону, куда хотела двигаться мысль излагающего. И самое интересное, при попытке объяснить человеку, что его слова непонятно что значат, его это удивляет. Я думаю, что с машинами договориться будет попроще 🙂

  • Anna Kiseleva

    …и тут я вспомнила электрибальда Трурля…

    «С тех пор ни один поэт уже не в силах был сопротивляться пагубному желанию вызывать Электрибальда на лирическое состязание — и тащились они отовсюду, волоча мешки и сумки, набитые рукописями. Электрибальд давал гостю почитать вслух, на ходу схватывал алгоритм его поэзии, и, основываясь на нем, отвечал стихами, выдержанными в том же духе, но во много раз лучшими — от двухсот двадцати до триста сорока семи раз.»

  • Anna Kiseleva

    Да тут в том вся и проблема: никто пока толком не понимает, *что именно* мы систематизируем. Взялись автоматизировать незрелую область, вот и имеем что имеем.

  • Anna Kiseleva

    Да какие там критерии пока что… Не хватает у нас именно теории перевода и теории языка. Мы не в состоянии объяснить, что делаем и как. А хотим, чтобы машинка «сделала нам красиво».

  • Anna Kiseleva

    «Все это написано к тому, что совсем не очевидно, что есть какие-то фундаментальные препятствия для машины, чтобы она не справилась с задачей перевода.»

    Есть, называется парадокс Моравека 🙂

  • Anna Kiseleva

    «Для начала человек должен научиться понимать человека!»

    ВО!!!!!

    Можно я вас цитировать буду?

  • Anna Kiseleva

    Кажется у Стюарта Армстронга на эту тему была интересная книжка Smarter Than Us, вроде ее даже пытались переводить на лессвронге.

  • Anna Kiseleva

    И языки близкие, и занимаются в основном машинным переводом *на* английский, т.к. он сейчас лингва франка. И грамматически один из самых простых.
    Поэтому да, качество перевода на английский выше, чем с английского.

  • Anna Kiseleva

    Мне пока милей всех виденных систем Memoq, но мемсорс ее довольно быстро догоняет.

  • Anna Kiseleva

    Да это я. Практически все иллюстрации, которые удалось набрать, относятся к первой части, я же изначально писала вообще одну статью. А во второй что тут иллюстрировать… сайлона показать, что ли?

  • Anna Kiseleva

    Вот как? Значит еще дальше ждем монетогенератора для Руматы…

  • Anna Kiseleva

    Везучий вы человек, если в редактуре перевода человеческого всегда удается понять логику… У меня попадались откровенно обкуренные переводы, которые не имели ничего общего ни с одной возможной для меня интерпретацией исходника.

  • Anna Kiseleva

    …А откуда тогда взялось золото в природе???

  • Reitzteil

    Что за кошмарный «Электрибальд»? Чей это безмозглый перевод? Электрувер же!!!

  • Reitzteil

    Бог создал!!!

  • Marabou

    Да, это я и имела в виду.

  • Marabou

    Elektrybałt.

  • Anna Kiseleva

    Подозреваю, что того же Трофимова. Тексты с «Электрибальдом» и «Электрувером» отличаются, похоже, только именем самой машины.

  • Anna Kiseleva

    Особенно совет не рассказывать анекдотов, если вы не Гельфанд. Я их правда все равно рассказываю. Но мне можно, не на математическом же конгрессе, а на Е3…

  • Dima Trushin

    Если кратко, то ключевое слово — термоядерный. Он идет в центре звезды и дает все до железа. Все что тяжелее образуется во время смерти звезды, например взрыв сверхновой (это когда красный гигант сбрасывает свою оболочку и получается красивая туманность).

  • Dima Trushin

    На самом деле это кажется жутко удивительным, как грамматика языка может быть на столько бедной, когда кругом все остальные языки так и играют на солнышке своими грамматическими мускулами.

  • Dima Trushin

    Это самый главный и полезный совет 🙂

  • Dima Trushin

    Сейчас начну задавать дурацкие вопросы. Парадокс прочитал в русской Википедии и все равно не сильно понятно, что именно является проблемой. Только вычислительная мощность? Если да, то она может быть фундаментальной только в случае более чем полиномиальной сложности (аля P не равно NP проблема). И даже в этом случае не понятно, ведь в природе есть инструмент решающий эту задачу, а значит сделать можно, но не понятно как и не факт, что надо природу копировать.

  • Dima Trushin

    А я не зазнаюсь? А то мало того, что на вы обращаются, так еще и цитировать будут 🙂

  • George Sedov

    >А о том, сколько времени прошло от поисков философского камня до ядерного синтеза, даже и вспоминать неловко.
    Это вы из какого будущего к нам прилетели, что «вспоминаете» ядерный синтез?

  • lek.sys

    Ну из «Трудно быть Богом» нам бы еще межзвездных путешествий дождаться.. Да и социального общества «коммунаров» 🙂

  • lek.sys

    Из той статьи, на которую я давал ссылку:
    198Hg + n = 198Au* + p
    Т.е. из природной ртути-198 при бомбардировке нейтронами можно получить золото-198 (радиоактивное, нестабильное, период полураспада 2,7 дней).
    Там же есть и описание синтеза стабильного золота 197Au.

  • El Mariachi

    Да, скорее всего, мне просто везло, хотя и опыт в редактуре не сильно обширный. Но попадались и невменяемые человеко-переводы, причём я слоняюсь к мысли, что они как раз были компьютерными переводами, к которым потом приложили свои шкодливые руки горе-переводчики.

  • reader

    Вы путаете два сценария. Красный гигант, сбросивший оболочку, образует планетарную туманность, потому что у него недостаточно массы, чтобы бабахнуть, как сверхновая.

  • El Mariachi

    Да, было, но подобных интересностей хочется побольше.

  • Dima Trushin

    Да, это косяк, согласен, что смешал все в кучу. Либо бабахаем красивую клевую туманность, либо сбрасываем ровненькую планетарную. Но в обоих сценариях идет синтез более тяжелых, чем железо, элементов.

  • Reitzteil

    > Да и социального общества «коммунаров»

    Было такое, СССР называлось, сами и просрали.

  • JC Denton

    Я уже потом понял, когда внимательно статью прочитал. Спасибо.

  • lek.sys

    Ну вот хз. Застал я этот ваш СССР. Не то совсем 🙁 В полиототу вдаваться не хочу совсем, но сам факт того, что я — единственный сын двух научных работников — видел сыр только по праздникам типа нового года и дня науки — говорит о многом.

  • Anna Kiseleva

    Суть парадокса Моравека в том, что мы просто не умеем алгоритмизировать до предела отточенные сложные функции и склонны недооценивать их сложность. Мы научили машину ходить гораздо позже, чем играть в шахматы. Ходить мы умеем прекрасно, но вот описать этот процесс и научить другого…

  • Anna Kiseleva

    Интересно, а Арнольд придерживался этого совета? На лекциях, как я помню, он хохмил мама не горюй как.

  • Anna Kiseleva

    Кто-нибудь сказал слово «управляемый»? 🙂

  • Anna Kiseleva

    Насчет арканара: что есть, то есть, причем ближе к нам, чем кажется большинству (в этом на мой взгляд три четверти проблемы).
    Как там говорил Лоренц — мы достигли такого успеха в лечении болезней ЖКТ, потому что не испытываем к этим органам никакого благоговения, а вот с агрессией и прочими душевно-духовными материями все не так просто…

  • Anna Kiseleva

    В Москве с сыром было гораздо лучше, но вот почему-то гречка была где угодно кроме как у нас.

  • Reitzteil

    > видел сыр только по праздникам типа нового года и дня науки

    Не надо лгать.

  • Anna Kiseleva

    Если твой собеседник не лжет, ты только что нанес ему смертельное оскорбление. Ты настолько уверен, что он лжет — или тебе настолько важно, чтобы его слова оказались неправдой?

  • ParasaitoShinguru

    На самом деле, всё сильно зависело о региона. Я жил на Кавказе (Орджоникидзе, Беслан, Махачкала) и в Грузии, в Тбилиси — там с продуктами всё было очень неплохо. А вот на Урале, в Свердловской области, где я тоже жил, был полный пипец — разве что картошка была не по талонам.

  • lek.sys

    Про что я лгу, пардон? Вы отрицаете, что примерно года так с 1988 (я родился в 1987) и вплоть по 1992 в СССР повсеместно были продуктовые талоны и карточки? Что во Владивостоке, где я рос, выдавали талоны на 400 г сыра и 400 г масла раз в месяц в одни руки? Что даже имея этот талон купить тот самый сыр было невозможно, так как его распределяли по блату между людьми, имевшими отношение к советской торговле? Что по сути единственным способом достать дефицитный товар (ну кроме удачи, когда вдруг «выбросили», а ты в это время в магазине) было через профсоюзную организацию, которая к праздникам как раз и доставала, причем те же 400 грамм в одни руки?

  • lek.sys

    Гречку, как я понимаю, можно было достать в основном в военторгах. В тех городах, где в военторги можно было зайти простому человеку, соответственно, проблем с ней не было. Впрочем, это мои догадки.

  • George Sedov

    Не припомню что-то чтобы средневековые алхимики искали способ сделать большую бомбу. Просто фантазии не хватило, видимо. Денег бы за это отвалили не меньше, это точно.

    А вот трансмутацию элементов мы делать не умеем вообще. Да и не пытаемся особо.

  • Anna Kiseleva

    Майк Волошин говорит, что в Киеве гречка-ядрица нормально продавалась, а в конце 80-х он часто ездил в гости в Мск и каждый раз прихватывал пару пакетов.
    В Москве было завались продела, который спросом не пользовался (и сейчас вообще не продается), а ядрица разве что в «заказах» для диабетиков.
    Возвращаясь же к нашей теме — то, что я вижу сейчас в Германии и особенно в Чехии, значительно ближе к моему идеалу общества, чем Москва времен позднего Леонида Ильича. Другое дело, что не будь СССР, не было бы и «европейского социализма», а потом его тоже кто-то разовьет и в конце концов так мы постепенно будем умнеть и добреть.
    Да, я верю в человечество.

  • Anna Kiseleva

    Не понимаю, как это противоречит моему тезису, скорее уж работает на него 🙂

  • Dima Trushin

    Вот не довелось побывать на его лекциях или докладах в живую. Но зажигательными видео ютюб до сих пор пестрит.

  • Dima Trushin

    Нет, я понял, что «парадокс» говорит нам, что все это сложно и мы не знаем как это делать. Но это еще не значит, что этого нельзя сделать впринципе. Более того, мы сейчас уже умеем решать задачи, для которых не знаем алгоритмов. Чего только стоит ann играющая в «Go».

    > Ходить мы умеем прекрасно, но вот описать этот процесс и научить другого…

    Boston Dynamics передает всем большой привет. Там лаборатория ног уже черт знает сколько лет работает, а после приобретения их гуглом, думаю, все только стало лучше.
    https://m.youtube.com/watch?v=rVlhMGQgDkY
    Там еще куча зажигательных видое есть, мое любимое — про bigdog (старый, еще на дизеле), где он как теленок на льду спотыкается, пытается не упасть и пережить прочие попытки насилия от сотрудников 🙂

  • Anna Kiseleva

    Короче говоря. Изначально, упомянув парадокс Моравека, я хотела отшутиться. Но если уж говорить серьезно, то самое фундаментальное препятствие, которое мешает машине освоить перевод — это то, что задача «научить машину переводу» поставлена некорректно и критерии правильности перевода поставлены столь же некорректно.

    Я давно не следила за работой LISA и TAUS с одной стороны — и теорией перевода с другой, так что поправьте меня, если я не права, но по-моему лингвистика еще не вышла на тот уровень, когда переводческую деятельность можно алгоритмизировать. Мы пока с трудом учим ей людей, и проверка переводов на правильность осуществляется методом экспертной оценки.

  • Anna Kiseleva

    Ууууу… «А эту переменную мы назовем… пи с крышечкой уже была, пи с волной тоже была… ладно, будет пи с дужкой!»

    Тоже мехмат? Я с кафедры общей топологии и геометрии, если что 🙂

  • AlBo

    Причем тут бомба? Ядерный синтез к бомбе имеет мало отношения.
    А трансмутацию элементов делать умеют, только это нерентабельно в плане «получения золота из свинца».

  • AlBo

    Разработка вокодеров — тема старая. Но создание хороших вокодеров сопряжено с определенными проблемами. В вашем случае актер должен правильно говорить на языке, для которого создается вокодер.

  • AlBo

    Ангрийский версия самы луччи!

  • AlBo

    создав нормальную базу терминов и сокращений

    Сразу вспоминаются «гуртовщики мыши».

  • Dima Trushin

    Кафедра алгебры. Коммутативная алгебра, алгебраическая геометрия.

  • Dima Trushin

    Вот у меня тоже складывается впечатление, что все на стадии «пойди туда, не зная куда». Хотя я далековат от этой области.

  • Dima Trushin

    Научным работникам сыр до сих пор только снится.

  • Reitzteil

    Я бы не стал говорить насчет «смертельного оскорбления» за другого человека, но Вам, как его адвокату, конечно, виднее.

  • Reitzteil

    Что во Владивостоке, где я рос, выдавали талоны на 400 г сыра и 400 г масла раз в месяц в одни руки?

    Ох. Если у вас действительно было так – сердечно прошу прощения. Как справедливо отметил гр. ParasaitoShinguru, похоже, всё и правда зависело от региона: вот у нас в Волгограде сыр был не по талонам.