+ All Categories
Home > Documents > Mt engine on nlp semniar

Mt engine on nlp semniar

Date post: 16-Jun-2015
Category:
Upload: natalia-ostapuk
View: 260 times
Download: 1 times
Share this document with a friend
Popular Tags:
45
MTEngine Дмитрий Кан [email protected] Машинный Перевод с Применением Компьютерной Семантики Силами Комьюнити NLP Seminar, 29 марта 2013 Яндекс, Санкт-Петербург
Transcript
Page 1: Mt engine on nlp semniar

MTEngineДмитрий Кан[email protected]

Машинный Перевод с Применением Компьютерной Семантики Силами Комьюнити

NLP Seminar, 29 марта 2013Яндекс, Санкт-Петербург

Page 2: Mt engine on nlp semniar

DEMO

Пишу письмо другу.

Page 3: Mt engine on nlp semniar

О себе

Ведущий инженер AlphaSense IncУчастник SemanticAnalyzer Group

Кандидат физ.-мат. наукДиссертация о машинном переводе

Интересы в NLP: МП, семантический анализ, анализ тональности

Page 4: Mt engine on nlp semniar

О чём поговорим?

● МП: история

● Основные подходы

● MTEval @ ROMIP

● Статистический МП

● Метод порождения словаря

● Лингвистический проект за 6 часов

● Выводы

Page 5: Mt engine on nlp semniar

Немного истории МП

Одновременное независимое патентование МП (1933):

● Пётр Смирнов-Троянский [1]

● Georde Artsrouni (отец МП) [2]

Page 6: Mt engine on nlp semniar

Ещё немного истории МП

Вторая мировая война:

● Электронный компьютер (обсчёт баллистических выстрелов в США, взлом кодов)

● Алан Тьюринг: нечисловые программы (напр., машинный перевод)

● Weaver (1949): МП как взлом кодов

Page 7: Mt engine on nlp semniar

Ещё немного истории МП 2

Weaver своими (неверными) идеями стимулировал исследования в МП

● 1952: первая конференция по МП (MIT)● 1954: демо первой системы МП

(русский<->английский)● 1960: МП стимулирован Холодной войной

США, Великобритания, Франция, Япония и СССР

Page 8: Mt engine on nlp semniar

Доклад ALPAC

Page 9: Mt engine on nlp semniar

Основные подходы

Page 10: Mt engine on nlp semniar

Interlingua vs Transfer

Page 11: Mt engine on nlp semniar

Треугольник Машинного Перевода

Page 12: Mt engine on nlp semniar

Треугольник МП в деталях

Page 13: Mt engine on nlp semniar

Треугольник Машинного Перевода для MTEngine

Page 14: Mt engine on nlp semniar

Оценка: BLEU

Page 15: Mt engine on nlp semniar

MTEval and Shared Task @ ROMIP

● Org: ROMIP in cooperation with TAUS● 8 систем МП● 1 crowdsourced переводчик: http:

//translatedby.com/● test set: ~1000 предложений, 100 на

оценку● 11 ассессоров● небольшое перекрытие между ними● 28 пакетов по 36 задач

Page 16: Mt engine on nlp semniar

MTEval and Shared Task @ ROMIP

Problem: to translate or not to translate?

SYSTEM 1: NO

В пятницу Warner Music Group, объявил, что он был вызван в управление Нью-Йорке генеральный Прокурор Элиот Спитцер, чтобы предоставить информацию о цифровой музыке скачать ценообразования.

Page 17: Mt engine on nlp semniar

MTEval and Shared Task @ ROMIP

Problem: to translate or not to translate?

SYSTEM 2: YES

В пятницу Музыкальная Группа Уорнера объявила, что она была вызвана в суд управлением Нью-ЙоркаГенеральный Атторней Элиот Спицер предоставить информацию о ценообразовании загрузки цифровоймузыки.

Page 18: Mt engine on nlp semniar

MTEval and Shared Task @ ROMIPProblem: to translate or not to translate?

HUMAN: NO

В пятницу фирма Warner Music Group заявила, что ее представители были вызваны на допрос к генеральному прокурору Нью-Йорка Элиоту Спитцеру (Elliot Spitzer), чтобы дать показания о политикеценообразования в сфере онлайн-продаж музыкальной продукции.

Page 19: Mt engine on nlp semniar

MTEval and Shared Task @ ROMIP

Problem: to reorder or not to reorder?

SYSTEM 1: NO

Местные жители заметили также текущих SWAT учений с участием многочисленных государственных органов в области, в том числе национальной Безопасности, HPD и Калифорнийский Департамент Полиции.

Page 20: Mt engine on nlp semniar

MTEval and Shared Task @ ROMIP

Problem: to reorder or not to reorder?

SYSTEM 2: YES

Местные жители также заметили настоящие учения SWAT, вовлекающие многочисленные правительственные агентства в области, включающие Безопасность Родины, HPD и Пасаденское Полицейское Управление.

Page 21: Mt engine on nlp semniar

MTEval and Shared Task @ ROMIP

Problem: to reorder or not to reorder?

HUMAN: YES

Местные жители также заметили продолжающиеся тренировки спецназа в местных государственных учреждениях,

включая Министерство внутренней безопасности США, Полицейские управления

городов Хьюстон и Пасадена.

Page 22: Mt engine on nlp semniar

MTEval and Shared Task @ ROMIP

Problem: Does reordering even matter?

System 1 (no reordering)

Однако, Совет не будет применять каких-либо дальнейших действий, пока не ЭльБарадей делает его полный отчет о 6 марта.

Page 23: Mt engine on nlp semniar

MTEval and Shared Task @ ROMIP

Problem: Does reordering even matter?

System 2 (with reordering)

Однако, совет не будет выполнять никакого дальнейшего действия, пока ЭлБэрейдей не сделает свой полный доклад 6 марта.

Page 24: Mt engine on nlp semniar

MTEval and Shared Task @ ROMIP

Problem: Does reordering even matter?

HUMAN (with reordering)

Однако, совет не будет предпринимать дальнейших действий, пока ЭльБарадей (ElBaradei) не предоставит свой полный отчет 6 марта.

Page 25: Mt engine on nlp semniar

MTEval and Shared Task @ ROMIPProblem: Semantic mapping between two languages

System 1

Гарантии были даны, что грузовик, сцена, музыка и выступления - не говоря уже о барабанах, танцы и протест - не будет предотвращено от идти вперед, как планировалось на площади прямо напротив таможни в Circular Quay, веб-сайт сказал.

Page 26: Mt engine on nlp semniar

MTEval and Shared Task @ ROMIPProblem: Semantic mapping between two languages

System 2

Гарантиям дали тот грузовик, стадию, музыку и речи - чтобы не упомянуть, что барабанили, танцуя, и протесту - не будут препятствовать идти вперед как запланировано в квадрате непосредственно вне Таможни в Круглом Причале, веб-сайт сказал.

Page 27: Mt engine on nlp semniar

MTEval and Shared Task @ ROMIP

Problem: Semantic mapping betw. two languages

Original sentence:

"Assurances have been given that truck, stage, music and speeches - not to mention drumming,dancing and protest - will not be prevented from going ahead as planned in the square directly outside Customs House at Circular Quay," the website said.

Page 28: Mt engine on nlp semniar

Проблемы crowdsourcing и MT [8]

● Низкое качество (смысл задачи, copy-pasting, misspelling)

● Turking machines

● Output space problems (все переводы верны)

Page 29: Mt engine on nlp semniar

MTEngine

● Crowdsourced machine translation system● Словарные единицы семантического уровня● нет Turking machine problem● Перевод либо верен, либо почти верен, либо

неверен● Проблема низкого качества решается кросс-

проверками

Page 30: Mt engine on nlp semniar

История проекта

● Август-сентябрь 2011: первая версия● Сентябрь - октябрь 2011: работа над оценкой

качества● Октябрь: выложены || корпуса● 2012: первые волонтёры (по подписке)● Январь 2013: новый UI● Март 2013: новые фичи каждую неделю● Регистрация на сайте

Page 31: Mt engine on nlp semniar

Статистический МП

● Сказав что-то однажды, человек повторит это вновь (с некот. вероятностью)

● || корпус -- основа для фразовой таблицы● P(e|f), E - English, F - French● Теорема Байеса:

Page 32: Mt engine on nlp semniar

Модель языка vs Модель перевода

Page 33: Mt engine on nlp semniar

Исходный язык Целевой язык

Переводной контекстный семантический словарь

● Параллельный корпус UMC (~90 тыс. пар предложений)

● Максимизация апостериорной вероятности, совместная встречаемость

● Семантический анализ

Page 34: Mt engine on nlp semniar

GIZA++ ищет P(f|e)

● Модуль выравнивания слов● Входит в состав пакета Moses

(статистический МП)● 86000 предложений -> 1,3млн пар слов в

выходных данных● Задача разрешения полисемии● Высокий уровень избыточности данных в

словаре● 18,000+ на выходе

Page 35: Mt engine on nlp semniar

Пример выравнивания# Sentence pair (1) source length 4 target length 7 alignment score : 2.25315e-10

there is a book on the table NULL ({ }) на ({ }) столе ({ 5 6 7 }) лежит ({ 1 2 }) книга ({ 3 4 })

"столе" --> "on the table""лежит" --> "there is""книга" --> "a book"

Page 36: Mt engine on nlp semniar

Схема генерации словаря

Page 37: Mt engine on nlp semniar

СловарьВY1>HabU(Y1:,ПРЕД:Z1) \\<149>--->withinВY1>Loc(Y1:,ВНУТРИ$12/313/05(ПРЕД:Z1)) \\<146>--->atВY1>Loc(Y1:,Oper01(#,ПРЕД:Z1)) \\<208>--->inВY1>Loc(Y1:,ПРЕД:Z1) \\<224>--->ThroughoutМАРШАЛЛS1>Hab(S1:ЧЕЛОВЕК$1241,S0:ФАМИЛИЯ$1241/11) \\<2>--->marshallНАY1>Direkt(Y1:,ВЕРХ$12/141/05(ВИН:Z1)) \\<67>--->atНАY1>Direkt(Y1:,РОД:Z1) \\<100>--->onНАY1>Direkt(Y1:,РОД:Z1) \\<69>--->forНАY1>Direkt(Y1:,РОД:Z1) \\<74>--->for theОБРАЗ(РОД:Z1) \\<2>--->a wayОБЩЕМИРОВОЙA1>Rel(A1:НЕЧТО$1,ПОЛНЫЙ$12/207/05(МИР$1227))\\<1>--->global

Page 38: Mt engine on nlp semniar

Порождение предлогов

СГТ● @Род - ofАвтомобиль Ивана. Car of Ivan.

● @Тв - byПишу рукой. Writing by hand.

● @Дат - toПишу другу. Writing to (a) friend.

Page 39: Mt engine on nlp semniar

Выводы

● recognition в массы (stats page, юзерпик, wall of fame)

● Минимум рутины!● Переводить предложения с нуля -- очень

затратно● MTEngine: помоги системе перевести

лучше и получи зачёт и уточни познания английского языка

● Фокус на изучении, а не || корпусе

Page 40: Mt engine on nlp semniar

Выводы

● UI -- формат общения● Максимум продуманности!● Максимум автоматизации● Минимум багов :)● MTEngine: Twitter bootstrap + jQuery + PHP

+ Perl + MySQL● Быстрая реакция на запросы

пользователей

Page 41: Mt engine on nlp semniar

Библиография

[1] Mona Baker, Routlege Encyclopedia of Translation Studies, 2001, ISBN 0-203-35979-8.

[2] Р. Г. Пиотровский: Автоматизация обработки текста, ВИНИТИ, ИНФОРМ. ПРОЦЕССЫ И СИСТЕМЫ, 1998, №5.

[3] http://www.hutchinsweb.me.uk/MTJ-2000.pdf

[4] http://www.hutchinsweb.me.uk/IJT-2004.pdf

[5] ALPAC report http://www.nap.edu/openbook.php?record_id=9547&page=R1

Page 42: Mt engine on nlp semniar

[6] Chris Callison-Burch, Philipp Koehn: Introduction to Statistical Machine Translation, ESSLLI 2005.

[7] www.romip.ru (http://romip.ru/mteval/index.html)

[8] Ambati V. Active Learning and Crowdsourcing for Machine Translation in Low Resource Scenarios. Carnegie Mellon University, 2011.

[9] http://www.slideshare.net/dmitrykan/introduction-to-machine-translation-2911038

Библиография

Page 43: Mt engine on nlp semniar

[10] http://www.slideshare.net/dmitrykan/introduction-to-machine-translation-1

[11] Estellés-Arolas, E., González Ladrón-de-Guevara, F. 2012. Towards an integrated crowdsourcing definition. Journal of Information Science (in press).

[12] Callison-Burch C. 2009. Fast, Cheap, and Creative: Evaluating Translation Quality Using Amazon’s Mechanical Turk. Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Vol. 1, pp. 286-295.

Библиография

Page 44: Mt engine on nlp semniar

[13] Kan D. 2011. Method for an Automatic Generation of a Semantic-level Contextual Translational Dictionary. Proceedings of the 6th International Conference on Software and Data Technologies, Vol. 2, pp. 415-418.

[14] http://dmitrykan.blogspot.ru/2010/02/giza-under-windows.html

[15] http://dmitrykan.blogspot.ru/2010/03/giza-under-windows-episode-2.html

Библиография

Page 45: Mt engine on nlp semniar

[16] Кан Д.А. Применение теории компьютерной семантики и статистических методов к построению системы машинного перевода. Дисс. канд. физ. мат. наук, СПбГУ, 2011.

Библиография


Recommended