+ All Categories
Home > Documents > Softwareprojektpraktikum Maschinelle Übersetzung · Das Praktikum Voraussetzungen: I Kenntnisse in...

Softwareprojektpraktikum Maschinelle Übersetzung · Das Praktikum Voraussetzungen: I Kenntnisse in...

Date post: 11-Aug-2019
Category:
Upload: doantu
View: 225 times
Download: 0 times
Share this document with a friend
24
Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl Vorbesprechung 1. Aufgabe 21. April 2017 Human Language Technology and Pattern Recognition Lehrstuhl für Informatik 6 Computer Science Department RWTH Aachen University, Germany J.-T. Peter, A. Guta, J. Rosendahl Maschinelle Übersetzung 1 Vorbesprechung 21. April 2017
Transcript
Page 1: Softwareprojektpraktikum Maschinelle Übersetzung · Das Praktikum Voraussetzungen: I Kenntnisse in Algorithmen und Datenstrukturen und I objektorientierter Programmierung Ziele:

SoftwareprojektpraktikumMaschinelle Übersetzung

Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl

Vorbesprechung 1. Aufgabe 21. April 2017

Human Language Technology and Pattern RecognitionLehrstuhl für Informatik 6

Computer Science DepartmentRWTH Aachen University, Germany

J.-T. Peter, A. Guta, J. Rosendahl Maschinelle Übersetzung 1 Vorbesprechung 21. April 2017

Page 2: Softwareprojektpraktikum Maschinelle Übersetzung · Das Praktikum Voraussetzungen: I Kenntnisse in Algorithmen und Datenstrukturen und I objektorientierter Programmierung Ziele:

Motivation

Mark Twain, the famous writer, once said

“In Paris they just simply opened their eyesand stared when we spoke to them in French!We never did succeed in making those idiotsunderstand their own language.”

J.-T. Peter, A. Guta, J. Rosendahl Maschinelle Übersetzung 2 Vorbesprechung 21. April 2017

Page 3: Softwareprojektpraktikum Maschinelle Übersetzung · Das Praktikum Voraussetzungen: I Kenntnisse in Algorithmen und Datenstrukturen und I objektorientierter Programmierung Ziele:

Motivation

Mark Twain, the famous writer, once said

“In Paris they just simply opened their eyesand stared when we spoke to them in French!We never did succeed in making those idiotsunderstand their own language.”

Mark Twain, der berühmte Verfasser, einmal besagtes

“In Paris öffneten sie gerade einfach ihre Augenund starrten an, als wir mit ihnen auf französischsprachen! Wir nie folgten, mit, jene Idioten zubilden, verstehen ihr eigenes language.”

–babelfish

J.-T. Peter, A. Guta, J. Rosendahl Maschinelle Übersetzung 3 Vorbesprechung 21. April 2017

Page 4: Softwareprojektpraktikum Maschinelle Übersetzung · Das Praktikum Voraussetzungen: I Kenntnisse in Algorithmen und Datenstrukturen und I objektorientierter Programmierung Ziele:

Motivation

Mark Twain, the famous writer, once said

“In Paris they just simply opened their eyesand stared when we spoke to them in French!We never did succeed in making those idiotsunderstand their own language.”

Mark Twain, der berühmte Verfasser, einmal besagtes

“In Paris öffneten sie gerade einfach ihre Augenund starrten an, als wir mit ihnen auf französischsprachen! Wir nie folgten, mit, jene Idioten zubilden, verstehen ihr eigenes language.”

–babelfish

J.-T. Peter, A. Guta, J. Rosendahl Maschinelle Übersetzung 4 Vorbesprechung 21. April 2017

Page 5: Softwareprojektpraktikum Maschinelle Übersetzung · Das Praktikum Voraussetzungen: I Kenntnisse in Algorithmen und Datenstrukturen und I objektorientierter Programmierung Ziele:

Contents

1 Lehrstuhl i6 6

2 Einführung 7

3 Maschinelle Übersetzung 9

4 Praktikumsablauf 17

J.-T. Peter, A. Guta, J. Rosendahl Maschinelle Übersetzung 5 Vorbesprechung 21. April 2017

Page 6: Softwareprojektpraktikum Maschinelle Übersetzung · Das Praktikum Voraussetzungen: I Kenntnisse in Algorithmen und Datenstrukturen und I objektorientierter Programmierung Ziele:

1 Lehrstuhl i6

Forschung am Lehrstuhl für Informatik 6:

I Anwendung statistischer Verfahren zur/zum automatischen

. Spracherkennung

. Sprachübersetzung

. Sprachverstehen

. Bilderkennung

. Information Retrieval

I angewandte Methoden:

. Mustererkennung

. Signalverarbeitung

. Informationstheorie und statistische Inferenz

. Suchverfahren und effiziente Algorithmen

. Künstliche Intelligenz und Verarbeitung unsicheren Wissens

J.-T. Peter, A. Guta, J. Rosendahl Maschinelle Übersetzung 6 Vorbesprechung 21. April 2017

Page 7: Softwareprojektpraktikum Maschinelle Übersetzung · Das Praktikum Voraussetzungen: I Kenntnisse in Algorithmen und Datenstrukturen und I objektorientierter Programmierung Ziele:

2 Einführung

I Aufgabe in diesem Praktikum:

. Erstellen eines automatischen maschinellen Übersetzers

. Sprachpaar: Deutsch–Englisch

. Bewertung und Verbesserung der Übersetzungsresultate

J.-T. Peter, A. Guta, J. Rosendahl Maschinelle Übersetzung 7 Vorbesprechung 21. April 2017

Page 8: Softwareprojektpraktikum Maschinelle Übersetzung · Das Praktikum Voraussetzungen: I Kenntnisse in Algorithmen und Datenstrukturen und I objektorientierter Programmierung Ziele:

Das Praktikum

Voraussetzungen:

I Kenntnisse in Algorithmen und Datenstrukturen und

I objektorientierter Programmierung

Ziele:

I praktische Erfahrung mit der Programmiersprache C++

I praktische Erfahrung in der Programmentwicklung unter Linux

I Softwareentwicklung im Team

I Implementierung von Datenstrukturen und effizienten Algorithmen

I Erwerb von Kenntnissen über Methoden der Sprachverarbeitung

J.-T. Peter, A. Guta, J. Rosendahl Maschinelle Übersetzung 8 Vorbesprechung 21. April 2017

Page 9: Softwareprojektpraktikum Maschinelle Übersetzung · Das Praktikum Voraussetzungen: I Kenntnisse in Algorithmen und Datenstrukturen und I objektorientierter Programmierung Ziele:

3 Maschinelle Übersetzung

Ansätze:

I regelbasiert, knowledge-driven

. bilinguale Sprachexperten erstellen manuell Regeln

I statistisch, data-driven

. keine harten Regeln festgelegt

. Computer lernt Sprachzusammenhänge aus Trainingsdaten

. “Siegeszug” der statistischen Übersetzung: seit 1993 (Arbeiten bei IBM)

J.-T. Peter, A. Guta, J. Rosendahl Maschinelle Übersetzung 9 Vorbesprechung 21. April 2017

Page 10: Softwareprojektpraktikum Maschinelle Übersetzung · Das Praktikum Voraussetzungen: I Kenntnisse in Algorithmen und Datenstrukturen und I objektorientierter Programmierung Ziele:

Statistischer Ansatz

It must be recognized that the notion of a probability of a sentence is anentirely useless one, under any interpretation of this term.

– Noam Chomsky, 1969

I Gegeben:

. Trainingsdaten, d.h. eine Sammlung von Sätzender Quellsprache und deren Übersetzung in derZielsprache

. Beispiel: Reden im Europa-Parlament müssen perGesetz in alle offiziellen Amtssprachen übersetztwerden

I Gesucht:

. Die beste (= wahrscheinlichste) Übersetzung eines unbekannten Satzes

. Bewertungskriterien für die Qualität einer Übersetzung

J.-T. Peter, A. Guta, J. Rosendahl Maschinelle Übersetzung 10 Vorbesprechung 21. April 2017

Page 11: Softwareprojektpraktikum Maschinelle Übersetzung · Das Praktikum Voraussetzungen: I Kenntnisse in Algorithmen und Datenstrukturen und I objektorientierter Programmierung Ziele:

Statistischer Ansatz

I Terminologie:

. f bezeichnet einen Satz in der Quellsprache

. e bezeichnet einen Satz in der Zielsprache

I Wahrscheinlichkeitsverteilung Pr(e|f) für alle möglichen Übersetzungen eeines Quellsatzes f

I Finde Zielsatz, der die Wahrscheinlichkeit maximiert:

e = argmaxe{Pr(e|f)} (1)

J.-T. Peter, A. Guta, J. Rosendahl Maschinelle Übersetzung 11 Vorbesprechung 21. April 2017

Page 12: Softwareprojektpraktikum Maschinelle Übersetzung · Das Praktikum Voraussetzungen: I Kenntnisse in Algorithmen und Datenstrukturen und I objektorientierter Programmierung Ziele:

Bayes

I Nach Bayes’ Entscheidungsregel können wir Pr(e|f) umschreiben als:

Pr(e|f) =Pr(f |e) · Pr(e)

Pr(f)(2)

I Für argmax über alle e ist Pr(f) Konstante

I Damit bleibt:e = argmax

e{Pr(f |e) · Pr(e)} (3)

mit

. Translation Model Pr(f |e)

. Language Model Pr(e)

J.-T. Peter, A. Guta, J. Rosendahl Maschinelle Übersetzung 12 Vorbesprechung 21. April 2017

Page 13: Softwareprojektpraktikum Maschinelle Übersetzung · Das Praktikum Voraussetzungen: I Kenntnisse in Algorithmen und Datenstrukturen und I objektorientierter Programmierung Ziele:

Teilaufgaben

Teilaufgaben bei der statistischen maschinellen Übersetzung:

I Training:

. Translation Model

. Language Model

I Suche nach der besten Übersetzung

I Bewertung der Übersetzungsqualität

I Optimierung der Modellgewichtung

I Vor-/Nachverarbeitung für typische Fehler

J.-T. Peter, A. Guta, J. Rosendahl Maschinelle Übersetzung 13 Vorbesprechung 21. April 2017

Page 14: Softwareprojektpraktikum Maschinelle Übersetzung · Das Praktikum Voraussetzungen: I Kenntnisse in Algorithmen und Datenstrukturen und I objektorientierter Programmierung Ziele:

Source Language Text

Transformation

Global Search:maximize Pr(eI1) · Pr(fJ

1 |eI1)over eI1

Transformation

Target Language Text

Lexicon model

Alignment model

Language model

fJ1

Pr(fJ1 |eI1)

Pr(eI1)

J.-T. Peter, A. Guta, J. Rosendahl Maschinelle Übersetzung 14 Vorbesprechung 21. April 2017

Page 15: Softwareprojektpraktikum Maschinelle Übersetzung · Das Praktikum Voraussetzungen: I Kenntnisse in Algorithmen und Datenstrukturen und I objektorientierter Programmierung Ziele:

Translation Model

I Das Translation Model Pr(f |e) gibt an, wie wahrscheinlich f der Ursprungvon e ist

I Beispiel für einfache Wörter:

Kater # tomcat (70%)Kater # cat (23%)Kater # hangover (7%)

I Vorteil von einzelwortbasierter Übersetzung:

. Flexibel für ungesehene Satzkonstellation

I Nachteil von einzelwortbasierter Übersetzung:

. Modellierung größerer zusammengehöriger Einheiten nicht möglich

. Verlust von Kontextinformation

I später im Praktikum: längere Phrasen

J.-T. Peter, A. Guta, J. Rosendahl Maschinelle Übersetzung 15 Vorbesprechung 21. April 2017

Page 16: Softwareprojektpraktikum Maschinelle Übersetzung · Das Praktikum Voraussetzungen: I Kenntnisse in Algorithmen und Datenstrukturen und I objektorientierter Programmierung Ziele:

Language Model

I Das Language Model Pr(e) gibt an, wie wahrscheinlich der Satz e in derZielsprache ist

I Üblicherweise als Wahrscheinlichkeit bei n− 1 Vorgängerwörtern(sog. n-grams)

I Beispiel für n = 2 (Wahrscheinlichkeit gegeben einem Vorgängerwort):

Guten ______Tag (60%)Morgen (25%)Mut (5%)

...

I Probleme u. Aufgaben

. Trade-Off zwischen Größe/Genauigkeit

. Handhabung unbekannter Wörter

. Bewertung von Teilübersetzungen

J.-T. Peter, A. Guta, J. Rosendahl Maschinelle Übersetzung 16 Vorbesprechung 21. April 2017

Page 17: Softwareprojektpraktikum Maschinelle Übersetzung · Das Praktikum Voraussetzungen: I Kenntnisse in Algorithmen und Datenstrukturen und I objektorientierter Programmierung Ziele:

4 Praktikumsablauf

I sechs Aufgabenblätter

I Gruppen zu jeweils vier Studenten

I Koordination, Schnittstellenverwaltung, Programmierung, Testen

J.-T. Peter, A. Guta, J. Rosendahl Maschinelle Übersetzung 17 Vorbesprechung 21. April 2017

Page 18: Softwareprojektpraktikum Maschinelle Übersetzung · Das Praktikum Voraussetzungen: I Kenntnisse in Algorithmen und Datenstrukturen und I objektorientierter Programmierung Ziele:

Praktikumsinhalte

I Training: Wort-Übersetzungstabellemit relativen Häufigkeiten (Aufgabenblatt 1)

I Suche: Suchalgorithmus auf Wortebene (Aufgabenblatt 2)

I Bewertung: Fehlermaße WER, PER und BLEU (Aufgabenblatt 3)

I Training II: Präfixbaum und Phrasenübersetzungstabelle (Aufgabenblatt 4)

I Suche II: Erweiterung des Suchalgorithmus auf Phrasen (Aufgabenblatt 5)

I Sprachmodellierung: Erzeugen eines Bigramm-Sprachmodells,Verwendung im Rescoring auf n-best-Listen (Aufgabenblatt 5)

I Modellkombination: Log-lineare Modellierung (Aufgabenblatt 6)

I Optimierung: Downhill-Simplex Algorithmus,Minimum Error Rate Training (Aufgabenblatt 6)

I Zusätzlich: Aufgaben zur Software-Architektur

J.-T. Peter, A. Guta, J. Rosendahl Maschinelle Übersetzung 18 Vorbesprechung 21. April 2017

Page 19: Softwareprojektpraktikum Maschinelle Übersetzung · Das Praktikum Voraussetzungen: I Kenntnisse in Algorithmen und Datenstrukturen und I objektorientierter Programmierung Ziele:

Aufgabe 1

I Gegeben: 80000 SatzpaareDeutsch – Englisch

I Zuordnung zwischen den Wörtern(sog. Alignment), Format:

SENT: 0S 0 8S 1 9S 2 1S 3 3...

SENT: 1S 0 0S 1 9...

I Indizes fangen bei Null an

it

can

be

a

very

complicated

thing

,

the

ocean

.

das

Meer

kann

ziemlich

kompliziert

sein .

Alignment

J.-T. Peter, A. Guta, J. Rosendahl Maschinelle Übersetzung 19 Vorbesprechung 21. April 2017

Page 20: Softwareprojektpraktikum Maschinelle Übersetzung · Das Praktikum Voraussetzungen: I Kenntnisse in Algorithmen und Datenstrukturen und I objektorientierter Programmierung Ziele:

Aufgabe 1

I Auslesen der Dateien (gzip-Format, Klasse gzstream.cpp erforderlich)

I Erstellen eines Alphabets string→ integer

I Berechnung der relativen Häufigkeiten:

p(e|f) =N(e, f)

N(f)(4)

p(f |e) =N(e, f)

N(e)(5)

I Numerisch stabiler: negative Logarithmen

I Erstellen eines Makefiles

J.-T. Peter, A. Guta, J. Rosendahl Maschinelle Übersetzung 20 Vorbesprechung 21. April 2017

Page 21: Softwareprojektpraktikum Maschinelle Übersetzung · Das Praktikum Voraussetzungen: I Kenntnisse in Algorithmen und Datenstrukturen und I objektorientierter Programmierung Ziele:

Organisatorisches

Einführung in die Aufgaben und Ausgabe der Aufgabenblätter:

I zweiwöchentlich im Seminarraum des Lehrstuhls i6 (Raum 6124)

I wann? Freitag, 10:15 Uhr

I Termine: voraussichtlich21.04. / 05.05. / 26.05. / 16.06. / 30.06. / 14.07. / 28.07.

Reservierung des Rechnerpools zur Bearbeitung der Aufgaben (nötig?)

Kontrolle der Lösungen (im Rechnerpool oder auf Euren Notebooks) jeweilszwei Wochen nach Ausgabe:

I wann? nach Terminabsprache mit den betreuenden Assistenten

J.-T. Peter, A. Guta, J. Rosendahl Maschinelle Übersetzung 21 Vorbesprechung 21. April 2017

Page 22: Softwareprojektpraktikum Maschinelle Übersetzung · Das Praktikum Voraussetzungen: I Kenntnisse in Algorithmen und Datenstrukturen und I objektorientierter Programmierung Ziele:

Sonstiges

I Zugangsberechtigung im Rechnerpool besorgen

I Website:http://www-i6.informatik.rwth-aachen.de/web/Teaching/LabCourses/SS17/Softwareprojektpraktikum/

I E-Mail-Verteiler:[email protected]

I Fragen & Probleme:möglichst per E-Mail anoder persönlich bei uns im Büro vorbeikommen (Räume 6125a und 6125b)

I Bachelorstudiengang:Rücktritt von der Veranstaltung ohne Anrechnung eines Fehlversuchs bismaximal drei Wochen nach Veranstaltungsbeginn möglich

I Praktikum ist ideale Grundlage für spätere Hiwi-Tätigkeit am Lehrstuhl

J.-T. Peter, A. Guta, J. Rosendahl Maschinelle Übersetzung 22 Vorbesprechung 21. April 2017

Page 23: Softwareprojektpraktikum Maschinelle Übersetzung · Das Praktikum Voraussetzungen: I Kenntnisse in Algorithmen und Datenstrukturen und I objektorientierter Programmierung Ziele:

Bitte erwägen Sie sorgfältig, wenn Sie jede Frage haben, links,weil jetzt sein konnte eine leuchtende Zeit, um sie zu bitten

J.-T. Peter, A. Guta, J. Rosendahl Maschinelle Übersetzung 23 Vorbesprechung 21. April 2017

Page 24: Softwareprojektpraktikum Maschinelle Übersetzung · Das Praktikum Voraussetzungen: I Kenntnisse in Algorithmen und Datenstrukturen und I objektorientierter Programmierung Ziele:

Bitte erwägen Sie sorgfältig, wenn Sie jede Frage haben, links,weil jetzt sein konnte eine leuchtende Zeit, um sie zu bitten

Fragen?

J.-T. Peter, A. Guta, J. Rosendahl Maschinelle Übersetzung 24 Vorbesprechung 21. April 2017


Recommended