LUDWIG-MAXIMILIANS-UNIVERSITÄTMÜNCHEN
CENTRUM FÜR INFORMATIONS-
UND SPRACHVERARBEITUNG CIS Suchmaschinen am CIS
Eine Suchmaschine für Jobs in Deutschland(> 200 Tausend Jobs)
Die größte Wissenschaftsuchmaschine im Web (> 300 Mio.
Dokumente) in Zusammenarbeit mit Elsevier und FAST
Eine Suchmaschine für die deutsche, englischeund französische freie Enzyklopädie Wikipedia.
LukiWikiEine Musiksuchmaschine, mit der man auch Song-texte suchen kann.
Rote ListeEine Suchmaschine für pharmazeutische Inhalte.(Medikamente, Präparate, usw.)
Eine etwas andere Version von www.zoominfo.com
NamesKinosucheSuche auf mehr als 8 Millionen Namen aus dem Web.
Suche im Kinogprogramm von vielen deutschen Städten.
LUDWIG-MAXIMILIANS-UNIVERSITÄTMÜNCHEN
CENTRUM FÜR INFORMATIONS- UND SPRACHVERARBEITUNG CIS™
Das CISLEX: ein elektronisches Wörterbuch des Deutschen
CISLEX
• vollständig
• theorieunabhängig
• linguistische Regeln
• Vollformen und Grundformen
• Kompositazerlegung
• Morphologie
• Wortarten
• Semantik
• Domänen
• Mehrwortlexeme
Anwendungen
• Rechtschreibkorrektur
• OCR-Korrektur
• Volltextindexierung:
- Grundformen
- Wortbestandteile
- Phrasen
• Lokale Grammatiken
• Terminologie
• Thesaurus
• Informationsextraktion
• Dokumentklassifikation
Technische Daten
• 6 Mio. Wortformen
• 3 Mio. Grundformen
• 4 Mio. Eigennamen
• 500.000 Wörter/Sekunde
• Plattformen:
- Windows 95/98/NT/XP/Vista
- Linux
- Dec/Alpha
- Sun/Solaris, Sinix
- AIX, HP-UX und weitere
LUDWIG-MAXIMILIANS-UNIVERSITÄTMÜNCHEN
CENTRUM FÜR INFORMATIONS-
UND SPRACHVERARBEITUNG CISDas EFGT-Netz: Thematisches, geographisches und temporales Wissen
zur Einordnung von Entitäten in einem wohlfundierten NavigationsraumProf. Dr. Klaus U. Schulz (2006)
Das EFGT-Netz
• Semantische Informationen zu allgemeinen
Konzepten (Politik, Sport, Kunst,...) und
Entitäten (Angela Merkel, 1860 München,
Picasso,...)
• Thematische, geographische, temporale
Einordnung von Konzepten und Entitäten
• Zyklenfreies semantisches Netz, von allge-
meinen zu speziellen Konzepten
• Geeignet zum Navigieren und Browsen
• Einfache formale Termsprache zur Kodierung
der thematischen, geographischen und
temporalen Rolle der Konzepte
• Netzstruktur automatisch abgeleitet
• Umfangreiche linguistische Informationen zu
allen Konzepten (Benennungsvarianten,
Flexionsformen,...)
• Multi-Lingualität
• Links zu anderen Klassifikationsschemata
(IPTC)
Anwendungen
• Semantisches Indexieren von Textkollektionen
• Semantische Suche mit Angabe von Themen-
bereichen, geographischen und temporalen
Einschränkungen
• Interaktives Highlighten relevanter Konzepte in
Texten und Webdokumenten
• Informationsextraktion, Inhaltszusammenfas-
sung, Trefferportraitierung
• Flexible Extraktion von semantischen
Metadaten
• Dokumentenklassifikation
• Semantisches Dokumentenclustering
• Semantisches Browsen und Navigieren durch
Dokumentenkollektionen
• Hyperlinking von Treffern mit externen
Wissensressourcen
Abdeckungsbreite (Okt. 2005)
• Knoten > 50.000
• Elternbeziehungen > 120.000
• Vorfahrbeziehungen > 1.250.000
• Geographische Entitäten > 24.000
• Effiziente Indexierungs- und Anfragetechniken auch für sehr
umfangreiche Textmengen
• Zeitperioden: 5280
• Sonst. Entitäten > 15.000
• Entitätenklassen: 2122
• Themengebiete: 2255
LUDWIG-MAXIMILIANS-UNIVERSITÄTMÜNCHEN
CENTRUM FÜR INFORMATIONS-
UND SPRACHVERARBEITUNG CIS
Linguistic Analysis on Large Corpora
Clemens Marschner (2006)
Unterstützung der Analyse sehr großer Korpora für das Erstellen von Lokalen Grammatiken, Lexika für Informationsextraktion und andere linguistische Anwendungen.
Verwenden von Information Retrieval-Methoden für die Entwick-lung lokaler Grammatiken.
Fragestellungen:
• Algorithmen und Datenstrukturen für die Analyse sehr großer Korpora • Aggregation von Information über den Kontext von Suchergebnissen• Formalismus für die Anfragespra- che für Musterer- kennung und Aggregation• Abspeichern von Zwischenergebnis- sen direkt im Index• Query-Optimierung und-Caching, Generieren von Ausführungs- plänen• Optimieren von Pattern Matching-Methoden auf morpho-syntak- tisch angereicherten Texten• Tool-Unterstützung bei der Fehleranalyse und der Korrektur von Grammatiken im Entwicklungsprozess
LUDWIG-MAXIMILIANS-UNIVERSITÄTMÜNCHEN
CENTRUM FÜR INFORMATIONS-
UND SPRACHVERARBEITUNG CIS
Lokale Grammatiken
Die computerlinguistische Analyse in Form von
“Lokalen Grammatiken” versucht alle relevanten
Subpfade von natürlich-sprachlichen Sätzen zu
erkennen.
Abb. 1: Komplexe Zeitformen im Englischen
Abb. 2: Erkennung von Personennamen
Abb. 3: Erkennung von englischen Datumsangaben
LUDWIG-MAXIMILIANS-UNIVERSITÄTMÜNCHEN
CENTRUM FÜR INFORMATIONS-
UND SPRACHVERARBEITUNG CIS
“Don’t forget, there was the hope it would pass for a natural death “, Pauling reminded him.
Abb. 1: Komplexe Zeitformen im Englischen
Abb. 2: Erkennung von Personennamen
Abb. 3: Erkennung von englischen Datumsangaben
“Don’t get yourself killed for something that doesn’t concern you “.
“I’d give anything if I could have found a girl like you “.
“I’d just turned on the ignition when there was a big flash and I was lying on the driveway “, he said.
“It’s getting so chilly we’ve lighted a fire , and we’re going to tell a round robin story -- a nice, scary one.
“We’ll let him do a lot of running this week, but I don’t know if he’ll be able to play“.
“But when I arrived and recognised a number of notorious characters I had thrown into the detective bureau basement half a dozen times , I knew I had been framed, and withdrew almost at once “.
“I wouldn’t even be surprised“ , she said unhappily,“ if Myra tried to leave her with us forever “.
“I have these appointments in town for Sat-urday , and I’ll probably spend Sunday with Dolly or the Thaxters “.
“If the day should ever come that foreign in-vaders swarm ashore along the Gulf Coast“, the account reads ,“ they can count on heavy opposition from a group of commando-trained telephone employees -- all girls .
Had it been bestowed while the Secretary General of the United Nations was living, un-questionably he would have been greatly en-couraged in pursuing a difficult and, in many ways, thankless task.
A second son, Luke, was born in 1976.
Alex was born in April 2003.
Aleksandr Bovin was born on 9 August 1930.
Benjamin John Pimlott was born on 4 July 1945.
Iglesias was born Aug. 31, 1889.
Winfield was born May 22, 1941.
Desdemona Smyth was born to Katya last October.
Colonel Milosevic was born in 1956 in Belgrade.
Robert Clodius was born on March 10, 1921.
Alec Zino, ornithologist, was born February 9 1916.
Alvaro del Portillo was born on March 11, 1914.
Benjamin John Pimlott was born on 4 July 1945.
Alvaro del Portillo was born in Madrid.
Physicist Isaac Newton was born in England.
Sara Elena Garcia-Peralta, academic, was born in 1947.
Anthony Pryer Denis William Stevens, musicologist and
performer, was born March 2 1922.
Joseph-Pierre-Albert Sevigny was born in 1917.
Margaret (Meg) Stacey, sociologist, was born in 1922.
Alfred Louis “Alf” Valentine, cricketer, was born 1930.
Mother Teresa was born in Albania.
Georges Lemaitre was born in nearby Charleroi.
His wife, Vittoria DiNino, was born in Trapani.
Lewis Carroll (C.L. Dodgson) was born in Daresbury.
Nicola Di Bari was born as Michele Scommegna.
Groucho was born in 1890 as Julius Marx.
Damian Williams was born to Jamaican parents.
Konkordanzen Lokaler Grammatiken
Had we taken a lien on a state park?
LUDWIG-MAXIMILIANS-UNIVERSITÄTMÜNCHEN
CENTRUM FÜR INFORMATIONS-
UND SPRACHVERARBEITUNG CIS Prädikatgesteuerte Grammatik (PDG)
Jörg Schuster (2006)
Überblick
• Stark beeinflusst durch Ideen von F. Guenthner, I. Mel’čuk und M. Gross
• Beschreibt eine Sprache als Relation L zwischen einer Menge von Texten
(Äußerungen) T und einer Menge von Bedeutungen
• Form der Regeln einer PDG (vereinfacht):
• Beispiel für PDG-Regel (vereinfacht):
Warum PDG?
• PDG funktioniert wirklich.
• Relationscharakter der Sprache: PDG beschreibt eine Sprache als
Relation zwischen einer Menge von Texten und einer Menge von
Bedeutungen.
• Ambiguität und Polymorphie: PDG behandelt Ambiguität und Poly-
morphie adäquat.
• Prädikatgesteuertheit der Sprache: Jede Anwendung einer PDG-Regel
wird durch ein Prädikat getriggert.
• Nichtmodularität der Sprache: In einer PDG werden syntaktische und
semantische Struktur gleichzeitig berechnet.
• Interaktion von Prädikaten: PDG behandelt die Interaktion von Prädika-
ten adäquat.
Was ist eine Sprache?
LUDWIG-MAXIMILIANS-UNIVERSITÄTMÜNCHEN
CENTRUM FÜR INFORMATIONS- UND SPRACHVERARBEITUNG CIS™
• Lokative Sätze drücken räumliche Relationen oder Bewegungen aus
• ein Satz besteht aus Prädikat und Argumenten: eines der Argumente muss dabei auf einen Ort referieren
• Prädikate werden durch verschiedene Wortarten …
- Verb: Er wohnt Hauptstrasse 14; Das Schiff nähert sich der Insel
- Nomen: Max unternimmt eine Reise nach Prag (= Max reist nach Prag)
- Präpositionen: München liegt in Bayern
- Adjektive/Adverbien: Windach liegt 1/2 Autostunde von München entfernt
• … und durch verschiedene Phrasentypen realisiert
- Satz
- Nominalphrase, Adjektiv-/ Adverbialphrase: im französischen Departement Dordogne, der in München ansässige Schriftsteller
- Nominalkompositum: Isarmündung, Taunusbewohner
• Realisierung der Argumente (Ortsnamen)
- Lexikon kodiert grammatische Eigenschaften (Genus, Flexion, usw.)
… Variation: Waidhofen an der Thaya = Waidhofen a.d. Thaya
… z.T. auch Transliteration (Übersetzung): Aachen = Aix-la-Chapelle
… sowie Ableitungen: Madrid → Madrider, Madrileño, Madrilene
… und weist alle Ortsnamen einer Klasse zu (z.B. Stadt, Land, Gewässer)
- lokale Grammatiken beschreiben Phrasen, in die Ortsnamen eingebettet sind
… und die Kombination mit Klassenbezeichnern: in der Stadt München
Lokative Sätze Lokale Grammatiken und Anwendung im Information Retrieval
Sebastian Nagel (2006)
• Anwendungen:
- Entitätenerkennung (Named Entity Recognition): „gefährliche“, ambige Ortsnamen sind im Kontext eindeutig; idealer Kontext ist eine Prädikat-Argument-Struktur
- Extraktion ontologischer Relationen
Abb. 1: Konkordanz: alle Sätze sind Realisationen des Prädikats ‚Fluss A fließt in Gewässer B‘
Abb. 2: Erkennung von Ortsnamen im Text (Named Entity Recognition)
LUDWIG-MAXIMILIANS-UNIVERSITÄTMÜNCHEN
CENTRUM FÜR INFORMATIONS-
UND SPRACHVERARBEITUNG CIS
Varecom - ein Spin-off des CIS im Bereich E-Commerce
Varecom schafft Abhilfe für fol-
gendes Problem:
Wer schon einmal ein Produkt oder
eine Dienstleistung über das Inter-
net gesucht hat, weiß, dass es viel
ausmacht, wo und mit welchen Be-
griffen man sucht. Soll man nun
„Brautkleid“ schreiben, „Hoch-
zeitskleid“ oder doch lieber „Hoch-
zeitsmode“? Alle drei liefern bei
gängigen Suchanbietern ganz un-
terschiedliche oder sogar überhaupt
keine Resultate.
Übrigens:
Bis zu 45% der Suchanfragen bei
Gelben-Seiten-Anbietern liefern
überhaupt keinen Treffer.
Varecom katalogisiert alle Begriffe,
die im E-Commerce eine Rolle spie-
len, darunter: Produkte, Marken,
Dienste, Berufsnamen, Händler,
Produkteigenschaften, Modelle.
Durch einen neuartigen Ansatz, der
morphologische Methoden durch
Assoziations- und Distributions-
maße auf besonders vorverarbeite-
ten Korpora ergänzt, ist es möglich,
Millionen von Begriffen präzise zu
erfassen.
Die Herausforderung Die Methode
Wie man „Lufthansa“ in
Suchanfragen geschrieben
findet:
Beispiel
luftansa
lufthanza
luthansa
lufhansa
lufthanse
luft hansa
lufthanser
luftgansa
lufthasa
lufthasa
lufthasa
luftthansa
lufttansa
lusthansa
luftahansa
lifthansa
lufthunsa
Anwendungen
• Verbesserung der Suche auf Branchenbüchern, Lokaler Suche, Websuche, Shopping- und b2b-Portalen
• Benutzerfreundlichere Bedie- nung von Logistik- und Beschaf- fungssoftware
• Präzisere Marktbeobachtung
Ein Auszug aus über
43.000 Schmuckbegriffen:
schmuckringekettengoldsilberedelsteineohrringesilberschmuckuhrentrauringediamantengoldschmuckperlenplatingoldschmiedeohrschmuckbrillantenjuwelenjuweliereheringearmbändercollieranhänger
halskettenarmreifenrubinarmreifgravurencreolenedelsteingoldkettendiamantgoldschmiedsaphirhalsschmuckdesignschmuckplatinschmuckzuchtperlenweissgoldpartnerringeperlenkettenbrilliantenweißgoldzirkoniabroschesilberketten
goldkettegravureheringpiercingschmuckherrenringeturmalinkristallesiegelringearmbanduhrensilberkettesilberschmiedeintimschmuckedelstahltitanschmuckohrhängersilberschmiedspannringsilberringverlobungsringsilberanhängergoldarmbandgranatschmuckbrillant
aquamarinantikschmuckfußkettchenkettenanhängermännerschmuckfingerringgoldschmiedemeisterkinderschmuckschmuckstückeperlenkettebroschenunikatschmucktürkisindianerschmuckschmuckgestaltungamulettesteinschmucksilberringearmschmuckmondsteingoldringebergkristallschmuckwaren
halbedelsteinegelbgoldhalsketteherrenschmuckjunghanssmaragdohrringjuwelieredesignerschmuckschmuckdesignschmuckversand
goldanhängertopaskunsthandwerkamethystdiamantringeedelstahlschmuckarmbandohrsteckerfreundschaftsringeverlobungsringemanschettenknöpfe
Varecom.deRindermarkt 780133 MünchenTel. (089) 23 70 84 95Email: [email protected]