+ All Categories
Home > Documents > Suchmaschinen am CIS€¦ ·  · 2009-07-30“We’ll let him do a lot of running this week, ......

Suchmaschinen am CIS€¦ ·  · 2009-07-30“We’ll let him do a lot of running this week, ......

Date post: 30-Apr-2018
Category:
Upload: hoangnhi
View: 217 times
Download: 3 times
Share this document with a friend
9
LUDWIG- MAXIMILIANS- UNIVERSITÄT MÜNCHEN CENTRUM FÜR INFORMATIONS- UND SPRACHVERARBEITUNG CIS Suchmaschinen am CIS Eine Suchmaschine für Jobs in Deutschland (> 200 Tausend Jobs) Die größte Wissenschaftsuchmaschine im Web (> 300 Mio. Dokumente) in Zusammenarbeit mit Elsevier und FAST Eine Suchmaschine für die deutsche, englische und französische freie Enzyklopädie Wikipedia. LukiWiki Eine Musiksuchmaschine, mit der man auch Song- texte suchen kann. Rote Liste Eine Suchmaschine für pharmazeutische Inhalte. (Medikamente, Präparate, usw.) Eine etwas andere Version von www.zoominfo.com Names Kinosuche Suche auf mehr als 8 Millionen Namen aus dem Web. Suche im Kinogprogramm von vielen deutschen Städten.
Transcript

LUDWIG-MAXIMILIANS-UNIVERSITÄTMÜNCHEN

CENTRUM FÜR INFORMATIONS-

UND SPRACHVERARBEITUNG CIS Suchmaschinen am CIS

Eine Suchmaschine für Jobs in Deutschland(> 200 Tausend Jobs)

Die größte Wissenschaftsuchmaschine im Web (> 300 Mio.

Dokumente) in Zusammenarbeit mit Elsevier und FAST

Eine Suchmaschine für die deutsche, englischeund französische freie Enzyklopädie Wikipedia.

LukiWikiEine Musiksuchmaschine, mit der man auch Song-texte suchen kann.

Rote ListeEine Suchmaschine für pharmazeutische Inhalte.(Medikamente, Präparate, usw.)

Eine etwas andere Version von www.zoominfo.com

NamesKinosucheSuche auf mehr als 8 Millionen Namen aus dem Web.

Suche im Kinogprogramm von vielen deutschen Städten.

LUDWIG-MAXIMILIANS-UNIVERSITÄTMÜNCHEN

CENTRUM FÜR INFORMATIONS- UND SPRACHVERARBEITUNG CIS™

Das CISLEX: ein elektronisches Wörterbuch des Deutschen

CISLEX

• vollständig

• theorieunabhängig

• linguistische Regeln

• Vollformen und Grundformen

• Kompositazerlegung

• Morphologie

• Wortarten

• Semantik

• Domänen

• Mehrwortlexeme

Anwendungen

• Rechtschreibkorrektur

• OCR-Korrektur

• Volltextindexierung:

- Grundformen

- Wortbestandteile

- Phrasen

• Lokale Grammatiken

• Terminologie

• Thesaurus

• Informationsextraktion

• Dokumentklassifikation

Technische Daten

• 6 Mio. Wortformen

• 3 Mio. Grundformen

• 4 Mio. Eigennamen

• 500.000 Wörter/Sekunde

• Plattformen:

- Windows 95/98/NT/XP/Vista

- Linux

- Dec/Alpha

- Sun/Solaris, Sinix

- AIX, HP-UX und weitere

LUDWIG-MAXIMILIANS-UNIVERSITÄTMÜNCHEN

CENTRUM FÜR INFORMATIONS-

UND SPRACHVERARBEITUNG CISDas EFGT-Netz: Thematisches, geographisches und temporales Wissen

zur Einordnung von Entitäten in einem wohlfundierten NavigationsraumProf. Dr. Klaus U. Schulz (2006)

Das EFGT-Netz

• Semantische Informationen zu allgemeinen

Konzepten (Politik, Sport, Kunst,...) und

Entitäten (Angela Merkel, 1860 München,

Picasso,...)

• Thematische, geographische, temporale

Einordnung von Konzepten und Entitäten

• Zyklenfreies semantisches Netz, von allge-

meinen zu speziellen Konzepten

• Geeignet zum Navigieren und Browsen

• Einfache formale Termsprache zur Kodierung

der thematischen, geographischen und

temporalen Rolle der Konzepte

• Netzstruktur automatisch abgeleitet

• Umfangreiche linguistische Informationen zu

allen Konzepten (Benennungsvarianten,

Flexionsformen,...)

• Multi-Lingualität

• Links zu anderen Klassifikationsschemata

(IPTC)

Anwendungen

• Semantisches Indexieren von Textkollektionen

• Semantische Suche mit Angabe von Themen-

bereichen, geographischen und temporalen

Einschränkungen

• Interaktives Highlighten relevanter Konzepte in

Texten und Webdokumenten

• Informationsextraktion, Inhaltszusammenfas-

sung, Trefferportraitierung

• Flexible Extraktion von semantischen

Metadaten

• Dokumentenklassifikation

• Semantisches Dokumentenclustering

• Semantisches Browsen und Navigieren durch

Dokumentenkollektionen

• Hyperlinking von Treffern mit externen

Wissensressourcen

Abdeckungsbreite (Okt. 2005)

• Knoten > 50.000

• Elternbeziehungen > 120.000

• Vorfahrbeziehungen > 1.250.000

• Geographische Entitäten > 24.000

• Effiziente Indexierungs- und Anfragetechniken auch für sehr

umfangreiche Textmengen

• Zeitperioden: 5280

• Sonst. Entitäten > 15.000

• Entitätenklassen: 2122

• Themengebiete: 2255

LUDWIG-MAXIMILIANS-UNIVERSITÄTMÜNCHEN

CENTRUM FÜR INFORMATIONS-

UND SPRACHVERARBEITUNG CIS

Linguistic Analysis on Large Corpora

Clemens Marschner (2006)

Unterstützung der Analyse sehr großer Korpora für das Erstellen von Lokalen Grammatiken, Lexika für Informationsextraktion und andere linguistische Anwendungen.

Verwenden von Information Retrieval-Methoden für die Entwick-lung lokaler Grammatiken.

Fragestellungen:

• Algorithmen und Datenstrukturen für die Analyse sehr großer Korpora • Aggregation von Information über den Kontext von Suchergebnissen• Formalismus für die Anfragespra- che für Musterer- kennung und Aggregation• Abspeichern von Zwischenergebnis- sen direkt im Index• Query-Optimierung und-Caching, Generieren von Ausführungs- plänen• Optimieren von Pattern Matching-Methoden auf morpho-syntak- tisch angereicherten Texten• Tool-Unterstützung bei der Fehleranalyse und der Korrektur von Grammatiken im Entwicklungsprozess

LUDWIG-MAXIMILIANS-UNIVERSITÄTMÜNCHEN

CENTRUM FÜR INFORMATIONS-

UND SPRACHVERARBEITUNG CIS

Lokale Grammatiken

Die computerlinguistische Analyse in Form von

“Lokalen Grammatiken” versucht alle relevanten

Subpfade von natürlich-sprachlichen Sätzen zu

erkennen.

Abb. 1: Komplexe Zeitformen im Englischen

Abb. 2: Erkennung von Personennamen

Abb. 3: Erkennung von englischen Datumsangaben

LUDWIG-MAXIMILIANS-UNIVERSITÄTMÜNCHEN

CENTRUM FÜR INFORMATIONS-

UND SPRACHVERARBEITUNG CIS

“Don’t forget, there was the hope it would pass for a natural death “, Pauling reminded him.

Abb. 1: Komplexe Zeitformen im Englischen

Abb. 2: Erkennung von Personennamen

Abb. 3: Erkennung von englischen Datumsangaben

“Don’t get yourself killed for something that doesn’t concern you “.

“I’d give anything if I could have found a girl like you “.

“I’d just turned on the ignition when there was a big flash and I was lying on the driveway “, he said.

“It’s getting so chilly we’ve lighted a fire , and we’re going to tell a round robin story -- a nice, scary one.

“We’ll let him do a lot of running this week, but I don’t know if he’ll be able to play“.

“But when I arrived and recognised a number of notorious characters I had thrown into the detective bureau basement half a dozen times , I knew I had been framed, and withdrew almost at once “.

“I wouldn’t even be surprised“ , she said unhappily,“ if Myra tried to leave her with us forever “.

“I have these appointments in town for Sat-urday , and I’ll probably spend Sunday with Dolly or the Thaxters “.

“If the day should ever come that foreign in-vaders swarm ashore along the Gulf Coast“, the account reads ,“ they can count on heavy opposition from a group of commando-trained telephone employees -- all girls .

Had it been bestowed while the Secretary General of the United Nations was living, un-questionably he would have been greatly en-couraged in pursuing a difficult and, in many ways, thankless task.

A second son, Luke, was born in 1976.

Alex was born in April 2003.

Aleksandr Bovin was born on 9 August 1930.

Benjamin John Pimlott was born on 4 July 1945.

Iglesias was born Aug. 31, 1889.

Winfield was born May 22, 1941.

Desdemona Smyth was born to Katya last October.

Colonel Milosevic was born in 1956 in Belgrade.

Robert Clodius was born on March 10, 1921.

Alec Zino, ornithologist, was born February 9 1916.

Alvaro del Portillo was born on March 11, 1914.

Benjamin John Pimlott was born on 4 July 1945.

Alvaro del Portillo was born in Madrid.

Physicist Isaac Newton was born in England.

Sara Elena Garcia-Peralta, academic, was born in 1947.

Anthony Pryer Denis William Stevens, musicologist and

performer, was born March 2 1922.

Joseph-Pierre-Albert Sevigny was born in 1917.

Margaret (Meg) Stacey, sociologist, was born in 1922.

Alfred Louis “Alf” Valentine, cricketer, was born 1930.

Mother Teresa was born in Albania.

Georges Lemaitre was born in nearby Charleroi.

His wife, Vittoria DiNino, was born in Trapani.

Lewis Carroll (C.L. Dodgson) was born in Daresbury.

Nicola Di Bari was born as Michele Scommegna.

Groucho was born in 1890 as Julius Marx.

Damian Williams was born to Jamaican parents.

Konkordanzen Lokaler Grammatiken

Had we taken a lien on a state park?

LUDWIG-MAXIMILIANS-UNIVERSITÄTMÜNCHEN

CENTRUM FÜR INFORMATIONS-

UND SPRACHVERARBEITUNG CIS Prädikatgesteuerte Grammatik (PDG)

Jörg Schuster (2006)

Überblick

• Stark beeinflusst durch Ideen von F. Guenthner, I. Mel’čuk und M. Gross

• Beschreibt eine Sprache als Relation L zwischen einer Menge von Texten

(Äußerungen) T und einer Menge von Bedeutungen

• Form der Regeln einer PDG (vereinfacht):

• Beispiel für PDG-Regel (vereinfacht):

Warum PDG?

• PDG funktioniert wirklich.

• Relationscharakter der Sprache: PDG beschreibt eine Sprache als

Relation zwischen einer Menge von Texten und einer Menge von

Bedeutungen.

• Ambiguität und Polymorphie: PDG behandelt Ambiguität und Poly-

morphie adäquat.

• Prädikatgesteuertheit der Sprache: Jede Anwendung einer PDG-Regel

wird durch ein Prädikat getriggert.

• Nichtmodularität der Sprache: In einer PDG werden syntaktische und

semantische Struktur gleichzeitig berechnet.

• Interaktion von Prädikaten: PDG behandelt die Interaktion von Prädika-

ten adäquat.

Was ist eine Sprache?

LUDWIG-MAXIMILIANS-UNIVERSITÄTMÜNCHEN

CENTRUM FÜR INFORMATIONS- UND SPRACHVERARBEITUNG CIS™

• Lokative Sätze drücken räumliche Relationen oder Bewegungen aus

• ein Satz besteht aus Prädikat und Argumenten: eines der Argumente muss dabei auf einen Ort referieren

• Prädikate werden durch verschiedene Wortarten …

- Verb: Er wohnt Hauptstrasse 14; Das Schiff nähert sich der Insel

- Nomen: Max unternimmt eine Reise nach Prag (= Max reist nach Prag)

- Präpositionen: München liegt in Bayern

- Adjektive/Adverbien: Windach liegt 1/2 Autostunde von München entfernt

• … und durch verschiedene Phrasentypen realisiert

- Satz

- Nominalphrase, Adjektiv-/ Adverbialphrase: im französischen Departement Dordogne, der in München ansässige Schriftsteller

- Nominalkompositum: Isarmündung, Taunusbewohner

• Realisierung der Argumente (Ortsnamen)

- Lexikon kodiert grammatische Eigenschaften (Genus, Flexion, usw.)

… Variation: Waidhofen an der Thaya = Waidhofen a.d. Thaya

… z.T. auch Transliteration (Übersetzung): Aachen = Aix-la-Chapelle

… sowie Ableitungen: Madrid → Madrider, Madrileño, Madrilene

… und weist alle Ortsnamen einer Klasse zu (z.B. Stadt, Land, Gewässer)

- lokale Grammatiken beschreiben Phrasen, in die Ortsnamen eingebettet sind

… und die Kombination mit Klassenbezeichnern: in der Stadt München

Lokative Sätze Lokale Grammatiken und Anwendung im Information Retrieval

Sebastian Nagel (2006)

• Anwendungen:

- Entitätenerkennung (Named Entity Recognition): „gefährliche“, ambige Ortsnamen sind im Kontext eindeutig; idealer Kontext ist eine Prädikat-Argument-Struktur

- Extraktion ontologischer Relationen

Abb. 1: Konkordanz: alle Sätze sind Realisationen des Prädikats ‚Fluss A fließt in Gewässer B‘

Abb. 2: Erkennung von Ortsnamen im Text (Named Entity Recognition)

LUDWIG-MAXIMILIANS-UNIVERSITÄTMÜNCHEN

CENTRUM FÜR INFORMATIONS-

UND SPRACHVERARBEITUNG CIS

Varecom - ein Spin-off des CIS im Bereich E-Commerce

Varecom schafft Abhilfe für fol-

gendes Problem:

Wer schon einmal ein Produkt oder

eine Dienstleistung über das Inter-

net gesucht hat, weiß, dass es viel

ausmacht, wo und mit welchen Be-

griffen man sucht. Soll man nun

„Brautkleid“ schreiben, „Hoch-

zeitskleid“ oder doch lieber „Hoch-

zeitsmode“? Alle drei liefern bei

gängigen Suchanbietern ganz un-

terschiedliche oder sogar überhaupt

keine Resultate.

Übrigens:

Bis zu 45% der Suchanfragen bei

Gelben-Seiten-Anbietern liefern

überhaupt keinen Treffer.

Varecom katalogisiert alle Begriffe,

die im E-Commerce eine Rolle spie-

len, darunter: Produkte, Marken,

Dienste, Berufsnamen, Händler,

Produkteigenschaften, Modelle.

Durch einen neuartigen Ansatz, der

morphologische Methoden durch

Assoziations- und Distributions-

maße auf besonders vorverarbeite-

ten Korpora ergänzt, ist es möglich,

Millionen von Begriffen präzise zu

erfassen.

Die Herausforderung Die Methode

Wie man „Lufthansa“ in

Suchanfragen geschrieben

findet:

Beispiel

luftansa

lufthanza

luthansa

lufhansa

lufthanse

luft hansa

lufthanser

luftgansa

lufthasa

lufthasa

lufthasa

luftthansa

lufttansa

lusthansa

luftahansa

lifthansa

lufthunsa

Anwendungen

• Verbesserung der Suche auf Branchenbüchern, Lokaler Suche, Websuche, Shopping- und b2b-Portalen

• Benutzerfreundlichere Bedie- nung von Logistik- und Beschaf- fungssoftware

• Präzisere Marktbeobachtung

Ein Auszug aus über

43.000 Schmuckbegriffen:

schmuckringekettengoldsilberedelsteineohrringesilberschmuckuhrentrauringediamantengoldschmuckperlenplatingoldschmiedeohrschmuckbrillantenjuwelenjuweliereheringearmbändercollieranhänger

halskettenarmreifenrubinarmreifgravurencreolenedelsteingoldkettendiamantgoldschmiedsaphirhalsschmuckdesignschmuckplatinschmuckzuchtperlenweissgoldpartnerringeperlenkettenbrilliantenweißgoldzirkoniabroschesilberketten

goldkettegravureheringpiercingschmuckherrenringeturmalinkristallesiegelringearmbanduhrensilberkettesilberschmiedeintimschmuckedelstahltitanschmuckohrhängersilberschmiedspannringsilberringverlobungsringsilberanhängergoldarmbandgranatschmuckbrillant

aquamarinantikschmuckfußkettchenkettenanhängermännerschmuckfingerringgoldschmiedemeisterkinderschmuckschmuckstückeperlenkettebroschenunikatschmucktürkisindianerschmuckschmuckgestaltungamulettesteinschmucksilberringearmschmuckmondsteingoldringebergkristallschmuckwaren

halbedelsteinegelbgoldhalsketteherrenschmuckjunghanssmaragdohrringjuwelieredesignerschmuckschmuckdesignschmuckversand

goldanhängertopaskunsthandwerkamethystdiamantringeedelstahlschmuckarmbandohrsteckerfreundschaftsringeverlobungsringemanschettenknöpfe

Varecom.deRindermarkt 780133 MünchenTel. (089) 23 70 84 95Email: [email protected]


Recommended