+ All Categories
Home > Documents > FASTUS Ein System zur Informations- und Faktenextraktion.

FASTUS Ein System zur Informations- und Faktenextraktion.

Date post: 06-Apr-2016
Category:
Upload: ottokar-rann
View: 212 times
Download: 0 times
Share this document with a friend
21
FASTUS Ein System zur Informations- und Faktenextraktion
Transcript
Page 1: FASTUS Ein System zur Informations- und Faktenextraktion.

FASTUS

Ein System zur Informations- und Faktenextraktion

Page 2: FASTUS Ein System zur Informations- und Faktenextraktion.

Entstehung

• Message Understanding conference (MUC)

• Austragung der Wettbewerbe in IE• Untersuchung einer großen Anzahl

von Texten auf bestimmte Inhalte• Anschließende Speicherung in

vordefinierter Templates oder DB• FASTUS ab MUC-3 (1991) dabei

(integriert in TACITUS)

Page 3: FASTUS Ein System zur Informations- und Faktenextraktion.

Texte und Templates Incident: Date - 19 Apr 89Incident: Location El Salvador: San

Salvador (CITY)Incident: Type BombingPerpetrator: Individual ID "urban

guerrillas„Perpetrator: Organization ID "FMLN„Perpetrator: Organization Suspected orAccused by Authorities: "FMLN„Confidence Physical Target:

Description "vehicle" Physical Target: Effect Some Damage:

"vehicle" Human Target: Name "Roberto Garcia

Alvarado" Human Target: Description "attorney

general": "Roberto Garcia Alvarado" "driver" "bodyguards"

Human Target: Effect Death: "Roberto Garcia Alvarado" No Injury: "driver" Injury: "bodyguards"

San Salvador, 19 Apr 89 (ACAN-EFE) -- [TEXT] Salvadoran President-elect Alfredo Cristiani condemned the terrorist killing of Attorney General Roberto Garcia Alvarado and accused the Farabundo Marti National Liberation Front (FMLN) of the crime. ... Garcia Alvarado, 56, was killed when a bomb placed by urban guerrillas on his vehicle exploded as it came to a halt at an intersection in downtown San Salvador. ... Vice President-elect Francisco Merino said that when the attorney general's car stopped at a light on a street in downtown San Salvador, an individual placed a bomb on the roof of the armored vehicle. ... According to the police and Garcia Alvarado's driver, who escaped unscathed, the attorney general was traveling with two bodyguards. One of them was injured.

Page 4: FASTUS Ein System zur Informations- und Faktenextraktion.

NEA-Modell – ausreichend für IE?

• Natürliche Sprachen (Englisch, Deutsch) bis auf wenige Konstrukte mit kontextfreien Grammatiken beschreibbar

• Durch die Verwendung von NEA nur reguläre Ausdrücke erkennbar

• Church (1980): Endliche Automaten sind adäquate Approximationen des Modells der menschlichen Sprache

• Systematische Annäherungen von kontextfreien durch reguläre Grammatiken

Page 5: FASTUS Ein System zur Informations- und Faktenextraktion.

Konzeptionelles Design•Kette von NEA•Jedes Glied für eine Stufe der Satzanalyse verantwortlich•Am Anfang Analyse einfacher sprachlicher Elemente und Konstrukte•Nutzung des linguistischen Wissens und daher anwendungsübergreifend•Später Analyse der gefundenen Sprach-und Satzformen•Suche nach anwendungsinternen Mustern

Page 6: FASTUS Ein System zur Informations- und Faktenextraktion.

Einzelne Stufen der Verarbeitung1. Erkennung von Eigennamen und

zusammengesetzten Wörtern2. Gliederung der Sätze in noun groups, verb

groups und andere Einheiten3. Komplexe noun groups und verb groups4. Untersuchung von Sequenzen gefundener

syntaktischer Formen auf relevante Patterns und Bildung der entsprechenden Strukturen

5. Zusammenführung von Strukturen (Templates), die das gleiche Ereignis oder Objekt beschreiben

Page 7: FASTUS Ein System zur Informations- und Faktenextraktion.

Erkennung von Eigennamen und zusammengesetzten Wörtern

• Auffinden von Namen der Menschen, Ortschaften, Firmennamen, Daten, Zeiten etc.

• Mehrdeutige Eigennamen werden jedoch erst im 2. Schritt erkannt:

XYZ‘s sales• Erkennung von festen

Wortverbindungen und Kollokationen: set up, joint venture, new Taiwan dollars

Page 8: FASTUS Ein System zur Informations- und Faktenextraktion.

Kategorisierung der Nominalformen

Page 9: FASTUS Ein System zur Informations- und Faktenextraktion.

Syntaktische Grundformen• Problem der syntaktischen Mehrdeutigkeit ist „KI-

vollständig“• Noun phrases sind nicht eindeutig erkennbar, dafür

noun groups - Substantive mit beschreibenden Adjektiven und Adverbien (Deskriptoren)

• Verb groups – Verben mit ihren Hilfsverben und charakterisierenden Adverbien

• Präpositionen, Konjunktionen, Relativpronomen, Wörter „ago“ und „that“

• Wenn eine Form ein Teil einer anderen ist, wird die größere berücksichtigt

Page 10: FASTUS Ein System zur Informations- und Faktenextraktion.

Reguläre Grammatiken als Werkzeug für das syntaktische Parsing

• Erkennung von noun groups mit Hilfe einer regulären Grammatik

• Zahlen, numerische Deskriptoren, Partizipien in Adjektivrolle, Komparative und Superlative Adjektivformen, Adjektive in Substantivrolle

• Grammatik für Verbgruppen kennzeichnet sie als Active, Passive, Gerund und Infinitive

• Unbekannte oder nicht zugeordnete Wörter werden im Weiteren ignoriert

Page 11: FASTUS Ein System zur Informations- und Faktenextraktion.

Vollständige syntaktische Gliederung

Page 12: FASTUS Ein System zur Informations- und Faktenextraktion.

Schritt 3: Komplexe syntaktische Formen

• Anfügen von Artikeln: the formerly established joint venture• Phrasen, die Quantität beschreiben: 20000 iron wheels, several hundred cows• Anfügen präpositionaler Formen von „of“

und „for“: production of 20000 iron wheels• Konjunktion der noun groups: a local concern and a Japanese trading

house

Page 13: FASTUS Ein System zur Informations- und Faktenextraktion.

Schritt 3: Bildung von Templates

Während der Schritte 2 und 3 können relevante Ereignisse und Entitäten gefunden werden:

The joint venture, Bridgestone Sports Taiwan Co.,...

Relationship: TIE-UP Entities: -- Joint Venture Company: Bridgestone Sports Taiwan Co. Activity: -- Amount: --

Page 14: FASTUS Ein System zur Informations- und Faktenextraktion.

Schritt 3: Bewältigung der Sprachvielfalt

GM formed a joint venture with Toyota. GM announced it was forming a joint venture with

Toyota. GM signed an agreement forming a joint venture

with Toyota. GM announced it was signing an agreement to form

a joint venture with Toyota.

• Unterschiedliche Ausdrucksformen werden auf standardisierte Normalform gebracht, indem entsprechende komplexe verb groups gefunden und aufgelöst werden

Page 15: FASTUS Ein System zur Informations- und Faktenextraktion.

Schritt 3: Beispiel

Page 16: FASTUS Ein System zur Informations- und Faktenextraktion.

Erkennung von Fakten und Ereignissen

• Spezifizierung durch Patterns• Reguläre Ausdrücke, Erkennung mit NEA• Zustandsübergänge durch Paare von

Anfangswörtern (Terminalsymbolen) und Typen der komplexen Formen ausgelöst:

‚company‘-NounGroup‚‚formed‘-PassiveVerbGroup‚‚bargaining‘-PresentParticipleVerbGroup'

Page 17: FASTUS Ein System zur Informations- und Faktenextraktion.

Erkennung von Fakten und Ereignissen

{Company/ies} {Set-up} {Joint-Venture} with {Company/ies} {Company} {Capitalized} at {Currency}

Matching von syntaktisch gegliedertem Text mit anwendungsinternen Patterns:

Page 18: FASTUS Ein System zur Informations- und Faktenextraktion.

Syntaktische Verfeinerungen

• Patterns ermöglichen genaue Fokussierung auf relevante syntaktische Konstrukte• Vermeidung unnötiger VerarbeitungSubject {Preposition NounGroup}* VerbGroup

Subject Relpro {NounGroup | Other}* VerbGroup {NounGroup | Other}* VerbGroup

Page 19: FASTUS Ein System zur Informations- und Faktenextraktion.

Zusammenführung von Templates• Erste 4 Schritte verarbeiten einen Satz, dieser - ganzen Text• Auffindung und Zusammenfügung sämtlicher Informationen über ein Ereignis• 3 Kriterien für die Entscheidung über die Zusammenschmelzung zweier Entitäten: - interne Struktur der enthaltenen noun groups - Nähe gemäß einer definierten Metrik - Kompatibilität zweier Strukturen

Page 20: FASTUS Ein System zur Informations- und Faktenextraktion.

Zusammensetzen der Teile eines Fakts

Page 21: FASTUS Ein System zur Informations- und Faktenextraktion.

Anwendungen von FASTUS

• Analyse von Wirtschaftsnachrichten (Fusionen, Arbeitgeberverhandlungen)

• Globale politische Nachrichten (Terroranschläge)

• Militärnachrichten• Integration in OCR-Systeme


Recommended