FASTUS
Ein System zur Informations- und Faktenextraktion
Entstehung
• Message Understanding conference (MUC)
• Austragung der Wettbewerbe in IE• Untersuchung einer großen Anzahl
von Texten auf bestimmte Inhalte• Anschließende Speicherung in
vordefinierter Templates oder DB• FASTUS ab MUC-3 (1991) dabei
(integriert in TACITUS)
Texte und Templates Incident: Date - 19 Apr 89Incident: Location El Salvador: San
Salvador (CITY)Incident: Type BombingPerpetrator: Individual ID "urban
guerrillas„Perpetrator: Organization ID "FMLN„Perpetrator: Organization Suspected orAccused by Authorities: "FMLN„Confidence Physical Target:
Description "vehicle" Physical Target: Effect Some Damage:
"vehicle" Human Target: Name "Roberto Garcia
Alvarado" Human Target: Description "attorney
general": "Roberto Garcia Alvarado" "driver" "bodyguards"
Human Target: Effect Death: "Roberto Garcia Alvarado" No Injury: "driver" Injury: "bodyguards"
San Salvador, 19 Apr 89 (ACAN-EFE) -- [TEXT] Salvadoran President-elect Alfredo Cristiani condemned the terrorist killing of Attorney General Roberto Garcia Alvarado and accused the Farabundo Marti National Liberation Front (FMLN) of the crime. ... Garcia Alvarado, 56, was killed when a bomb placed by urban guerrillas on his vehicle exploded as it came to a halt at an intersection in downtown San Salvador. ... Vice President-elect Francisco Merino said that when the attorney general's car stopped at a light on a street in downtown San Salvador, an individual placed a bomb on the roof of the armored vehicle. ... According to the police and Garcia Alvarado's driver, who escaped unscathed, the attorney general was traveling with two bodyguards. One of them was injured.
NEA-Modell – ausreichend für IE?
• Natürliche Sprachen (Englisch, Deutsch) bis auf wenige Konstrukte mit kontextfreien Grammatiken beschreibbar
• Durch die Verwendung von NEA nur reguläre Ausdrücke erkennbar
• Church (1980): Endliche Automaten sind adäquate Approximationen des Modells der menschlichen Sprache
• Systematische Annäherungen von kontextfreien durch reguläre Grammatiken
Konzeptionelles Design•Kette von NEA•Jedes Glied für eine Stufe der Satzanalyse verantwortlich•Am Anfang Analyse einfacher sprachlicher Elemente und Konstrukte•Nutzung des linguistischen Wissens und daher anwendungsübergreifend•Später Analyse der gefundenen Sprach-und Satzformen•Suche nach anwendungsinternen Mustern
Einzelne Stufen der Verarbeitung1. Erkennung von Eigennamen und
zusammengesetzten Wörtern2. Gliederung der Sätze in noun groups, verb
groups und andere Einheiten3. Komplexe noun groups und verb groups4. Untersuchung von Sequenzen gefundener
syntaktischer Formen auf relevante Patterns und Bildung der entsprechenden Strukturen
5. Zusammenführung von Strukturen (Templates), die das gleiche Ereignis oder Objekt beschreiben
Erkennung von Eigennamen und zusammengesetzten Wörtern
• Auffinden von Namen der Menschen, Ortschaften, Firmennamen, Daten, Zeiten etc.
• Mehrdeutige Eigennamen werden jedoch erst im 2. Schritt erkannt:
XYZ‘s sales• Erkennung von festen
Wortverbindungen und Kollokationen: set up, joint venture, new Taiwan dollars
Kategorisierung der Nominalformen
Syntaktische Grundformen• Problem der syntaktischen Mehrdeutigkeit ist „KI-
vollständig“• Noun phrases sind nicht eindeutig erkennbar, dafür
noun groups - Substantive mit beschreibenden Adjektiven und Adverbien (Deskriptoren)
• Verb groups – Verben mit ihren Hilfsverben und charakterisierenden Adverbien
• Präpositionen, Konjunktionen, Relativpronomen, Wörter „ago“ und „that“
• Wenn eine Form ein Teil einer anderen ist, wird die größere berücksichtigt
Reguläre Grammatiken als Werkzeug für das syntaktische Parsing
• Erkennung von noun groups mit Hilfe einer regulären Grammatik
• Zahlen, numerische Deskriptoren, Partizipien in Adjektivrolle, Komparative und Superlative Adjektivformen, Adjektive in Substantivrolle
• Grammatik für Verbgruppen kennzeichnet sie als Active, Passive, Gerund und Infinitive
• Unbekannte oder nicht zugeordnete Wörter werden im Weiteren ignoriert
Vollständige syntaktische Gliederung
Schritt 3: Komplexe syntaktische Formen
• Anfügen von Artikeln: the formerly established joint venture• Phrasen, die Quantität beschreiben: 20000 iron wheels, several hundred cows• Anfügen präpositionaler Formen von „of“
und „for“: production of 20000 iron wheels• Konjunktion der noun groups: a local concern and a Japanese trading
house
Schritt 3: Bildung von Templates
Während der Schritte 2 und 3 können relevante Ereignisse und Entitäten gefunden werden:
The joint venture, Bridgestone Sports Taiwan Co.,...
Relationship: TIE-UP Entities: -- Joint Venture Company: Bridgestone Sports Taiwan Co. Activity: -- Amount: --
Schritt 3: Bewältigung der Sprachvielfalt
GM formed a joint venture with Toyota. GM announced it was forming a joint venture with
Toyota. GM signed an agreement forming a joint venture
with Toyota. GM announced it was signing an agreement to form
a joint venture with Toyota.
• Unterschiedliche Ausdrucksformen werden auf standardisierte Normalform gebracht, indem entsprechende komplexe verb groups gefunden und aufgelöst werden
Schritt 3: Beispiel
Erkennung von Fakten und Ereignissen
• Spezifizierung durch Patterns• Reguläre Ausdrücke, Erkennung mit NEA• Zustandsübergänge durch Paare von
Anfangswörtern (Terminalsymbolen) und Typen der komplexen Formen ausgelöst:
‚company‘-NounGroup‚‚formed‘-PassiveVerbGroup‚‚bargaining‘-PresentParticipleVerbGroup'
Erkennung von Fakten und Ereignissen
{Company/ies} {Set-up} {Joint-Venture} with {Company/ies} {Company} {Capitalized} at {Currency}
Matching von syntaktisch gegliedertem Text mit anwendungsinternen Patterns:
Syntaktische Verfeinerungen
• Patterns ermöglichen genaue Fokussierung auf relevante syntaktische Konstrukte• Vermeidung unnötiger VerarbeitungSubject {Preposition NounGroup}* VerbGroup
Subject Relpro {NounGroup | Other}* VerbGroup {NounGroup | Other}* VerbGroup
Zusammenführung von Templates• Erste 4 Schritte verarbeiten einen Satz, dieser - ganzen Text• Auffindung und Zusammenfügung sämtlicher Informationen über ein Ereignis• 3 Kriterien für die Entscheidung über die Zusammenschmelzung zweier Entitäten: - interne Struktur der enthaltenen noun groups - Nähe gemäß einer definierten Metrik - Kompatibilität zweier Strukturen
Zusammensetzen der Teile eines Fakts
Anwendungen von FASTUS
• Analyse von Wirtschaftsnachrichten (Fusionen, Arbeitgeberverhandlungen)
• Globale politische Nachrichten (Terroranschläge)
• Militärnachrichten• Integration in OCR-Systeme