Date post: | 05-Apr-2015 |
Category: |
Documents |
Upload: | hludwig-eberhardt |
View: | 109 times |
Download: | 4 times |
Diplomarbeitsvortrag
Ontologien, Information Extraction und Information Retrieval – eine Synthese
Marcus Heidmann
in Zusammenarbeit mit
AIFB &
November 2001, Marcus Heidmann AIFB &
Inhaltsübersicht
1. Problemstellung – Informationsextraktion
2. Einordnung der Arbeit in die Semantic Value Chain
3. Informationsextraktion
4. SMES Beispielanalyse
5. Prozess der Datenextraktion
6. Architekturüberblick SmesMiner
7. Demonstration des SmesMiner
8. Evaluation von SMES
9. Analyse der Firmennamenerkennung
10. Vergleich der Erkennungsleistung von Firmennamen
11. Zusammenfassung & Ausblick
November 2001, Marcus Heidmann AIFB &
Problemstellung - Informationsrecherche
Vision des Semantic Web:
Maschinelle Agenten "verstehen" Informationen und unterstützen den Benutzer bei der Recherche
Tim Berners-Lee
Informationsrecherche
zu vieleDokumente
falscheStichwörter
Dokumente stattAntworten
Eigennamen?Personen, Orte, Unternehmen
Manuelle Extraktionvon Informationen
Informationsverknüpfungverschiedener Quellen
November 2001, Marcus Heidmann AIFB &
Semantic Value Chain
Generierung neuen Wissens durch Kombination der Information und Ableitung
der Zusammenhänge
Extraktion von Wissen und Verknüpfung von Inhalten mit den Wissensmodellen
Anwendungen zum Aufsuchen und Finden von Wissen
Werkzeugunterstützte Modellierung von Wissensbereichen und Domänen
Knowledge Generation
Knowledge Collecting
Knowledge Retrieval
Knowledge Modelling
Faktengenerierung durchlinguistische Analyseund Konzeptmapping
SMES &Ontobroker
Browserbasierte interaktive Abfragekomponente
SmesMiner
November 2001, Marcus Heidmann AIFB &
Informationsextraktion
Tokenscanner Wortsegmentierung
SyntaktischeAnalyse
Parsingan die Börse (Präpositional-Phrase)
die Börse (Nominal-Phrase)
Verbgruppen
LexikalischeAnalyse
Part-of-Speech
Flexionsform
Kompositerkennung
Eigennamenerkennung
Nomen (z.B. Aufgabe), Verb, Pronomen etc.
Aufgaben (Genus:weiblich, Numerus:Plural)
z.B. An- und Verkauf
Firmen, Personen, Orte
Token Klasse: Aufgabe (first_capital_word)
DomänenAnalyse
Templatevereinigung
Mustererkennung Der Umsatz beträgt 1,5 Mio €
Anker Zahl & WährungVerb
November 2001, Marcus Heidmann AIFB &
SMES Beispielanalyse
SMES
SMES-Beispielausgaben von Marcus Heidmann.
<?xml version="1.0" standalone="yes"?><SPPC_XML> <PARAGRAPH> <S> <NP TYPE="1"> <W TC="31" POS="1" COMP="smes - beispiel ausgaben“ STEM="ausgabe" INFL="[6 7 8 9]">SMES-Beispielausgaben</W></NP> <W TC="21" POS="23" STEM="von" INFL="[24]">von</W> <NE ID="1" TYPE="5" SUBTYPE="5"> <W TC="22">Marcus</W> <W TC="22">Heidmann</W></NE> </S> </PARAGRAPH></SPPC_XML>
Person ohne Titel
Nomen
November 2001, Marcus Heidmann AIFB &
Prozess der Datenextraktion
DomänenLexikon
Fakten
Ontobroker
Ontologie
www.boersenmagazin.de
HTMLentfernen
ASCII-Dateien
ASCII-Dateien
AnalyseXML-Dateien
AnalyseXML-Dateien
SMES
Konzept und Nomen Extraktion (XQL)Klassifizierung mit Domain Lexikon
November 2001, Marcus Heidmann AIFB &
Architekturübersicht SmesMiner
FaktenBasis
Ontobroker
OntologieSynonym
Wörterbuch
InternetInternet
DokumenteDokumente
Index Server
Servlet
SmesMiner
November 2001, Marcus Heidmann AIFB &
SmesMiner
DEMO
November 2001, Marcus Heidmann AIFB &
Evaluation von SMES
Analysebereich
Anzahl Ausprägungen
Precision Recallkorrekt falsch fehlt
Firmennamen 745 53 196 93% 80%
Personennamen 180 16 22 92% 90%
Ortsbezeichnungen 497 10 81 98% 86%
Gesamt 1422 79 299 95% 83%
Nomen 1456 78 217 95% 88%
Analyse von 100 Testdokumenten durch manuellen Abgleich► "wahre" Precision wahrscheinlich etwas niedriger
Sehr gute Leistung bei der Eigennamenerkennung und der Identifikation von Nomen
Probleme mit englischen Begriffen ► Lexikon aktualisieren
November 2001, Marcus Heidmann AIFB &
Analyse der Firmennamenerkennung
Analysebereich
Anzahl Ausprägungen
Precision Recallkorrekt falsch fehlt
DAX 13 2 15 86% 50%
Dow Jones 8 1 21 88% 30%
Nemax 50 8 15 27 35% 46%
Nemax 50 (Variation) 80 28 2 74% 98%
Euro-Stoxx-50 15 8 27 65% 46%
Falsche Erkennung von zusammengesetzten Firmennamen, wenn ein Teil des Namens ein deutsches Wort ist (z.B. Münchener Rück, MAN)
geringe Abdeckung des internen Firmennamenlexikons
hohe Erkennungsleistung bei Gesellschaftsbezeichnungen durch Referenzauflösung
November 2001, Marcus Heidmann AIFB &
Vergleich Firmennamen- Erkennungsleistung
SMES
FACILE
IsoQuest-1
Kent Ridge Digital Labs
Language Tech. Group
MITRE Corporation
Univ. of Durham
Univ. of Manitoba-1
Univ. of Manitoba-2
Annotator-1Annotator-2
BBN
New York Univ.
Univ. of Sheffield
IsoQuest-2
60%
70%
80%
90%
100%
60% 70% 80% 90% 100%Recall
Pre
cisi
on
Systeme von MUC-7 (Englisch)
November 2001, Marcus Heidmann AIFB &
Zusammenfassung & Ausblick
1. Konzepterkennung auf Dokumentenebene
Unternehmen1
Unternehmen2
Kennzahl
1,25 Mio €
Person
2. Kontexterkennung
3. Zuordnung von Ausprägungen
4. Relationen zur Bildung von Ableitungen
5. Multilinguale Analyse
VIELEN DANK FÜR IHRE AUFMERKSAMKEIT
Marcus Heidmann
Backup Folien
November 2001, Marcus Heidmann AIFB &
FACILE
Kent Ridge Digital Labs
MITRE Corporation
OKI
Univ. of Manitoba-2
SMES
Annotator-1
Annotator-2
BBN
IsoQuest-1Language Tech. Group
New York Univ.
Univ. of Manitoba-1
Univ. of Sheff ield
IsoQuest-2
80%
85%
90%
95%
100%
80% 85% 90% 95% 100%Recall
Pre
cisi
on
Evaluation der Personennamen
Personennamen
November 2001, Marcus Heidmann AIFB &
FACILE
OKI
Univ. of Manitoba-2
SMES
Annotator-1
Annotator-2
BBN
IsoQuest-1
Kent Ridge Digital Labs
Language Tech. Group
MITRE Corporation
New York Univ.
Univ. of Manitoba-1
Univ. of Sheff ield
IsoQuest-2
80%
85%
90%
95%
100%
75% 80% 85% 90% 95% 100%Recall
Pre
cisi
on
Evaluation der Ortsbezeichnungen
Ortsbezeichnungen
November 2001, Marcus Heidmann AIFB &
Eigennamenerkennung
Weighted Finite State Automaton
November 2001, Marcus Heidmann AIFB &
SmesMiner – Anfrageerstellung
November 2001, Marcus Heidmann AIFB &
SmesMiner - Dokumentenansicht
November 2001, Marcus Heidmann AIFB &
SmesMiner – Ontobroker Ansicht
November 2001, Marcus Heidmann AIFB &
SmesMiner – Einschränkung der Ergebnisse
November 2001, Marcus Heidmann AIFB &
SmesMiner – Index Server Ansicht