Download - Europeana Newpapers LFT Infoday Neudecker

Bessere Suchergebnisse durch

Named Entity Recognition

Historische Zeitungen im digitalen Zeitalter /

I giornali storici nell’era digitale

27.10.2014

EURAC Bozen / Bolzano

Clemens Neudecker, State Library Berlin

@cneudecker

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

2

Was ist eigentlich „Named Entity Recognition“?

• Named Entity Recognition (NER) ist ein Untergebiet der Informationsextraktion (Information Extraction) und wird allgemein als Aufgabe der Computerlinguistik verstanden.

• Es geht dabei um die automatische Extraktion von Wissen bzw. die Klassifikation von Information aus semantisch unstrukturierten Inhalten.

• Bei der NER handelt es sich durchaus noch um ein akademisches Forschungsfeld (vgl. Google/MSR Competition) – praktische Anwendungsbeispiele aus dem Kultur- sowie Digitalisierungsumfeld sind bisher noch die Ausnahme.





Oder: Was ist eigentlich ein „Named Entity“?

• PERSON:

• Personennamen, Familiennamen, aber auch Namen von fiktiven Personen („Albert Einstein“, „Präsident der USA“, „Micky Maus“)

• ORGANISATION:

• Bezeichnungen von Firmen, Regierungs- oder Nicht-Regierungsorganisationen („IBM“, „The Beatles“, „Labour Party“)

• ORT:

• Städte, Provinzen, Länder, Gebiete, usw. („Paris“, „Südtirol“, „Alpen“)

3





NER (I)

4

1. Erkennen von Personennamen, Ortsbezeichnungen, Organisationen im Volltext





NER (II)

5

2. Disambiguieren von Begriffen (Beispiel “Jordan”)

durch Kontextinformationen





NER (III)

6

3. Verlinkung mit Normdaten und Online Datenquellen (Linked Data)





Sprachunterstützung

3 Sprachen:

• Deutsch

• Niederländisch

• Französisch

7





Ansatz

• Machine learning vs. Regelbasierter (rule-based) Ansatz

• Vorteile Machine-learning:

• Keine (quasi) linguistische Expertise notwendig

• Verarbeitung von großen Mengen möglich

• Vorteile Regelbasiert:

• Sehr hohe Genauigkeiten möglich

• Berücksichtigung spezieller Grammatiken

8





Software

• Open Source ML Software entwickelt durch die Stanford

Universität, für das Europeana Newspapers Projekt

erweitert durch die KBNL

• Software steht auf Github zum Herunterladen und

Ausprobieren bereit:

https://github.com/KBNLresearch/europeananp-ner

9









Training

• Trainieren des NER Systems mit Hilfe von manuell

annotierten Korpora

• Veröffentlichung des annotierten Korpus als Open Data

10





Probleme und Herausforderungen

• OCR Fehler reduzieren die Genauigkeit der Erkennung

und verlangsamen die Verarbeitung

• Historische Schreibvarianten für Orts- und Personennamen

• In vielen Fällen sind die historischen Bezeichnungen oder

Schreibvarianten nicht in entsprechenden Normdatenbanken

nachgewiesen

Anpassungen der Software für OCR Problematik

11





Erste Resultate: Niederländisch

12

Personen Orte Organisationen

Precision 0.940 0.950 0.942

Recall 0.588 0.760 0.559

F-measure 0.689 0.838 0.671





Warum überhaupt Named Entity Recognition?

• Beispiel Analyse von Logfiles der National Library of Wales:

9 von 10 Suchanfragen entfallen auf Personen oder Orte

(Quelle: Paul Gooding, Exploring Usage of Digital Newspaper Archives through Web Log

Analysis: A Case Study of Welsh Newspapers Online, presented at DH2014, Lausanne)

13


http://dharchive.org/paper/DH2014/Paper-310.xml






Beispiel für die Präsentation aus Nutzersicht: Digi20

• Digi20 Projekt der BSB

14

http://digi20.digitale-sammlungen.de/






Danke für Ihre Aufmerksamkeit! Grazie per la vostra attenzione! @eurnews

http://www.europeana-newspapers.eu

http://www.theeuropeanlibrary.org/tel4/newspapers

http://www.europeana.eu/

https://twitter.com/eurnews

https://twitter.com/eurnews

http://www.europeana-newspapers.eu/