Date post: | 06-Apr-2016 |
Category: |
Documents |
Upload: | xaver-dusel |
View: | 218 times |
Download: | 1 times |
Ulrike Czeitschner
travel!digitalExploring People and Monuments in Baedeker Guidebooks
(1875 – 1914)
Baedeker
Corpus
DAS BAEDEKER CORPUS
HISTORISCH1875 – 1914
THEMATISCHaußereuropäische
Destinationen
ANNOTIERTE VOLLTEXTE7 Bände = 4.237 Seiten = 1.559.015 Tokens
Strukturannotation in XML/TEI (P5)
LINGUISTISCHE EBENENLemmatisierung, PoS-Tagging
TreeTagger, STTS
SEMANTISCHER FOKUSMenschen und Monumente
SKOS, LOD
TEXTSORTENSPEZIFISCHErstauflagen
deutschsprachiger Reiseführeraus dem Verlagshaus Baedeker
Baedeker
Corpus
Baedeker
Corpus
Baedeker
Corpus
travel!digital1875-1914
DAS BAEDEKER CORPUSERSTAUFLAGEN TOKENS
PALAESTINA UND SYRIEN. Leipzig 1875(7. u. letzte Auflage 1910)
263.731
AEGYPTEN. ERSTER THEIL.UNTER-AEGYPTEN BIS ZUM FAYÛM UND DIE SINAI-HALBINSEL
Leipzig 1877(3. u. letzte Auflage 1894)
243.045
ÄGYPTEN. ZWEITER THEIL.OBER-ÄGYPTEN UND NUBIEN BIS ZUM ZWEITEN KATARAKT
Leipzig 1891 194.692
NORDAMERIKA.DIE VEREINIGTEN STAATEN NEBST EINEM AUSFLUG NACH MEXIKO
Leipzig 1893(2. u. letzte Auflage 1904)
264.134
KONSTANTINOPEL UND DAS WESTLICHE KLEINASIEN. Leipzig 1905(2. u. letzte Auflage 1914)
134.312
DAS MITTELMEER.HAFENPLÄTZE UND SEEWEGE NEBST MADEIRA, DEN KANARISCHEN INSELN, DER KÜSTE MAROKKOS, ALGERIEN UND TUNESIEN
Leipzig 1909(2. u. letzte Auflage 1934)
285.725
INDIEN.CEYLON. VORDERINDIEN. BIRMA. DIE MALAYISCHE HALBINSEL. SIAM. JAVA
Leipzig 1914 173.376
1.559.015
Baedeker
Corpus
ANNOTATION☛ Lemmatisierung, Part-of-Speech-Tagging
- TreeTagger (Universität Stuttgart)- Lemma-Zuordnung: Rückführung der Flexionsformen auf eine
Grundform- Wortarten-Bestimmung: Stuttgart-Tübingen-Tagset, 54-teiliges Tagset für
die Annotation deutscher Texte☛ SKOS (Simple Knowledge Organization System)
- SKOS modelliert webbasierte Repräsentationen kontrollierter Vokabulare- SKOS adaptiert klassische Prinzipien (Äquivalenz-, Hierarchie- und
Assoziationsrelationen)- SKOS basiert auf RDF (Resource Description Framework)- SKOS erlaubt die Publikation, den Austausch und die Mehrfachnutzung
von Begriffssystemen z. B. als Linked Open Data (LOD)
1. Nomina (N) 2. Verben (V) 3. Artikel (ART) 4. Adjektive (ADJ) 5. Pronomina (P) 6. Kardinalzahlen (CARD)
07. Adverbien (ADV)08. Konjunktionen (KO)09. Adpositionen (AP)10. Interjektionen (ITJ)11. Partikeln (PTK)
Baedeker
Corpus
MENSCHEN
Baedeker
Corpus
☛ Oberbegriffe (~ 14 %)
-Volk, Stamm, Bevölkerung, Einwohner …☛ Geographisch orientierte Bezeichnungen (~ 3,5
%)-Europäer, Nordafrikaner, Asiaten, Orientalen …
☛ Ethnisch/nationale Bezeichnungen (~ 36 %)-Engländer, Deutsche, Bengalen, Wedda …
☛ Religiöse Gruppen (~ 11 %)
-Bruderschaft, Pilger, Buddhisten, Juden, Sikhs …☛ Soziale Gruppen (~ 1,5 %)
-Kasten, Klassen, Arbeiter, Sklaven …☛ Beruf, politische und wirtschaftliche Funktion, Lebensstil (~ 33 %)
-Händler, Gouverneure, Bauern, Nomaden …
MONUMENTE
Baedeker
Corpus
☛ Architektur (~ 38 %)- Kapelle, Kirche, Kloster, Mausoleum, Friedhof, Bildungs- und
Wissenschaftseinrichtung, Gesundheits- und Sporteinrichtung, Museum, Sammlung, Palast, Theater, Industriebau, Inneneinrichtung, Verkehrsbau, Ensemble, Park
- sakral (~ 68,9 %), profan (~ 29,5 %)☛ Kunstwerk (~ 13 %)
-Denkmal, Skulptur, Gemälde, anderes Kunstwerk, Sammlung-sakral (~ 29,9 %), profan (~ 7,8 %)
☛ Natur (~ 20 %)☛ Unterkünfte (~ 14,5 %)☛ Aussicht (~ 10 %)☛ Sonstiges (~ 2,3 %)
-Aktivität, Folklore, Inschrift, Shopping, ganze Ortschaft
RDF — RESOURCE DESCRIPTION FRAMEWORK☛ Ressourcen sind Personen, physische Objekte, abstrakte Konzepte …☛ RDF formuliert logische Aussagen über Ressourcen in maschinenlesbarer
Form☛ RDF-Aussagen sind als Triples modelliert: Subjekt-Prädikat-Objekt
- Das Ramesseum ist ein Sakralbau☛ Einzelne Ressourcen können Subjekt u./o. Objekt mehrerer Aussagen sein
- Ramses II. erbaute das Ramesseum- Das Ramesseum befindet sich in Theben- Theben ist Teil des UNESCO-Weltkulturerbes
☛ Jede Ressource erhält einen eindeutigen Uniform Resource Identifier (URI)http://www.oeaw.ac.at/acdh/baedekercorpus/resource/Ramesseum
ist ein
http://www.oeaw.ac.at/acdh/baedekercorpus/resource/Sakralbau☛ Kurz: RDF verknüpft Ressourcen (Subjekte und Objekte) über Eigenschaften
(Prädikate) zu einem semantischen Netzwerk
Baedeker
Corpus
LOD — LINKED OPEN DATA☛ LOD vernetzt Ressourcen mit Hilfe von HTTP-URIs☛ LOD vernetzt Ressourcen aus verschiedenen Datensets um auf
weiterführende und verwandte Informationen zu verweisen☛ LOD verlinkt Daten, nicht Dokumente!☛ Subjekt- und Objekt-URIs einer Aussage können aus verschiedene Quellen
stammen
Baedeker
Corpus
TGNthe Getty Thesaurus ofGeographic Names®
AAT the Art & Architecture
Thesaurus ®
CONAthe Cultural Objects
Name Authority®
VIAF Virtual International Authority File
ULANthe Union List of Artist Names®
Baedeker
Corpus
Ulrike Czeitschner
travel!digitalExploring People and Monuments in Baedeker Guidebooks
(1875 – 1914)
Baedeker
Corpus
Vielen Dank!