Post on 11-Feb-2022
transcript
Übersicht: Open Source Webspider Heritrix
Dr. Christian Herta
June 14, 2009
1 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix
Einführung
Heritrix[1] ist ein veralteres englisches Wort für Erbin
Lizenz: LGPL (gnu lesser general public licence)
Ziel: allgemeines Framework zum Spidern mit austauschbareKomponenten
Standard-Komponenten enthalten
2 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix
Recap: Logische Schritte beim Spidern
Wähle eine URI aus der URI-Liste (frontier) aus
Hole (Fetch) die URI
Index
Füge die ausgewählten, extrahierten Link-URIs der URI-Listehinzu
Notiere, dass die URI verarbeitet wurde
3 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix
Recap: Logische Schritte beim Spidern
Wähle eine URI aus der URI-Liste (frontier) aus
Hole (Fetch) die URI
Index
Füge die ausgewählten, extrahierten Link-URIs der URI-Listehinzu
Notiere, dass die URI verarbeitet wurde
3 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix
Recap: Logische Schritte beim Spidern
Wähle eine URI aus der URI-Liste (frontier) aus
Hole (Fetch) die URI
Index
Füge die ausgewählten, extrahierten Link-URIs der URI-Listehinzu
Notiere, dass die URI verarbeitet wurde
3 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix
Recap: Logische Schritte beim Spidern
Wähle eine URI aus der URI-Liste (frontier) aus
Hole (Fetch) die URI
Index
Füge die ausgewählten, extrahierten Link-URIs der URI-Listehinzu
Notiere, dass die URI verarbeitet wurde
3 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix
Recap: Logische Schritte beim Spidern
Wähle eine URI aus der URI-Liste (frontier) aus
Hole (Fetch) die URI
Index
Füge die ausgewählten, extrahierten Link-URIs der URI-Listehinzu
Notiere, dass die URI verarbeitet wurde
3 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix
Recap: Logische Schritte beim Spidern
Wähle eine URI aus der URI-Liste (frontier) aus
Hole (Fetch) die URI
Index
Füge die ausgewählten, extrahierten Link-URIs der URI-Listehinzu
Notiere, dass die URI verarbeitet wurde
3 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix
Wichtigste Bestandteile
Scope: Seeds und Auswahl/Filter-Regeln zu den URIs
Processor Chains: URI- und Dokumentenverarbeitung, unterAnderem für:
Holen der IPs (DNS) und SeitenExtraktion der LinksFiltern und Normalisierung der URIs
Frontier
4 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix
Wichtigste Bestandteile
Scope: Seeds und Auswahl/Filter-Regeln zu den URIs
Processor Chains: URI- und Dokumentenverarbeitung, unterAnderem für:
Holen der IPs (DNS) und SeitenExtraktion der LinksFiltern und Normalisierung der URIs
Frontier
4 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix
Wichtigste Bestandteile
Scope: Seeds und Auswahl/Filter-Regeln zu den URIs
Processor Chains: URI- und Dokumentenverarbeitung, unterAnderem für:
Holen der IPs (DNS) und Seiten
Extraktion der LinksFiltern und Normalisierung der URIs
Frontier
4 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix
Wichtigste Bestandteile
Scope: Seeds und Auswahl/Filter-Regeln zu den URIs
Processor Chains: URI- und Dokumentenverarbeitung, unterAnderem für:
Holen der IPs (DNS) und SeitenExtraktion der Links
Filtern und Normalisierung der URIs
Frontier
4 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix
Wichtigste Bestandteile
Scope: Seeds und Auswahl/Filter-Regeln zu den URIs
Processor Chains: URI- und Dokumentenverarbeitung, unterAnderem für:
Holen der IPs (DNS) und SeitenExtraktion der LinksFiltern und Normalisierung der URIs
Frontier
4 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix
Wichtigste Bestandteile
Scope: Seeds und Auswahl/Filter-Regeln zu den URIs
Processor Chains: URI- und Dokumentenverarbeitung, unterAnderem für:
Holen der IPs (DNS) und SeitenExtraktion der LinksFiltern und Normalisierung der URIs
Frontier
4 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix
Übersicht aus [1]
Web Administrative Console(Web-GUI zur Kon�guration)
CrawlOrder(Kon�gurations-Objekt - externeXML-Repräsentation)
Crawl-Controller: mit Referenzenzu allen Crawl-Komponenten
Scope: Initiale "Füttern" derFrontier und Filterregeln
5 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix
Übersicht aus [1]
Web Administrative Console(Web-GUI zur Kon�guration)
CrawlOrder(Kon�gurations-Objekt - externeXML-Repräsentation)
Crawl-Controller: mit Referenzenzu allen Crawl-Komponenten
Scope: Initiale "Füttern" derFrontier und Filterregeln
5 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix
Übersicht aus [1]
Web Administrative Console(Web-GUI zur Kon�guration)
CrawlOrder(Kon�gurations-Objekt - externeXML-Repräsentation)
Crawl-Controller: mit Referenzenzu allen Crawl-Komponenten
Scope: Initiale "Füttern" derFrontier und Filterregeln
5 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix
Übersicht aus [1]
Web Administrative Console(Web-GUI zur Kon�guration)
CrawlOrder(Kon�gurations-Objekt - externeXML-Repräsentation)
Crawl-Controller: mit Referenzenzu allen Crawl-Komponenten
Scope: Initiale "Füttern" derFrontier und Filterregeln
5 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix
Übersicht aus [1]
Web Administrative Console(Web-GUI zur Kon�guration)
CrawlOrder(Kon�gurations-Objekt - externeXML-Repräsentation)
Crawl-Controller: mit Referenzenzu allen Crawl-Komponenten
Scope: Initiale "Füttern" derFrontier und Filterregeln
5 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix
Threads
Multithreaded
Worker threads heiÿen: ToeThreads
Frage die Frontier nach der nächsten URIReiche die URI durch die Prozessoren durchReporte �nished() der URI
Gröÿenordung der ToeThreads ≈ 102
6 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix
Threads
Multithreaded
Worker threads heiÿen: ToeThreads
Frage die Frontier nach der nächsten URI
Reiche die URI durch die Prozessoren durchReporte �nished() der URI
Gröÿenordung der ToeThreads ≈ 102
6 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix
Threads
Multithreaded
Worker threads heiÿen: ToeThreads
Frage die Frontier nach der nächsten URIReiche die URI durch die Prozessoren durch
Reporte �nished() der URI
Gröÿenordung der ToeThreads ≈ 102
6 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix
Threads
Multithreaded
Worker threads heiÿen: ToeThreads
Frage die Frontier nach der nächsten URIReiche die URI durch die Prozessoren durchReporte �nished() der URI
Gröÿenordung der ToeThreads ≈ 102
6 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix
Threads
Multithreaded
Worker threads heiÿen: ToeThreads
Frage die Frontier nach der nächsten URIReiche die URI durch die Prozessoren durchReporte �nished() der URI
Gröÿenordung der ToeThreads ≈ 102
6 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix
URIs und Server Repräsentation
Server-Cache hält Instanzen von CrawlServer-Instanzen. Diesespeichern Information über
IP Adressenrobots exclusion policies,reponsivenessper-host crawl Statistiken
CrawlURI-Instanz repräsentiert URI
Verhalten des Crawlers wird stark bestimmt durch dieverwendeten und kon�gurierten Prozesssoren
7 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix
Fünf Arten von Prozessor-Typen und Processor Chains
1 Prefetch Chain: vor jeglicherNetzwerk-Aktivität,z.B. Gewährleistung derBerücksichtigung der robots.txt(Fetch,Considering); delay, reorder or veto thesubsequent processing of a CrawlURIs
2 Fetch Chain: Netzwerk-Aktivität
3 Extract Chain: Extraktion von features ofinterest
4 Write Chain: Speichern des Crawl-Ergebniss(z.B. Content und URIs)
5 Postprocess Chain: URI-Filtern zurBerücksichtigung des Scopes, Füttern derFrontier
8 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix
Fünf Arten von Prozessor-Typen und Processor Chains
1 Prefetch Chain: vor jeglicherNetzwerk-Aktivität,z.B. Gewährleistung derBerücksichtigung der robots.txt(Fetch,Considering); delay, reorder or veto thesubsequent processing of a CrawlURIs
2 Fetch Chain: Netzwerk-Aktivität
3 Extract Chain: Extraktion von features ofinterest
4 Write Chain: Speichern des Crawl-Ergebniss(z.B. Content und URIs)
5 Postprocess Chain: URI-Filtern zurBerücksichtigung des Scopes, Füttern derFrontier
8 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix
Fünf Arten von Prozessor-Typen und Processor Chains
1 Prefetch Chain: vor jeglicherNetzwerk-Aktivität,z.B. Gewährleistung derBerücksichtigung der robots.txt(Fetch,Considering); delay, reorder or veto thesubsequent processing of a CrawlURIs
2 Fetch Chain: Netzwerk-Aktivität
3 Extract Chain: Extraktion von features ofinterest
4 Write Chain: Speichern des Crawl-Ergebniss(z.B. Content und URIs)
5 Postprocess Chain: URI-Filtern zurBerücksichtigung des Scopes, Füttern derFrontier
8 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix
Fünf Arten von Prozessor-Typen und Processor Chains
1 Prefetch Chain: vor jeglicherNetzwerk-Aktivität,z.B. Gewährleistung derBerücksichtigung der robots.txt(Fetch,Considering); delay, reorder or veto thesubsequent processing of a CrawlURIs
2 Fetch Chain: Netzwerk-Aktivität
3 Extract Chain: Extraktion von features ofinterest
4 Write Chain: Speichern des Crawl-Ergebniss(z.B. Content und URIs)
5 Postprocess Chain: URI-Filtern zurBerücksichtigung des Scopes, Füttern derFrontier
8 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix
Fünf Arten von Prozessor-Typen und Processor Chains
1 Prefetch Chain: vor jeglicherNetzwerk-Aktivität,z.B. Gewährleistung derBerücksichtigung der robots.txt(Fetch,Considering); delay, reorder or veto thesubsequent processing of a CrawlURIs
2 Fetch Chain: Netzwerk-Aktivität
3 Extract Chain: Extraktion von features ofinterest
4 Write Chain: Speichern des Crawl-Ergebniss(z.B. Content und URIs)
5 Postprocess Chain: URI-Filtern zurBerücksichtigung des Scopes, Füttern derFrontier
8 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix
Fünf Arten von Prozessor-Typen und Processor Chains
1 Prefetch Chain: vor jeglicherNetzwerk-Aktivität,z.B. Gewährleistung derBerücksichtigung der robots.txt(Fetch,Considering); delay, reorder or veto thesubsequent processing of a CrawlURIs
2 Fetch Chain: Netzwerk-Aktivität
3 Extract Chain: Extraktion von features ofinterest
4 Write Chain: Speichern des Crawl-Ergebniss(z.B. Content und URIs)
5 Postprocess Chain: URI-Filtern zurBerücksichtigung des Scopes, Füttern derFrontier
8 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix
Wichtige Prozessor-Module aus [1]
9 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix
Benutzung von Heritrix
mittels Web-GUI in der Vorlesung
10 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix