Date post: | 05-Apr-2015 |
Category: |
Documents |
Upload: | berthold-stoetzel |
View: | 107 times |
Download: | 4 times |
The Minerva ProjectThe Minerva ProjectDatabase Selection Database Selection
in the Context of P2P Searchin the Context of P2P Search
Christian Zimmer, Matthias Bender,
Sebastian Michel, Gerhard Weikum
Max-Planck-Institut für Informatik
Saarbrücken
11. GI-Fachtagung für Datenbanksysteme in Business, Technologie und Web
2.- 4.März 2005, Karlsruhe
The Minerva Project: Database Selection in the Context of P2P SearchChristian Zimmer, Max-Planck-Institut für Informatik
2
MotivationMotivation
MotivationMotivation Überblick Grundlagen Systemarchitektur Strategien Experimente FazitÜberblick Grundlagen Systemarchitektur Strategien Experimente Fazit
Diese Suchmaschinenkennt jeder!
Reicht uns das wirklich???
Wie wäre es miteiner verteilten
P2P-Suchmaschine??
The Minerva Project: Database Selection in the Context of P2P SearchChristian Zimmer, Max-Planck-Institut für Informatik
3
MotivationMotivation
MotivationMotivation Überblick Grundlagen Systemarchitektur Strategien Experimente FazitÜberblick Grundlagen Systemarchitektur Strategien Experimente Fazit
Jeder Rechner arbeitetals Suchmaschineauf seinen Daten!
Warum nur eine Instanz anfragen, wenn man
Tausende anfragen könnte?Aber warum Tausende Instanzen
anfragen, wenn es schon ausreicht, nur die besten zu fragen??
Dies ist keine Meta-Suchmaschine!
The Minerva Project: Database Selection in the Context of P2P SearchChristian Zimmer, Max-Planck-Institut für Informatik
4
Überblick über den VortragÜberblick über den Vortrag Motivation Überblick Grundlagen
Peer-to-Peer
Systemarchitektur von Minerva Strategien zur Peerselektion Experimente
Aufbau Ergebnisse
Schlussfolgerungen & Ausblick
Im AnschlussIm Anschluss:: Fragen
Motivation Motivation ÜberblickÜberblick Grundlagen Systemarchitektur Strategien Experimente FazitGrundlagen Systemarchitektur Strategien Experimente Fazit
The Minerva Project: Database Selection in the Context of P2P SearchChristian Zimmer, Max-Planck-Institut für Informatik
5
Grundlagen – Peer-to-Peer Systeme (1)Grundlagen – Peer-to-Peer Systeme (1) Begriff: Dezentralisierte, selbstorganisierende, stark dynamische lose
Kopplung von vielen unabhängigen Rechnern zu einem gemeinsamen Rechnersystem
Wichtigsten Vorteile Hohe Skalierbarkeit Lastbalancierung Keine einzelne Fehlerpunkte
Bekannte Probleme Hohe Dynamik Vertraulichkeit der Daten Anreizproblematik
Motivation ÜberblickMotivation Überblick Grundlagen Grundlagen Systemarchitektur Strategien Experimente FazitSystemarchitektur Strategien Experimente Fazit
Peer-to-PeerNetzwerk
The Minerva Project: Database Selection in the Context of P2P SearchChristian Zimmer, Max-Planck-Institut für Informatik
6
Grundlagen – Peer-to-Peer Systeme (2)Grundlagen – Peer-to-Peer Systeme (2) Fundamentale Problemstellung: effizientes Auffinden von Knoten
(Peers) in einer verteilten P2P-Umgebung
Verschiedene ArchitekturenVerschiedene Architekturen
Unstrukturierte P2P-Systeme (Gnutella u.a.) Nachrichten werden an die Nachbarknoten rekursiv weitergeleitet Nachteil unnötiger Nachrichten bzw. nicht alle relevanten Knoten werden
notwendigerweise erreicht
Strukturierte P2P-Systeme (CHORD, CAN u.a.) Bauen auf verteilten Hashtabellen (DHTs) auf Ordnen jedem Schlüssel einen Peer auf eine verteilte Art zu Einzige Methode: lookup() in O(log n) Schritten
Wir benutzen CHORD als P2P Routing NetzwerkWir benutzen CHORD als P2P Routing Netzwerk
Motivation ÜberblickMotivation Überblick Grundlagen Grundlagen Systemarchitektur Strategien Experimente FazitSystemarchitektur Strategien Experimente Fazit
? ?? ?
The Minerva Project: Database Selection in the Context of P2P SearchChristian Zimmer, Max-Planck-Institut für Informatik
7
SystemarchitekturSystemarchitekturWie wird es nicht funktionieren?
P2P Suchmaschine ist keine File-Sharing Software mit Suche nach Dateinamen – wir wollen Multi-Keyword-Suche und Ergebnis-Rangfolgen!
Ein zentrales Verzeichnis können wir uns nicht erlauben Anfrage-Flooding ist absolut ineffizient Verteiltes Indizieren aller Dokumente ist viel zu aufwändig
Motivation Überblick GrundlagenMotivation Überblick Grundlagen SystemarchitekturSystemarchitektur Strategien Experimente FazitStrategien Experimente Fazit
So einfach istP2P-Suche nicht!
The Minerva Project: Database Selection in the Context of P2P SearchChristian Zimmer, Max-Planck-Institut für Informatik
8
Systemarchitektur von MINERVA (1)Systemarchitektur von MINERVA (1)Wichtigsten EigenschaftenWichtigsten Eigenschaften
Konzeptionell zentrales, aber physisch verteiltes Verzeichnis.
Jeder Peer veröffentlicht Meta-Informationen (Posts) zu jedem Term im lokalen Verzeichnis.
Für jeden Term ein verantwortlicher Peer, welcher Peerliste aller bekannten Posts zum Term verwaltet.
CHORD für Zuordnung zwischen Term und Peer zuständig; somit jeder Peer für disjunkte Teilmenge aller Terme zuständig.
Meta-Informationen im globalen Verzeichnis um Anfragen zu geeigneten Peers zu schicken
Motivation Überblick GrundlagenMotivation Überblick Grundlagen SystemarchitekturSystemarchitektur Strategien Experimente FazitStrategien Experimente Fazit
P4
Posts
Peer
lokalerIndex
P1
P3
P2
The Minerva Project: Database Selection in the Context of P2P SearchChristian Zimmer, Max-Planck-Institut für Informatik
9
Systemarchitektur von MINERVA (2)Systemarchitektur von MINERVA (2)
Motivation Überblick GrundlagenMotivation Überblick Grundlagen SystemarchitekturSystemarchitektur Strategien Experimente FazitStrategien Experimente Fazit
a: P1 P6 P4
b: P5 P3 P1 P6 ...
Schritt 0:Veröffentlichen von
pro-termZusammenfassungen
der lokalen Indizes
Verteiltes VerzeichnisTerm Peerliste
P1
P5
P6 P4
P2
P3
Schritt 2:Abrufen und
Zusammenführen der lokalen Ergebnisse
der Peers
P4
P5
P1
P2
P3
P6
Schritt 1:Abrufen von Peerlisten
für jeden Term der Query
Verteiltes VerzeichnisTerm Peerliste
P1
P5
P6
P2
P3
P4
AnfrageVerarbeitung
The Minerva Project: Database Selection in the Context of P2P SearchChristian Zimmer, Max-Planck-Institut für Informatik
10
Strategien zur PeerselektionStrategien zur Peerselektion Ziel: Das Finden der Peers mit den besten Resultaten zu einer
gegebenen Anfrage.
Vorgehensweise in 2 SchrittenVorgehensweise in 2 Schritten
Identifizierung möglicher Kandidaten Durch Abfragen des globalen Verzeichnisses
Ermittlung der vielversprechendsten Kandidaten Durch Berechnung eines Gütemaßes für jeden möglichen Kandidaten Mit den Peerlisten müssen Statistiken zu den einzelnen
Peers an den anfragenden Peer verschickt werden
Mögliche Erweiterungen Kostenbetrachtungen im Gütemaß Unterschiedliche Gewichtung der Anfrageterme
Motivation Überblick Grundlagen SystemarchitekturMotivation Überblick Grundlagen Systemarchitektur StrategienStrategien Experimente FazitExperimente Fazit
The Minerva Project: Database Selection in the Context of P2P SearchChristian Zimmer, Max-Planck-Institut für Informatik
11
Peerselektion – StatistikenPeerselektion – Statistiken
Motivation Überblick Grundlagen SystemarchitekturMotivation Überblick Grundlagen Systemarchitektur StrategienStrategien Experimente FazitExperimente Fazit
Peer 1
D1
D3
D5
Peer 2
D2
D3
D4
Peer 3
D2
D6
32 2 0
Dokumentenhäufigkeitinnerhalb eines Peers
cdf
11 1 2
Max. Termhäufigkeitinnerhalb eines Peers
ctfmax
Zahl derDokumentepro Peer |C|
Zahl derTerme
pro Peer |V|
2 3
33 3 2
Peerhäufigkeit für einen Termcf
The Minerva Project: Database Selection in the Context of P2P SearchChristian Zimmer, Max-Planck-Institut für Informatik
12
Verschiedene StrategienVerschiedene Strategiencdf - ctf cdf - ctf maxmax – Ansatz – Ansatz
Einfacher ad-hoc Ansatz aus cdf und ctf max
Berücksichtigt nur lokale Statistiken
CORI – AnsatzCORI – Ansatz
Kombiniert kollektionsspezifische Statistiken mit globalen Statistiken (cf)
Bei beiden Ansätzen:
Motivation Überblick Grundlagen SystemarchitekturMotivation Überblick Grundlagen Systemarchitektur StrategienStrategien Experimente FazitExperimente Fazit
Qt
tii ss ,
The Minerva Project: Database Selection in the Context of P2P SearchChristian Zimmer, Max-Planck-Institut für Informatik
13
Weitere AnsätzeWeitere AnsätzeGlOSS – AnsatzGlOSS – Ansatz
ebenfalls kollektionsspezifische Statistiken und globale Statistiken kombiniert
Ansätze basierend auf statistischen SprachmodellenAnsätze basierend auf statistischen Sprachmodellen
So genannte Language Models (LM) Basieren auf statistischen Modellen und Wahrscheinlichkeiten Wir benutzen zwei verschiedene LM:
Language Model nach Callan Language Model nach Xu & Croft
Statistiken werden allerdings nur über die Statistiken der Peers in den Peerlisten berechnet – nicht über alle Peers im System
Motivation Überblick Grundlagen SystemarchitekturMotivation Überblick Grundlagen Systemarchitektur StrategienStrategien Experimente FazitExperimente Fazit
The Minerva Project: Database Selection in the Context of P2P SearchChristian Zimmer, Max-Planck-Institut für Informatik
14
Experimente – AufbauExperimente – Aufbau
Motivation Überblick Grundlagen Systemarchitektur Strategien Motivation Überblick Grundlagen Systemarchitektur Strategien ExperimenteExperimente FazitFazit
AnfrageresultatPeer 1
AnfrageresultatPeer 2
AnfrageresultatPeer n
Strategie XPeer Reihenfolge
Peer 2
Peer 1
Peer 1
Peer 2
Strategie YPeer Reihenfolge
Schritt 1 Berechne
Distanzmaß
IdealesReferenzresultat
IdealePeer Reihenfolge
Peer 1
Peer 2
Schritt 2 Ordne nach Distanzmaß
Schritt 3 DistanzmaßBerechnung
10 thematisch fokussierte Kollektionen, eine Referenz-Kollektion10 Anfragen mit 2 bis 5 Termen pro Anfrage, z.B. George Bush Iraq
The Minerva Project: Database Selection in the Context of P2P SearchChristian Zimmer, Max-Planck-Institut für Informatik
15
Experimente – Distanzmaß BeispieleExperimente – Distanzmaß Beispiele
Motivation Überblick Grundlagen Systemarchitektur Strategien Motivation Überblick Grundlagen Systemarchitektur Strategien ExperimenteExperimente FazitFazit
1
3
4
2
Pos
ReferenzReihenfolge
1
5
6
Distanz
Strategie 1Reihenfolge
2
4
Distanz
Strategie 2Reihenfolge
2
8
Distanz
Strategie 3Reihenfolge
2
Mindestlänge / Vergleichslänge 3
2
2
2
0
4
0
2
3
3
The Minerva Project: Database Selection in the Context of P2P SearchChristian Zimmer, Max-Planck-Institut für Informatik
16
Experimente – Resultate (1)Experimente – Resultate (1)
Durchschnittliche DistanzenDurchschnittliche Distanzen
20,2
17,8 17,816,6
21,4
22,2 22,0
0
5
10
15
20
25
cdf-ctf(0.0)
cdf-ctf(0.6)
cdf-ctf(1.0)
CORI GlOSS LM Callan LMXu&Croft
Motivation Überblick Grundlagen Systemarchitektur Strategien Motivation Überblick Grundlagen Systemarchitektur Strategien ExperimenteExperimente FazitFazit
The Minerva Project: Database Selection in the Context of P2P SearchChristian Zimmer, Max-Planck-Institut für Informatik
17
Experimente – Resultate (2)Experimente – Resultate (2)
Motivation Überblick Grundlagen Systemarchitektur Strategien Motivation Überblick Grundlagen Systemarchitektur Strategien ExperimenteExperimente FazitFazit
0
5
10
15
20
25
30
35
1 2 3 4 5 6 7 8 9 10
Zahl angefragter Peers
Ausbeute in Anzahl relevanter DokumenteAusbeute in Anzahl relevanter Dokumente
The Minerva Project: Database Selection in the Context of P2P SearchChristian Zimmer, Max-Planck-Institut für Informatik
18
Experimente – Resultate (2)Experimente – Resultate (2)
Motivation Überblick Grundlagen Systemarchitektur Strategien Motivation Überblick Grundlagen Systemarchitektur Strategien ExperimenteExperimente FazitFazit
0,0010
0,0015
0,0020
0,0025
0,0030
0,0035
0,0040
0,0045
0,0050
1 2 3 4 5 6 7 8 9 10
Zahl angefragter Peers
Verhältnis relevante Dokumente / AusführungszeitVerhältnis relevante Dokumente / Ausführungszeit
The Minerva Project: Database Selection in the Context of P2P SearchChristian Zimmer, Max-Planck-Institut für Informatik
19
Schlussfolgerungen und AusblickSchlussfolgerungen und AusblickZusammenfassungZusammenfassung Minerva ist eine Peer-to-Peer Suchmaschine, die skalierbar und deren
Systemarchitektur erweiterbar ist. Experimente mit verschiedenen Peerselektions-Strategien zeigen
unterschiedliche Ergebnisse, aber v.a. dass es reicht, nur wenige Peers anfragen zu müssen.
Zukünftige ArbeitZukünftige Arbeit Welche Strategien lassen sich beim Zusammenführen (Result
Merging) der Ergebnislisten anwenden (zur Zeit nur ein einfacher Ansatz basierend auf Termhäufigkeiten der lokalen Kollektionen)
Lassen sich Overlap zwischen einzelnen Kollektionen bereits bei der Peerselektion ausnutzen.
Können benutzerspezifische Eigenschaften (Bookmarks) zur Peerselektion benutzt werden
Motivation Überblick Grundlagen Systemarchitektur Strategien ExperimenteMotivation Überblick Grundlagen Systemarchitektur Strategien Experimente FazitFazit
The Minerva Project: Database Selection in the Context of P2P SearchChristian Zimmer, Max-Planck-Institut für Informatik
20
Screenshot der Prototypen-GUIScreenshot der Prototypen-GUI
Motivation Überblick Grundlagen Systemarchitektur Strategien ExperimenteMotivation Überblick Grundlagen Systemarchitektur Strategien Experimente FazitFazit
Vielen Dank für die AufmerksamkeitVielen Dank für die Aufmerksamkeit
Fragen?Fragen?
ReservefolienReservefolien
Das Distanzmaß
Information Retrieval
cdf-ctfmax – Ansatz
CORI – Ansatz
Experimente Setup
Performanz Resultate
The Minerva Project: Database Selection in the Context of P2P SearchChristian Zimmer, Max-Planck-Institut für Informatik
23
Experimente - DistanzmaßExperimente - Distanzmaß Ziel: Vergleich der Anfrageergebnisse der einzelnen Peers mit dem
Referenzanfrageergebnis und Vergleich der Peer-Reihenfolgen der einzelnen Strategien mit der Referenz-Peer-Reihenfolge.
Bekannte Metriken: Spearman‘s Footrule oder Kendall‘s Tau Metrik vergleichen zwei Rangfolgen 1 und 2 mit gleichen Definitionsmengen (: D [k] mit |D|=k und [k]={1,…,k}).
Problem: In beiden Fällen haben wir unvollständige Rangfolgen und vergleichen möglicherweise unterschiedlich lange Rangfolgen (2) mit einer Referenzrangfolge (1)
Unser Ansatz des DistanzmaßesUnser Ansatz des Distanzmaßes
Gegeben: 1 mit D1 und 2 mit D2
Summierung nur über D2
Erweiterung von 1 notwendig (1(i)=|D 1| für i D1)
Unterschiedliche Länge von 2 wird ausgeglichen durch Erweiterung auf Mindestlänge (Einfügen von künstlichen Dokumenten mit Rang | D1|+1)
Unsymmetrisches DistanzmaßMotivation Überblick Grundlagen Systemarchitektur Strategien Motivation Überblick Grundlagen Systemarchitektur Strategien ExperimenteExperimente FazitFazit
2
)()(),( 1221
Di
iiF
The Minerva Project: Database Selection in the Context of P2P SearchChristian Zimmer, Max-Planck-Institut für Informatik
24
Grundlagen – Information RetrievalGrundlagen – Information Retrieval Begriff: IR-Systeme speichern große Mengen an schwach
strukturierten oder unstrukturierten Daten (Text, HTML) und stellen Suchfunktionen zur Verfügung, um relevante Dokumente zu einer Anfrage zu berechnen
Verschiedene KonzepteVerschiedene Konzepte
Invertierte Indexlisten Zu jedem Term wird eine Liste von IDs von Dokumenten gespeichert, die
den Term enthalten.
TF*IDF-Maß Relevanzmaß für ein Dokument bezogen auf einen Suchterm basierend auf
Termhäufigkeiten.
Top-K Anfragen Bei einer Suchanfrage interessieren nur die „besten K Ergebnisse“ bzgl.
eines gewählten Relevanzmaßes.
Motivation ÜberblickMotivation Überblick Grundlagen Grundlagen Systemarchitektur Strategien Experimente FazitSystemarchitektur Strategien Experimente Fazit
The Minerva Project: Database Selection in the Context of P2P SearchChristian Zimmer, Max-Planck-Institut für Informatik
25
cdf – ctf cdf – ctf maxmax Ansatz Ansatz Einfacher ad-hoc Ansatz kombiniert die Dokumenthäufigkeiten
innerhalb einer Kollektion (cdf) mit der maximalen Termhäufigkeit einer Kollektion (ctf max)
Die Werte für die einzelnen Terme werden aufsummiert und die Peer-Reihenfolge ergibt sich als absteigende Folge dieser Summen
Berücksichtigung nur lokaler Statistiken; keine globale Statistiken über alle Peers
Der Parameter zwischen 0 und 1 bestimmt den Einfluss von cdf bzw. ctf max
Ähnlichkeit si des i-ten Peer Pi bzgl. einer Anfrage Q = {t1,...tn}
Motivation Überblick Grundlagen SystemarchitekturMotivation Überblick Grundlagen Systemarchitektur StrategienStrategien Experimente FazitExperimente Fazit
Qt
titii ctfcdfs max,, log1log
The Minerva Project: Database Selection in the Context of P2P SearchChristian Zimmer, Max-Planck-Institut für Informatik
26
CORI – Ansatz (Callan 00)CORI – Ansatz (Callan 00) Dieser Ansatz kombiniert die kollektionsspezifischen Statistiken mit
globalen Statistiken, um die Ähnlichkeiten besser bewerten zu können. Die Werte für die einzelnen Terme werden aufsummiert und die Peer-
Reihenfolge ergibt sich als absteigende Folge dieser Summen:
Die Ähnlichkeiten si,t berechnen sich wie:
Für die beiden Faktoren Ti,t und Ii,t ergibt sich die Berechnung:
mit = 0.4 np (~ maximale Größe des P2P-Netzwerks); cft (~ Länge der Peerliste
für Term t); Vi (Anzahl verschiedener Terme eines Peers); Vavg
Qt
tii Q
ss ,
Motivation Überblick Grundlagen SystemarchitekturMotivation Überblick Grundlagen Systemarchitektur StrategienStrategien Experimente FazitExperimente Fazit
avg
iti
titi
V
Vcdf
cdfT
15050,
,,
tititi ITs ,,, )1(
1log
5,0log
,
np
cf
np
I tti
The Minerva Project: Database Selection in the Context of P2P SearchChristian Zimmer, Max-Planck-Institut für Informatik
27
Experimente - SetupExperimente - SetupKollektionen und AnfragenKollektionen und Anfragen
10 thematisch fokussierte Kollektionen (von 7.500 bis 33.000 Dokumenten) und eine Referenz-Kollektion (als Vereinigung mit Duplikateliminierung) mit 150.000 Dokumenten
10 Anfragen, davon 7 aus den häufigsten Anfragen der Websuch-maschine AltaVista und 3 weitere ausgewählte Anfragen, mit 2 bis 5 Termen pro Anfrage
Ablauf mit 10 Peers (je Peer eine Datenkollektion) und einer gemeinsamen Oracle Datenbank, die alle Kollektionen speichert
Einige Parameter mussten festgelegt werden Anzahl der Peers in der idealen Peer-Reihenfolge Anzahl der Peers in einer Peerliste Anzahl der Dokumente, die die Referenzkollektion liefert Anzahl der Dokumente, die die einzelnen Peers liefern
Motivation Überblick Grundlagen Systemarchitektur Strategien Motivation Überblick Grundlagen Systemarchitektur Strategien ExperimenteExperimente FazitFazit
The Minerva Project: Database Selection in the Context of P2P SearchChristian Zimmer, Max-Planck-Institut für Informatik
28
Experimente - PerformanzExperimente - PerformanzEinige Kennzahlen zur PerformanzEinige Kennzahlen zur Performanz
Ausführungszeit einer Anfrage liegt unter 2 Sekunden, wobei die lokale Anfrageausführung die Peer-Selektion klar dominiert.
Beim Veröffentlichen der Meta-Informationen werden bei einem Peer mit rund 45.000 Termen etwa 650 kB gesendet, wobei wir eine Datenkompression benutzen.
Eine Anfrage einer Peerliste benötigt etwa 150 Bytes, Die Peerliste selbst etwa 1000 Bytes (linear zu ihrer Länge)
Eine komplette Anfrage (2 Anfrageterme) benötigt 100 Bytes und die Rückgabe von 30 Resultaten etwa 2500 Bytes (inklusive aller Statistiken!).
Komplexität der Peerselektion: O(n*l+m*log(m)) Mit n als Zahl der Anfrageterme, l die maximale Länge einer Peerliste und m
als Anzahl der Peers
Motivation Überblick Grundlagen Systemarchitektur Strategien Motivation Überblick Grundlagen Systemarchitektur Strategien ExperimenteExperimente FazitFazit