+ All Categories
Home > Documents > 1 03.02.2004 Internet Applikationen – Search Engines Copyright ©2003, 2004 Christian Donner. Alle...

1 03.02.2004 Internet Applikationen – Search Engines Copyright ©2003, 2004 Christian Donner. Alle...

Date post: 05-Apr-2015
Category:
Upload: porsche-neppl
View: 103 times
Download: 0 times
Share this document with a friend
13
03.02.2004 Internet Applikationen – Search Engines Copyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten. 1 Architektur Moderner Internet Applikationen 22.-24.4.2004 TU Wien/Ausseninstitut Search Engines und Directories DI Christian Donner cd (at) donners.com
Transcript
Page 1: 1 03.02.2004 Internet Applikationen – Search Engines Copyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten. Architektur Moderner Internet Applikationen.

03.02.2004 Internet Applikationen – Search EnginesCopyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten.

1

Architektur Moderner

Internet Applikationen

22.-24.4.2004 TU Wien/Ausseninstitut

Search Engines und Directories

DI Christian Donnercd (at) donners.com

Page 2: 1 03.02.2004 Internet Applikationen – Search Engines Copyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten. Architektur Moderner Internet Applikationen.

03.02.2004 Internet Applikationen – Search EnginesCopyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten.

2

DefinitionDefinition

Suchmaschinen oder, auf Neudeutsch, Search Engines, erfüllen zwei unterschiedliche Aufgaben:

Ermöglichen Surfern das Auffinden Ihrer Seiten im WebErmöglichen Besuchern Ihrer Webseiten das Auffinden bestimmter Informationen

Verwendete Technologie ist ähnlich siehe AltaVista, sowohl ein Produkt als auch ein Webdienst

Es gibt Überschneidungen in der Anwendung z.B. Google kann verwendet werden, um die Suchfunktionen einer Website zu implementieren (siehe www.austria-boston.org)

Page 3: 1 03.02.2004 Internet Applikationen – Search Engines Copyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten. Architektur Moderner Internet Applikationen.

03.02.2004 Internet Applikationen – Search EnginesCopyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten.

3

AgendaAgenda

Glossar

Grundlegende Funktionsweise

Search Engine Spamming

Maßnahmen zur Verbesserung des Rankings

Suchfunktion innerhalb einer Website

Directories

Page 4: 1 03.02.2004 Internet Applikationen – Search Engines Copyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten. Architektur Moderner Internet Applikationen.

03.02.2004 Internet Applikationen – Search EnginesCopyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten.

4

GlossarGlossar

Spider, (Ro)bot, CrawlerSuchmaschinen verwenden diese Agenten, um Websites automatisch zu durchforsten und zu indizieren

Search Index, SuchindexStichwortverzeichnis, das die Suchmaschine verwaltet

META TagHTML Syntax zur Angabe spezieller Zusatzinformationen für eine Webseite, z.B. Keywords oder Description

SEO Search Engine Optimizer, neuer Berufszweig

Page 5: 1 03.02.2004 Internet Applikationen – Search Engines Copyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten. Architektur Moderner Internet Applikationen.

03.02.2004 Internet Applikationen – Search EnginesCopyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten.

5

Grundlegende FunktionsweiseGrundlegende Funktionsweise

Eine Website wird von einem sog. Spider oder Bot indiziertein Prozess, den der Search Engine-Betreiber in regelmäßigen Abständen startet (z.B. monatlich bei Google)Spiders besuchen alle URLs, die bereits indiziert wurden

Ausgelaufene URLs werden gelöschtLinks werden verfolgt (bis zu einer gewissen Tiefe)

Neue Sites werden gefunden, weilEin bestehender Site darauf verweist (<A> ... Anchor link)Der Webmaster die URL bei der Search Engine zur Indizierung angemeldet hat

Textinhalte werden mit unterschiedlicher Gewichtung behandeltUrl, Page Title und Description haben hohes GewichtText von Anchor Links werden ebenfalls speziell behandeltNormaler Text geht ohne Gewichtung einKeywords werden kaum noch indiziertBestimmt nicht-HTML Dateiformate werden auch indiziert (PDF, DOC, PPT, ...)

Page 6: 1 03.02.2004 Internet Applikationen – Search Engines Copyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten. Architektur Moderner Internet Applikationen.

03.02.2004 Internet Applikationen – Search EnginesCopyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten.

6

Grundlegende Funktionsweise (2)Grundlegende Funktionsweise (2)

Vereinfacht gesprochen, zerlegt die Suchmaschine die Textinhalte in Suchbegriffe und legt diese mit der URL in ihrem Datenbestand ab

Intelligente Suchmaschinen beherrschen unterschiedliche Zeichensätze, Sprachen und Locales

Können Wortstämme erkennen und Abwandlungen finden

Oft werden mit dem Trefferwort auch Zeiger in das ursprüngliche Dokument gespeichert, z.B. um es in der Ergebnisanzeige hervorzuheben

Die Algorithmen zur Bewertung der Treffer zur Erzeugung einer Rangordnung werden selten publiziert

Google verrät z.B. nur, daß die Anzahl der externen Links auf eine Seite einfließtDer Google Page Rank wird von Google Toolbar, einem Browser Plugin, angezeigt

Robots.txt – optionale Textdatei enthält Directories, die nicht indiziert werden sollen

Page 7: 1 03.02.2004 Internet Applikationen – Search Engines Copyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten. Architektur Moderner Internet Applikationen.

03.02.2004 Internet Applikationen – Search EnginesCopyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten.

7

Search Engine SpammingSearch Engine Spamming

Ein relativ junges Problem, das sich rasch zu einer Plage für redliche Webmaster entwickelt hat

Soll für die Betreiber viele Hits und damit Anzeigeneinnahmen generieren Dabei werden „unlautere“ Methoden eingesetzt, die die Suchmaschinenbetreiber nicht tolerieren

„Affiliate Programme“CloakingDoorway SeitenRedirectsFrameset-KaskadenVersteckter Text

Die Methoden und auch die Tarnungen werden immer raffinierter

Oft hilft nur, sich selbst dieser Methoden zu bedienen, um die Oberhand zu behalten

Page 8: 1 03.02.2004 Internet Applikationen – Search Engines Copyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten. Architektur Moderner Internet Applikationen.

03.02.2004 Internet Applikationen – Search EnginesCopyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten.

8

Beispiel Spam Beispiel Spam – Suche – Suche „Wien Messe“ auf Google„Wien Messe“ auf Google

Page 9: 1 03.02.2004 Internet Applikationen – Search Engines Copyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten. Architektur Moderner Internet Applikationen.

03.02.2004 Internet Applikationen – Search EnginesCopyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten.

9

Verbesserung des eigenen RankingsVerbesserung des eigenen Rankings

Dynamische URLs sind problematischOft hilft nur eine statische Parallel-Site

Titel und Description-META Tag sinnvoll wählen

Directorynamen sinnvoll wählen (siehe Spamming)

Vermeiden von Flash und anderen HTML-fremden Inhalten

Plazierung von Texten mit Suchbegriffen

Sinnvolle Benennung von Anchor Links (<A>)

Links von anderen Seiten mit gutem Ranking

Listing in einem Directory (Looksmart, DMOZ, etc.)

Page 10: 1 03.02.2004 Internet Applikationen – Search Engines Copyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten. Architektur Moderner Internet Applikationen.

03.02.2004 Internet Applikationen – Search EnginesCopyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten.

10

Suche innerhalb einer WebsiteSuche innerhalb einer Website

Produkt oder ServiceVerwendung eines Produktes wie z.B. Verity, AltaVista, MS Search

Flexibel, aktuell, kosten- und/oder wartungsintensiv Verwendung eines Services wie z.B. Google

Starr, bis zu 1 Monat veraltet, kostengünstig, wartungsfrei

Spider oder dynamische Generierung der IndizesSpider durchsucht die Site autonom über HTTP Protokoll

Findet keine Metadaten, langsamIndizes direkt aus Datenbank oder Dateisystem generiert

Aufwendig, schnell, Metadaten können mitgelesen werdenKorrekte URL muß jeweils mitgeneriert werden, was mitunter nicht trivial ist (z.B. wenn ein Artikel über mehrere Navigationspfade erreichbar ist)

Aktuelle Produkte sind sehr komplex und haben eine Vielzahl von Features mit Namen wie Federated Search, Parametric Search etc. Dieses Thema alleine könnte 3 Vortragstage füllen.

Page 11: 1 03.02.2004 Internet Applikationen – Search Engines Copyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten. Architektur Moderner Internet Applikationen.

03.02.2004 Internet Applikationen – Search EnginesCopyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten.

11

Beispiel Parametrische SucheBeispiel Parametrische Suche

Page 12: 1 03.02.2004 Internet Applikationen – Search Engines Copyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten. Architektur Moderner Internet Applikationen.

03.02.2004 Internet Applikationen – Search EnginesCopyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten.

12

DirectoriesDirectories

Alternative zu Search EnginesAnbieter sind z.B. Yahoo, Looksmart, DMOZViele haben ein Pay-per-Click Modell

Webmaster kategorisiert die Site, basierend auf ein bestehendes Directory

Prinzip ist anders, Wirkung ist ähnlichLooksmart z.B. arbeitet mit MSN, AltaVista, ...Directory-Treffer werden vor den Suchmaschinen-Treffern gelistet (MSN)

Page 13: 1 03.02.2004 Internet Applikationen – Search Engines Copyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten. Architektur Moderner Internet Applikationen.

03.02.2004 Internet Applikationen – Search EnginesCopyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten.

13

Vielen Dank für Ihre Aufmerksamkeit!


Recommended