SEO si Webul Semantic

Post on 18-Oct-2014

5,368 views 0 download

description

O scurta istorie SEO, de la aparitia WWW pana la RDF, Microformats si SPARQLPrezentat la GeekMeet #2 in Cluj Napoca pe 1 Martie 2008

transcript

How do the machines know what Tasty Wheat

tasted like?Mouse – The Matrix

Istoric SEO• Web1.0• Web2.0• Web3.0

De la Adam şi Eva

• O poveste a Internetului• Rezolvarea celor mai importante probleme• Influenţată în proporţie covârşitoare de 1 om

Tim Berners-Lee

“the World Wide Web is Berners-Lee's alone. He designed it. He loosed it on the world. And he more than anyone else has fought to keep it open, nonproprietary and free.”

Time Magazine, 1999

Problema iniţiala

• Să ştii unde poţi găsi informaţia

“Our ineptitude in getting at the record is largely caused by the artificiality of the systems of indexing.”

The Atlantic Monthly, 1945

Archie, 1990

• Indexa titlurile fişierelor şi• Returna rezultate prin pattern matching

Web1.0

Web1.0

• Înseamnă HTML• Apare în 1991, la iniţiativa lui• Tim Berners-Lee (TBL), care pune bazele• WWW Consortium (W3C) la MIT, şi tot el• creează WWW Virtual Library - primul catalog

Yahoo Directory, 1994

• Vertical - categorii, subcategorii... Pe principiul• Arată-mi toate chestiile şi mă descurc eu• Chestii indexate manual, ceea ce a fost• OK, o perioadă, dar...• Siturile s-au înmulţit şi • Y! început să ceara bani pentru listing• Din ce în ce mai mulţi bani...

,1994

• Primul care căuta full text• Cumpărat de AOL, apoi • Vândut către Excite, care• Excite a falimentat şi • WebCrawler este cumpărat de InfoSpace

Altele

• 1994, ajunge la 60mil pagini în 96• cumpărat de Overture, cumpărat de Y!• 1997, cumpărat de IAC/InterActiveCorp• 1999, cumpărat de Overture, adică Y!• 1996, meta search, cumpărat de Lycos

Shopping fun!

, 1998

• Open Directory Project• Fiecare listing este verificat şi certificat de

către un voluntar• Sursa principala pentru Google Directory

Situaţia actuală

Problemele web1.0

• Motoarele de căutare nu pricepeau mare lucru din textul unei pagini, motiv pt care

• Au zis “pune tu nişte taguri meta (description şi keywords) ca să ne facem şi noi o vagă idee”

• Relevanţa unei pagini pentru un cuvânt cheie era stabilită în funcţie de caţiva factori, deci

• Era foarte uşor să abuzezi şi să spamezi, şi deci• Calitatea rezultatelor era slabă

Web2.0

Web2.0

• Termenul îi aparţine lui ... Tim O’Reilly, totuşi• TBL a zis mai târziu ca “web2.0” e o tâmpenie,

că nu înseamnă nimic şi că el oricum s-a gândit la asta prin ’96

Web2.0 Înseamnă

• care s-a distanţat prin• PageRank (1998) inventat de • Larry şi Sergei care l-au preluat de la• Un profesor de la MIT care făcuse• O formulă matematică foarte urâtă pentru

poziţionarea cuvintelor cheie într-un spaţiu tridimensional în funcţie de relevanţa pe care o are acel cuvânt faţă de ...

De fapt înseamnă că

• Un link e un vot şi• Nu toate linkurile se nasc egale, deci• Contează reputaţia siturilor care te linkuiesc• La fel ca în societate

• Citea conţinutul paginilor foarte bine• Doar că paginile erau făcute prost:– Cod nestandardizat– Tehnologii urâte (vezi appleturi)– Arhitectura informaţiei fără logică

• Şi ca să fie bine pentru toată lumea :) au zis “formatează tu frumos informaţia, conform standardelor W3C” (remember TBL)

Enter the SEO

SEO

• Este o suită de practici pentru a facilita indexarea de către motoarele de căutare

• Evoluează pe măsură ce se schimbă algoritmul de ranking

• Care algoritm este secret.

De fapt este

• O luptă continuă între boţi şi SEO guys• Şi s-a ajuns la > 100 de factori care

influenţează rankingul• Şi vom vorbi despre fiecare în parte în cele ce

urmează

Glumeam

Copiuţa mea pt SEO

• Ţineţi cont de:1. Titlurile paginilor2. URLuri (mod_rewrite)3. Anchor text4. Arhitectura sitului5. Link Title & Alt Images6. Continut relevant, text7. Sitemap.xml8. Hosting9. Freshness

Resurse

Matt Cutts Blog

Mihai’s SEO Cheat Sheet :D

Problemele Web2.0

• © pentru poze, articole, cărţi• PPC fraud• Privacy• Search Engine SPAM• Link bombing• Linkuri plătite• Dar mai important...

Problemele Web2.0

• Este absurd ca un motor de căutare să citească interfaţa unui site pentru a extrage info şi

• Tot nu pricep ce #$%@ încerci tu să zici acolo!

Web3.0

Web3.0

• Înseamnă semantic web• Se mută accentul de pe sintaxă/formatare pe

semantică şi• Meta Data (date despre date) devine...

Web3.0

&

Resource DescriptionFramework

Microformats

Resource Description Framework

• Un soi de XML• RDF = Subiect + Predicat + Obiect• S + P + O creeaza un Triplu• Care poate descrie orice chestie din univers• Triplele sunt interconectabile (eg FOAF)• RDFa = XHTML + RDF (W3C compliant)

Microformats• hCalendar • hCard• rel-tag• VoteLinks• XFN• Geo• hResume• hReview• etc

Studiu de caz

SPARQL

• SPARQL Protocol and RDF Query Language• Standardizat pe 15 Ian 08 (acum 1 lună) şi• Susţinut de către? ... TBL

"Trying to use the Semantic Web without Sparql is like trying to use a relational database without SQL“

TBL

Potenţial

• Cu SPARQL treci peste interfaţă• Poţi face query ad-hoc către orice API, deci• Nu e nevoie să mai indexezi ca până acum• Informaţia va fi de ultimă oră

Şi posibilităţi

• Query: “I can has pizza?” • Returnează: – un prieten de-al tău (XFN - Facebook) – are un coleg de firmă (FOAF - LinkedIN) care – a zis că se mănâncă pizza bună (hReview - yelp) la– un restaurant pe-aproape (geo - Gmaps)– PS: Azi cântă U2 acolo (hCalendar - upcoming)

Poate aşa ne explicăm

• De ce reţelele sociale valorează atât de mult, cu toate că nu produc nimic– Facebook– LinkedIN– Meebo– Beebo – Pipu...

– Ele/noi suntem bazele de date ale viitorului

Succes!

“Most of the right choices in SEO come from asking: What’s the best thing for the user?”

Matt Cutts

Mihai Gheza Creative Commons Attribution-Noncommercial-Share Alike 3.0 Unported License.