Street Fighting Data Science

Post on 07-Dec-2014

2,055 views 3 download

description

 

transcript

Street Fighting Data Science

von @furukama (Benedikt Köhler, d.core) @jbenno (Jörg Blumtritt, Datarella)

#rp13

Street Fighting Data Science

• Umnutzen vorhandener Daten (Tweets -> Bewe- gungsgeschwindigkeit)

• Umwidmen von Methoden (BioTech -> Sozialwissenschaften)

• Agile Ad-hoc-Analysen

• Improvisation

http://en.wikipedia.org/wiki/File:Fightingmanstones.jpg

Wir glauben an Gauß!

Data Science 101

• Crawling / Scraping

• APIs

• Datenbanken, Hadoop, Stream Processing

• „Data Munging“: Bereinigen / Formatieren / Konvertieren

• Machine Learning (Python Scikit-Learn / NumPy, SciPy, R, Mahout)

• Textanalyse (NLTK, R)

• Network Analysis (Gephi, NodeXL)

• Statistik (R, Python)

N-Gramme

• N-Gramme zerlegen Texte in kleinere Fragmente. 1-Gramm = „Street“, 2-Gramm = „Street Fighter“ -> Google Corpus 2006/12

Google Ngram Viewer http://books.google.com/ngrams + DB http://books.google.com/ngrams/datasets

WordNet

• WordNet: semantische und lexikalische Bedeutung von Wörtern

• Daraus z.B. Wörter mit Stimmungen identifizierbar (WN Affect)

WordNet http://wordnet.princeton.edu/ WordNet Affect http://wndomains.fbk.eu/wnaffect.html

N-Gramme + WordNet

• Emotionen im Zeitverlauf

Acerbi et al 2013 http://www.plosone.org/article/info:doi/10.1371/journal.pone.0059030

Food Pairings

Ahn et al 2011 http://www.nature.com/srep/2011/111215/srep00196/full/srep00196.html

Food Pairings

Ahn et al 2011 http://www.nature.com/srep/2011/111215/srep00196/full/srep00196.html

Food Pairings

Ahn et al 2011 http://www.nature.com/srep/2011/111215/srep00196/full/srep00196.html

Sandy: Meteorologie für alle

http://rpubs.com/JoFrhwld/sandy

Windmap

US Wind Patterns www.senchalabs.org/philogl/PhiloGL/examples/winds/

Google Correlate

Google Correlate www.google.com/trends/correlate

NodeXL – Twitter-Netzwerk #rp13

NodeXL http://nodexl.codeplex.com/

Netvizz – Facebook-Daten

NetVizz https://apps.facebook.com/netvizz/

Gephi – Visualisierungstool

Gephi http://gephi.org

Das Ergebnis

Facebook-Netzwerk von https://www.facebook.com/benediktkoehler

Twitter - Bewegungsdaten

Eric Fischer: Travel Patterns http://www.flickr.com/photos/walkingsf/6794335193

Der Passive Wahlomat

Piraten 0,14108935

Gruene 0,12956345

SPD 0,08088609

CDU 0,06258422

Linke 0,09733024

FDP 0,04376875

http://blog.metaroll.de/2012/03/23/der-passive-wahlomat-textmining-mit-politischen-programmen-und-konversationen-teil-1/

Web-Crawler

• HTTrack Website Copier etc.

• Simple Web Crawler in Python etc.

Danke!

http://beautifuldata.net