Street Fighting Data Science
von @furukama (Benedikt Köhler, d.core) @jbenno (Jörg Blumtritt, Datarella)
#rp13
Street Fighting Data Science
• Umnutzen vorhandener Daten (Tweets -> Bewe- gungsgeschwindigkeit)
• Umwidmen von Methoden (BioTech -> Sozialwissenschaften)
• Agile Ad-hoc-Analysen
• Improvisation
http://en.wikipedia.org/wiki/File:Fightingmanstones.jpg
Wir glauben an Gauß!
Data Science
http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
Data Scientists?
http://www.forbes.com/sites/danwoods/2012/03/08/hilary-mason-what-is-a-data-scientist/
Data Science 101
• Crawling / Scraping
• APIs
• Datenbanken, Hadoop, Stream Processing
• „Data Munging“: Bereinigen / Formatieren / Konvertieren
• Machine Learning (Python Scikit-Learn / NumPy, SciPy, R, Mahout)
• Textanalyse (NLTK, R)
• Network Analysis (Gephi, NodeXL)
• Statistik (R, Python)
N-Gramme
• N-Gramme zerlegen Texte in kleinere Fragmente. 1-Gramm = „Street“, 2-Gramm = „Street Fighter“ -> Google Corpus 2006/12
Google Ngram Viewer http://books.google.com/ngrams + DB http://books.google.com/ngrams/datasets
WordNet
• WordNet: semantische und lexikalische Bedeutung von Wörtern
• Daraus z.B. Wörter mit Stimmungen identifizierbar (WN Affect)
WordNet http://wordnet.princeton.edu/ WordNet Affect http://wndomains.fbk.eu/wnaffect.html
N-Gramme + WordNet
• Emotionen im Zeitverlauf
Acerbi et al 2013 http://www.plosone.org/article/info:doi/10.1371/journal.pone.0059030
Food Pairings
Ahn et al 2011 http://www.nature.com/srep/2011/111215/srep00196/full/srep00196.html
Food Pairings
Ahn et al 2011 http://www.nature.com/srep/2011/111215/srep00196/full/srep00196.html
Food Pairings
Ahn et al 2011 http://www.nature.com/srep/2011/111215/srep00196/full/srep00196.html
Flickr für Touristen
Eric Fischer „See something or say something“http://www.flickr.com/photos/walkingsf/5935471000/in/set-72157627140310742 and „Locals and Tourists“http://www.flickr.com/photos/walkingsf/4671578001/in/set-72157624209158632
Farbgeschichte mit Flickr
http://beautifuldata.net/2013/05/color-analysis-of-flickr-images/
Windmap
US Wind Patterns www.senchalabs.org/philogl/PhiloGL/examples/winds/
Google Correlate
Google Correlate www.google.com/trends/correlate
Netvizz – Facebook-Daten
NetVizz https://apps.facebook.com/netvizz/
Das Ergebnis
Facebook-Netzwerk von https://www.facebook.com/benediktkoehler
Twitter - Bewegungsdaten
Eric Fischer: Travel Patterns http://www.flickr.com/photos/walkingsf/6794335193
Der Passive Wahlomat
Piraten 0,14108935
Gruene 0,12956345
SPD 0,08088609
CDU 0,06258422
Linke 0,09733024
FDP 0,04376875
http://blog.metaroll.de/2012/03/23/der-passive-wahlomat-textmining-mit-politischen-programmen-und-konversationen-teil-1/
Funnel Plots
http://www.cochrane-net.org/openlearning/html/mod15-3.htm
Web-Crawler
• HTTrack Website Copier etc.
• Simple Web Crawler in Python etc.
Crunchbase VC-Netzwerke
Big Data Investment Map http://beautifuldata.net/2012/02/big-data-investment-map/