Heliview 29sep2015 slideshare

Post on 15-Apr-2017

859 views 0 download

transcript

Copyr igh t © 2012 , SAS Ins t i t u te I nc . A l l r i gh ts res erved .

GOEDE TIJDEN SLECHTE TIJDEN, IENS AJAX? TEXT ANALYTICS EN MACHINE LEARNING IN ACTION

Longhow Lam -- Data Scientist

Heliview – Business Analytics

https://www.linkedin.com/today/author/7434679https://longhowlam.wordpress.com/@longhowlam

http://www.slideshare.net/LonghowLam

Copyr igh t © 2012 , SAS Ins t i t u te I nc . A l l r i gh ts res erved .

AGENDA

Inleiding Text mining & Machine learning Ludieke voorbeelden

Goede tijden Slechte tijden IENS Reviews Ajax wedstrijden

Copyr igh t © 2012 , SAS Ins t i t u te I nc . A l l r i gh ts res erved .

INLEIDING TEXT MINING EN MACHINE LEARNING

Copyr igh t © 2012 , SAS Ins t i t u te I nc . A l l r i gh ts res erved .

TEXT MINING BASIS

Document 1: “Ik loop over straat in Amsterdam, 1057DK, met mijn fiets”Document 2: “Zij liep niet maar fietste met haar blauwe fieets, //bitly.com/sdrtw”Document 3: “Mijn tweewieler is kapot, wat een slecht stuk ijzer, @#$%$@!”

Terms Doc 1 Doc 2 Doc 3+Fiets (znmw) 1 1 1Fietsen (ww) 0 1 0Blauwe (bvg) 0 1 0Amsterdam (locatie) 1 0 0+Lopen (ww) 1 1 0Straat (znmw) 1 0 0Kapot (bijw) 0 0 1Slecht 0 0 1Stuk Ijzer 0 0 11057DK (postcode) 1 0 0//bitly.com/sdrtw (Internet) 0 1 0

TERM DOCUMENT MATRIX: A• Elk document is een (zeer) lange vector van

tellingen (vaak veel nullen!)

• Teksten / ongestructureerde data is zijn nu “gewone data” geworden.

• Comprimeer / reduceer deze matrix A

• Pas machine learning toe op gereduceerde

Copyr igh t © 2012 , SAS Ins t i t u te I nc . A l l r i gh ts res erved .

TEXT MINING BASIS

“Geavanceerd” woordjes tellen

Parse & Filter Part of speech Entity detection Mixed / numeric / abbrev. Stemming Spell checks, Stop lijst, Synoniem lijst Multi-term woorden

Pas Traditionele data mining toe Clustering Prediction / machine learning

Copyr igh t © 2012 , SAS Ins t i t u te I nc . A l l r i gh ts res erved .

TEXT MINING VOORSPELLEN OF CLUSTEREN

Combineer teksten en “gewone data” om gedrag te voorspellen (churn / fraude)

Pas machine learning toe om gedrag Y te voorspellen met een model f

Maak automatisch topics / clusters in hoge stapels documentenPas cluster technieken toe om documenten in clusters (topics) in te delen

Topic 1 Topic 2 Topic 3

Copyr igh t © 2012 , SAS Ins t i t u te I nc . A l l r i gh ts res erved .

MACHINE LEARNING ENKELE TECHNIEKEN

Voorspellen

Trees

Random Forests

Clusteren

K-means

Hiërarchisch clusteren

DBSCAN

Lineaire regressie

f

y = f(x) = a0 + a1x1 + a2x2+…anxn

Neurale netwerken y = f(g(h(x)))

Copyr igh t © 2012 , SAS Ins t i t u te I nc . A l l r i gh ts res erved .

TEXT MINING VOORBEELDENECHTE DATA MAAR LUDIEKE VOORBEELDEN

Ludieke voorbeelden met directe toepassingen Goede tijden slechte tijden Soap analytics Iens Restaurant analytics Ajax Wedstrijd verslagen

Copyr igh t © 2012 , SAS Ins t i t u te I nc . A l l r i gh ts res erved .

GTST ANALYSIS TEXT ANALYTICS

Business painKijkend naar een paar GTST afleveringen: waar gaat dit over, zijn er trends in de serie, is het niet allemaal het zelfde?

AanpakNeem alle duizenden samenvattingen en pas SAS text mining toe

Copyr igh t © 2012 , SAS Ins t i t u te I nc . A l l r i gh ts res erved .

GTST ANALYSIS TEXT ANALYTICS

Business painKijkend naar een paar GTST afleveringen: waar gaat dit over, zijn er trends in de serie, is het niet allemaal het zelfde?

AanpakNeem alle duizenden samenvattingen en pas SAS text mining toe

Copyr igh t © 2012 , SAS Ins t i t u te I nc . A l l r i gh ts res erved .

GTST ANALYSIS RESULTATEN

Hoofd topics in 5000 afleveringen

Copyr igh t © 2012 , SAS Ins t i t u te I nc . A l l r i gh ts res erved .

GTST ANALYSIS RESULTATEN

Hoofd topics in 5000 afleveringen

Copyr igh t © 2012 , SAS Ins t i t u te I nc . A l l r i gh ts res erved .

GTST ANALYSIS RELATIE TUSSEN TOPICS

Copyr igh t © 2012 , SAS Ins t i t u te I nc . A l l r i gh ts res erved .

GTST ANALYSIS INZOOMEND OP EEN TOPIC

Copyr igh t © 2012 , SAS Ins t i t u te I nc . A l l r i gh ts res erved .

GTST ANALYSIS INZOOMEND OP EEN TOPIC

Sub-topics van een hoofd topic: topic 16 (Ludo, Isabelle, Martine, Janine)

Het eenzaam voelen van Harmsen.

Plan van Jack, gevaarlijk

Afscheidsbrief schrijven

Paniek, angst,

Vragen opdracht kind geven

Geld terug krijgen betalen 

Business validatie: De trouwe GTST kijker bij SAS kan zich hierin vinden…..

Copyr igh t © 2012 , SAS Ins t i t u te I nc . A l l r i gh ts res erved .

GTST ANALYSIS RESULTATEN

Trends over tijd m.b.v. een Bayesian belief netwerk

Copyr igh t © 2012 , SAS Ins t i t u te I nc . A l l r i gh ts res erved .

GTST ANALYSIS TRENDS OVER TIJD

Copyr igh t © 2012 , SAS Ins t i t u te I nc . A l l r i gh ts res erved .

GTST ANALYSIS GELIJKENIS AFLEVERINGEN OVER DE JAREN

Copyr igh t © 2012 , SAS Ins t i t u te I nc . A l l r i gh ts res erved .

IENS RESTAURANT PATH ANALYTICS

Business painIk heb Chinees gegeten. Waar moet ik de volgende keer eten?Kan ik het sentiment voorspellen?

AanpakKijk naar wat andere doen, IENS restaurant reviewers!

Copyr igh t © 2012 , SAS Ins t i t u te I nc . A l l r i gh ts res erved .

IENS RESTAURANT PATH ANALYTICS

Business painIk heb Chinees gegeten. Waar moet ik de volgende keer eten?Kan ik het sentiment voorspellen?

AanpakKijk naar wat andere doen, IENS restaurant reviewers!

Copyr igh t © 2012 , SAS Ins t i t u te I nc . A l l r i gh ts res erved .

EERST EEN PAAR LUDIEKE FEITJES IENS DATA (TRADITIONELE BI)

Meest voorkomende naam (39 keer)

Onder “Hollandse” restaurant (6 keer)

Duurzame keukensBiologisch (67%)Frans (58%)Vis (44%)Vegetarisch (39%)Regionaal (36%)……Chinees (3%)

Zo’n 700 reviews op een “normale” zaterdagValentijn 2015 1200 reviews (1.7 keer)

23 keer

12 keer

Copyr igh t © 2012 , SAS Ins t i t u te I nc . A l l r i gh ts res erved .

IENS RESTAURANT PATH ANALYSIS: GEGENEREERDE REGELS

Copyr igh t © 2012 , SAS Ins t i t u te I nc . A l l r i gh ts res erved .

IENS RESTAURANT PATH ANALYSIS: GEGENEREERDE REGELS

Copyr igh t © 2012 , SAS Ins t i t u te I nc . A l l r i gh ts res erved .

IENS REVIEWS VOORSPEL SENTIMENT M.B.V. DE REVIEWS ZELF

Text miner om te parsen, filteren en reduceren

Machine learning om eet cijfer te voorspellen

Copyr igh t © 2012 , SAS Ins t i t u te I nc . A l l r i gh ts res erved .

IENS REVIEWS HET EET CIJFER VOORSPELLEN

Neuraal network (2 X 20) R2 van 0.65

Random forest (250 trees) R2 van 0.63

Linear regressie model R2 van 0.56

Copyr igh t © 2012 , SAS Ins t i t u te I nc . A l l r i gh ts res erved .

Voorspelde score versus de Gegeven score

IENS REVIEWS HET EET CIJFER VOORSPELLEN

Copyr igh t © 2012 , SAS Ins t i t u te I nc . A l l r i gh ts res erved .

IENS REVIEWS SENTIMENT ANALYSE / PREDICTIVE MODELING

Copyr igh t © 2012 , SAS Ins t i t u te I nc . A l l r i gh ts res erved .

AJAX VOETBAL VERSLAGEN

Business painIk kan niet mee praten op mijn werk over voetbalKan ik wat tips meegeven aan ons SAS NL voetbal team?

Aanpak Text mine alle Ajax voetbal verslagen en leer wat interessante resultaten uit je hoofd.

Er zijn 476 voetbal verslagen. Ik heb gescraped van seizoen 2000/01 tot 2014/15.

Copyr igh t © 2012 , SAS Ins t i t u te I nc . A l l r i gh ts res erved .

AJAX CONCEPT LINKING VOETBAL TIPS EN STOF OM OVER MEE TE PRATEN

Het verdedigingstrio van der Wiel, Vertongen, Anita

Wie herinnert zich niet de mooie passes van Aldewereld naar Boerrigter

Chivu, Machlas en Heitinga worden vaak geassocieerd met overtredingen

Zorg niet voor veel balverlies, is een domper zorgt voor onrust en leidt niet tot een overwinning

De Jong en Chivu worden vaak met verlies geassocieerd.

Knullig spelen levert ook grote kans op verlies…..

Score binnen 23 minuten! Leidt vaak tot winst

Copyr igh t © 2012 , SAS Ins t i t u te I nc . A l l r i gh ts res erved .

AJAX CONCEPT LINKING VOETBAL TIPS EN STOF OM OVER MEE TE PRATEN

Copyr igh t © 2012 , SAS Ins t i t u te I nc . A l l r i gh ts res erved .

WERKT HET ? SAS NEDERLAND VOETBAL TEAM

Twee weken geleden 6e geworden i.p.v. altijd laatste !!!!

Copyr igh t © 2012 , SAS Ins t i t u te I nc . A l l r i gh ts res erved .

SAMENVATTEND

Analyse op teksten is makkelijk te doen. Snel inzichten uit teksten te halen Business validatie nodig en belangrijk! Dit is ludiek! Maar talrijke serieuze toepassingen