Ik zie ik zie wat jij (nog) ziet
Hoe herken je patronen in data?
Agenda
• Introductie
– Analytics
• Een voorbeeld
– Verzekeringsdata
• Modelleren
– Lineaire regressie en Machine Learning
Moneyball
Analytics
DescriptiveAnalytics
Predictive AnalyticsPrescriptive
Analytics
What happened? Creatingpatterns from historical data
Predict future behaviourMake recommendations on
how to achieve goal
Analytics is het ontdekken, interpreteren en communiceren van (betekenisvolle) patronen in
gegevens.
Doel van deze sessie: Het ontdekken van patronen m.b.v. modellen
• Man vs Machine
• Decision tree
• Lineaire regressie
Reporting
Listing facts
Man vs Machine: patroonherkenning (1)
Man vs Machine: patroonherkenning (2)
Dataset – Insurance *
• Verzekeringsdata.
– Kenmerken van de polishouder en de gedeclareerde kosten.
– Wat zien we niet?
• Kunnen we patronen herkennen?
– Aan de slag
* Met dank aan EQI (Erasmus Quantitative Intelligence)
Exploratie met Lumira
SAC – Smart Discovery (1)
SAC – Smart Discovery (2)
SAC – Smart Discovery (3)
Anders
• Hoe dan? Inzicht in de modellen:
– R
– Gretl
• Het werk van de data scientist …
– Construeren van nieuwe variabelen om verklarend vermogen van lineair regressiemodel te verhogen
– Combineren en selecteren van modellen
– Verklaren en communiceren
Inzicht in modellen - mens
Decision Tree
Lineaire regressie
Modelleren
Begrijpelijkheid : voorspelvermogen
=
linear regression : machine learning
• Wat is beter?
–Begin eenvoudig
–Het meest eenvoudige model dat de vraag kan beantwoorden is het best!
gaan>> benadering van analytics project
DataExploratory Data
Analysis
Exploratory Data Analysis
Formal Modeling InterpretationVisualization of data outcomes
Performance improvement
Question More Data
• Discussion on area of investigation (e.g. procurement).
• Delivery of data• Data is explored for
1st time • Report with findings
as input for workshop
• Workshop to comeup with the questionsto answer
• Do we have all data?• Can we add
additional data? If so• Data is explored for
2nd time
• Statistical models are defined and tested
• Models and outcomeare checked
• Can we answer thequestions?
• Outcomes andrecommendationsare presented in presentation andreport
• Performance improvement steps defined
2 weeks Workshop 2 hrs 2 weeks 4 weeks 1 week2 hrs presentation
1 week
Training on the job
Contactgegevens
Gabe Boer
(+31) 6 46 124 789
e-mail: [email protected]
Fascinating facts gaan>>
Deep knowledge of SAP data
Experience with data analysis since 1999
Advanced sophisticated modelling
We work value based
internet: www.gaanconsulting.nl