Date post: | 06-Apr-2016 |
Category: |
Documents |
Upload: | hartman-wurster |
View: | 219 times |
Download: | 2 times |
{ Data Mining leicht gemacht
- der innovative Ansatz für Data Mining von Microsoft im
Überblick }Martin VachTechnologieberater Business IntelligenceMicrosoft Deutschland GmbH
AgendaEinleitung - Data Mining und prediktive Analyse
Umfassendes und vollständiges AngebotSQL Server Data Mining-PlattformData Mining-Add-Ins für Office 2007
Integriertes Data Mining
Einbindung und Erweiterbarkeit der Data Mining-Plattform
SQL Server 2008 Neuigkeiten im Bereich Data Mining
Zusammenfassung
Agenda
Data Mining und prediktive Analyse
Was ist Data Mining?“Data Mining ist die halbautomatische Extraktion von Mustern, Änderungen, Assoziationen, Anomalien und anderen statistisch signifikanten Strukturen aus großen Datenmengen.” Robert Grossman
• Basis sind Methoden und Verfahren aus der Statistik und der künstlichen Intelligenz (KI)
Data Mining wird oft als ein Teilgebiet von Business Intelligence betrachtetAbfragen, Reporting, OLAP Data Mining
• Was geschah?• Manuell / Interaktiv / Reaktiv • Historische Sicht
• Warum und wie geschieht etwas?• Automatisierte Verfahren• Historie, Gegenwart & Zukunft
Data - Mining Teilgebiete und Beispiele“Automatisierte Datenanalyse“Zusammenhänge
erkennen (Explorativ)
Muster finden
Vorhersagen machen(Prediktiv)
•Analytische CRM: •Kundenabwanderungs-Analysen (Churn-Analysis)•Kunden-Scoring, Potentialanalysen, Erkennung hochwertiger
Kunden•Zielgruppen-Marketing: Kampagnen-Optimierung
Cross-Selling: Web-Shop Personalisierung, Warenkorbanalyse
Aufdeckung von Anomalien und Abweichungen (Schwachstellenanalyse):
Entdeckung von Betrugsversuchen (Fraud Detection) Abweichung vom geplanten Verhalten: Prozess- und
Produktionsfehler Vorhersage von Risiken („Frühwarnsysteme“):
Versicherungs-, Kredit- oder Gesundheitsrisiken
Beispiel: Clustering (Segmentierung)Kundensegmentierung, z.B. für Zielgruppen-Marketing
Männlich Weiblich
Sohn
Tochter
Eltern
Alte
r Einteilung der Daten in homogene Gruppen, wobei die Gruppen sich möglichst stark von einander unterscheiden
Beispiel: EntscheidungsbaumKaufverhalten vorhersagen
Bestimmung der relevanten Einflussgrößen für eine vorherzusagende Größe (Bike Buyer Y/N)
Prediktive Analyse
Präsentation
Exploration Erkenntnisse
Passiv
Interaktiv
Pro-Aktiv
Eigenständigkeit der Software
Nutzen und
Einsicht
Standard-Reporting
Ad-Hoc Reporting
OLAP
Data Mining
Data Mining und prediktive Analyse
{ Von OLAP zu Data Mining }
Demo Kundenverhalten analysieren und vorhersagen
A) OLAP-AnalyseB) Aufbau eines einfachen Vorhersage-Modells
Agenda
Umfassendes und vollständiges AngebotSQL Server Data Mining-Plattform
Vollständige Data Mining-PlattformErfüllung aller relevanten Anforderungen
Rapid Development
High Availability
Superior Performance
and ScalabilityRobust
Security Features
Enhanced Manageability
Analysis Services
Komfortable EntwicklungsumgebungBI Development Studio
Intuitiver Data Mining WizardGrafischer Data Mining Designervisuelle & statistische Validierung
Klassifikations-MatrizenLift-ChartsProfit-ChartsKreuz-Validierung
Effizienter Zugriff auf die Quelldaten
CachingFilterAliasing
{ Vorhersagemodell Kaufverhalten, Teil 2}Demo - Modell-Validierung - Vorhersage-Query
Umfangreiches Angebot an Algorithmen
Breites Spektrum von Möglichkeiten zur
Erstellung optimaler Modelle
Standard-
Algorithmen wie ARIMA
Innovative
Algorithmen von
Microsoft
Research
Algorithmen zur Lösung typischer Geschäftsprobleme Daten - Exploration Warenkorbanalyse Abwanderungsanalyse Kundensegment Analysen Zeitreihenanlayse
(Forecast) Unsupervised Learning Webseiten-Analyse Kampagnen-Analyse Daten-Qualitäts-Fragen Text-Analyse/Text Mining
Vollständiger Satz von Algorithmen
Decision Trees Clustering
Neural Net
Time Series
Sequence Clustering
Association Naive Bayes
Linear Regression
Logistic Regression
Data Mining - Aufgaben und AlgorithmenTask Description AlgorithmsMarket Basket Analysis Discover items sold together to create recommendations on-
the-fly and to determine how product placement can directly contribute to your bottom line.
Association Decision Trees
Churn Analysis Anticipate customers who may be considering canceling their service and identify the benefits that will keep them from leaving.
Decision TreesLinear RegressionLogistic Regression
Market Analysis Define market segments by automatically grouping similar customers together. Use these segments to seek profitable customers.
Clustering Sequence Clustering
Forecasting Predict sales and inventory amounts and learn how they are interrelated to foresee bottlenecks and improve performance.
Decision Trees Time Series
Data Exploration Analyze profitability across customers, or compare customers that prefer different brands of the same product to discover new opportunities.
Neural Network
Unsupervised Learning Identify previously unknown relationships between various elements of your business to inform your decisions.
Neural Network
Web Site Analysis Understand how people use your Web site and group similar usage patterns to offer a better experience.
Sequence Clustering
Campaign Analysis Spend marketing funds more effectively by targeting the customers most likely to respond to a promotion.
Decision Trees Naïve Bayes Clustering
Information Quality Identify and handle anomalies during data entry or data loading to improve the quality of information.
Linear RegressionLogistic Regression
Text Analysis Analyze feedback to find common themes and trends that concern your customers or employees, informing decisions with unstructured input.
Text Mining
Agenda
Umfassendes und vollständiges AngebotData Mining-Addins für Office 2007
Data Mining-Addins für Office 2007
Table Analysis Tools for Excel 2007
Data Mining Client for Excel 2007
Data Mining Template for Visio 2007
• Kostenlose Add-Ins (Download) für Office Excel 2007, Office Visio 2007
• Voraussetzung: Server mit SQL 2005 SP2 / SQL 2008• Neue Version für SQL Server 2008 verfügbar mit SQL 2008 RTM
Verstehen der fachlichen Fragestellung
Verstehen der Datenbasis
Aufbereitung der Daten
Modellierung
Validierung
Bereitstellung und Nutzung
Der Data Mining Prozess und ExcelVorgehensmodell "CRISP-DM"
www.crisp-dm.org
Data
Data Mining mit Office 2007Tabellenanalyse-Tool (Table Analysis) für Excel 2007 – Leicht verwendbare Assistenten für einfache Data Mining-Aufgaben
Data Mining Client für Excel 2007 – Vollständiger Entwicklungszyklus für alle Data Mining Schritte:
Daten-AufbereitungModelle erstellen, auch mit Excel-DatenTesten und Validieren der ModelleModelle untersuchenModelle verwaltenVorhersagen machen, auch mit Excel-Daten
Data Mining Vorlagen für Visio – Darstellung von Data Mining Modellen als Visio-Objekte
{ Data Mining mit Excel 2007 }
Demo Table Analysis Add-In - Key Influencer
Data Mining Add-In - Vorhersagemodell
Office-SQL Server Data Mining Architektur
Excel 2007
Add-ins
Modeling
SQL ServerDatenbank(oder andere DBs)
SQL ServerAnalysis Services
Data Source
Data
Mining ModelsQuery
Excel Data
Client Server Server (optional)
Agenda
Integriertes Data Mining
Data Mining und Reporting Services
Erstellung von Berichten mit Vorhersagen mittels Data Mining-Abfragen als DatenquelleQuery-Builder für DMX-Abfragen im Report Designer verfügbarEntwurf von Parameter-getriebenen Berichten auf Basis von Vorhersage-Wahrscheinlichkeiten
Z.B. Anzeige von Risiko-Kunden mit Abwanderungs-Wahrscheinlichkeit > 65%
Nutzung von Data Mining im ETL-ProzessErweiterung der Möglichkeiten von SSIS
Lösung von ETL-AufgabenMarkierung anormaler DatenKlassifizierung von Kunden oder GeschäftsobjektenErkennung fehlender WerteAufbereitung von unstrukturierten Daten mittels Text Mining
ETL-ErweiterungenScoring (z.B. von Kunden) mittels der DM-Query-TaskTrainieren von DM-Modellen mittels der DM-Training-Destination
Data Mining und OLAP-Cubes
Nutzung von OLAP-Cubes als Quelle für Data MiningEinbinden von DM-Ergebnissen als OLAP-Dimension, z.B. KundenclusterNutzung von Vorhersage-Funktionen in MDX-Berechnungen und für KPI’s
Data Mining und Performance ManagementIntegration mit PerformancePoint Server
Nutzung der Zeitreihen-Analyse als “Analytical View” in Dashboards
Kombination von prediktiven und historischen KPI’s für aussagekräftigere Dashboards
Vorhersage der zukünftigen Ergebnisse im Vergleich zu den Zielen zur Erkennung möglicher HerausforderungenAnalyse und Monitoring von Trends bei den Haupteinflussgrößen
Agenda
Einbindung und Erweiterbarkeit der Data Mining-Plattform
Erweiterbarkeit – Data Mining API’s• Add custom data mining algorithmsPlug-in Algorithms• Redistributable Viewer - embed standard visualizations in
your application• Plug-in Viewer APIs - embed custom visualizations in your
applicationVisualizations
• Exchange models with other software vendorsPMML
• Industry standard metadataXMLA
• SQL-like query languageData mining Extensions (DMX)
• Access and query models from clients or stored proceduresADOMD.NETand OLE DB
• Management interfacesAMO
Erweiterungen
Einbindung
Nutzung von Data Mining in Anwendungen„Predictive Programing“
Einbettung von
Data Mining
• Integration einer “Recommendation Engine”
• Aktualisierung von Modellen auf Basis der aktuellsten Daten on the fly
• Ausreißer-Erkennung on the fly z.B. bei Datenerfassung
Muster-
Erkennung
• Anzeige wesentlicher Indikatoren für Metriken
• Erkennung von Profilen für Abwanderungen oder hochwertige Kunden
Vorhersage
• Empfehlung relevanter Produkte
• Darstellung von Risiko-Kunden bzw. Abwanderungs-Wahrscheinlichkeit
• Optimierung von Promotions- Kampagnen für Kunden mit hohem Wert (life time value)
Einbindung von Data Mining in
Business-Anwendungen
mittels komfortabler API’s
?
Vorhersagen mit DM-ModellenDMX Data Mining Extensions
SQL ähnliche Sprache für Erstellung Abfrage von DM ModellenDM-Funktionen Predict(), PredictProbability, CaseLikelihood, etc User-defined functions, Parametrisierte Abfragen
DMX Prediction Joins für Vorhersagen SELECT t.ID, CPModel.PlanFROM CPModel PREDICTION JOIN OPENQUERY(…,‘SELECT * FROM NewStudents’) AS tON CPModel.Gender = t.Gender AND CPModel.IQ = t.IQ
ID Gender
IQGender IQ PlanDM-CPModell NewStudents
Agenda
SQL Server 2008Neuigkeiten im Bereich Data Mining
SQL Server 2008 Data MiningNeuigkeiten im Überblick
Verbesserung der Engine und der AlgorithmenAnforderungen vieler professioneller DM-Kunden
Verbesserung im Bereich Mining-Strukturen BI Development Studio, Handhabung, Aufwand
Data Mining AddIns für Office 2007Durchgängige und komfortable BenutzerführungWarenkorbanalysePrediction Calculator
SQL Server 2008 - NeuigkeitenVerbesserung im Bereich Zeitreihen
SQL Server 2005 Basis ist der ARTXP Zeitreihen-Vorhersage-AlgorithmusEntwickelt von MS ResearchAdressiert ein Kern-Problem: suche die bestmögliche Vorhersage für den nächsten Schritt in der SerieWeniger geeignet für Langzeit-Vorhersagen
SQL Server 2008ARTXP nach wie vor verfügbar
Optimal für kurzfristige Vrohersagen
Zusätzlich verfügbar: ARIMADer bekannteste und verbreiteste Zeitreihen-AlgorithmusGute Kenntnisse bei praktisch allen Data Mining-ExpertenAktzeptable Vorhersagen bei Projektion auf mehr als 10 Schritte
SQL Server 2008 - NeuigkeitenVerbesserungen im Bereich Mining Strukturen
Aufteilung in Trainings- und Test-PartitionenAutomatisch, manuell oder programmatisch
Abfragen gegen Struktur-Cases und Struktur-Spalten
Ermöglicht Drillthrough aus einem Cluster-Modell um zusätzliche Daten anzuzeigen, die nicht im Modell benutzt werden (z.B. eine Mail-Adresse)
Filterung von Daten beim Aufbau von ModellenBeispiel: Erstelle getrennte Modelle für männliche und weibliche Kunden
Erstellung nicht-kompatibler Modelle in derselben Struktur
Modelle, die die kontinuierliche und die diskretisierte Version derselben Spalte nutzen, können dieselben Struktur nutzen
Kreuz-Validierung (Cross-validation)Erleichtert Verstehen der Modell-Genauigkeit bzw. Modell-GüteAutomatischer Test des Modell gegen mehrere Subsets von Trainingsdaten und Vergleich der Ergebnisse
{ Weitere Data Mining Beispiele (if we have time…) }
Demo Table Analysis - Prediction Calculator
Kreuz-Validierung
Agenda
Zusammenfassung
.8 TB SS2005 DW for Ring-Tone MarketingUses Relational, OLAP and Data Mining5 TB DW, serving the 2nd largest global HMO with over 3000 OLAP users.Developed data mining solution to identify members who would most benefit from proactive intervention to prevent health deterioration.3 TB end-to-end BI decision support systemOracle competitive win
End-to end DW on SQL Server, including OLAPExtensive use of Data Mining Decision Trees
1.2 TB, 20 billion recordsLarge Brazilian Grocery Chain
.88 TB DW at main TV network in ItalyIncreased viewership by understanding trends
.5 TB DW at US Cable companyEnd to end BI, Analysis and Reporting
Data Mining Kundenbeispiele
ZusammenfassungData Mining mit Microsoft
Einfacher Zugang – Erhöhung der Reichweite Data Mining für jeden „Knowledge Worker“Jede Anwendung kann Data Mining nutzen durch ADOMD.NET - ohne komplexe API‘sAnwender und Entwickler nutzen gewohnte Umgebung
Kosten und NutzenAttraktives Lizenzmodell - kein Lizenzkosten-KO mehrGeringe Einstiegskosten - Schnelle Ergebnisse
Kein Data Mining mehr im „Elfenbeinturm“
Vollständig – Integriert - Erweiterbar
Ask the ExpertsWir freuen uns auf Ihre Fragen: Technische Experten stehen Ihnen während der gesamten Veranstaltung in der Haupthalle zur Verfügung.
Weitere Informationenhttp://www.microsoft.com/sql/2008ACHTUNG: Februar CTP6 Version ist seit heute verfügbarhttp://www.sqlserverdatamining.com http://www.microsoft.com/webcasts
Danke für Ihre Aufmerksamkeit !
© 2007 Microsoft Corporation. All rights reserved. Microsoft, Windows, Windows Vista and other product names are or may be registered trademarks and/or trademarks in the U.S. and/or other countries.
The information herein is for informational purposes only and represents the current view of Microsoft Corporation as of the date of this presentation. Because Microsoft must respond to changing market conditions, it should not be interpreted to be a commitment on the part of Microsoft, and Microsoft cannot guarantee the accuracy of any information provided after
the date of this presentation. MICROSOFT MAKES NO WARRANTIES, EXPRESS, IMPLIED OR STATUTORY, AS TO THE INFORMATION IN THIS PRESENTATION.
Anhang 1
How to Build a Successful Predictive Analysis Project?
What’s Your Problem?Success needs…
Right problemRight criteriaRight dataRight resultsRight delivery
Is Yours a Data Mining Problem?Driven by data, or by business rules?Driven by what you know, or what you don’t know?
Traditional BI Predictive AnalysisExploration DiscoveryDrill down ClassificationTrending PredictionForce constraints Discover outliers
Apply rules & models Find patterns & relationships
Right Problem
The Top 5 Business Scenarios
Cross-sell and up-sellCampaign managementCustomer acquisitionBudget and forecastingCustomer retention
Right Problem
Scenarios, Tasks and TechniquesDefine scenarios by Data Mining tasks to be performed
ClassificationEstimationPredictionAssociationClustering
Define tasks by techniques to be usedThe algorithms used to build models
Right Problem
From Scenarios to TasksScenario Tasks
Cross-sell and Up-sell AssociationCampaign management
Classification, Clustering
Customer acquisition ClusteringBudget and forecasting Prediction
Customer retention Classification, Estimation
Right Problem
From Tasks to TechniquesTasks Techniques
Association Association rules, Decision trees
Classification
Decision Trees, Neural Net, Naïve Bayes
Clustering Clustering
Estimation Logistic, Linear Regression
Prediction Time Series
Right Problem
Criteria: Are You Just Fishing?How will you measure success?
Technical: Lift and accuracyBusiness: ROI and KPIs
Set good criteriaRelevant and actionableStrategic vs. operational relevanceRealistic and achievable
Right Criteria
Your Biggest JobData exploration and preparation
Don’t forget GI-GOIs your data…
Complete, accurate, timely, typical?
Get to know Integration ServicesMerge and transform source dataFilter and sample
Right Data
Prepare Your DataClean
Remove duplicates and missing valuesRemove out-of-range data
Clarify True, False and NULL boolean fieldsRemove synonyms
UnitPrice * Qty = TotalPriceCalculate derived values
SimplifyBucket or Group continuous or many-valued columnsAge, Profession
Right Data
We All Crave Some Validation…Technical Evaluation
Use lift charts & classification matricesCompare training and test sets
Business EvaluationTest results against business metricsReview regularlyDon’t take trust for granted
Right Results
Delivering the ResultsAim for a seamless experience
Enhance existing information
Repurpose existing skills
Win your users
Right Delivery
Choosing the User EnvironmentSales and operations
Not software specialists Can be overwhelmed by detail or ambiguity
Information workersExplorers, mostly live in Microsoft Office Excel
BI AnalystsLove their BI tools of choice
ExecutivesDashboards, ScorecardsAlso overwhelmed by detail or ambiguity
Right Delivery
© 2007 Microsoft Corporation. All rights reserved. Microsoft, Windows, Windows Vista and other product names are or may be registered trademarks and/or trademarks in the U.S. and/or other countries.
The information herein is for informational purposes only and represents the current view of Microsoft Corporation as of the date of this presentation. Because Microsoft must respond to changing market conditions, it should not be interpreted to be a commitment on the part of Microsoft, and Microsoft cannot guarantee the accuracy of any information provided after
the date of this presentation. MICROSOFT MAKES NO WARRANTIES, EXPRESS, IMPLIED OR STATUTORY, AS TO THE INFORMATION IN THIS PRESENTATION.