Data Science in Action · PDF fileData Science in Action Peerapon Vateekul, Ph.D. ... Email...

transcript

Data Science in Action

Peerapon Vateekul, Ph.D.

Department of Computer Engineering, Faculty of Engineering, Chulalongkorn University

Chula Data Science

+Outlines

Data Science & Data Scientist

Data Mining

Analytics with R

A Framework for Big Data Analytics

Chula Data Science

Data Science & Data Scientist

Chula Data Science

+What is Data Science?

Facts and statistics collected together for reference or analysis

Science

A systematic study through observation and experiment

Data Science

The scientific exploration of data to extract meaning or insight

, and the construction of software to utilize such insight in a

business context.

Data Preparation

Data Analysis

Data Visualization

Data Product

Chula Data Science

+What is Data Science? (cont.)

Transform data into valuable insights

Transform data into data products

Transform data into interesting stories

Chula Data Science

Transform data into valuable insights

Social Influence in Social Advertising: Evidence from Field Experiments (Bakshy et al. 2012)

Chula Data Science

Service Recommendation

Chula Data Science

Fraud Detection

Chula Data Science

Email Classification

Spam Detection

Chula Data Science

+Data Science: Famous Definition

Chula Data Science

+Data Science: Components

Data Science

Statistics

Domain Expertise

Visualization

Data Engineering

Advanced Computing

Chula Data Science

+Data Science Process: Iterative Activity

Chula Data Science

+Data Science Tasks

Chula Data Science

+Data Science with Big Data

Very large raw data sets are now available:

Log files

Sensor data

Sentiment information

With more raw data, we can build better models with improved predictive performance.

To handle the larger datasets we need a scalable processing platform like Hadoop and YARN

Chula Data Science

+Who builds these systems?

Data Scientist:

By Thomas H. Davenport and D.J. Patil

From the October 2012 issue

Chula Data Science

It is estimated that by 2018, US could have a shortage of 140,000+ people

with advanced analytical skills!

Chula Data Science

+Definition

Data collection systems

Machine learning

algorithms

Interface design

Design/manage/query

database

Data aggregation

Data mining

Statistical models

Evaluation metrics

Predictive analytics

Data visualization

Computer Scientist Mathematician Business Person

Domain expertise

Knowing what questions

to ask

Interpreting results for

business decisions

Presenting outcomes

Chula Data Science

+Needed Skills

Applied Science

Statistics, applied math

Machine Learning, Data

Mining

Tools: Python, R, SAS, SPSS

Data engineering

Database technologies

Computer science

Tools: Java, Scala, Python,

Business Analysis

Data Analysis, BI

Business/domain expertise

Tools: SQL, Excel, EDW

Big data engineering

Big data technologies

Statistics and machine

learning over large datasets

Tools: Hadoop, PIG, HIVE,

Cascading, SOLR, etc.

Chula Data Science

+The Data Science Team

Chula Data Science

Data Mining

Chula Data Science

+What is Data Mining (DM)?

An automatic process of

discovering useful information

in large data repositories

with sophisticated algorithm

Machine LearningStatistics

Data Mining

Database

systems

Chula Data Science

+Data Mining Tasks

Predictive Task (Supervised Learning)

Classification

Regression

Descriptive Task (Unsupervised Learning)

Clustering

Association Rules Mining

Sequence Analysis

Other:

Collaborative filtering: (recommendations engine) uses techniques from both supervised and unsupervised world.

Chula Data Science

+Supervised Learning: learning from target

Training dataset:

Test dataset:

71,M,160,1,130,105,38,20,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0 ?

57,M,195,0,125,95,39,25,0,1,0,0,0,1,0,0,0,0,0,0,1,1,0,0,0,0,0,0,0,0

78,M,160,1,130,100,37,40,1,0,0,0,1,0,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0

69,F,180,0,115,85,40,22,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0

18,M,165,0,110,80,41,30,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0

54,F,135,0,115,95,39,35,1,1,0,0,0,1,0,0,0,1,0,0,0,0,1,0,0,0,1,0,0,0,0

84,F,210,1,135,105,39,24,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0

89,F,135,0,120,95,36,28,0,0,0,0,0,0,0,0,0,0,0,0,1,1,0,0,0,0,0,0,1,0,0

49,M,195,0,115,85,39,32,0,0,0,1,1,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0

40,M,205,0,115,90,37,18,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0

74,M,250,1,130,100,38,26,1,1,0,0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0

77,F,140,0,125,100,40,30,1,1,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,1

Chula Data Science

+Classification: predicting a category

Some techniques:

Naïve Bayes

Decision Tree

Logistic Regression

Support Vector Machines

Neural Network

Ensembles

Salary

Predict targeted customers who

tend to buy our product (yes/no)

Chula Data Science

+Regression: predict a continuous value

Some techniques:

Linear Regression / GLM

Decision Trees

Support vector regression

Neural Network

Ensembles

Predict a sale price of each house

Chula Data Science

+Predictive Modeling Applications

Database marketing

Financial risk management

Fraud detection

Pattern detection

Chula Data Science

+Unsupervised Learning: detect natural

patterns