Introduzione ai Big Data e alla scienza dei dati

Post on 14-Jun-2015

269 views 2 download

Tags:

description

Presentazione introduttiva ai Big Data e alla scienza dei dati fatta all'Ordine degli Ingegneri della provincia di Bergamo il 7 giugno 2014.

transcript

INTRODUZIONE AI BIG DATA E ALLA SCIENZA DEI DATI

Ordine degli Ingegneri della Provincia di Bergamo, 7 giugno 2014 !

Ing. Vincenzo Manzoni, PhDme@vincenzomanzoni.com

UN’INTERESSANTE METAFORA…

Big Data

Big Data

Big Data

Big Datan. Computing data of a very large size, typically to the extent that its manipulation and management present significant logistical challenges; (also) the branch of computing involving such data.

Oxford English Dictionary, 2013

L’ORIGINE DEL TERMINE

Usato per la prima volta nel 2008 nel Computing Community Consortium.

Stati Uniti

Italia

LE 3 V

VolumeVelocitàVarietà

VOLUME

Volume

VelocitàVarietà

Informazione prodotta in un giorno2.5 milioni di TB

(il 20% di tutta la conoscenza umana nel 1999!)

532.000.000 DVD

Se impilati, 640 km!

In un anno, raggiungerebbero il 60% della distanza Terra - Luna

Fonte: Harvard Business Review, “Big Data: the management revolution”, ottobre 2012.

VELOCITÀ

VolumeVelocità

Varietà600.000 acquisti con carte di credito

In un minuto

204.000.000 e-mail inviate

48 ore di video su YouTube

100.000 tweet

2.200.000 azioni su facebook

VARIETÀ

VolumeVelocitàVarietà

Fonte: Mobile Millennium, UC Berkeley.

LE 3 V

Volume

Velocità

Varietà

MB GB TB PBpe

riodic

o

a lot

tiquasi

tempo

reale

tempo

reale

tabella database foto / video

socialsensori

LE NUOVE V

VeracitàVisualizzazione

LE NUOVE V

Veracità

Visualizzazione

LE NUOVE V

VeracitàVisualizzazione

VISUALIZZAZIONE

IN COSA CONSISTONO? SECONDO 35 INGEGNERI DI BERGAMO

Migliore informazione

Nuove analisi dati

Informazioni real-time

Influsso sui dati dalle nuove tecnologie

Forme non tradizionali di media

Grandi quantità di dati

L’ultima moda

Social media

0% 5% 9% 14% 18%

7%8%

10%13%13%

15%16%

18%

IN COSA CONSISTONO? SECONDO GLI EXECUTIVE INTERVISTATI DA IBM

Fonte: IBM, “Analytics: The real-world use of big data”, 2012.

LE FONTI SECONDO 35 INGEGNERI DI BERGAMO

LE FONTI SECONDO GLI EXECUTIVE INTERVISTATI DA IBM

TransazioniLog

EventiE-mail

Social networkSensori

RFID e POSTesto libero

GeograficiAudio

Fotografie / video

0% 23% 45% 68% 90%

24%38%

40%41%41%42%43%

57%59%

73%88%

Fonte: IBM, “Analytics: The real-world use of big data”, 2012.

Le opportunità

L’HYPE CYCLE DEI BIG DATA GARTNER, 2011

Fonte: Gartner.

L’HYPE CYCLE DEI BIG DATA GARTNER, 2012

Fonte: Gartner.

L’HYPE CYCLE DEI BIG DATA GARTNER, 2013

Fonte: Gartner.

LE OPPORTUNITÀ

1.I big data applicati alla sanità possono far risparmiare agli Stati Uniti 300 B$ in efficienza.

2.L’Europa può risparmiare 149 B$ in costi di amministrazione e governo.

3.Solo negli Stati Uniti serviranno nel breve periodo 1.5+ M di data scientist e data manager.

NUOVE (?) PROFESSIONI

• I bit sono inutili senza qualcuno che li sappia interpretare!

I “DATA PRODUCT”

Cose che si conoscono

Cose che non si conoscono

Domande che ci si fanno

Domande che non ci si fanno

Business intelligence

Data Discovery

Analista dati

Data Scientist

LE OPPORTUNITÀPer le aziende

NUOVE TECNOLOGIE

Sorgente: Forbes.com

SCIENZA

E-COMMERCE Sistema di raccomandazione

ADVERTISING

SANITÀ Healthcare

SENSEable City Lab, MIT. Health Infoscape, 2011.

SENSEable City Lab, MIT. Women’s health connections, 2011.

SANITÀ Healthcare

FINANZA Sentiment Analysis

POLITICA

[…] Renzi ha spiegato di non avere in programma un aumento del prelievo fiscale e di volere anzi combattere l’evasione “anche attraverso innovazione digitale e incrocio dei dati”

Il Corriere della Sera Online, 21 marzo 2014

SPORT

URBAN PLANNING

TenarisDalmine, 2011 →

MANUFACTURING: TENARIS FASE 1: ACQUISIZIONE

Macchina 1

Macchina 2

Macchina n

DatabaseElaborazione dati sintesi

Segnali

Dati sinteticiSegnali

Segnali

Valor medio

Durata

Valor massimo

MANUFACTURING: TENARIS FASE 1: ACQUISIZIONE

Macchina 1

Macchina 2

Macchina n

DatabaseElaborazione dati sintesi

Web Services .net Microsoft SQL Server

Database

Visualizzazione di dati aggregati

Sistemi automatici di controllo basati sulla

anomalie dei dati aggregati

MANUFACTURING: TENARIS FASE 2: USO DEL DATO

MANUFACTURING: TENARIS FASE 2: USO DEL DATO

Aumento improvviso e non giustificato di un parametro

di qualità del prodotto

Il processo è andato fuori controllo

… e con il parametro di qualità ritorno in controllo.

Viene fatto un intervento e il processo ritorna in controllo…

LE OPPORTUNITÀPer i professionisti e i privati

DATA JOURNALISM

Data

Selezione

Visualizzazione

Storia

Valore c

rescen

te per i

l pubblico

DATA JOURNALISM

Font

e: Th

e G

uard

ian.

DATA JOURNALISM

DATA JOURNALISM

The Data Journalism Handbook può essere consultato a http://datajournalismhandbook.org.

GLI OPEN DATA

LE MINACCE

IL ROI DEI BIG DATA

€ 0,00

€ 1,00

€ 2,00

€ 3,00

€ 4,00

Ritorno per 1 € investito Ritorno atteso in 3-5 anni

€ 3,50

€ 0,55

Fonte: Wikibon, “Enterprise struggling to derive maximum value form Big Data”, 2013.

Big Data

Big useless Data

I CASI DI INSUCCESSO

1.Assenza di figure con la professionalità necessaria

2.Uso di tecnologie grezze e immature.

3.Mancanza di un business case specifico!

I CASI DI SUCCESSO

1.Progetti non sponsorizzati da IT, ma da dipartimenti di line-of-business come marketing o logistica.

2.Focus su un caso d’uso piccolo, ma strategico.

3.Iterare e crescere sulla base dei risultati precedenti.

L’ALGORITMO PER IL SUCCESSO

Contesto di business ben definito

Giuste domande

Risposte

Sorgenti dati di valore

LA FORMAZIONE

LA FORMAZIONE... IN ITALIA

Adnkronos, Ict: al via a Milano il nuovo centro per l’innovazione, 17 giugno 2013.

PER APPROFONDIRE

INTRODUZIONE AI BIG DATA E ALLA SCIENZA DEI DATI

Ordine degli Ingegneri della Provincia di Bergamo, 7 giugno 2014 !

Ing. Vincenzo Manzoni, PhDme@vincenzomanzoni.com

Slide disponibili qui: http://www.vincenzomanzoni.com/corsi/