Post on 24-Jun-2015
transcript
ANALYTICS 3.0 Breve storia della Data Analysis ad oggi
Filippo Ragazzo - 838696
Introduzione
I pionieri
Data and analytics are not just an adjunct to the business, but
THE BUSINESS ITSELF
Analytics
Analytics 1.0
Dalla metà degli anni ’50, al 2005.
Sorgenti di dati piccole e strutturate in sistemi interni La maggioranza delle attività di analisi era di report Creare modelli di analisi è un processo “batch” pesante Lavoro degli analisti indipendente da persone e decisioni Poca competizione fra le aziende di analisi Decisioni basate su esperienza ed intuizioni
Analytics 2.0
Dalla metà degli anni 2000.
Sorgenti di dati complesse, grandi, non strutturate Nuove capacità analistico-computazionali Si impone la figura del “Data Scientist” Alcune attività online creano prodotti e servizi data-based
Hadoop“Apache Hadoop is 100% open source, and pioneered a fundamentally new way of storing and processing data. Instead of relying on expensive, proprietary hardware and different systems to store and process data, Hadoop enables distributed parallel processing of huge amounts of data across inexpensive, industry-standard servers that both store and process the data, and can scale without limits. With Hadoop, no data is too big. And in today’s hyper-connected world where more and more data is being created every day, Hadoop’s breakthrough advantages mean that businesses and organizations can now find value in data that was recently considered useless.”
http://www.cloudera.com/content/cloudera/en/about/hadoop-and-big-data.html
Doug CuttingCEO di Cloudera
Analytics 3.0
Concetto attualissimo (per molti siamo ancora al 2.0).
Analisi necessarie per la sopravvivenza delle aziende Tempi rapidi Strumenti di analisi disponibili già in Point of Decision Tutti i business possono creare prodotti e servizi data-based
The most important trait of the Analytics 3.0 era is that not only online firms, but virtually any type of firm in any industry, can participate in the data economy.
Tom Davenport
General Electrics
2 miliardi di dollari investiti in software e analisi Focus principale su prodotti e servizi data-based 588 GB/giorno di dati sul monitoraggio delle turbine a gas
(circa 6 volte il volume giornaliero di tweet)
General Electrics - Datalandia
Schneider National
La Schneider National sta incrementando la raccolta dei dati tramite sensori per monitorare livello di benzina, localizzazione, capacità dei container, comportamento del conducente e altri indicatori chiave.A questi dati applica algoritmi di ottimizzazione logistica per migliorare volta per volta l’efficienza del tragitto in termini di velocità, prezzo della benzina e per ridurre gli incidenti.
P&G
Focus: decisioni real-time
Sentiment analysis real-time attraverso i social media
Decision cockpits
Sviluppo ibrido
E’ chiaro che lo sviluppo di Analytics 3.0 porta alla nascita di nuove architetture, ma l’utilizzo delle tecnologie esistenti per molte grosse organizzazioni non viene abbandonato.
Risulta, comunque, sempre più massiccio l’utilizzo di soluzioni
di analisi di big data (come Hadoop) in cloud e open-source.
Descriptive vs Predictive vs Prescriptive
Descriptive analytics: Report sul passato Predictive analytics: Uso di modelli basati sui dati del
passato per predire il futuro ("you basically take data that you have to predict data you don't have”)
Prescriptive analytics: Uso di modelli per individuare comportamenti ottimali o azioni migliori da intraprendere
Analytics 3.0 li include tutti, ma pone l’accento sulla prescriptive analytics.
Problemi
Intensificazione del lavoro di data science Privacy Complessità dei big data Integrazione
Sommario
Risorse http://www.winshuttle.com/big-data-timeline/
http://www.cloudera.com/content/cloudera/en/about/hadoop-and-big-data.html
http://www.ge.com/datalandia/
http://mondodellericerche.wordpress.com/2013/04/09/un-cockpit-per-orientarci/