+ All Categories
Home > Documents > Big Data: verso una società e una scienza guidate dai dati

Big Data: verso una società e una scienza guidate dai dati

Date post: 30-Oct-2021
Category:
Upload: others
View: 1 times
Download: 0 times
Share this document with a friend
49
1 Big Data: verso una società e una scienza guidate dai dati Annalisa Appice Michelangelo Ceci Donato Malerba UNIBA Dipartimento di Informatica CINI - Laboratorio Big Data Bari, 26 Marzo 2018
Transcript

1

Big Data: verso una società e una scienza guidate dai dati

Annalisa Appice

Michelangelo Ceci

Donato Malerba

UNIBA – Dipartimento di Informatica

CINI - Laboratorio Big Data

Bari, 26 Marzo 2018

2

Dipartimento di Informatica

Fondato nel 1992 (attivo dal 1974 come

Istituto di Scienze dell’Informazione)

3

http://www.consorzio-cini.it/

• CINI

– 40 università aderenti al consorzio

• Nodi partecipanti al LabCINI su Big Data:

– 31 unità.

• Personale interessato

– Circa 300 docenti

Laboratorio CINI suBig Data

4

Una stima di crescita …

• I dati crescono in media del 30-40% annuo

• Ogni 2,5 anni si raddoppia il volume

5

Quanti dati fra venti anni?

• Oggi X

• Fra 2,5 anni X∙2 = X ∙21

• Fra 5 anni X∙2∙2 = X ∙22

• Fra 7,5 anni X∙2∙2∙2 = X ∙23

• Fra 10 anni X∙2∙2∙2∙2 = X ∙24

• Fra 20 anni X ∙28 = 256 ∙ X

• Fra 30 anni X ∙212 = 40196∙ X

… quando andrò in pensione (spero)

6

Crescita esponenziale

• Crescita esponenziale dei dati

– 2,7 EB (1021 bytes) nel 2012!

– 40 EB nel 2020Nome Simbolo Multiplo

kilobyte kB 103

megabyte MB 106

gigabyte GB 109

terabyte TB 1012

petabyte PB 1015

exabyte EB 1018

zettabyte ZB 1021

yottabyte YB 1024

7

Crescita esponenziale

• La Divina Commedia di Dante Alighieri è composta da 671.447 caratteri

• 1 carattere = 1 byte

• 670 Kb = 1 Divina Commedia

8

Datizzazione

• Neologismo che indica la conversione in formato digitale (dati) di:

• Film, musica, libri, etc. (contenuti che fino a qualche anno fa viaggiavano su pellicole, carta, vinili e altri supporti)

• Conversazioni telefoniche, mail, trasmissioni televisive e radiofoniche

9

Datizzazione

• Facebook ha “datizzato” le relazioni,

• Twitter ha reso possibile la “datizzazione” dei sentimenti,

• LinkedIn ha “datizzato” le nostre esperienze professionali

10

I dispositivi generano dati …

• Internet of Things (IoT): Gli oggetti si rendonoriconoscibili e acquisiscono intelligenza grazieal fatto di poter comunicare dati su se stessi eaccedere ad informazioni aggregate da partedi altri.

11

I dispositivi generano dati …

Esempi:

• Le sveglie suonano prima in caso di traffico,

• Le piante comunicano all'innaffiatoio quando è ilmomento di essere innaffiate,

• i vasetti delle medicine avvisano i familiari se sidimentica di prendere il farmaco.

Tutti gli oggetti possono acquisire un ruoloattivo grazie al collegamento a Internet.

12

Noi generiamo dati …

• Grazie alla nostra forte simbiosi con letecnologie digitali, siamo diventati dei“sensori” viventi.

• 7 miliardi di persone e 6,8 miliardi di cellulari• «Siamo Pollicini digitali, ci lasciamo dietro briciole di

informazioni, tracce di noi stessi». (Dino Pedreschi)

13

La scienza genera dati …

• Le tecnologie digitali hanno permesso di fare passi da gigante, in questi anni, nel campo della genomica, dove le moli di dati da analizzare sono enormi.

• mappatura del DNA di un individuo

da 3 miliardi di dollari e 13 anni di ricerca (1990-2003) poche migliaia di dollari per un processo che dura un paio di settimane.

14

La scienza genera dati …

• Human Brain Project

• Un osservatorio del cervello che monitora 1 milionedi neuroni (o 100.000 neuroni in 10 soggetti) per 1.000 volte al secondo genererebbe:

– 1 gigabyte di dati al secondo,

– 4 terabytes all’ora,

– 100 terabytes al giorno

– 4 petabyte all’anno (ipotizzando un fattore di compressione di 1/10).

15

La scienza genera dati …

• Il Large Hadron Collider (LHC) acceleratore di particelle situato presso il CERN di Ginevra, utilizzato per ricerche sperimentali nel campo della fisica delle particelle, può produrre 30 petabyte di dati l’anno.

• L'Agenzia spaziale europea genera più di un petabyte di dati all'anno.

16

• Oggi ogni grande business è un digitalbusiness:– Alibaba uno dei più grandi negozi al mondo, ma non ha

nemmeno un magazzino.

– Uber è la più grande compagnia di noleggio veicoli, ma non possiede nemmeno un’auto.

– Booking è il più esteso network dedicato alla ricettività, ma è del tutto privo di strutture.

Le aziende generano dati …

17

• Ordini, acquisti, vendite, spedizioni, difetti diproduzione, …

• I dati sono raccolti nei sistemi informatici delleaziende. Sono considerati un asset(intangibile).

• Facebook: dichiarava asset (tangibili) per 6,3miliardi nel 2015 ma venne valutata in Borsa104 miliardi il giorno del suo debutto.

Le aziende generano dati …

18

• Nonostante i dati siano un asset, oggi vieneelaborato solo il 5‰ dei dati aziendali

• Perché?

– mancanza di competenze sull’analisicomputazionale dei dati;

– sovversione dei poteri generati daun'informazione così tempestiva

Le aziende generano dati …

19

Il Diluvio dei Dati

Febbraio 2010

20

• Il termine “diluvio dei dati” si riferisce allasituazione in cui le incredibili dimensioni deidati generati sta sopraffacendo la capacitàdelle istituzioni nel gestirli e dei ricercatori nelfarne uso nei loro studi.

Il Diluvio dei Dati

21

• Raccolta di dati così estesa in termini divolume, velocità e varietà da richiederestrumenti non convenzionali per estrapolare,gestire e processare informazioni entro untempo ragionevole.

Big Data

22

Big Data: una rivoluzione?

• La vera rivoluzione non sta nelle tecnologie per elaborare i dati, ma nei dati in sé e nel modo in cui li usiamo.

• Aumentando la scala dei dati con cui si lavora, si possono fare cose nuove che non sono possibili con minori quantità dei dati.

23

Big Data: Il contesto di riferimento

• Alcune iniziative governative– Big Data Research and Development Initiative

• Lanciata dall’amministrazione Obama nel 2012

• per affrontare problemi importanti del Governo

• 84 progetti su 6 dipartimenti

– Centri di eccellenza per la gestione intelligente di grandi quantità di dati

• Lanciata dall’amministrazione tedesca (Bundesministeriums für Bildung und Forschung) nel 2013

24

Big Data: Il contesto di riferimento

• Molte iniziative nel settore privato, (soprattutto fra i maggiori produttori di dati)

– Facebook: 50 miliardi di foto

– eBay.com: consumer recommendations

– Walmart: 1 milione di transazioni all’ora

– Amazon.com

– …

25

Big Data vs. Data Science

• Data Science

– La scienza dei dati studia i metodi per estrarre la conoscenza dai dati.

• Dati di qualunque natura

– Un approccio olistico alla creazione di prodotti e servizi basati sull’estrazione di conoscenza dai dati

• La conoscenza estratta è immediatamente utilizzabile(actionable) nei processi decisionali.

26

Big Data vs. Data Science

• Data Science vs. Big Data

– Data Science non necessita sempre di Big Data, tuttavia la costante crescita dei dati fa si che i Big Data siano un aspetto importante della Data Science.

27

Big Data Analyst vs. Data Scientist

• Data Scientist

– Figura professionale dotata di abilità “integrate” che spaziano dalla matematica, all’apprendimentoautomatico, alla statistica, al data mining, aidatabase e all’ottimizzazione

– capace di ingegnerizzare delle soluzioni efficacialla creazione di nuovi prodotti e servizi.

– Carenza di professionalità: 150.000 data scientist richiesti solo negli USA

28

Data Scientist: offerta di

lavoro

29

Quali competenze professionali?

30

Big Data vs. Open Data

• Open Data

– dati liberamente accessibili a tutti, privi di brevetti o altre forme di controllo che ne limitino la riproduzione

– gli eventuali copyright eventualmente si limitano all’obbligo di citazione della fonte o al rilascio delle modifiche con stesso copyright.

31

Big Data vs. Open Data

• Open Data: iniziative governative

– direttiva sull'Open government, amministrazione di Obama 2009

• sito pubblico Data.gov portale che raccoglie i dati resi disponibili dagli enti statunitensi in formato aperto

– Open Data Institute, UK• Incoraggia gli enti pubblici a rilasciare i loro dati in formato aperto

e aiuta le start-up a sviluppare prodotti commerciali sulla base degli open-data

– 11 start-up finanziate

– Portale italiano dell'Open data dati.gov.it

32

Big Data vs. Open Data

• Open Data vs. Big DataCaratteristiche Open Data:

•Trasparenza

•Partecipazione

•Collaborazione

Per lo più strutturati

33

Di cosa parleremo?

Big Data

Mutamenti

Sfide

Impatto sociale

Impatto scienza

34

Caratteristiche: Volume

• Principali caratteristiche dei Big Data

– Volume: dimensione dei data set (oltre le capacità degli odierni DBMS)

– I dati andrebbero distribuiti limite teorico fissato dal teorema CAP o di Brewer,

un sistema informatico distribuito non può fornire simultaneamente tutte e tre le seguenti garanzie:

• Coerenza (tutti i nodi vedono gli stessi dati nello stesso momento)

• Disponibilità (ogni richiesta riceve una risposta su ciò che è riuscito/fallito)

• Tolleranza di partizione (il sistema continua a funzionare nonostante arbitrarie perdite di messaggi)

35

Caratteristiche: Velocità

• Principali caratteristiche

– Velocità: rapidità con cui i dati arrivano e devono essere elaborati

• Real-time o , almeno, near-time

• Spesso in stream

Non c’è tempo per importare i dati in un DBMS per forzarne una rappresentazione uniforme.

36

Caratteristiche: Varietà

• Altre caratteristiche

– Varietà: tipologia di dati e sorgenti

• Semi-strutturati (XML, tweets, …)

• Destrutturati (documenti, pagine web)

Scarsa adattabilità alle restrizioni dei DBMS moderni

37

Caratteristiche: Veridicità

• Altre caratteristiche

– Veridicità:

• Le sorgenti dei dati sono non controllate e/o controllabili.

• C’è incertezza sulla singola informazione – Incompleta, vaga, …

38

Caratteristiche: Variabilità

• Altre caratteristiche

– Variabilità: ci sono variazioni sia nella struttura dei dati che nella semantica sottostante;

– Insito nella datizzazione (es. le nostre parole sono dati)

39

Caratteristiche: Valore

• Altre caratteristiche

– Valore: potenzialità dei dati in termini di vantaggi competitivi raggiungibili con la loro analisi

volume velocità

variabilità veridicitàvarietà

valore

40

Caratteristiche: Valore

• I Big Data dovrebbero creare “valore”

– Scoprendo esigenze, aiutandoci a migliorare

le performance di una organizzazione

– Segmentando meglio la clientela

– Rimpiazzando/supportando i decisori umani

con algoritmi

– Innovando i nuovi modelli / servizi aziendali

41

Caratteristiche: Valore

• Chi dovrebbe beneficiare del “valore”

creato con i Big Data?

– Le imprese

– La comunità

– Il singolo cittadino

Dovrebbe valere il principio che “chi genera

dati” ne deve beneficiare in primis.

42

Le molteplici V dei Big Data

Volume e Velocità sono ancora considerate di gran lunga le caratteristiche più rilevanti nella gestione dei Big Data

Scalabilità è al cuore delle nuove tecnologie che ci si attende in un futuro prossimo per affrontare le sfide tecnologiche poste dai Big Data

43

Per affrontare la sfida della scalabilità dei Big Data cisono stati diversi tentativi di sfruttare architetture di“massive parallel processing”.

• Google: modello di programmazione MapReduceaccoppiato con (e facilitato dal) GFS (Google FileSystem)

• Amazon: Dynamo (sistema di memorizzazione dicoppie chiave-valore)

• Apache OS community: Hbase e Cassandra

La sfida della scalabilità

44

Google:

BigTable: un sistema di storage distribuito progettatoper gestire petabyte di dati strutturati, mediantemigliaia di commodity servers

Yahoo:

Hadoop MapReduce framework + HadoopDistributed File System (HDFS)

La sfida della scalabilità

45

L’analisi di Big Data è molto più della scalabilità.

Hadoop non è la panacea

E.g.: Nel data warehouse Hadoop di Twitter, i log sonotutti depositati nella directory /logs/, con una sotto-directory per ciascuna categoria di log.

Dozzine di categorie di log che evolvonocontinuamente …

In pratica …

46

Il data scientist spende le sue energie in:

1. Comprendere i dati disponibili, prima di iniziare l’analisi;

2. Compiere analisi esplorative, che rivelano sempre problemi diqualità e possono talora richiedere interventi di data cleaninge sanity checking;

3. Analizzare sintatticamente i log per ottenere rappresentazionistrutturate (usando, ad esempio Elephant-Bird)

4. Mantenere un catalogo (e.g. in HCatalog) di tutte le tabelleregistrate e dei loro schemi.

In pratica …

47

Il data scientist spende le sue energie in:

5. Ricostruire le attività utente da tabelle di dati distribuite (legiunzioni su timestamp non sempre funzionano);

6. Trattare impedance mismatch dovuti all’attraversamento diconfini fra sistemi e framework diversi;

7. Adattare algoritmi sequenziali di machine learning e datamining sviluppati per dati che stanno tutti in memoria;

8. Integrare strumenti di Big Data Analytics tool (e.g. Manhout)in sistemi che devono essere operativi.

In pratica …

48

Conclusioni

Il disegno del futuro dell’umanità è nelle mani dell’uomo …

… le macchine potranno solo aiutare l’uomo a realizzarlo.

49

Letture

Mayer-Schönberger ViktorCukier KennethBig DataUna rivoluzione che trasformerà il nostro modo di

vivere – e già minaccia la nostra libertà

Garzanti

306 pagine€ 18.60ISBN 978881168247-9


Recommended