BIG DATA - en Sciences et Industries de l'Environnement · Points cles´ Vers une Science...

BIG DATAen Sciences et Industries de l’Environnement

Francois Royer

www.datasio.com

21 mars 2012

FR — Big Data Congress, Paris 2012 — 1/23

Transport terrestre

Transport aerien

Tracabilite

Telemetrie - Argos

Oceanographie

Imagerie satellite


Points cles

Vers une Science ultra-empirique?

Big Data pour la Recherche et l’Industrie : mode d’emploi

Hadoop et les donnees geographiques et temporelles


Points cles





L’ere du ”Data Scientist”L’accumulation exponentielle de donnees transforme la demarche d’analyse

1960E. Wigner, ”The Unreasonable Effectiveness ofMathematics in the Natural Sciences,” Comm. Pure andApplied Mathematics, vol. 13, no. 1, pp. 1–14.

2009A. Halevy, P. Norvig, F. Pereira, ”The UnreasonableEffectiveness of Data,” IEEE Intelligent Systems, vol. 24,no. 2, pp. 8-12.


L’ere du ”Data Scientist”L’accumulation exponentielle de donnees transforme la demarche d’analyse

1960E. Wigner, ”The Unreasonable Effectiveness ofMathematics in the Natural Sciences,” Comm. Pure andApplied Mathematics, vol. 13, no. 1, pp. 1–14.

2009A. Halevy, P. Norvig, F. Pereira, ”The UnreasonableEffectiveness of Data,” IEEE Intelligent Systems, vol. 24,no. 2, pp. 8-12.


“ All models are wrong,but some are useful. ” George Box


Data Scientist= nouveau metier?

Ce qui ne change pasI Le besoin en competences statistiques

(Bayesiennes, frequentistes etc...)I La demarche de questionnement et de critiqueI Les protocoles de collecte de donnees

Ce qui changeI Le stockage et le traitement de donneesI L’interaction entre modelisateurs, ingenieurs

systemes et bases de donnees et ... le client






































Points cles





DefinitionI Big Data = gros volume (> 10 TB)

I Imagerie satellite 1-10 GB/jourI Systemes geolocalises (vehicules, personnes) 100

MB/jourI Modeles meteo 100 GB/jourI Simulateurs (traffic routier etc...) 100 GB/run

I Big Data + Big ProcessI Donnees pre-traitees (GPS) Cout d’analyse -I Aggregation, contextualisation Cout d’analyse +I Appels BD Cout d’analyse +++I Calculs en cascade Cout d’analyse +++















































Diagnostic Big DataDocteur, ais-je un probleme Big Data?

Oui, si :I Vous avez un reseau d’observation autonome

(capteurs meteo, RFID, GPS, balises Argos,smartphones, telemetres, instruments sursatellites...)

I Vos donnees dependent d’une communauted’utilisateurs ou d’individus instrumentes (etude de lamobilite humaine, ecologie terrestre et marine etc... )

I Votre budget, programme de recherche ou businessplan prevoit de ”mesurer d’abord, traiter ensuite”

I Ces systemes de collecte produisent des flots dedonnees plus vite que vous ne pouvez les traiter






























Diagnostic Big DataC’est grave, Docteur?

“ Tout ira bien,je vais vous prescrire du DevOps et des calculsdistribues. ”


Solutions Big Data


Solutions Big Data

Dev


Solutions Big Data

Operations

Dev


Solutions Big Data

QA

Operations

Dev


Solutions Big Data

QA

Operations

Dev

DevOps


Solutions Big Data

HierI Noeuds de

stockageperipheriques

I Stockage surplusieurs niveaux”chaud”/”froid”

I Supercalculateurau centre

I Data -> Code


Solutions Big Data

HierI Noeuds de




I Data -> Code


Solutions Big Data

HierI Noeuds de




I Data -> Code


Solutions Big Data

HierI Noeuds de




I Data -> Code


Solutions Big Data

Aujourd’huiI Noeuds de stockage sur meme reseau GBI Materiel milieu de gamme (100 - 1000 CPUs)I Systeme de fichiers distribues (DFS)I Gestion des jobs et donnees par des Master NodesI Code -> Data


Solutions Big Data



Solutions Big Data



Solutions Big Data



Solutions Big Data



Solutions Big Data



Solutions Big Data

Pourquoi Hadoop?I Open source (fondation Apache, ouvert par Yahoo)I Projet en maturation, communaute activeI Parallelisation de taches et donnees robusteI Standard de facto en analyse de donnees massivesI Bonne interoperabilite avec les data warehouse et

BDs existantes (ETL, Hive, Sqoop)I Offres commerciales (support, packaging,

integration: IBM, Cloudera, AWS...)


Solutions Big Data





Solutions Big Data





Solutions Big Data





Solutions Big Data





Solutions Big Data





Solutions Big Data





Solutions Big Data

Pourquoi Hadoop?I Difficile a ”tuner” pour des jobs complexesI Encore confidentiel en France (cf. groupe Hadoop

France sur LinkedIn)I Difficile de formuler certains algorithmes sous forme

map-reduceI Embauche et formation de developpeurs et analystesI Autres alternatives disponibles (BSP, Storm, Disco...)


Solutions Big Data





Solutions Big Data





Solutions Big Data





Solutions Big Data





Solutions Big Data





Solutions Big Data


Solutions Big Data

HDFS


Solutions Big Data

HDFS

Map Reduce


Solutions Big Data

HDFS

Map Reduce HBase


Solutions Big Data

HDFS

Map Reduce HBase

Hive


Solutions Big Data

HDFS

Map Reduce HBase

Hive Pig


Solutions Big Data

HDFS

Map Reduce HBase

Hive Pig Mahout


Solutions Big Data

HDFS

Map Reduce HBase

Hive Pig Mahout

Zook

eepe

r


Points cles





Hadoop-xytou Hadoop et les donnees geographiques et temporelles

BesoinI retraitement et fouille de donnees historiques

(geographiques et series temporelles)I Accelerer la decouverte d’anomalies et l’extraction de

valeur ajoutee

ProblematiqueI Donnees tres structurees - solution competitive?I Donnees correlees = pb du traitement independant?I Donnees stockees en fichiers binaires - distribution?I Algorithmes metier a reutiliser - interface Java?





valeur ajoutee






valeur ajoutee






valeur ajoutee






valeur ajoutee






valeur ajoutee






valeur ajoutee






valeur ajoutee



Hadoop-xytTraitement d’images

I Extraction + tiling + renderingI Calculs massivement paralleles = gain de temps +++




















Hadoop-xytGeolocalisation de vehicules


Transport terrestre

Transport aerien

Tracabilite

Telemetrie - Argos

Oceanographie

Imagerie satellite


DatasioWe are Data Scientists

Data Mining · Prototypage · Algorithmie ·Detection d’anomalies · Prediction · MachineLearning · Spatial data · Time series

Francois [email protected]

www.datasio.com


Date post:	07-Nov-2018
Category:	Documents
Upload:	lamhanh
View:	214 times
Download:	0 times

BIG DATA - en Sciences et Industries de l'Environnement · Points cles´ Vers une Science...

Documents