Big Data : buzz ou opportunité ?

palais des

congrès

Paris

7, 8 et 9

février 2012

Bernard OurghanlianDirecteur Technique et SécuritéMicrosoft France

Big DataBuzz ou opportunité pour les entreprises ?

Code Session : RDI203

In 2011, the amount of information created and replicated will surpass 1.8 zettabytes (1.8 trillion gigabytes) -growing by a factor of 9 in just five years. […] and more than doubling every two years. That's nearly as many bits of information in the digital universe as stars in our physical universe.

John Gantz and David ReinselExtracting Value from Chaos

Explosion généralisée des

données

―[by 2020] data use is

expected to grow by

as much as 44

times, amounting to

some 35.2ZB

(zettabytes—a billion

terabytes) globally.‖

―We now have well

over a thousand

customers in the ever-

growing EMC

Petabyte Club.

They—or frequently

many more—

petabytes of EMC

storage in production.

By 2012 or so, we're

forecasting that we'll

have to start a

new, informal club—

the EMC Exabyte

Club.‖

―Flickr members

upload more than

3,000 images every

minute, and yesterday

yeoaaron uploaded

the five billionth

photo…‖

―AT&T has about 19

petabytes of data

transferred through

their networks each

day.‖

Des milliers d’années auparavant – Science expérimentale

Description des phénomènes naturels

Les quelques derniers siècles – Science théorique

Lois de Newton, équations de Maxwell

Les dernières décennies – Science computationnelle

Simulation de phénomènes complexes

Aujourd’hui – Science centrée sur les données

Unifier la théorie, l’expérience et la simulation

En utilisant l’exploration et la fouille de données

Données capturées par des instruments

Données générées par des simulations

Données générées par des réseaux de capteurs

Données générées par les humains

La nature changeante de la

recherche

2

2

2.

3

4

a

cG

a

a

http://es.rice.edu/ES/humsoc/Galileo/Images/Astro/Instruments/hevelius_telescope.gif

Modèles complexes Interactions multidisciplinaires

Larges échelles temporelles et spatiales

Large ensemble de données multidisciplinaires Flux temps réel

Structuré et non structuré

Communautés distribuées Organisations virtuelles

Socialisation et management

Diverses attentes Centrées client ou infrastructure

Le quatrième paradigme

http://research.microsoft.com/en-us/collaboration/fourthparadigm/

Pourtant, Big Data ce n’est pas

que cela…

4/10/2013

Il y d’autres dimensions au phénomène Big Data…

Les besoins en diminution de temps de

latence augmentent de plus en plus

• Le temps effectif pour comprendre a été considérablement réduit

• Poussé par des facteurs réglementaires et de calcul de risque dans de nombreuses industries

0 micro- milli- seconde minute heure jour

Value AtRisk

Contrôle de niveau de service

Transactionnel OLTP

Opérations, Administration et maintenance

Contrôle réglementaire

semaine

Réordonnancer la flotte

Valeur

La hiérarchie de la

connaissance

Effort / Latence

Stru

ctu

re /

Val

eur

Signal

Donnée

Information

Connaissance

Nous voulons transformer le « signal » en « valeur »

Compréhension

Action

Cycle de vie standard de

l’analyse de données (Entrepôt

de données)

Temps

Souvent des semaines voire des mois

Le cycle de vie de l’analyse de

données en environnement Big

Data

Temps

Jours à semaines

La hiérarchie de la

connaissance

Effort / Latence

Stru

ctu

re /

Val

eur

Signal

Connaissance

Donnée

Information

Objectif : Repenser l’équation signal –

valeur

Effort / Latence

Stru

ctu

re /

Val

eur

Signal

Donnée

Information

Connaissance

Valeur

• Trouver une nouvelle valeur• Réduire de façon spectaculaire

le temps de création de valeur

Ceci n’a pas grand-chose à voir avec la taille de la donnée !

… mais … de nouveaux signaux peuvent se trouver dans les « données ambiantes »

Perspicacité et création de sens

Perspicacité1. La capacité à discerner la véritable nature d'une situation ; la pénétration.2. L'acte ou le résultat de saisir la nature intime ou cachée des choses ou de

percevoir d’une manière intuitive.

Création de sensLe processus par lequel les individus (ou les organisations) créent une compréhension afin qu'ils puissent agir de façon raisonnée et éclairée.

Création de sens sur un plus large

spectre

Effort / Latence

Stru

ctu

re /

Val

eur

Signal

Donnée

Information

Connaissance

Les systèmes existants permettentde donner du sens à des données modélisées

Il y a une énorme valeur potentielle dans le fait de donner un sens aux données ambiantes

Les technologies « Big Data » tout à la fois recréent et

complémentent les workflows d’analyse existants en :

Simplifiant la production d’information structurée à partir de

sources de données « ambiantes » émergentes (Signal

Donnée Information)

Permettant rapidement la création de sens à partir de

données non enrichies et non modélisées

Permettant l’analyse à l’échelle sur des données

« ambiantes »

Permettant la création de modèles à partir de données

« ambiantes »

Le rôle des technologies « Big

Data »

Le monde des données

(relationelles) est en train de

changer

Temps réel

Non Scructurées

Passage à l’échelle

Relational Data

Qu’est-ce que Big Data ?

Gros volume de données 100aine TO à 10aine de PO

Traitement à large échelle et

analyse à un coût sans

précédent (hardware et

software)

Nouvelle économie

Cadre de traitement distribué

parallèle

Facile à faire passer à

l’échelle sur du hardware

standard

Modèles de programmation

de style MapReduce

Nouvelles Technologies

Non structurées

Schéma relationnel faible

Texte, Images, Vidéos, Logs

Types de données

non traditionnelles

Capteurs

Terminaux

Applications traditionnelles

Serveurs Web

Données publiques

Nouvelles sources de

données

Quelle est la popularité de mon produit ?

Quelle est la meilleure publicité à servir ?

Est-ce une transaction frauduleuse ?

Nouvelles questions et

nouvelles inférences

Big Data

Big Data consiste avant tout à réduire le temps pour comprendre en permettant aux utilisateurs de

poser des questions ad-hoc sur des donnéesnon structurées et souvent mal

comprises

Qu’est-ce que Big Data ?

Les pionniers de Big Data :

Twitter

Exemple : Twitter

Stocke 12 TO de données/jour

Analyse pour :

Concepts clés :

Stocke les données telles quelles ;

les conserve comme des fichiers

journaux non structurés, n’essaye

pas de les analyser et de les stocker

dans un entrepôt de données

Traite des très gros volumes de

données rapidement grâce à des

requêtes ad-hoc et programmées

TENDANCES :

Justin Bieber

Egypt

Snowpocalypse

REPERTITION GEOGRAPHIQUE :

QU INFLUENCE RETWEETS?

IDENTIFICATION DES SPAMS :

• Akshf#$/lajsdf

Problème :• Nécessité de stocker de

très grands volumes de nouvelles données tous les jours

• Nécessité de fournir plus de valeur que de seulement stocker et retrouver les tweets Ramifications:

• Dans un mode de tweeters et d’analyse rapide, Twitter peut fournir une meilleure alerte précoce pour un conflit régional ou une épidémie qu’une surveillance classique

Systèmes de gestion des

risquesQUE POUVEZ-VOUS VRAIMENT ESPERER DE VOTRE

PORTEFEUILLE ?

SIMULATION DU

DOMMAGE

PREVISIONNEL

• +20 milliards

d’évaluations de

risque

PERTES FUTURES

ATTENDUES

• Prix des contrats, gestion

de risque, affectation de

capital, structure prix du

transfert de

risque, conformité

réglementaire

• Requêtes complexes

basées sur les contrats

actuels

PORTEFEUILLE

ASSURE

• Millions

d’emplacements

avec des

paramètres

affectant la stabilité

structurelle

MODELE DE CATASTROPHE

Simulations de douzaines de

types de périls dans différentes

zones géographiques

Problème :• La surveillance et les

simulations fournissent une grande quantité de données utiles pour la gestion des risques mais il est impossible de les traiter toutes

Ramifications:• La possibilité d’exécuter des centaines de

simulations sur une douzaine de types de périls et de calculer le risque pour chaque adresse individuelle dans un portefeuille

Analyse de SentimentQUI A DIT QUOI ? QUAND ? OU ? POURQUOI ?

Sentiment

REPARTITION GÉOGRAPHIQUE

REPARTITION DÉMOGRAPHIQUE

Blogs

Twitter

Facebook

YouTube

News

Problème :• Les conversations client peuvent

survenir n’importe où et les propos négatifs peuvent rapidement « partir en vrille »

Ramifications :• Une analyse de sentiment en temps réel vous

permet de non seulement connaitre ce qui a été dit mais aussi qui l’a dit, vous fournissant ainsi les informations dont vous avez besoin pour participer à la conversation

Scénarios clients Big DataIndustrie Scénario

Services financiers

Modélisation des risques

Analyse des menaces

Détection des fraudes

Surveillance du trading

Analyse et notation de crédit

Web & E-Tailing

Moteurs de recommandation

Ciblage publicitaire

Qualité de la recherche

Détection des abus et de la fraude au clic

Distribution Analyse des transactions du point de vente

Taux de roulement des clients

Analyse de sentiment

Télécommunications

Prévention des désabonnements

Optimisation des performances réseau

Analyse des détails des appels

Analyse de réseau pour prédire les défaillances

Gouvernement Détection de fraude et cyber-sécurité

Général ETL et moteur de traitement

https://www.bankofamerica.com/

http://www.groupon.com/

Stratégie Big Data de Microsoft

Se connecter facilement au monde des données

• Données privées, publiques et dérivées• Données Microsoft

Se connecter aux données structurées et non structurées

• Management intégré, qualité des données, nettoyage, outils ETL

• Connecteurs pour déplacement de données

La BI pour tous • Utilisation des outils BI familiers (Excel, Power*)

Nouvelles expériences d’analyse

• Visualisation des données• Analyse prédictive

Microsoft Big DataAccessible à tous les utilisateurs en

supportant de nouveaux types de données

Hadoop : la face visible de Big Data

33

Permet l’analyse de données semi et non cructurées distribuées sur un cluster standard

Basé sur le papier MapReduce de Google et sur le Google File system (GFS)

Programs = Séquence de tâches « map » et « reduce »

Simplifie l’écriture d’applications distribuées

Hautement tolérante aux pannes – copies multiples

Déplace les calculs au plus près des données

Implémenté en Java et optimisé pour Linux

L’écosystème Hadoop

MapReduce (Ordonnancement des tâches / Système d’Exécusion)

HDFS

(Hadoop Distributed File System)

HBase (Base de données orientée colonne)

Pig (Data Flow)

Hive

(Warehouse and

Data Access)

Oozie

(Workflow)

Sqoop

Outils BI traditionnels

HBase / Cassandra

(Bases de données orientées colonnes

et NoSQL)

Avro

(Séria

lisatio

n)

Zo

ok

eep

er

(Co

ord

inati

on

)

Apache Mahout

Karmasphere

(Outil de

développement)

Hadoop = MapReduce + HDFS

Flume

Stratégie Hadoop Microsoft

Notre propredistribution de Hadoop

Optimisée pour Windows et Azure

Focalisation sur les développeurs .NET

Differentiation à travers le support de l’entreprise

• Performance et passage à l’échelle• Haute disponibilité• Facilité d’utilisation

Facturation basée sur la tâche

Facile à administrer

Pas d’installation

Support d’une large variété de types de jobs

Machine Learning (mahout), Graph Mining (Pegasus),

HIVE, Pig, Java, JS, etc.

IHM grandement simplifiée

Hadoop as a Service : Azure

Elastic Map Reduce

Bon marché Rapide

GO

Hadoop sur Windows et Azure

Exemple : Big Data chez Yahoo!

SSAS Cube de 24 TO

Cas d’usage :

Analyse d’un très gros volume de données non structurées en provenance de journaux Web

Analyse ad hoc des journaux Web pour prototyper des patterns

Les données Hadoop alimentent un gros cube de 24 TO

Hadoop sur Windows

PRÊT POUR L’ENTERPRISE

ACCES PLUS LARGE

BIG DATA POUR TOUS

DIF

FER

ENTI

ATI

ON

Installation et configuration faciles d’Hadoop sur Windows

Programmation simplifiée avec l’intégration de .Net et Javascript

Intégration avec les fonctionnalités de Data Warehousing de SQL

Server

Choix du déploiement sur Windows Server + Windows Azure

Intégration avec les composants Windows (AD, System Center)

Démocratiser Big Data via l’intégration avec l’offre BI de Microsoft

Fournir de nouveaux services Big Data à valeur ajoutée pour les

développeurs

Contributions proposées en retour à la communauté

Driver ODBC pour Hive et Add-in Hive pour Excel

Intégration avec Microsoft PowerPivot

Distribution Hadoop pour Windows Server et Azure

Partenariat stratégique avec Hortonworks

Framework JavaScript pour Hadoop

Disponibilité de la version finale des connecteurs Hadoop pour SQL Server et PDW

Les annonces Big Data lors de

PASS

PRÊT POUR L’ENTERPRISE

ACCES PLUS LARGE

BIG DATA POUR TOUS

Vision : Créer une nouvelle

plateforme de données Big Data

RELATIONNEL MULTIDIMENSIONNELNON RELATIONNEL STREAMING

GESTION DES DONNEES

PARTAGER ET

GOUVERNER

DECOUVRIRET

RECOMMANDER

TRANSFORMERET

NETTOYER

ANALYSE

ENRICHISSEMENT DES DONNEES ET PLACE DE MARCHE

OPERATIONELLE

SELF-SERVICE

MOBILE

PREDICTIVE

TEMPS-REEL

COLLABORATIVE

Solution Big Data de Microsoft

SQL Server

Capteurs Terminaux Bots CrawlersERP CRM LOB APPs

HadoopConnecteurs

Données non structurées et stucturées

SSRS SSAS

Platerfome BI

Outils utilisateur final familiersPower View Excel avec

PowerPivot

BI intégréAnalyse prédictive

http://www.google.com/imgres?imgurl=http://richfrombechtle.files.wordpress.com/2008/10/vs2010archexplorer.jpg&imgrefurl=http://richfrombechtle.wordpress.com/2008/10/13/&usg=__qPArABkba3JddWP-O2AT7MRoU1s=&h=500&w=749&sz=95&hl=en&start=3&zoom=1&itbs=1&tbnid=mMsoPo--rTSTfM:&tbnh=94&tbnw=141&prev=/images?q=visual+Studio+Application&hl=en&sa=X&tbs=isch:1&prmd=ivns&ei=TGhwTYmPNsKTtwflnuiTDw

Hadoop sur Windows

Coeur d’Hadoop Hadoop HDFSHadoop Common (utilitaires, sécurité, sérialisation des flux)Moteur MapReduce Hadoop

Programmer et requêter

Apache PigApache Hive (y compris le support de Thrift) Framework Javascript et Webshell for HadoopKit Azure (pour Visual Studio)

Clustering & Management

Déploiement Cluster et outil d’installationSurveillance et management du cluster basé web standard d’HadoopPortail Azure pour Elastic Map Reduce (intégré avec le portail Azure)

Drivers &Connectors

Driver ODBC HiveAdd-in Excel Hive pour Microsoft OfficeConnecteur Apache SQOOP pour SQL Server et PDW

Installers & Loaders

MSI pour les composants Serveur (Hadoop et systèmes reliés) (MSI)MSI pour les composants Client (Driver Hive et Add-in, Kit Azure Kit pour VS Moteurs de chargement en volume FTP et HTTP

MERCI !

Microsoft France39, quai du président Roosevelt

92130 Issy-Les-Moulineaux

www.microsoft.com/france

Date post:	20-Jul-2015
Category:	Technology
Upload:	microsoft-ideas
View:	266 times
Download:	2 times

Big Data : buzz ou opportunité ?

Technology