Date post: | 20-Jul-2015 |
Category: |
Technology |
Upload: | microsoft-ideas |
View: | 266 times |
Download: | 2 times |
palais des
congrès
Paris
7, 8 et 9
février 2012
Bernard OurghanlianDirecteur Technique et SécuritéMicrosoft France
Big DataBuzz ou opportunité pour les entreprises ?
Code Session : RDI203
In 2011, the amount of information created and replicated will surpass 1.8 zettabytes (1.8 trillion gigabytes) -growing by a factor of 9 in just five years. […] and more than doubling every two years. That's nearly as many bits of information in the digital universe as stars in our physical universe.
John Gantz and David ReinselExtracting Value from Chaos
Explosion généralisée des
données
―[by 2020] data use is
expected to grow by
as much as 44
times, amounting to
some 35.2ZB
(zettabytes—a billion
terabytes) globally.‖
―We now have well
over a thousand
customers in the ever-
growing EMC
Petabyte Club.
They—or frequently
many more—
petabytes of EMC
storage in production.
By 2012 or so, we're
forecasting that we'll
have to start a
new, informal club—
the EMC Exabyte
Club.‖
―Flickr members
upload more than
3,000 images every
minute, and yesterday
yeoaaron uploaded
the five billionth
photo…‖
―AT&T has about 19
petabytes of data
transferred through
their networks each
day.‖
Des milliers d’années auparavant – Science expérimentale
Description des phénomènes naturels
Les quelques derniers siècles – Science théorique
Lois de Newton, équations de Maxwell
Les dernières décennies – Science computationnelle
Simulation de phénomènes complexes
Aujourd’hui – Science centrée sur les données
Unifier la théorie, l’expérience et la simulation
En utilisant l’exploration et la fouille de données
Données capturées par des instruments
Données générées par des simulations
Données générées par des réseaux de capteurs
Données générées par les humains
La nature changeante de la
recherche
2
2
2.
3
4
a
cG
a
a
Modèles complexes Interactions multidisciplinaires
Larges échelles temporelles et spatiales
Large ensemble de données multidisciplinaires Flux temps réel
Structuré et non structuré
Communautés distribuées Organisations virtuelles
Socialisation et management
Diverses attentes Centrées client ou infrastructure
Le quatrième paradigme
http://research.microsoft.com/en-us/collaboration/fourthparadigm/
Pourtant, Big Data ce n’est pas
que cela…
4/10/2013
Il y d’autres dimensions au phénomène Big Data…
Les besoins en diminution de temps de
latence augmentent de plus en plus
• Le temps effectif pour comprendre a été considérablement réduit
• Poussé par des facteurs réglementaires et de calcul de risque dans de nombreuses industries
0 micro- milli- seconde minute heure jour
Value AtRisk
Contrôle de niveau de service
Transactionnel OLTP
Opérations, Administration et maintenance
Contrôle réglementaire
semaine
Réordonnancer la flotte
Valeur
La hiérarchie de la
connaissance
Effort / Latence
Stru
ctu
re /
Val
eur
Signal
Donnée
Information
Connaissance
Nous voulons transformer le « signal » en « valeur »
Compréhension
Action
Cycle de vie standard de
l’analyse de données (Entrepôt
de données)
Temps
Souvent des semaines voire des mois
Le cycle de vie de l’analyse de
données en environnement Big
Data
Temps
Jours à semaines
La hiérarchie de la
connaissance
Effort / Latence
Stru
ctu
re /
Val
eur
Signal
Connaissance
Donnée
Information
Objectif : Repenser l’équation signal –
valeur
Effort / Latence
Stru
ctu
re /
Val
eur
Signal
Donnée
Information
Connaissance
Valeur
• Trouver une nouvelle valeur• Réduire de façon spectaculaire
le temps de création de valeur
Ceci n’a pas grand-chose à voir avec la taille de la donnée !
… mais … de nouveaux signaux peuvent se trouver dans les « données ambiantes »
Perspicacité et création de sens
Perspicacité1. La capacité à discerner la véritable nature d'une situation ; la pénétration.2. L'acte ou le résultat de saisir la nature intime ou cachée des choses ou de
percevoir d’une manière intuitive.
Création de sensLe processus par lequel les individus (ou les organisations) créent une compréhension afin qu'ils puissent agir de façon raisonnée et éclairée.
Création de sens sur un plus large
spectre
Effort / Latence
Stru
ctu
re /
Val
eur
Signal
Donnée
Information
Connaissance
Les systèmes existants permettentde donner du sens à des données modélisées
Il y a une énorme valeur potentielle dans le fait de donner un sens aux données ambiantes
Les technologies « Big Data » tout à la fois recréent et
complémentent les workflows d’analyse existants en :
Simplifiant la production d’information structurée à partir de
sources de données « ambiantes » émergentes (Signal
Donnée Information)
Permettant rapidement la création de sens à partir de
données non enrichies et non modélisées
Permettant l’analyse à l’échelle sur des données
« ambiantes »
Permettant la création de modèles à partir de données
« ambiantes »
Le rôle des technologies « Big
Data »
Le monde des données
(relationelles) est en train de
changer
Temps réel
Non Scructurées
Passage à l’échelle
Relational Data
Qu’est-ce que Big Data ?
Gros volume de données 100aine TO à 10aine de PO
Traitement à large échelle et
analyse à un coût sans
précédent (hardware et
software)
Nouvelle économie
Cadre de traitement distribué
parallèle
Facile à faire passer à
l’échelle sur du hardware
standard
Modèles de programmation
de style MapReduce
Nouvelles Technologies
Non structurées
Schéma relationnel faible
Texte, Images, Vidéos, Logs
Types de données
non traditionnelles
Capteurs
Terminaux
Applications traditionnelles
Serveurs Web
Données publiques
Nouvelles sources de
données
Quelle est la popularité de mon produit ?
Quelle est la meilleure publicité à servir ?
Est-ce une transaction frauduleuse ?
Nouvelles questions et
nouvelles inférences
Big Data
Big Data consiste avant tout à réduire le temps pour comprendre en permettant aux utilisateurs de
poser des questions ad-hoc sur des donnéesnon structurées et souvent mal
comprises
Qu’est-ce que Big Data ?
Les pionniers de Big Data :
Exemple : Twitter
Stocke 12 TO de données/jour
Analyse pour :
Concepts clés :
Stocke les données telles quelles ;
les conserve comme des fichiers
journaux non structurés, n’essaye
pas de les analyser et de les stocker
dans un entrepôt de données
Traite des très gros volumes de
données rapidement grâce à des
requêtes ad-hoc et programmées
TENDANCES :
Justin Bieber
Egypt
Snowpocalypse
REPERTITION GEOGRAPHIQUE :
QU INFLUENCE RETWEETS?
IDENTIFICATION DES SPAMS :
• Akshf#$/lajsdf
Problème :• Nécessité de stocker de
très grands volumes de nouvelles données tous les jours
• Nécessité de fournir plus de valeur que de seulement stocker et retrouver les tweets Ramifications:
• Dans un mode de tweeters et d’analyse rapide, Twitter peut fournir une meilleure alerte précoce pour un conflit régional ou une épidémie qu’une surveillance classique
Systèmes de gestion des
risquesQUE POUVEZ-VOUS VRAIMENT ESPERER DE VOTRE
PORTEFEUILLE ?
SIMULATION DU
DOMMAGE
PREVISIONNEL
• +20 milliards
d’évaluations de
risque
PERTES FUTURES
ATTENDUES
• Prix des contrats, gestion
de risque, affectation de
capital, structure prix du
transfert de
risque, conformité
réglementaire
• Requêtes complexes
basées sur les contrats
actuels
PORTEFEUILLE
ASSURE
• Millions
d’emplacements
avec des
paramètres
affectant la stabilité
structurelle
MODELE DE CATASTROPHE
Simulations de douzaines de
types de périls dans différentes
zones géographiques
Problème :• La surveillance et les
simulations fournissent une grande quantité de données utiles pour la gestion des risques mais il est impossible de les traiter toutes
Ramifications:• La possibilité d’exécuter des centaines de
simulations sur une douzaine de types de périls et de calculer le risque pour chaque adresse individuelle dans un portefeuille
Analyse de SentimentQUI A DIT QUOI ? QUAND ? OU ? POURQUOI ?
Sentiment
REPARTITION GÉOGRAPHIQUE
REPARTITION DÉMOGRAPHIQUE
Blogs
YouTube
News
Problème :• Les conversations client peuvent
survenir n’importe où et les propos négatifs peuvent rapidement « partir en vrille »
Ramifications :• Une analyse de sentiment en temps réel vous
permet de non seulement connaitre ce qui a été dit mais aussi qui l’a dit, vous fournissant ainsi les informations dont vous avez besoin pour participer à la conversation
Scénarios clients Big DataIndustrie Scénario
Services financiers
Modélisation des risques
Analyse des menaces
Détection des fraudes
Surveillance du trading
Analyse et notation de crédit
Web & E-Tailing
Moteurs de recommandation
Ciblage publicitaire
Qualité de la recherche
Détection des abus et de la fraude au clic
Distribution Analyse des transactions du point de vente
Taux de roulement des clients
Analyse de sentiment
Télécommunications
Prévention des désabonnements
Optimisation des performances réseau
Analyse des détails des appels
Analyse de réseau pour prédire les défaillances
Gouvernement Détection de fraude et cyber-sécurité
Général ETL et moteur de traitement
Stratégie Big Data de Microsoft
Se connecter facilement au monde des données
• Données privées, publiques et dérivées• Données Microsoft
Se connecter aux données structurées et non structurées
• Management intégré, qualité des données, nettoyage, outils ETL
• Connecteurs pour déplacement de données
La BI pour tous • Utilisation des outils BI familiers (Excel, Power*)
Nouvelles expériences d’analyse
• Visualisation des données• Analyse prédictive
Microsoft Big DataAccessible à tous les utilisateurs en
supportant de nouveaux types de données
Hadoop : la face visible de Big Data
33
Permet l’analyse de données semi et non cructurées distribuées sur un cluster standard
Basé sur le papier MapReduce de Google et sur le Google File system (GFS)
Programs = Séquence de tâches « map » et « reduce »
Simplifie l’écriture d’applications distribuées
Hautement tolérante aux pannes – copies multiples
Déplace les calculs au plus près des données
Implémenté en Java et optimisé pour Linux
L’écosystème Hadoop
MapReduce (Ordonnancement des tâches / Système d’Exécusion)
HDFS
(Hadoop Distributed File System)
HBase (Base de données orientée colonne)
Pig (Data Flow)
Hive
(Warehouse and
Data Access)
Oozie
(Workflow)
Sqoop
Outils BI traditionnels
HBase / Cassandra
(Bases de données orientées colonnes
et NoSQL)
Avro
(Séria
lisatio
n)
Zo
ok
eep
er
(Co
ord
inati
on
)
Apache Mahout
Karmasphere
(Outil de
développement)
Hadoop = MapReduce + HDFS
Flume
Stratégie Hadoop Microsoft
Notre propredistribution de Hadoop
Optimisée pour Windows et Azure
Focalisation sur les développeurs .NET
Differentiation à travers le support de l’entreprise
• Performance et passage à l’échelle• Haute disponibilité• Facilité d’utilisation
Facturation basée sur la tâche
Facile à administrer
Pas d’installation
Support d’une large variété de types de jobs
Machine Learning (mahout), Graph Mining (Pegasus),
HIVE, Pig, Java, JS, etc.
IHM grandement simplifiée
Hadoop as a Service : Azure
Elastic Map Reduce
Bon marché Rapide
GO
Hadoop sur Windows et Azure
Exemple : Big Data chez Yahoo!
SSAS Cube de 24 TO
Cas d’usage :
Analyse d’un très gros volume de données non structurées en provenance de journaux Web
Analyse ad hoc des journaux Web pour prototyper des patterns
Les données Hadoop alimentent un gros cube de 24 TO
Hadoop sur Windows
PRÊT POUR L’ENTERPRISE
ACCES PLUS LARGE
BIG DATA POUR TOUS
DIF
FER
ENTI
ATI
ON
Installation et configuration faciles d’Hadoop sur Windows
Programmation simplifiée avec l’intégration de .Net et Javascript
Intégration avec les fonctionnalités de Data Warehousing de SQL
Server
Choix du déploiement sur Windows Server + Windows Azure
Intégration avec les composants Windows (AD, System Center)
Démocratiser Big Data via l’intégration avec l’offre BI de Microsoft
Fournir de nouveaux services Big Data à valeur ajoutée pour les
développeurs
Contributions proposées en retour à la communauté
Driver ODBC pour Hive et Add-in Hive pour Excel
Intégration avec Microsoft PowerPivot
Distribution Hadoop pour Windows Server et Azure
Partenariat stratégique avec Hortonworks
Framework JavaScript pour Hadoop
Disponibilité de la version finale des connecteurs Hadoop pour SQL Server et PDW
Les annonces Big Data lors de
PASS
PRÊT POUR L’ENTERPRISE
ACCES PLUS LARGE
BIG DATA POUR TOUS
Vision : Créer une nouvelle
plateforme de données Big Data
RELATIONNEL MULTIDIMENSIONNELNON RELATIONNEL STREAMING
GESTION DES DONNEES
PARTAGER ET
GOUVERNER
DECOUVRIRET
RECOMMANDER
TRANSFORMERET
NETTOYER
ANALYSE
ENRICHISSEMENT DES DONNEES ET PLACE DE MARCHE
OPERATIONELLE
SELF-SERVICE
MOBILE
PREDICTIVE
TEMPS-REEL
COLLABORATIVE
Solution Big Data de Microsoft
SQL Server
Capteurs Terminaux Bots CrawlersERP CRM LOB APPs
HadoopConnecteurs
Données non structurées et stucturées
SSRS SSAS
Platerfome BI
Outils utilisateur final familiersPower View Excel avec
PowerPivot
BI intégréAnalyse prédictive
Hadoop sur Windows
Coeur d’Hadoop Hadoop HDFSHadoop Common (utilitaires, sécurité, sérialisation des flux)Moteur MapReduce Hadoop
Programmer et requêter
Apache PigApache Hive (y compris le support de Thrift) Framework Javascript et Webshell for HadoopKit Azure (pour Visual Studio)
Clustering & Management
Déploiement Cluster et outil d’installationSurveillance et management du cluster basé web standard d’HadoopPortail Azure pour Elastic Map Reduce (intégré avec le portail Azure)
Drivers &Connectors
Driver ODBC HiveAdd-in Excel Hive pour Microsoft OfficeConnecteur Apache SQOOP pour SQL Server et PDW
Installers & Loaders
MSI pour les composants Serveur (Hadoop et systèmes reliés) (MSI)MSI pour les composants Client (Driver Hive et Add-in, Kit Azure Kit pour VS Moteurs de chargement en volume FTP et HTTP
MERCI !
Microsoft France39, quai du président Roosevelt
92130 Issy-Les-Moulineaux
www.microsoft.com/france