+ All Categories
Home > Documents > Mise en pla e d [une platefo me Big Data sécurisée...Mappy 2016 •Mappy mur des milliards de...

Mise en pla e d [une platefo me Big Data sécurisée...Mappy 2016 •Mappy mur des milliards de...

Date post: 03-Aug-2020
Category:
Upload: others
View: 4 times
Download: 0 times
Share this document with a friend
19
Natixis Mise en place d’une plateforme Big Data sécurisée Florent Voignier Indexima Pierre Alexandre Pautrat Natixis 7 Mars 2017
Transcript
Page 1: Mise en pla e d [une platefo me Big Data sécurisée...Mappy 2016 •Mappy mur des milliards de lignes •Remise en cause des solutions BI Classiques (SQL Server) Etudes de solutions

NatixisMise en place d’une plateforme Big Data sécurisée

Florent Voignier Indexima

Pierre Alexandre Pautrat Natixis7

Mars

2017

Page 2: Mise en pla e d [une platefo me Big Data sécurisée...Mappy 2016 •Mappy mur des milliards de lignes •Remise en cause des solutions BI Classiques (SQL Server) Etudes de solutions

•Natixis•Bigdata chez Natixis•Chantiers…. Sécurité.• Restitutions

• Solution

•Démo

•Take Away•Check List Sécurité

Programme

Page 3: Mise en pla e d [une platefo me Big Data sécurisée...Mappy 2016 •Mappy mur des milliards de lignes •Remise en cause des solutions BI Classiques (SQL Server) Etudes de solutions

Natixis

• Natixis est la Banque internationale de Marchés de Financement, de Gestion, d‘Assurance et de services financiers du Groupe BPCE, deuxième acteur bancaire en France.

• Ecosystème de cette présentation• Bigdata dans la Banque de Marchés et de Financements

• Marchés, Financements, Risques, Résultat, Finance, Compliance• Contexte d’importants calculs… Big Compute 33 000 cœurs.

• Sécurité

• 2014• Premières initiatives et Pilotes dans les Services Financiers • Construction d’un cluster de Pilotes et de Lab en 2014

Page 4: Mise en pla e d [une platefo me Big Data sécurisée...Mappy 2016 •Mappy mur des milliards de lignes •Remise en cause des solutions BI Classiques (SQL Server) Etudes de solutions

Bigdata

Natixis

2S 2014

1S 2015

• Création d’une communauté entre les Marchés et les Risques autour d’Hadoop• Objectifs: Pratiques &Technologies du monde Bigdata

• Pratiques: • rapprocher nos traitements et nos données.

• « arrêter » de se transférer les données au sein de l’écosystème...Evénementiel…

• Technologies:• HDFS, HIVE (UDF), JAVA, MAP REDUCE …… SPARK…

• Souscriptions HortonWorks

• Choix construire un premier Cluster dédié à notre écosystème… sécurisé Kerberos s’impose!

Page 5: Mise en pla e d [une platefo me Big Data sécurisée...Mappy 2016 •Mappy mur des milliards de lignes •Remise en cause des solutions BI Classiques (SQL Server) Etudes de solutions

Bigdata

Natixis

• 2 décisions importantes:• Implanter Kerberos sur notre nouveau Cluster sur lequel se feront les développements.

• L’integrer à l’écosystèmes sécurité de Natixis: Habilitation, Profils et Active Directory…. RANGER*…• Tous les utilisateurs et processus de Natixis.

• SSO connexion automatique.

• Avantages clés:• Kerberos est structurant et ce choix nous a permis de travailler le sujet tôt … Ne pas

attendre les mises en productions.

• Comme le Cluster est sécurisé, il est possible d’y stocker et de travailler sur des données réelles…sensibles.

• Tests de charges et validations avec le volume de données réel.

• Profiter de la Vague… • Apprendre et monter en charge sur le premier cluster… disposer d’une Production apaisée.

• +30 en DEV… +10 en PRODUCTION (février 2017)

• Duplication directe et très rapide du savoir-faire pour les Clusters de Qualification et de Production.

*RANGER: outil de gestion de profils sécurité chez Hortonworks, SENTRY chez Cloudera MCS Chez MAPR

Page 6: Mise en pla e d [une platefo me Big Data sécurisée...Mappy 2016 •Mappy mur des milliards de lignes •Remise en cause des solutions BI Classiques (SQL Server) Etudes de solutions

Chantiers

RATs*

MVP*

DISTRIBUTIONHDFS

HBASEHIVE

KERBEROS

RESTITUTIONS

INTEGRATION DE DONNEES

SQOOP

RANGER*

WORKFLOWS

AMBARI*

FORMATIONS

PLAN DE CONTINUITE

PYTHON

NORMES

ORDONNANCEURS

SPARK

SAUVEGARDES

R

GOUVERNANCE DES DONNEES

ATLASWHEREHOWS…

FACTURATION

GOUVERNANCECOMITE DE GESTIONDE LA PLATEFORME

PLATEFORME DE PRODUCTION

FINANCEMENT EVOLUTIONS HADOOP

SCALA

JAVA

SPARK MLPHOENIX

KAFKA

INTEGRATION HABILITATIONS

Mars 2017Version HortonWorks en production chez Natixis

2.5.3

LLAP

ZEPPELIN

*RANGER: outil de gestion de profils sécurité chez Hortonworks, SENTRY chez Cloudera MCS Chez MAPR

SSO AUTOMATIQUE

*AMBARI: outil de gestion de gestion de la platefome HortonWorks, MANAGER chez Cloudera MCS Chez MAPR

*MVP: Concept du Minimum Viable Product, Au vu d’u nombre de chantiers, dès que suffisant .. Nous passons à un autre chantier.Mais bien identifier les RATs Riskiest Assumption and Test

2S 2014

INDEXIMA

ANACONDA

CLUSTER COFFRE

Page 7: Mise en pla e d [une platefo me Big Data sécurisée...Mappy 2016 •Mappy mur des milliards de lignes •Remise en cause des solutions BI Classiques (SQL Server) Etudes de solutions

RESTITUTIONS • Restitution:• Utilisateurs déjà bien traités

• Oracle Exdata, Sybase IQ, Cubes OLAP, …

• Excel, Tableau, …• Connectivité standard: Odbc, Jdbc, Xmla, Mdx…• Performances: < 1seconde• Sécurité: Kerberos• Pas de transferts massifs en dehors du cluster• Milliers .. d’utilisateurs• Milliards de lignes• Sécurité et sécurité fine au nouveau du serveur…

• indépendance

• Restitutions: Besoin de trouver une Solution…

Effet:

Page 8: Mise en pla e d [une platefo me Big Data sécurisée...Mappy 2016 •Mappy mur des milliards de lignes •Remise en cause des solutions BI Classiques (SQL Server) Etudes de solutions

Indexima

Mappy

2016

• Mappy mur des milliards de lignes

• Remise en cause des solutions BI Classiques (SQL Server)

Etudes de solutions en rupture•Performances insuffisantes de Spark SQL

Construction d’un nouveau produit: Indexima• Index multidimensionnels•Pré-agrégations in-memory

Page 9: Mise en pla e d [une platefo me Big Data sécurisée...Mappy 2016 •Mappy mur des milliards de lignes •Remise en cause des solutions BI Classiques (SQL Server) Etudes de solutions

Indexima vs

Spark SQL

Temps de réponses d’un Dashboard chez Mappy

Page 10: Mise en pla e d [une platefo me Big Data sécurisée...Mappy 2016 •Mappy mur des milliards de lignes •Remise en cause des solutions BI Classiques (SQL Server) Etudes de solutions

Natixis

Indexima

2016

• Installation en mars 2016 chez Natixis (2 jours!)

• Plateforme Hortonworks Kerberos• SQL ODBC: Tableau Software …• XMLA MDX: EXCEL… (Tableaux croisés dynamiques natifs)

• Indexation des données des Risques

• Présentation du démonstrateur aux utilisateurs

• Accroissement de la légitimité de la plateforme

• Utilisation de l’année 2016 pour faire évoluer Indexima:

• Disposer d’un produit adapté quand se produira le déferlement des données en 2017

Page 11: Mise en pla e d [une platefo me Big Data sécurisée...Mappy 2016 •Mappy mur des milliards de lignes •Remise en cause des solutions BI Classiques (SQL Server) Etudes de solutions

Evolutions

Indexima

2016-2017

• Multiutilisateur

• SSO Kerberos automatique• ODBC• JDBC• XMLA MDX: Tableaux croisés dynamiques.• Hadoop HDFS

• Impersonation

• Inserts et Deletes transactionnels

• Synchronisation avec Hive

• Kafka zéro délai

• Droits fins avec rôles au niveau table, colonne et ligne

• Intégration future dans Ranger et Sentry

Page 12: Mise en pla e d [une platefo me Big Data sécurisée...Mappy 2016 •Mappy mur des milliards de lignes •Remise en cause des solutions BI Classiques (SQL Server) Etudes de solutions

Restitution

Mondrian

HDFS

Sécurisation avec Kerberos de bout en bout

Page 13: Mise en pla e d [une platefo me Big Data sécurisée...Mappy 2016 •Mappy mur des milliards de lignes •Remise en cause des solutions BI Classiques (SQL Server) Etudes de solutions

Bigdata

Natixis

2017

• 4 clusters dans l’Ecosystème Marchés Financement Risques Résultat Finance (mêmes réglages)• « Developpement »

• Qualification (Test d’intrusion réussi avec succès)

• Production (Actif multi sites)

• Cluster coffre d’archivage et de portage de snapshots sur un 3ieme site (en cours de construction)

• +30 projets en développement et validation en taille réelle… la Vague…

• +10 en production

• Machine Learning, Spark, Kafka…

• Dans notre écosystème la quasi totalités des équipes de développement et de production applicative intègrent ces pratiques et technologies. • Starter kits et référents

• BUD*

*BUD: BIG UGLY DOCUMENT, document d’animation de la communauté

Page 14: Mise en pla e d [une platefo me Big Data sécurisée...Mappy 2016 •Mappy mur des milliards de lignes •Remise en cause des solutions BI Classiques (SQL Server) Etudes de solutions

• Merci de votre écoute.

• Vos questions sont les bienvenues.• N’hésitez pas à nous contacter pour plus d’explications et de

partages.• Plus d’info sur Indexima -> stand 310

• Merci à Florent, à tous les collaborateurs et prestataires de Natixis, à Nicolas, Laurent, Matthieu et Vincent d’Hortonworks.

• Et à notre super équipe d’Infrastructure.

• Rejoignez nous !

• Nous vous avons préparé des Take Aways, Check Lists et Annexes.

Et voilà

Page 15: Mise en pla e d [une platefo me Big Data sécurisée...Mappy 2016 •Mappy mur des milliards de lignes •Remise en cause des solutions BI Classiques (SQL Server) Etudes de solutions

Take Away

1

• Organisation communautaire décentralisée.

• Disposer d’une super équipe d’infrastructure !

• Impliquer le fournisseur de la distribution.

• Challenger les réflexions nos réunions d’échanges hebdomadaires.

• Faire intégrer aux équipes arrivant sur ces technologies un consultant qualifié.

• Construire, mettre à jour et faire circuler un BUD !

• Rédiger des starters kits pour les nouveaux composants et pratiques Hadoop mis en production. -> BUD et le réseau social.

• Nommer des référents pour chaque technologies, pratiques et projets

*BUD: BIG UGLY DOCUMENT, document d’animation de la communauté

Page 16: Mise en pla e d [une platefo me Big Data sécurisée...Mappy 2016 •Mappy mur des milliards de lignes •Remise en cause des solutions BI Classiques (SQL Server) Etudes de solutions

Take Away

2

• Utiliser les concepts du Riskiest Assumptions and Test … Minimum Viable Product.

• Un site de Lab non sécurisé.. Le reste comme des productions.

• Penser la sécurité dès le départ, Kerberos…. Et celui de vos utilisateurs finaux !

• Profiter de la Vague… Etre Agile … Itérer

• Pratiquer… Ne pas travailler que sur Powerpoint…

• Ne pas oublier le point clé des restitutions… Effet Google

Page 17: Mise en pla e d [une platefo me Big Data sécurisée...Mappy 2016 •Mappy mur des milliards de lignes •Remise en cause des solutions BI Classiques (SQL Server) Etudes de solutions

Chek List

Sécurité

• Support fournisseurs de distributions• Kerberos … ne pas oublier les utilisateurs. • Intégrer l’écosystèmes sécurité :

• Habilitation, Profils et Active Directory…. à:• RANGER chez HW…SENTRY chez Cloudera… MCS chez MAPR

• Pensez à la sécurité et au confort et à l’acceptation de vos utilisateurs:• Vive le SSO automatique.

• Bien étudier l’impact des impersonations (HIVE…)• Attention à bien installer les JVM AES 256 bits.

• Tickets Kerberos

• Planifier et réaliser régulièrement des tests d’intrusions.• Si besoin pensez au multisite, cela fonctionne.• Cluster coffre pour les DistCP…replicats…• Installer tous les Cluster comme des productions.• Surfez sur la vague.

Page 18: Mise en pla e d [une platefo me Big Data sécurisée...Mappy 2016 •Mappy mur des milliards de lignes •Remise en cause des solutions BI Classiques (SQL Server) Etudes de solutions

Gouvernance de la plateforme

• Un comité de gouvernance de la plateforme assure la coordination et la road map.

Productions applicativeset leurs DBA

Infras

Outils de management et de sécurité.

utilisés par les parties prenantes.

Administrés par les Infras.

Page 19: Mise en pla e d [une platefo me Big Data sécurisée...Mappy 2016 •Mappy mur des milliards de lignes •Remise en cause des solutions BI Classiques (SQL Server) Etudes de solutions

Plateforme de production • Cluster de production réparti sur plusieurs sites.

• Facteur de réplication des données de 4.• Conçu pour résister à une « double panne » :

• Panne d’un Site

• ET panne d’un des serveurs sur le site resté actif.

• 2 namenodes (2*12 cores) + 12 DBnodes (144 cores - 720 To bruts)• Diviser par 3 (4 dans le futur) pour obtenir le stockage disponible net.


Recommended