Business Analytics & BigData
17-04-2015
Joan MassegúBusiness Analytics Solution Architect
taller smact
taller smact
Índice
© avanttic Consultoría Tecnológica, S.L. 2
① Introducción
② Data Management
③ Data Integration
④ Data Analytics
⑤ Infraestructura Oracle para Big Data
⑥ Casos de Clientes
⑦ Conclusiones
taller smact
Introducción
3 © avanttic Consultoría Tecnológica, S.L.
¿Qué es Big Data?
o Gartner: high-volume, -velocity and -variety
information assets that demand cost-effective,
innovative forms of information processing for
enhanced insight and decision making
o McKinsey: datasets whose size is
beyond the ability of typical database
software tools to capture, store, manage,
and analyze
o Forrester: Techniques and Technologies
that Make Handling Data at Extreme Scale
Economical
Es el área de conocimiento de IT que permite a las
organizaciones tomar decisiones fundamentadas sobre
enormes volúmenes de cualquier tipo de datos justo a
tiempo.
taller smact
Introducción
4 © avanttic Consultoría Tecnológica, S.L.
Las 3 V: el origen del Big Data
Volúmen Velocidad Variedad
Procesos Cosas Personas
taller smact
Introducción
5 © avanttic Consultoría Tecnológica, S.L.
Impacto de Big Data en la organización
taller smact
Introducción
6 © avanttic Consultoría Tecnológica, S.L.
Data Reservoir
Data Lake, Data Pool >>> Data Reservoir
Economics of the ReservoirHadoop Big Data Reservoir vs. “Data Pool” Inside EDW
• Different calculators, similar figures:• Hadoop Cost/TB ~$300• Teradata Cost/TB ~$16,000• Netezza Cost/TB ~10,000
• Lower cost system for Staging, Preparation and Archival
taller smact
Introducción
7 © avanttic Consultoría Tecnológica, S.L.
¿Qué necesitamos hacer?
DECIDIR
ADQUIRIR ORGANIZAR
ANALIZAR
para Adquirir,Organizar y Analizar
Información
de la nueva Infraestructura
Procesos
Analítica
CICLO DE VIDA
BIG DATA
NUEVOS
REQUERIMIENTOS
On-Premise Cloud
NUEVO ESCENARIO
taller smact
Introducción
8 © avanttic Consultoría Tecnológica, S.L.
¿Con qué objetivo y cómo lo hacemos?
Rápida Respuesta a nuevas
preguntas
Alimentar el Reservoir
Más y mejores predicciones
Acelerar decisiones
“Data-Driven”
Descubrir Información Analizar Decidir
Ingerir
datos
Organizar
e Integrar
Datos estructurados
y no estructurados
Conocimientopara
Decidir
taller smact
Introducción
9 © avanttic Consultoría Tecnológica, S.L.
Visión de Oracle del escenario Big Data
FlujosDe
Datos
DatosInternos
Datos Web y Redes Sociales
taller smact
Índice
© avanttic Consultoría Tecnológica, S.L. 10
① Introducción
② Data Management
③ Data Integration
④ Data Analytics
⑤ Infraestructura Oracle para Big Data
⑥ Casos de Clientes
⑦ Conclusiones
taller smact
Data Management
11 © avanttic Consultoría Tecnológica, S.L.
Big Data Management
FlujosDe
Datos
DatosInternos
Datos Web y Redes Sociales
taller smact
Data Management
• Hadoop es un framework para proceso masivo y distribuido
• Cluster Hadoop: mínimo 3 nodos
• Hadoop File System (HDFS)
• Tolerante a fallos
• Fácilmente escalable horizontalmente
• HDFS no indexa
• Necesidad otras herramientas acceso datos
(HBase, NoSQL)
• Proceso de datos Paralelo (Map/Reduce)
• Fracciona y Distribuye los datos
• Coordina la ejecución del código
• Verifica la ejecución del código
• Recoge los resultados (finales o los envía al siguiente paso)
12 © avanttic Consultoría Tecnológica, S.L.
Hadoop
taller smact
Data Management
13 © avanttic Consultoría Tecnológica, S.L.
Hadoop Distribución Cloudera 5 EDH
Apache Oozie Apache Oozie Apache Hive
Apache Flume y SQOOP
Fuse-DFS Hue Hue SDK
Apache Pig, Hive, Mahout
Apache HBase
Apache Zookeeper
• Apache Hadoop con YARN, MR2 y Spark• Cloudera Impala• HBase (con soporte para Accumulo)• Cloudera Search
• Cloudera Manager• Back-up & Disaster Recovery (BDR)• Navigator
taller smact
Data Management
• BD distribuida, basada en Oracle Berkeley DB
• Almacenamiento replicado (HA)
• Almacena parejas de valores (Key-Value)
• Driver inteligente mantiene mapa de topología de almacenamiento
• Responsable del sharding
• Balanceo de carga
• Casos de uso
• Almacenamiento baja latencia
• Consulta rápida por clave (Key)
14 © avanttic Consultoría Tecnológica, S.L.
Oracle NoSQL
taller smact
Data Management
15 © avanttic Consultoría Tecnológica, S.L.
Oracle Data Base Enterprise Server 12c
Partition Outer JoinData Mining en la BDExpresiones regulares
Rollup, grouping sets, CubePivotar SQLWITH recursivoListAgg, N-ésimo valor
Pattern matchingSentencia Top N Approx Count distinctSoporte JSON
• Mejoras en external tables (Hadoop, …)
• Big Data SQL
• Evolución continua de funcionalidades analíticas en SQL
• In-Database Analytics Platform
• Spatial analytics
• ORE
• MapReduce
• Mejoras en expresiones regulares (soporte multilenguaje)
• In-memory DB
taller smact
Data Management
16 © avanttic Consultoría Tecnológica, S.L.
Big Data SQL
• Combinar en una consulta SQL datos residentes en
• BD Oracle
• NoSQL
• Hadoop
• Permite trasladar políticas de seguridad y acceso de BD a Hadoop y NoSQL
• Óptimo rendimiento con SmartScan
• Data-local scans
• Proyección columnas
• Evaluación de predicados
• Funciones complejas evalúan en origen
SELECT w.sess_id, c.nameFROM web_logs w, customers cWHERE w.source_country = 'Brazil'AND w.cust_id = c.customer_id;
web_logs customers
taller smact
Índice
© avanttic Consultoría Tecnológica, S.L. 17
① Introducción
② Data Management
③ Data Integration
④ Data Analytics
⑤ Infraestructura Oracle para Big Data
⑥ Casos de Clientes
⑦ Conclusiones
taller smact
Data Integration
18 © avanttic Consultoría Tecnológica, S.L.
Big Data Management
FlujosDe
Datos
DatosInternos
Datos Web y Redes Sociales
taller smact
Data Integration
• Herramienta de replicación de datos Real Time
• Securizado, No Invasivo y tolerante a fallos
• Transformaciones básicas (in-row) o integración ODI
• Flume
• HDFS
• Hive
• HBase
19 © avanttic Consultoría Tecnológica, S.L.
Oracle Goldent Gate (OGG) 12c for Big Data
• Adaptador OGG para Java
• NoSQL
• Kafka
• Storm
• Spark
taller smact
Data Integration
• Software diseñado y optimizado para integrar datos entre Hadoop y
Oracle
• Componentes
• Conector Oracle SQL para HDFS
• R Advanced Analytics para Hadoop
• Oracle Loader para Hadoop
• Xquery para Hadoop
• Oracle Data Integrator
• Conjunto de KM’s para ODI
• Hasta 15 TB/h sobre Engineered Systems
20 © avanttic Consultoría Tecnológica, S.L.
Oracle Big Data Connectors
taller smact
Data Integration
21 © avanttic Consultoría Tecnológica, S.L. 21 © avanttic 2015 – Reservados todos los derechos
Oracle Data Integrator (ODI)
• Diseño declarativo (KM)
• Desarrollo orientado a flujo
• Reutilización de código
• Rendimiento optimizado para Oracle
• Depuración paso a paso
• Funcionalidad extensible
taller smact22
Data Integration
© avanttic Consultoría Tecnológica, S.L.
Oracle Data Integrator (ODI)
LKM - Load
IKM - Integración
CKM - Check
JKM - Journalize
RKM - Reverse Eng.
SKM - Service
XKM - Sort
Tipos de KM
taller smact
Data Integration
• LKM SQL to Hive SQOOP
• LKM SQL to File SQOOP Direct
• LKM SQL to HBase SQOOP Direct
• LKM HBase to SQL SQOOP
• LKM File to SQL SQOOP
• LKM Hive to SQL SQOOP
• LKM File to Hive LOAD DATA
• LKM File to Hive LOAD DATA Direct
• LKM HBase to Hive HBASE-SERDE
• LKM Hive to HBase Incremental
Update HBASE-SERDE Direct
• IKM Hive Append
• LKM Hive to File Direct
• LKM Hive to Oracle OLH-OSCH
• LKM File to Oracle OLH-OSCH Direct
• LKM Hive to Oracle OLH-OSCH
• LKM Hive - Oracle OLH-OSCH Direct
• XKM Hive Sort
23 © avanttic Consultoría Tecnológica, S.L.
Mejoras y nuevos KM’s de ODI para Big Data
LKM
JKM
• Lenguajes implementación Mappings
• Hive
• Spark
• Pig
• SQOOP
• Orquestación y monitorización tareas
• ODI Agent
• Oozie
• Weblogic Hive JDBC driver
• Recupera Hadoop Audit Logs
• Nuevos componentes para mappings
• Flatten
• Jagged
• ODI Tools para acceso a HDFS
taller smact
Data Integration
24 © avanttic Consultoría Tecnológica, S.L.
ODI frente a las alternativas
taller smact
Índice
© avanttic Consultoría Tecnológica, S.L. 25
① Introducción
② Data Management
③ Data Integration
④ Data Analytics
⑤ Infraestructura Oracle para Big Data
⑥ Casos de Clientes
⑦ Conclusiones
taller smact
Data Analytics
26 © avanttic Consultoría Tecnológica, S.L.
Big Data Management
FlujosDe
Datos
DatosInternos
Datos Web y Redes Sociales
taller smact
Data Analytics
• Manipulación de Datos
• 80% esfuerzo evaluando y preparando datos
• Valor de los datos no es evidente
• Formatos no familiares usuarios negocio
• Complejidad Herramientas
• BI existentes no diseñadas para Hadoop
• Entorno Hadoop requieren especialización
• Emergentes poca funcionalidad
27 © avanttic Consultoría Tecnológica, S.L.
Oracle Big Data Discovery (BDD)
Una herramienta que permita
• Buscar
• Explorar
• Transformar
• Sacar conclusiones
• Compartir resultados
¿Cómo explotar el Data Reservoir?
Dif
icu
ltad
es
…
Hac
e f
alta
…
taller smact
Data Analytics
The Visual Face of Hadoop
28 © avanttic Consultoría Tecnológica, S.L.
Oracle Big Data Discovery (BDD)
taller smact
Data Analytics
29 © avanttic Consultoría Tecnológica, S.L.
Oracle Big Data Discovery (BDD)
Combinar visualizaciones diversasCompartir y publicar resultados
De manera segura
Explorar atributos por tipo,Evaluar calidad,
datos anómalos, …
Acceso rico e interactivo a TODOS los datos del catálogo Hadoop
Anotaciones, agregaciones sobre juegos de datos
taller smact
Data Analytics
Oracle Big Data Cloud
• Nativo Hadoop: sin movimientos ni
subconjuntos de datos
• Escalable a Petabytes sin perder rendimiento
• Tecnología punta: combina simplicidad de
búsqueda y análisis interactivo
• Herramientas análisis estadístico y predictivo
integradas
• Sofisticadas herramientas profiling,
transformación y enriquecimiento de datos
30 © avanttic Consultoría Tecnológica, S.L.
taller smact
• Limitaciones de R
• Software monolítico
“cliente+servidor”, monousuario
• Carga en memoria los datos
antes de procesarlos …
• Oracle Enterprise R
• Se integra en BD eliminando restricción memoria
• Integra R en aplicaciones y cuadros de mando
• Elimina el tráfico de datos
Data Analytics
31 © avanttic Consultoría Tecnológica, S.L.
Oracle Enterprise R (ORE)
taller smact
• Conector R para Hadoop
• Permite combinar BD, HDFS y ficheros locales en un mismo proceso
• Interface a datos HDFS y infraestructura Hadoop
Data Analytics
32 © avanttic Consultoría Tecnológica, S.L.
Oracle Enterprise R (ORE)
taller smact
Data Analytics
• Herramienta Data Discovery
• Datos estructurados y No estructurados
• Carga de datos en Autoservicio o en Batch
• Integración y Enriquecimiento de datos
• Potente motor de búsqueda
• Análisis de sentimiento
• Detección patrones
33 © avanttic Consultoría Tecnológica, S.L.
Oracle Endeca Information Discovery (OEID)
EID Studio
Crear y Compartir
discovery applications
State
CA (1,203)
NY (512)
IL (312)
MA (211)
CO (102)
Brand
Nikon (3,453)
Canon (1,512)
Fuji (322)
Panasonic (211)
search..
purchase intent
passionate user-
friendly loyalty
Price Range
Source
ORCL (301,203)
SAP (11,512)
EDW (10,312)
Discovery
ApplicationEID Integrator
Structured Data
Sources
Unstructured
Content
Innovative
ETL
Web and File
Crawling
Text
EnrichmentTEX
T
Endeca Server
Self-Service
Provisioning
Sharing and
Collaboration
Drag & Drop
Composition
Intuitive
Exploration
taller smact
Data Analytics
• Suite con toda la funcionalidad BI tradicional
• Movilidad (iOS, Android)
• Federación BD heterogéneas
34 © avanttic Consultoría Tecnológica, S.L.
Oracle Business Intelligence (OBI)
InteractiveDashboards
Geospatial Visualization
MS-Office Integration
Mobile Reports
Applications & Portals
Search Ad-hocQueries
Collaboration
Scorecards
Files,
Excel, XML
Business
ProcessData Warehouse
Data Mart
OLAP
EssbaseOLTP & ODS
Systems
taller smact
Data Analytics
• Es un Business Intelligence completo, con todos
los Datos, Tipos de Análisis & Clientes
• Self-service: Carga de Datos, Mapeo & KPIs
• Categoría empresarial: Aislamiento de Datos
Seguros; Alta Disponibilidad; Escalable de 10s a
1000s de Usuarios
• Completamente Gestionado: Patched, Backed
Up, Upgraded
• Extensión de Aplicaciones SaaS: posee
conectores para Oracle SaaS y Aplicaciones
On-Premise
• Avanza alguna función de OBI 12c
35 © avanttic Consultoría Tecnológica, S.L.
Business Intelligence Cloud Service (BICS)
taller smact
Índice
© avanttic Consultoría Tecnológica, S.L. 36
① Introducción
② Data Management
③ Data Integration
④ Data Analytics
⑤ Infraestructura Oracle para Big Data
⑥ Casos de Clientes
⑦ Conclusiones
taller smact
Infraestructura Oracle para Big Data
37 © avanttic Consultoría Tecnológica, S.L.
Oracle Big Data Platform
Baja densidad, Débilmente estructurados
Alta densidad, estructurados, relacionados
Big Data Appliance Exadata
InfiniBand
Acquire Organize Analyze & VisualizeStream
Exalytics
InfiniBand
OBIEID RTDBDD
OG
GO
DI
Data Reservoir EDWH
taller smact
• Mínimo 6 Nodos / Máximo 18
• Hardware x Nodo
• 2 Procesadores x 18 Cores Intel® Xeon® E5-2699 V3 2.3 GHz
• 128 GB RAM (4 * 16 DDR4) ampliable a 768 GB nodo
• Controlador de disco HBA con 512MB cache de escritura
(respaldada con batería)
• 12 discos SAS de alta capacidad (4TB) a 7,200 RPM
• 2 Puertos Infiniband QDR (40Gb/s)
• 4 Puertos Ethernet a 10 Gb
• 1 Puerto ILOM Ethernet
• Capacidad máxima Full Rack• 288 Cores
• 13.824 Gb de RAM (todos los nodos ampliados)
• 864 Tb de disco
Infraestructura Oracle para Big Data
38 © avanttic Consultoría Tecnológica, S.L.
Big Data Appliance
X5-2
taller smact
Infraestructura Oracle para Big Data
39 © avanttic Consultoría Tecnológica, S.L.
Big Data Appliance
X5-2• Oracle Linux 6.4 (Kernel Unbreakable Ent.)
• Software instalado
• Cloudera Enterprise Data Hub (EDH) Ver. 5
• Cloudera Manager
• Oracle R
• Oracle NoSQL Database Community Ed.
• Plug-In para Enterprise Manager
• Software opcional
• Oracle Virtual Machine
• Big Data SQL
• Oracle NoSQL Enterprise Ed.
• Oracle Big Data Connector
• Oracle R Enterprise
• Seguridad
• Kerberos
• Apache Sentry
• Audit Vault y DB Firewall for Hadoop Auditing
taller smact
Infraestructura Oracle para Big Data
• Optimizado para todo tipo de BD
• Redundancia total para HA
• Capacidad máxima de un Full Rack
• Hasta 672 TB HD storage (Raw) y 48 TB Flash
• Hasta 684 CPU cores y 14.6.TB RAM (DB)
• Hasta 288 CPU cores (SQL processing in storage)
• De 2 a 19 DB servers y de 3 a 18 Storage Servers
• Hasta 230 TB de Flash Storage
• 40 Gb/second (QDR) InfiniBand
• Funcionalidad
• Compresión columnar híbrida (Query optimized/Archive)
• Smart Flash Cache
40 © avanttic Consultoría Tecnológica, S.L.
Exadata
Full RackHalf RackQuarter Rack Multi Rack
X5-2
taller smact
Infraestructura Oracle para Big Data
• Hardware Optimizado
• Hasta 128 cores
• 4 TB RAM / 6.4 TB Flash
• Hasta 9.6 TB HD
• 4 puertos Infiniband 40 Gbps
• Software analítico
• OBI Foundation Suite
• TimesTen (in-memory DB)
• Essbase [opcional]
• Endeca [opcional]
• Aceleradores OBI, BIP, Essbase
41 © avanttic Consultoría Tecnológica, S.L.
Exalytics
T5-8
taller smact
Índice
© avanttic Consultoría Tecnológica, S.L. 42
① Introducción
② Data Management
③ Data Integration
④ Data Analytics
⑤ Infraestructura Oracle para Big Data
⑥ Casos de Clientes
⑦ Conclusiones
taller smact
Casos de clientes
43 © avanttic Consultoría Tecnológica, S.L.
Aplicaciones empresariales de Big Data
ENTRETENIMIENTO Y MEDIOS COMUNICACIÓNEficiencia publicidad,Audiencia
COMUNICACIONESPublicidad según ubicación, Calidad del servicio
EDUCACION E INVESTIGACIÓNAnálisis SensoresExperimentos,Estudios mayor Proyección
BIENES DE CONSUMOAnálisis de sentimiento: está de moda, problemas
SALUDSensores en pacientes, Monitorización, Calidad atención
MEDICINA Y CIENCIAAnálisis clínicos,Análisis del genoma
TECNOLOGIA E INDUSTRIACalidad en la producción,Análisis de garantías
ENERGIAAnálisis de sensores en perforaciones de exploración
SERVICIOS FINANCIEROSAnálisis de Riesgo & CarteraNuevos productos
AUTOMOCIONVehículos con sensores reportando ubicación, problemas, …
DISTRIBUCIÓNSentimiento del consumidor,Optimización marketing
SEGURIDAD Y DEFENSAAnálisis de amenazas: monitorización de redes sociales, análisis de imágenes
VIAJES Y TRANSPORTESAnálisis de sensores para optimizar flujo de tráfico,Satisfacción del cliente
SUMINISTROSAnálisis inteligente del consumo para planificar capacidad de las redes
SERVICIOS ON-LINE / SOCIAL MEDIACompatibilidad entre Personas o carreras,OptimizaciónSitios Web
taller smact
Índice
© avanttic Consultoría Tecnológica, S.L. 44
① Introducción
② Data Management
③ Data Integration
④ Data Analytics
⑤ Infraestructura Oracle para Big Data
⑥ Casos de Clientes
⑦ Conclusiones
taller smact
Conclusiones
45 © avanttic Consultoría Tecnológica, S.L.
Evolución del perfil del “Data Scientist”
Discovery
Data Reservoirs
Business Intelligence
Data Warehouse
taller smact
Conclusiones
46 © avanttic Consultoría Tecnológica, S.L.
Trabajar como Consultor BA
• Requiere perfil polivalente
• Conocimiento negocio
• Área de negocio técnicamente transversal
Diseño lógico/ BBDD / SQL /
Tunning
Arquitectura/ Configuración
Análisis Estadístico/ Predicción
Procesos Batch
Integración Datos / Tiempo Real
Information discovery /Visualización de datos
Usuarios/ Negocio
taller smact
Conclusiones
47 © avanttic Consultoría Tecnológica, S.L.
3 + 2 + 1 = Las 6 V de Oracle
taller smact
Conclusiones
48 © avanttic Consultoría Tecnológica, S.L.
Oracle la mejor elección para Big Data
• Cuenta con el 55% del mercado RDBMS y gran experiencia en EDWH
• Familia de Engineered Systems
• Solución integrada y completa para Big Data Analytics
• Data Management: SQL, NoSQL, Enterprise R, Big Data Conectors, In-memory
• Data Integration: Única herramienta (ODI), Real-time (OGG)
• Data Analytics: Big Data Discovery, Endeca, R, OBI
Big Data Appliance
Exadata
Exalytics
el partner
© avanttic Consultoría Tecnológica, S.L.
BARCELONA
Aragó 182, 4ª planta
08011 Barcelona
Tel. 93 151 84 51
MADRID
Paseo de la Castellana, 135, 7ª
28046 Madrid
Tel. 91 116 17 89
49