Post on 27-Sep-2018
transcript
Business Analytics & BigData
17-04-2015
Joan MassegúBusiness Analytics Solution Architect
taller smact
taller smact
Índice
© avanttic Consultoría Tecnológica, S.L. 2
① Introducción
② Data Management
③ Data Integration
④ Data Analytics
⑤ Infraestructura Oracle para Big Data
⑥ Casos de Clientes
⑦ Conclusiones
taller smact
Introducción
3 © avanttic Consultoría Tecnológica, S.L.
¿Qué es Big Data?
o Gartner: high-volume, -velocity and -variety
information assets that demand cost-effective,
innovative forms of information processing for
enhanced insight and decision making
o McKinsey: datasets whose size is
beyond the ability of typical database
software tools to capture, store, manage,
and analyze
o Forrester: Techniques and Technologies
that Make Handling Data at Extreme Scale
Economical
Es el área de conocimiento de IT que permite a las
organizaciones tomar decisiones fundamentadas sobre
enormes volúmenes de cualquier tipo de datos justo a
tiempo.
taller smact
Introducción
4 © avanttic Consultoría Tecnológica, S.L.
Las 3 V: el origen del Big Data
Volúmen Velocidad Variedad
Procesos Cosas Personas
taller smact
Introducción
5 © avanttic Consultoría Tecnológica, S.L.
Impacto de Big Data en la organización
taller smact
Introducción
6 © avanttic Consultoría Tecnológica, S.L.
Data Reservoir
Data Lake, Data Pool >>> Data Reservoir
Economics of the ReservoirHadoop Big Data Reservoir vs. “Data Pool” Inside EDW
• Different calculators, similar figures:• Hadoop Cost/TB ~$300• Teradata Cost/TB ~$16,000• Netezza Cost/TB ~10,000
• Lower cost system for Staging, Preparation and Archival
taller smact
Introducción
7 © avanttic Consultoría Tecnológica, S.L.
¿Qué necesitamos hacer?
DECIDIR
ADQUIRIR ORGANIZAR
ANALIZAR
para Adquirir,Organizar y Analizar
Información
de la nueva Infraestructura
Procesos
Analítica
CICLO DE VIDA
BIG DATA
NUEVOS
REQUERIMIENTOS
On-Premise Cloud
NUEVO ESCENARIO
taller smact
Introducción
8 © avanttic Consultoría Tecnológica, S.L.
¿Con qué objetivo y cómo lo hacemos?
Rápida Respuesta a nuevas
preguntas
Alimentar el Reservoir
Más y mejores predicciones
Acelerar decisiones
“Data-Driven”
Descubrir Información Analizar Decidir
Ingerir
datos
Organizar
e Integrar
Datos estructurados
y no estructurados
Conocimientopara
Decidir
taller smact
Introducción
9 © avanttic Consultoría Tecnológica, S.L.
Visión de Oracle del escenario Big Data
FlujosDe
Datos
DatosInternos
Datos Web y Redes Sociales
taller smact
Índice
© avanttic Consultoría Tecnológica, S.L. 10
① Introducción
② Data Management
③ Data Integration
④ Data Analytics
⑤ Infraestructura Oracle para Big Data
⑥ Casos de Clientes
⑦ Conclusiones
taller smact
Data Management
11 © avanttic Consultoría Tecnológica, S.L.
Big Data Management
FlujosDe
Datos
DatosInternos
Datos Web y Redes Sociales
taller smact
Data Management
• Hadoop es un framework para proceso masivo y distribuido
• Cluster Hadoop: mínimo 3 nodos
• Hadoop File System (HDFS)
• Tolerante a fallos
• Fácilmente escalable horizontalmente
• HDFS no indexa
• Necesidad otras herramientas acceso datos
(HBase, NoSQL)
• Proceso de datos Paralelo (Map/Reduce)
• Fracciona y Distribuye los datos
• Coordina la ejecución del código
• Verifica la ejecución del código
• Recoge los resultados (finales o los envía al siguiente paso)
12 © avanttic Consultoría Tecnológica, S.L.
Hadoop
taller smact
Data Management
13 © avanttic Consultoría Tecnológica, S.L.
Hadoop Distribución Cloudera 5 EDH
Apache Oozie Apache Oozie Apache Hive
Apache Flume y SQOOP
Fuse-DFS Hue Hue SDK
Apache Pig, Hive, Mahout
Apache HBase
Apache Zookeeper
• Apache Hadoop con YARN, MR2 y Spark• Cloudera Impala• HBase (con soporte para Accumulo)• Cloudera Search
• Cloudera Manager• Back-up & Disaster Recovery (BDR)• Navigator
taller smact
Data Management
• BD distribuida, basada en Oracle Berkeley DB
• Almacenamiento replicado (HA)
• Almacena parejas de valores (Key-Value)
• Driver inteligente mantiene mapa de topología de almacenamiento
• Responsable del sharding
• Balanceo de carga
• Casos de uso
• Almacenamiento baja latencia
• Consulta rápida por clave (Key)
14 © avanttic Consultoría Tecnológica, S.L.
Oracle NoSQL
taller smact
Data Management
15 © avanttic Consultoría Tecnológica, S.L.
Oracle Data Base Enterprise Server 12c
Partition Outer JoinData Mining en la BDExpresiones regulares
Rollup, grouping sets, CubePivotar SQLWITH recursivoListAgg, N-ésimo valor
Pattern matchingSentencia Top N Approx Count distinctSoporte JSON
• Mejoras en external tables (Hadoop, …)
• Big Data SQL
• Evolución continua de funcionalidades analíticas en SQL
• In-Database Analytics Platform
• Spatial analytics
• ORE
• MapReduce
• Mejoras en expresiones regulares (soporte multilenguaje)
• In-memory DB
taller smact
Data Management
16 © avanttic Consultoría Tecnológica, S.L.
Big Data SQL
• Combinar en una consulta SQL datos residentes en
• BD Oracle
• NoSQL
• Hadoop
• Permite trasladar políticas de seguridad y acceso de BD a Hadoop y NoSQL
• Óptimo rendimiento con SmartScan
• Data-local scans
• Proyección columnas
• Evaluación de predicados
• Funciones complejas evalúan en origen
SELECT w.sess_id, c.nameFROM web_logs w, customers cWHERE w.source_country = 'Brazil'AND w.cust_id = c.customer_id;
web_logs customers
taller smact
Índice
© avanttic Consultoría Tecnológica, S.L. 17
① Introducción
② Data Management
③ Data Integration
④ Data Analytics
⑤ Infraestructura Oracle para Big Data
⑥ Casos de Clientes
⑦ Conclusiones
taller smact
Data Integration
18 © avanttic Consultoría Tecnológica, S.L.
Big Data Management
FlujosDe
Datos
DatosInternos
Datos Web y Redes Sociales
taller smact
Data Integration
• Herramienta de replicación de datos Real Time
• Securizado, No Invasivo y tolerante a fallos
• Transformaciones básicas (in-row) o integración ODI
• Flume
• HDFS
• Hive
• HBase
19 © avanttic Consultoría Tecnológica, S.L.
Oracle Goldent Gate (OGG) 12c for Big Data
• Adaptador OGG para Java
• NoSQL
• Kafka
• Storm
• Spark
taller smact
Data Integration
• Software diseñado y optimizado para integrar datos entre Hadoop y
Oracle
• Componentes
• Conector Oracle SQL para HDFS
• R Advanced Analytics para Hadoop
• Oracle Loader para Hadoop
• Xquery para Hadoop
• Oracle Data Integrator
• Conjunto de KM’s para ODI
• Hasta 15 TB/h sobre Engineered Systems
20 © avanttic Consultoría Tecnológica, S.L.
Oracle Big Data Connectors
taller smact
Data Integration
21 © avanttic Consultoría Tecnológica, S.L. 21 © avanttic 2015 – Reservados todos los derechos
Oracle Data Integrator (ODI)
• Diseño declarativo (KM)
• Desarrollo orientado a flujo
• Reutilización de código
• Rendimiento optimizado para Oracle
• Depuración paso a paso
• Funcionalidad extensible
taller smact22
Data Integration
© avanttic Consultoría Tecnológica, S.L.
Oracle Data Integrator (ODI)
LKM - Load
IKM - Integración
CKM - Check
JKM - Journalize
RKM - Reverse Eng.
SKM - Service
XKM - Sort
Tipos de KM
taller smact
Data Integration
• LKM SQL to Hive SQOOP
• LKM SQL to File SQOOP Direct
• LKM SQL to HBase SQOOP Direct
• LKM HBase to SQL SQOOP
• LKM File to SQL SQOOP
• LKM Hive to SQL SQOOP
• LKM File to Hive LOAD DATA
• LKM File to Hive LOAD DATA Direct
• LKM HBase to Hive HBASE-SERDE
• LKM Hive to HBase Incremental
Update HBASE-SERDE Direct
• IKM Hive Append
• LKM Hive to File Direct
• LKM Hive to Oracle OLH-OSCH
• LKM File to Oracle OLH-OSCH Direct
• LKM Hive to Oracle OLH-OSCH
• LKM Hive - Oracle OLH-OSCH Direct
• XKM Hive Sort
23 © avanttic Consultoría Tecnológica, S.L.
Mejoras y nuevos KM’s de ODI para Big Data
LKM
JKM
• Lenguajes implementación Mappings
• Hive
• Spark
• Pig
• SQOOP
• Orquestación y monitorización tareas
• ODI Agent
• Oozie
• Weblogic Hive JDBC driver
• Recupera Hadoop Audit Logs
• Nuevos componentes para mappings
• Flatten
• Jagged
• ODI Tools para acceso a HDFS
taller smact
Data Integration
24 © avanttic Consultoría Tecnológica, S.L.
ODI frente a las alternativas
taller smact
Índice
© avanttic Consultoría Tecnológica, S.L. 25
① Introducción
② Data Management
③ Data Integration
④ Data Analytics
⑤ Infraestructura Oracle para Big Data
⑥ Casos de Clientes
⑦ Conclusiones
taller smact
Data Analytics
26 © avanttic Consultoría Tecnológica, S.L.
Big Data Management
FlujosDe
Datos
DatosInternos
Datos Web y Redes Sociales
taller smact
Data Analytics
• Manipulación de Datos
• 80% esfuerzo evaluando y preparando datos
• Valor de los datos no es evidente
• Formatos no familiares usuarios negocio
• Complejidad Herramientas
• BI existentes no diseñadas para Hadoop
• Entorno Hadoop requieren especialización
• Emergentes poca funcionalidad
27 © avanttic Consultoría Tecnológica, S.L.
Oracle Big Data Discovery (BDD)
Una herramienta que permita
• Buscar
• Explorar
• Transformar
• Sacar conclusiones
• Compartir resultados
¿Cómo explotar el Data Reservoir?
Dif
icu
ltad
es
…
Hac
e f
alta
…
taller smact
Data Analytics
The Visual Face of Hadoop
28 © avanttic Consultoría Tecnológica, S.L.
Oracle Big Data Discovery (BDD)
taller smact
Data Analytics
29 © avanttic Consultoría Tecnológica, S.L.
Oracle Big Data Discovery (BDD)
Combinar visualizaciones diversasCompartir y publicar resultados
De manera segura
Explorar atributos por tipo,Evaluar calidad,
datos anómalos, …
Acceso rico e interactivo a TODOS los datos del catálogo Hadoop
Anotaciones, agregaciones sobre juegos de datos
taller smact
Data Analytics
Oracle Big Data Cloud
• Nativo Hadoop: sin movimientos ni
subconjuntos de datos
• Escalable a Petabytes sin perder rendimiento
• Tecnología punta: combina simplicidad de
búsqueda y análisis interactivo
• Herramientas análisis estadístico y predictivo
integradas
• Sofisticadas herramientas profiling,
transformación y enriquecimiento de datos
30 © avanttic Consultoría Tecnológica, S.L.
taller smact
• Limitaciones de R
• Software monolítico
“cliente+servidor”, monousuario
• Carga en memoria los datos
antes de procesarlos …
• Oracle Enterprise R
• Se integra en BD eliminando restricción memoria
• Integra R en aplicaciones y cuadros de mando
• Elimina el tráfico de datos
Data Analytics
31 © avanttic Consultoría Tecnológica, S.L.
Oracle Enterprise R (ORE)
taller smact
• Conector R para Hadoop
• Permite combinar BD, HDFS y ficheros locales en un mismo proceso
• Interface a datos HDFS y infraestructura Hadoop
Data Analytics
32 © avanttic Consultoría Tecnológica, S.L.
Oracle Enterprise R (ORE)
taller smact
Data Analytics
• Herramienta Data Discovery
• Datos estructurados y No estructurados
• Carga de datos en Autoservicio o en Batch
• Integración y Enriquecimiento de datos
• Potente motor de búsqueda
• Análisis de sentimiento
• Detección patrones
33 © avanttic Consultoría Tecnológica, S.L.
Oracle Endeca Information Discovery (OEID)
EID Studio
Crear y Compartir
discovery applications
State
CA (1,203)
NY (512)
IL (312)
MA (211)
CO (102)
Brand
Nikon (3,453)
Canon (1,512)
Fuji (322)
Panasonic (211)
search..
purchase intent
passionate user-
friendly loyalty
Price Range
Source
ORCL (301,203)
SAP (11,512)
EDW (10,312)
Discovery
ApplicationEID Integrator
Structured Data
Sources
Unstructured
Content
Innovative
ETL
Web and File
Crawling
Text
EnrichmentTEX
T
Endeca Server
Self-Service
Provisioning
Sharing and
Collaboration
Drag & Drop
Composition
Intuitive
Exploration
taller smact
Data Analytics
• Suite con toda la funcionalidad BI tradicional
• Movilidad (iOS, Android)
• Federación BD heterogéneas
34 © avanttic Consultoría Tecnológica, S.L.
Oracle Business Intelligence (OBI)
InteractiveDashboards
Geospatial Visualization
MS-Office Integration
Mobile Reports
Applications & Portals
Search Ad-hocQueries
Collaboration
Scorecards
Files,
Excel, XML
Business
ProcessData Warehouse
Data Mart
OLAP
EssbaseOLTP & ODS
Systems
taller smact
Data Analytics
• Es un Business Intelligence completo, con todos
los Datos, Tipos de Análisis & Clientes
• Self-service: Carga de Datos, Mapeo & KPIs
• Categoría empresarial: Aislamiento de Datos
Seguros; Alta Disponibilidad; Escalable de 10s a
1000s de Usuarios
• Completamente Gestionado: Patched, Backed
Up, Upgraded
• Extensión de Aplicaciones SaaS: posee
conectores para Oracle SaaS y Aplicaciones
On-Premise
• Avanza alguna función de OBI 12c
35 © avanttic Consultoría Tecnológica, S.L.
Business Intelligence Cloud Service (BICS)
taller smact
Índice
© avanttic Consultoría Tecnológica, S.L. 36
① Introducción
② Data Management
③ Data Integration
④ Data Analytics
⑤ Infraestructura Oracle para Big Data
⑥ Casos de Clientes
⑦ Conclusiones
taller smact
Infraestructura Oracle para Big Data
37 © avanttic Consultoría Tecnológica, S.L.
Oracle Big Data Platform
Baja densidad, Débilmente estructurados
Alta densidad, estructurados, relacionados
Big Data Appliance Exadata
InfiniBand
Acquire Organize Analyze & VisualizeStream
Exalytics
InfiniBand
OBIEID RTDBDD
OG
GO
DI
Data Reservoir EDWH
taller smact
• Mínimo 6 Nodos / Máximo 18
• Hardware x Nodo
• 2 Procesadores x 18 Cores Intel® Xeon® E5-2699 V3 2.3 GHz
• 128 GB RAM (4 * 16 DDR4) ampliable a 768 GB nodo
• Controlador de disco HBA con 512MB cache de escritura
(respaldada con batería)
• 12 discos SAS de alta capacidad (4TB) a 7,200 RPM
• 2 Puertos Infiniband QDR (40Gb/s)
• 4 Puertos Ethernet a 10 Gb
• 1 Puerto ILOM Ethernet
• Capacidad máxima Full Rack• 288 Cores
• 13.824 Gb de RAM (todos los nodos ampliados)
• 864 Tb de disco
Infraestructura Oracle para Big Data
38 © avanttic Consultoría Tecnológica, S.L.
Big Data Appliance
X5-2
taller smact
Infraestructura Oracle para Big Data
39 © avanttic Consultoría Tecnológica, S.L.
Big Data Appliance
X5-2• Oracle Linux 6.4 (Kernel Unbreakable Ent.)
• Software instalado
• Cloudera Enterprise Data Hub (EDH) Ver. 5
• Cloudera Manager
• Oracle R
• Oracle NoSQL Database Community Ed.
• Plug-In para Enterprise Manager
• Software opcional
• Oracle Virtual Machine
• Big Data SQL
• Oracle NoSQL Enterprise Ed.
• Oracle Big Data Connector
• Oracle R Enterprise
• Seguridad
• Kerberos
• Apache Sentry
• Audit Vault y DB Firewall for Hadoop Auditing
taller smact
Infraestructura Oracle para Big Data
• Optimizado para todo tipo de BD
• Redundancia total para HA
• Capacidad máxima de un Full Rack
• Hasta 672 TB HD storage (Raw) y 48 TB Flash
• Hasta 684 CPU cores y 14.6.TB RAM (DB)
• Hasta 288 CPU cores (SQL processing in storage)
• De 2 a 19 DB servers y de 3 a 18 Storage Servers
• Hasta 230 TB de Flash Storage
• 40 Gb/second (QDR) InfiniBand
• Funcionalidad
• Compresión columnar híbrida (Query optimized/Archive)
• Smart Flash Cache
40 © avanttic Consultoría Tecnológica, S.L.
Exadata
Full RackHalf RackQuarter Rack Multi Rack
X5-2
taller smact
Infraestructura Oracle para Big Data
• Hardware Optimizado
• Hasta 128 cores
• 4 TB RAM / 6.4 TB Flash
• Hasta 9.6 TB HD
• 4 puertos Infiniband 40 Gbps
• Software analítico
• OBI Foundation Suite
• TimesTen (in-memory DB)
• Essbase [opcional]
• Endeca [opcional]
• Aceleradores OBI, BIP, Essbase
41 © avanttic Consultoría Tecnológica, S.L.
Exalytics
T5-8
taller smact
Índice
© avanttic Consultoría Tecnológica, S.L. 42
① Introducción
② Data Management
③ Data Integration
④ Data Analytics
⑤ Infraestructura Oracle para Big Data
⑥ Casos de Clientes
⑦ Conclusiones
taller smact
Casos de clientes
43 © avanttic Consultoría Tecnológica, S.L.
Aplicaciones empresariales de Big Data
ENTRETENIMIENTO Y MEDIOS COMUNICACIÓNEficiencia publicidad,Audiencia
COMUNICACIONESPublicidad según ubicación, Calidad del servicio
EDUCACION E INVESTIGACIÓNAnálisis SensoresExperimentos,Estudios mayor Proyección
BIENES DE CONSUMOAnálisis de sentimiento: está de moda, problemas
SALUDSensores en pacientes, Monitorización, Calidad atención
MEDICINA Y CIENCIAAnálisis clínicos,Análisis del genoma
TECNOLOGIA E INDUSTRIACalidad en la producción,Análisis de garantías
ENERGIAAnálisis de sensores en perforaciones de exploración
SERVICIOS FINANCIEROSAnálisis de Riesgo & CarteraNuevos productos
AUTOMOCIONVehículos con sensores reportando ubicación, problemas, …
DISTRIBUCIÓNSentimiento del consumidor,Optimización marketing
SEGURIDAD Y DEFENSAAnálisis de amenazas: monitorización de redes sociales, análisis de imágenes
VIAJES Y TRANSPORTESAnálisis de sensores para optimizar flujo de tráfico,Satisfacción del cliente
SUMINISTROSAnálisis inteligente del consumo para planificar capacidad de las redes
SERVICIOS ON-LINE / SOCIAL MEDIACompatibilidad entre Personas o carreras,OptimizaciónSitios Web
taller smact
Índice
© avanttic Consultoría Tecnológica, S.L. 44
① Introducción
② Data Management
③ Data Integration
④ Data Analytics
⑤ Infraestructura Oracle para Big Data
⑥ Casos de Clientes
⑦ Conclusiones
taller smact
Conclusiones
45 © avanttic Consultoría Tecnológica, S.L.
Evolución del perfil del “Data Scientist”
Discovery
Data Reservoirs
Business Intelligence
Data Warehouse
taller smact
Conclusiones
46 © avanttic Consultoría Tecnológica, S.L.
Trabajar como Consultor BA
• Requiere perfil polivalente
• Conocimiento negocio
• Área de negocio técnicamente transversal
Diseño lógico/ BBDD / SQL /
Tunning
Arquitectura/ Configuración
Análisis Estadístico/ Predicción
Procesos Batch
Integración Datos / Tiempo Real
Information discovery /Visualización de datos
Usuarios/ Negocio
taller smact
Conclusiones
48 © avanttic Consultoría Tecnológica, S.L.
Oracle la mejor elección para Big Data
• Cuenta con el 55% del mercado RDBMS y gran experiencia en EDWH
• Familia de Engineered Systems
• Solución integrada y completa para Big Data Analytics
• Data Management: SQL, NoSQL, Enterprise R, Big Data Conectors, In-memory
• Data Integration: Única herramienta (ODI), Real-time (OGG)
• Data Analytics: Big Data Discovery, Endeca, R, OBI
Big Data Appliance
Exadata
Exalytics