Date post: | 06-Dec-2014 |
Category: |
Documents |
Upload: | julio-pari |
View: | 2,027 times |
Download: | 1 times |
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSE
Data WarehouseFundamentos
Datawarehouse
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSE
Agenda● Introducción
– Problemas● Data Warehouse.
– Características. – Componentes. – Ventajas.– Problemas.
● OLTP vesrsus Data Warehouse.● Arquitectura de un Data Warehouse
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSE
Agenda● Data Mart. ● Diseño de un Datawarehouse.● OLTP y OLAP
– Comparación con OLTP versus OLAP. – Herramientas OLAP– Base de Datos OLAP
● DataWarehouse y Data Mining● OLAPy Data Mining● Conclusiones
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSE
Introducción
• La información que se quiere investigar sobre un cierto dominio de la organización se encuentra en bases de datos y otras fuentes muy diversas, tanto internas como externas.
• Muchas de estas fuentes son las que se utilizan para el trabajo diario (bases de datos operacionales).
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSE
Introducción● Sobre estas mismas bases de datos de trabajo
ya se puede extraer conocimiento (visión tradicional).
● Uso de la base de datos transaccional para: – Se mantiene el trabajo transaccional diario de
los sistemas de información originales (OLTP, On-Line Transactional Processing).
– Se hace análisis de los datos en tiempo real sobre la misma base de datos (OLAP, On-Line Analytical Processing).
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSE
Introducción● Problemas:
– Perturba el trabajo transaccional diario de los sistemas de información originales (“killer queries”). Se debe hacer por la noche o en fines de semana.
– La base de datos está diseñada para el trabajo transaccional, no para el análisis de los datos. Generalmente no puede ser en tiempo real (era AP pero no OLAP).
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSE
Introducción● Se desea operar eficientemente con esos
datos...– Costes de almacenamiento y conectividad se
han reducido en últimos años, ● Parece razonable recoger los datos
(información histórica) en un sistema separado y específico.
– Data warehouses (Almacenes o Bodegas de Datos)
– Nace Data-Warehousing.
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSE
Data Warehouse
Repositorio completo de datos de la empresa, donde se almacenan datos estratégicos, tácticos y operativos, con el objeto de obtener información estratégica y táctica.
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSE
Data Warehouse● El almacén de datos es ahora el “sistema de
información central” en todo este proceso.● Un almacén de datos es una colección de
datos:– orientada a un dominio– integrada– no volátil– variante en el tiempo
● Para ayudar en la toma de decisiones.
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSE
Data WarehouseAlmacenes de Datos (AD) (data warehouse)
Disponer de Sistemas de Información de apoyo a la toma de decisiones*
Disponer de bases de datos que permitan extraer conocimiento de la información histórica almacenada en la organización
Análisis de laOrganización
Previsiones deevolución
Diseño deestratégias
* DSS: Decision Support Systems
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEData WarehouseAlmacenes de datos
Base de Datos diseñada con un objetivo de explotación distinto que el de las bases de
datos de los sistemas operacionales.Sistema Operacional
(OLTP)
Sistema de Almacén de Datos
(DW)
BD orientada al proceso
BD orientada al análisis
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEData WarehouseAlmacenes de Datos
Colección de datos diseñada para dar apoyo a los procesos de toma de decisiones
orientada hacia la información* relevante de la organización
integrada variable en el tiempo
no volátil
características
* subject oriented, not process oriented
definición
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEData WarehouseOrientado hacia la información relevante de la organización
Se diseña para consultar eficientemente información relativa a las actividades (ventas, compras, producción, ...) básicas de la organización, no para soportar los procesos que se realizan en ella (gestión de pedidos, facturación, etc).
Información Necesaria
PRODUCTO
...
GAMA
...
VENTA
...
PAÍS
...
Base de Datos Transaccional
CURSO
...
REUNION
...
PROTOTIPO
...
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEData Warehouse
Base de Datos Transaccional 1
Fuente de Datos 1
Fuentes Externas
Fuentes Internas
Fuente de Datos 2
Fuente de Datos 3
HTML
Almacén de Datos
texto
Base de Datos Transaccional 2
IntegradoIntegra datos recogidos de diferentes sistemas operacionales de la organización (y/o fuentes externas).
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEData Warehouse
Los datos son almacenados como fotos (snapshots) correspondientes a periodos de tiempo.
DatosTiempo
01/2003
02/2003
03/2003
Datos de Enero
Datos de Febrero
Datos de Marzo
Variable en el tiempo
Los datos son relativos a un periodo de tiempo y deben ser incrementados periódicamente.
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEData Warehouse
READ
Carga
INSERT READ
UPDATE
DELETE
Bases de datos operacionales Almacén de Datos
No volátil Los datos almacenados no son actualizados, sólo son incrementados.
El periodo de tiempo cubierto por un AD varía entre 2 y 10 años.
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEData WarehouseAlmacenes de Datos
ventajas para las organizaciones
Rentabilidad de las inversiones
realizadas para su creación
Aumento de la competitividad en el mercado
Aumento de la productividad de los técnicos de dirección
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEData WarehouseAlmacenes de Datos
problemas
Infravaloración de los recursos necesarios para la captura,
transformación carga y almacenamiento de los datos
Incremento continuo de los requisitos de
los usuarios
Privacidad de los datos
Infravaloración del esfuerzo necesario para su diseño y
creación
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSE
OLTP versus Data WarehouseSistema Operacional (OLTP) Almacén de datos (DW)
almacena datos actuales almacena datos históricos
almacena datos de detalle almacena datos de detalle
bases de datos medianas (100Mb-1Gb) bases de datos grandes (100Gb-1Tb)
los datos son dinámicos (actualizables) los datos son estáticos
los procesos (transacciones) son repetitivos los procesos no son previsibles
el número de transacciones es elevado el número de transacciones es bajo o medio
tiempo de respuesta pequeño (segundos) tiempo de respuesta variable (segundos-horas)
dedicado al procesamiento de transacciones dedicado al análisis de datos
orientado a los procesos de la organización orientado a la información relevante
soporta decisiones diarias soporta decisiones estratégicas
sirve a muchos usuarios (administrativos) sirve a técnicos de dirección
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSE
Arquitectura de un Data Warehouse• La Arquitectura de un data warehouse viene
determinada por su situación central como fuente de información para las herramientas de análisis.
Base de Datos Transaccional
Fuentes Internas
Fuentes Externas
Fuente de Datos
Fuente de Datos 3
HTML
Fuente de Datos 1
texto
Almacén de DatosETL Interfaz y
Operadores
Herramientas de consultas e
informes
Herramientas EIS
Herramientas OLAP
Herramientas de Minería de Datos
Copias de Seguridad
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEArquitectura de un Data Warehouse
• Componentes:• Sistema ETL (Extraction, Transformation, Load):
realiza las funciones de extracción de las fuentes de datos (transaccionales o externas), transformación (limpieza, consolidación, ...) y la carga del Data Warehouse, realizando:
• Extracción de los datos.• Filtrado de los datos: limpieza, consolidación, etc.• Carga inicial del almacén: ordenación, agregaciones,
etc.• Refresco del almacén: operación periódica que
propaga los cambios de las fuentes externas al almacén de datos.
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEArquitectura de un Data Warehouse
• Componentes:• Repositorio Propio de Datos: información
relevante, metadatos.• Interfaces y Gestores de Consulta: permiten
acceder a los datos y sobre ellos se conectan herramientas más sofisticadas (OLAP, EIS, minería de datos).
• Sistemas de Integridad y Seguridad: se encargan de un mantenimiento global, copias de seguridad, ...
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEArquitectura de un Data Warehouse
• Organización (Externa) de los datos…
Las herramientas de explotación de los almacenes de datos han adoptado un modelo
multidimensional de datos.
Se ofrece al usuario una visión multidimensional de los datos que son objeto de análisis.
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEArquitectura de un Data Warehouse
EJEMPLO
Organización: Cadena de supermercados.
Actividad objeto de análisis: ventas de productos.
Información registrada sobre una venta: “del producto “Tauritón 33cl” se han vendido en el almacén “Almacén nro.1” el día 17/7/2003, 5 unidades por un importe de 103,19 euros.”
Para hacer el análisis no interesa la venta individual (ticket) realizada a un cliente sino las ventas diarias de productos en los distintos almacenes de la cadena.
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEArquitectura de un Data Warehouse
Venta
s
importe
unidades
Almacén
Ciudad
Región
Tipo
Departamento
Nro_producto
Categoría
Marca
Tipo
Descripción
Día
Mes
Semana
AñoTrimestre
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEArquitectura de un Data Warehouse
Venta
s
importe
unidades
Departamento
Nro_producto
Categoría
Marca
TipoDía
Mes
Semana
Almacén
Ciudad
Región
Tipo
Año
Descripción
Actividad que es objeto de análisis con los indicadores que interesa analizar
Dimensiones (puntos de vista) desde los que se puede analizar la actividad.
Prod
ucto
Alm
acén
Trimestre
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEArquitectura de un Data Warehouse• El almacén de datos puede estar formado por
varios datamarts y, opcionalmente, por tablas adicionales.
Data mart
Se definen para satisfacer las necesidades de un departamento o sección de la organización.
Contiene menos información de detalle y más información agregada.
Subconjunto de un almacén de datos, generalmente en forma de estrella o copo de nieve.
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSE
Data Mart
Repositorio parcial de datos de la empresa, donde se almacenan datos tácticos y operativos, con el objeto de obtener información táctica.
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEDiseño de un Data Warehouse
Diseño físico
Diseño lógico específico
Implementación
Diseño conceptual
Recogida y análisis derequisitos
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSE
OLTP
OLTP (On-Line Transaction Processing): Define el comportamiento habitual de un entorno operacional de gestión:
● Altas/Bajas/Modificaciones/Consultas● Consultas rápidas y escuetas● Poco volumen de información● Transacciones rápidas● Gran nivel de concurrencia
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSE
OLAP
OLAP: On-Line Analytical Processing: Define el comportamiento de un sistema de análisis de datos y elaboración de información:
● Sólo Consulta● Consultas pesadas y no predecibles● Gran volumen de información histórica● Operaciones lentas
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSE
OLAP
OLAP: Datawarehouse de análisis● Procesos de consolidación● Cambio de tecnología de base de datos● Sumarizan datos disgregados● Transforman datos● Consolidan datos de aplicaciones no integradas
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSE
OLAP●Consistencia de consolidación
● Comprobar la validez de los datos en el entorno operacional● Datos que no se usan● Datos que no se mantienen
● Inconsistencia entre distintas aplicaciones dentro del sistema● Datos no igualmente mantenidos● Codificaciones diferentes
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSE
Arquitectura Data Warehouse
Mecanismos de consolidación● Refresco de datos: Volcado completo de los datos
procedentes del sistema operacional● Actualización de datos: Volcado incremental,
tomando como criterio la fecha de operación● Propagación de datos: Creación de logs en el
entorno transaccional, los cuales se aplican en el entorno analítico
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEOLTP vs. OLAP
Características OLTP OLAP
Tamaño BD GigaBytes Giga a TeraBytes
Origen Datos Interno Interno y Externo
Actualización On-Line Batch
Periodos Actual Histórico
Consultas Predecibles Ad Hoc
Actividad Operacional Analítica
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSE
OLTP vs OLAP
Todas estas divergencias hacen que no sea posible la convivencia en una única BD de los entornos OLAP y OLTP:
● Pérdida de rendimiento del entorno OLTP● Falta de integración entre distintos aplicaciones OLTP● Tecnologías de BD sin capacidad para soportar
aplicaciones OLAP● Incorporación de datos externos difícilmente aplicable
a la BD OLTP● Distribución de los datos no adecuada para análisis
OLAP
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSE
Bases Datos OLAP
Tipos de BD● BD Relacional● BD Multidimensional● BD Híbrida● BD OLAP (BD Relacional con funcionalidad OLAP)
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSEHerramientas OLAP
● Las herramientas de OLAP presentan al usuario una visión multidimensional de los datos (esquema multidimensional) para cada actividad que es objeto de análisis.
● El usuario formula consultas a la herramienta OLAP seleccionando atributos de este esquema multidimensional sin conocer la estructura interna (esquema físico) del almacén de datos.
● La herramienta OLAP genera la correspondiente consulta y la envía al gestor de consultas del sistema (p.ej. mediante una sentencia SELECT).
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSE
Data Warehouse y Data Minig● Los almacenes de datos no son
imprescindibles para hacer extracción de conocimiento a partir de datos.
– se puede hacer minería de datos sobre un simple fichero de datos.
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSE
Data Warehouse y Data Minig● Las ventajas de organizar un almacén de
datos para realizar minería de datos se amortizan sobradamente a medio y largo plazo cuando:
– tenemos grandes volúmenes de datos, o– éstos aumentan con el tiempo, o– provienen de fuentes heterogéneas o– se van a combinar de maneras arbitrarias y
no predefinidas.
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSE
OLAP y Data Mining● Las herramientas OLAP
– proporcionan facilidades para “manejar” y “transformar” los datos.
– producen otros “datos” (más agregados, combinados).
– ayudan a analizar los datos porque producen diferentes vistas de los mismos.
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSE
OLAP y Data Mining● Las herramientas de Minería de Datos:
– son muy variadas: permiten “extraer” patrones, modelos, descubrir relaciones, regularidades, tendencias, etc.
– producen “reglas” o “patrones” (“conocimiento”).
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSE
● Los almacenes de datos y las técnicas OLAP son las maneras más efectivas y avanzadas para integrar, transformar y combinar los datos para facilitar al usuario o a otros sistemas el análisis de la información.
Conclusiones
CARRERA DEINGENIERÍADE SISTEMAS
DATAWAREHOUSE
● La tecnología OLAP generalmente se asocia a los almacenes de datos, aunque:
– Podemos tener almacenes de datos sin OLAP y viceversa.
● Todos en la empresa son responsables, no el consultor. Todos lo implementan y todos lo aseguran.
Conclusiones