+ All Categories
Home > Documents > Poblando y Explotando El DataWarehouse

Poblando y Explotando El DataWarehouse

Date post: 22-Jun-2015
Category:
Upload: luis-miguel-cueva-vasquez
View: 132 times
Download: 5 times
Share this document with a friend
Popular Tags:
25
UNIVERSIDAD NACIONAL DE LA UNIVERSIDAD NACIONAL DE LA AMAZONIA PERUANA AMAZONIA PERUANA Curso: Curso: Inteligencia de Inteligencia de Negocios Negocios Docente: Docente: Ing. Antonio Noronha Ing. Antonio Noronha Gómez Gómez Integrantes: Integrantes: Cueva Vásquez Miguel Cueva Vásquez Miguel FACULTAD DE INGENIERÍA DE SISTEMAS E INFORMÁTICA
Transcript

UNIVERSIDAD NACIONAL DE LA UNIVERSIDAD NACIONAL DE LA AMAZONIA PERUANAAMAZONIA PERUANA

Curso: Curso: Inteligencia de NegociosInteligencia de Negocios

Docente:Docente: Ing. Antonio Noronha GómezIng. Antonio Noronha Gómez

Integrantes:Integrantes:

Cueva Vásquez MiguelCueva Vásquez Miguel

García Córdova RoliGarcía Córdova Roli

Vásquez Valles EldyVásquez Valles Eldy

FACULTAD DE INGENIERÍA DE SISTEMAS E INFORMÁTICA

Poblando y Poblando y Explotando el Data Explotando el Data

WarehouseWarehouse

Especificar la extracción, transformación y carga de datos Especificar la extracción, transformación y carga de datos entre los sistemas transaccionales y el DW. En donde la entre los sistemas transaccionales y el DW. En donde la extracción es la selección sistemática de datos extracción es la selección sistemática de datos operacionales usados para poblar el componente de operacionales usados para poblar el componente de almacenamiento físico DW; la transformación es el almacenamiento físico DW; la transformación es el proceso para transformar y realizar otros cambios en los proceso para transformar y realizar otros cambios en los datos operacionales para reunir los objetivos de datos operacionales para reunir los objetivos de orientación a los temas a explotar y finalmente la carga es orientación a los temas a explotar y finalmente la carga es la inserción sistemática de datos en el componente de la inserción sistemática de datos en el componente de almacenamiento físico DW.almacenamiento físico DW.

1.1. Stage AreaStage Area

Es un área de almacenamiento y a su vez, un conjunto de procesos que limpian Es un área de almacenamiento y a su vez, un conjunto de procesos que limpian transforman, combinan, eliminan datos duplicados, archivan y preparan los datos de transforman, combinan, eliminan datos duplicados, archivan y preparan los datos de origen para su uso en la data Warehouse (procesos conocidos como ETL).origen para su uso en la data Warehouse (procesos conocidos como ETL).

• lugar de tránsito de los datos en su camino de la fuente al Data Warehouse.lugar de tránsito de los datos en su camino de la fuente al Data Warehouse.

• La mayor parte del esfuerzo en la construcción de un Data Warehouse se La mayor parte del esfuerzo en la construcción de un Data Warehouse se despliega en el “Staging Área”, despliega en el “Staging Área”,

• La herramienta que se utiliza para la construcción de los procesos del “Staging La herramienta que se utiliza para la construcción de los procesos del “Staging área” es la herramienta ETLárea” es la herramienta ETL

ExtracciónExtracción: Primer paso en l obtención de los datos que serán incluidos en el : Primer paso en l obtención de los datos que serán incluidos en el ambiente del DW. Extraer significa, leer y comprender los datos fuente y copiar los ambiente del DW. Extraer significa, leer y comprender los datos fuente y copiar los que el DW necesita.que el DW necesita.

TransformaciónTransformación: Aquí incluye, la limpieza de datos (corrigiendo los errores : Aquí incluye, la limpieza de datos (corrigiendo los errores ortográficos, resolviendo conflictos de dominios y convirtiendo los datos en ortográficos, resolviendo conflictos de dominios y convirtiendo los datos en formato estándar), la combinación de datos múltiples fuentes y eliminación de formato estándar), la combinación de datos múltiples fuentes y eliminación de datos duplicados.datos duplicados.

CargaCarga: Almacena los datos en el data Warehouse: Almacena los datos en el data Warehouse

2.2. Poblamiento del Data Poblamiento del Data Warehouse.Warehouse.

El proceso de poblar un Data Warehouse se puede dividir en 5 tipos de El proceso de poblar un Data Warehouse se puede dividir en 5 tipos de subprocesos: (Descubrir, Extraer, Transformar, Transportar, Cargar)subprocesos: (Descubrir, Extraer, Transformar, Transportar, Cargar)

DescubrirDescubrir: : En esta etapa se analiza la fuente de información, seleccionando En esta etapa se analiza la fuente de información, seleccionando los datos a extraer, los niveles de calidad de estos y la disponibilidad de los los datos a extraer, los niveles de calidad de estos y la disponibilidad de los mismos. mismos.

ExtraerExtraer: El proceso de extracción se realizara sobre fuentes heterogéneas, es : El proceso de extracción se realizara sobre fuentes heterogéneas, es por ello que se debe contar con una herramienta ETL abierta a todas las por ello que se debe contar con una herramienta ETL abierta a todas las fuentes y a todas las plataformas.fuentes y a todas las plataformas.

TransformarTransformar: : El proceso de transformación se encarga de cambiar los El proceso de transformación se encarga de cambiar los formatos de datos del sistema fuente al sistema destino, así como de realizar la formatos de datos del sistema fuente al sistema destino, así como de realizar la integración de las fuentes y la estandarización de los datos integración de las fuentes y la estandarización de los datos

TransportarTransportar: Proceso por el cual se pasa los datos al Data Warehouse.: Proceso por el cual se pasa los datos al Data Warehouse. CargarCargar: almacenamiento de los datos en la Data Warehouse.: almacenamiento de los datos en la Data Warehouse.

2.12.1 Estandarización de Estandarización de Datos.Datos.

Es el proceso orientado a la uniformizar los datos en base a las Es el proceso orientado a la uniformizar los datos en base a las definiciones y luego en base a la realidad. definiciones y luego en base a la realidad.

Por ejemplo un caso típico es el que se presenta es cuando existen Por ejemplo un caso típico es el que se presenta es cuando existen campos que contienen diferente valor como por ejemplo “campos que contienen diferente valor como por ejemplo “PedroPedro” y ” y ““PabloPablo” y que se refieren a la misma persona real, o el caso en el que ” y que se refieren a la misma persona real, o el caso en el que el campo contiene los mismos valores “el campo contiene los mismos valores “JuanitaJuanita” y “” y “JuanitaJuanita” pero que ” pero que en la realidad corresponden a personas distintas. en la realidad corresponden a personas distintas.

2.22.2 limpieza de Datos.limpieza de Datos. El problema de la calidad de los datos se puede enfrentar en parte con rutinas de El problema de la calidad de los datos se puede enfrentar en parte con rutinas de

limpieza que permitan reducir el número de registros con error. limpieza que permitan reducir el número de registros con error. Pasos a seguir:Pasos a seguir:

• Analizar sus datos corporativos para descubrir inexactitudes, anomalías y otros problemas.Analizar sus datos corporativos para descubrir inexactitudes, anomalías y otros problemas.

• Transformar los datos para asegurar que sean precisos y coherentes.Transformar los datos para asegurar que sean precisos y coherentes.

• Asegurar la integridad referencial, que es la capacidad de la data Warehouse, para identificar Asegurar la integridad referencial, que es la capacidad de la data Warehouse, para identificar correctamente al instante cada objeto del negocio, tales como un producto, un cliente o un correctamente al instante cada objeto del negocio, tales como un producto, un cliente o un empleado.empleado.

• Validar los datos que usa la aplicación de la data Warehouse para realizar las consultas de Validar los datos que usa la aplicación de la data Warehouse para realizar las consultas de prueba.prueba.

• Producir la Metadata, una descripción del tipo de datos, formato y el significado relacionado Producir la Metadata, una descripción del tipo de datos, formato y el significado relacionado al negocio de cada campo.al negocio de cada campo.

• Finalmente, viene el paso crucial de la documentación del proceso completo para que se Finalmente, viene el paso crucial de la documentación del proceso completo para que se pueda ampliar, modificar y arreglar los datos en el futuro con más facilidad.pueda ampliar, modificar y arreglar los datos en el futuro con más facilidad.

Tipos de limpieza de DatosTipos de limpieza de Datos

a) a) Limpieza de datos moderada:Limpieza de datos moderada:

b) b) Limpieza de datos intensaLimpieza de datos intensa::

3.3. LA METADATALA METADATA

QUE ES METADATAQUE ES METADATA

EJEMPLOS DE METADATA:

* Cuando observamos la fecha de caducidad de los alimentos, dónde fueron fabricados o por quién son comercializados, estamos consultando metadatos.

* En una biblioteca, al realizar búsquedas. Lo hacemos a través de metadatos como son el autor, el título o la temática.

* En nuestro DNI aparecen metadatos acerca de nosotros mismos: la dirección, los nombres de nuestros padres, un número que actúa como identificador, etc.

*En los medicamentos: los metadatos aparecen junto al producto, en el prospecto, donde se indica la composición y las indicaciones de uso.

“Datos acerca de los datos.”

O

Información acerca de información.

Que es otra base de datos que contiene información acerca de los datos que hay en el Data Warehouse, acerca de los procesos y acerca del negocio.

TIPOS DE METADATATIPOS DE METADATA

Los metadatos de los procesos ETL, referidos a las diversas fuentes utilizadas, reglas de extracción, transformación, limpieza, depuración y carga de los datos al depósito.

Los metadatos operacionales, que son los que básicamente almacenan todos los contenidos del DW, para que este pueda desempeñar sus tareas.

Los metadatos de consulta, que contienen las reglas para analizar y explotar la información del almacén, tales como drill-up y drill-down. Son estos metadatos los que las herramientas de análisis y consulta emplearán para realizar documentaciones y para navegar por los datos.

Por los usuarios que los utilizan:

Los usuarios de los metadatos tendrán necesidad de ver los siguientes metadatos:

Usuarios técnicos: Usuarios de negocio: • Datos sobre el proceso ETL

• Datos sobre el DBMS.

• Archivos, arquitectura.

• Modelos físico, lógico.

• Mapeos.

• Áreas de negocio.

• Definiciones de reglas de negocio.

• Como utilizar las herramientas.

• Significado de la información

• Ubicación de la información

IMPLEMENTAR LA IMPLEMENTAR LA METADATAMETADATA

En esta actividad, se deben crear los datos acerca de los datos, esto implica la creación de un repositorio que proporcione información que puede ser de tres tipos:

* Metadatos del negocio, que contienen las reglas del negocio que han definido para el data Warehouse, entidades y atributos.

* Metadatos técnicos, que contiene los modelos de datos a nivel técnico, así como los modelos de los procesos de carga.

* Metadatos operacionales, que son acerca de los procesos del data Warehouse, frecuencia de ejecución, prioridad entre otros. Estos metadatos permitirán administrar el Data Warehouse.

En general, un repositorio de Metadatos debe contener lo siguiente:

_ Nombres de campos y definiciones

_ Mapeo de los datos

_ Tablas

_ Índices

_Cronogramas de extracción, carga, etc.

_ Criterios de selección

_ Cálculos de los datos derivados

_ Transformación de los datos

  

IMPORTANCIA…IMPORTANCIA…

En el ámbito de los data Warehouse el metadato juega un papel fundamental, su función consiste en recoger todas las definiciones de la organización y el concepto de los datos en el almacén de datos, debe contener toda la información concerniente a:TablasColumnas de tablasRelaciones entre tablasJerarquías y Dimensiones de datosEntidades y Relaciones

ARQUITECTURA DE ARQUITECTURA DE METADATOSMETADATOS

4.4. PRIMERA CARGAPRIMERA CARGA

Los procesos de carga al Data Warehouse tienen características muy particulares lo que hace necesario, en muchos casos, implementar procesos exclusivamente para la primera carga y procesos diferentes para los refrescos periódicos.

Muchas veces el proceso de carga de volúmenes considerables de datos puede tomar mucho tiempo por lo que se deberá utilizar herramientas especializadas en el tratamiento masivo de información como los “BulkLoaders” para la descarga y carga de información en tablas y los algoritmos “hash” cuando se trate de Tablas “Look-up” en los procesos de transformación.

EJEMPLO DEL PROCESO PRIMERA EJEMPLO DEL PROCESO PRIMERA CARGACARGA

5.5. PROCESO DE ACTUALIZACION DE DATOSPROCESO DE ACTUALIZACION DE DATOS

En el caso de los procesos de refresco periódico, es importante identificar la información que cambió en el último periodo de tiempo desde la última actualización, el volumen de información a tratar puede ser relativamente menor al caso de la primera carga.

La característica del proceso de carga deberá ser tal que permita el proceso más rápido posible, de manera que las múltiples fuentes de datos se puedan cargar sin interferir unas con otras ni tampoco con los procesos de lectura y análisis que se hacen en el Warehouse

La característica del proceso de carga deberá ser tal que permita el proceso más rápido posible, de manera que las múltiples fuentes de datos se puedan cargar sin interferir unas con otras ni tampoco con los procesos de lectura y análisis que se hacen en el Warehouse

DIAGRAMA DE ACTUALIZACION DE DATOSDIAGRAMA DE ACTUALIZACION DE DATOS

5.15.1ANOMALIASANOMALIAS

Las principales anomalías de los datos que se encuentran en las bases de datos operacionales son las siguientes:Errores en el ingreso de datos (digitación).Validaciones inadecuadas en los sistemas de ingreso de información.Prioridades de los sistemas operacionales. Datos que se ingresan en campos “Free-Form”.Anomalías en reglas de negocio (a través del tiempo).

Una tabla típica se vería como en la siguiente figura:

5.25.2 ATRIBUTOS DE CALIDAD DE DATOSATRIBUTOS DE CALIDAD DE DATOS

Los atributos de la calidad de datos están referidos al contenido de los datos estructurados de las bases de datos a analizar, esta base de datos puede ser la del sistema transaccional o la base de datos de Data Warehouse. Los atributos de la calidad de datos son los siguientes:

ATRIBUTOS DE CALIDAD DE DATOSATRIBUTOS DE CALIDAD DE DATOS

EXACTITUD EXACTITUD

EXISTENCIAEXISTENCIA

VALIDEZVALIDEZ

TEMPORALIDADTEMPORALIDAD

UNICIDADUNICIDADEs el porcentaje de tablas con llave primaria y de llaves primarias que Es el porcentaje de tablas con llave primaria y de llaves primarias que estén activas. estén activas.

CONSISTENCIACONSISTENCIAEs el grado de integridad de los datos, referido a la existencia y Es el grado de integridad de los datos, referido a la existencia y validez de llaves primarias y llaves foráneas en la base de datos a validez de llaves primarias y llaves foráneas en la base de datos a analizar. analizar.


Recommended