Top right corner for field-mark, customer or partner logotypes. See Best practice for example.
Slide title 40 pt
Slide subtitle 24 pt
Text 24 pt
Bullets level 2-520 pt
2008-03-151
Recopilación de Herramientas ETL
(Extraction, Transformation and Load)
Jhonny Saavedra Matrícula: A00369Robert Jaramillo Matrícula: A00369Jose Miguel Alonso Matrícula: A00369
Ingeniería de Datos
Top right corner for field-mark, customer or partner logotypes. See Best practice for example.
Slide title 40 pt
Slide subtitle 24 pt
Text 24 pt
Bullets level 2-520 pt
2008-03-152
Agenda
Que hace una Herramienta ETL Porqué una Herramienta ETL Herramientas Comerciales
– Informatica PowerCenter– SAS Enterprise Data Integration Server– Cognos Decision Stream
Herramientas Open Source– Pentaho Data Integration– Talend
Conclusiones
Top right corner for field-mark, customer or partner logotypes. See Best practice for example.
Slide title 40 pt
Slide subtitle 24 pt
Text 24 pt
Bullets level 2-520 pt
2008-03-153
Qué hace una Herramienta ETL
Extraer, Transformar, Cargar: Tres funciones de Base de Datos combinadas en una sóla herramienta que automatiza el proceso de extracción de una BD y carga en otra BD
Una herramienta ETL: – Extrae datos de varias fuentes (normalmente legacy)– Transforma los datos
Desde -> Repositorios optimizados para las transacciones A -> Repositorios optimizados para reporting y análisis Sincroniza los datos que proceden de diferentes Bases de
Datos Realiza una limpieza de datos para eliminar errores
– Carga los datos en un sistema Data Warehouse
http://etl-tools.info/
Top right corner for field-mark, customer or partner logotypes. See Best practice for example.
Slide title 40 pt
Slide subtitle 24 pt
Text 24 pt
Bullets level 2-520 pt
2008-03-154
Porqué una Herramienta ETL
Las Herramientas ETL ahorran tiempo y dinero en el desarrollo de un Data WareHouse por medio de reducir/suprimir la necesidad de codificación “Hand-coding”
La “Codificación” es todavía la forma más común de integración de datos.
– Requiere horas de desarrollo y un gran expertise para crear Sistemas de Business Intelligence
Integración de Bases de Datos de diferentes suministradores – Es una tarea difícil para los administradores de Bases de Datos
sin el uso de una herramienta externa ETL En el supuesto de que las Bases de Datos fuentes sean alteradas
o se requiera la Integración de nuevas Bases de Datos– Se necesita rehacer un gran trabajo de codificación
http://etl-tools.info/
Top right corner for field-mark, customer or partner logotypes. See Best practice for example.
Slide title 40 pt
Slide subtitle 24 pt
Text 24 pt
Bullets level 2-520 pt
2008-03-155
INFORMATICA POWERCENTER
Top right corner for field-mark, customer or partner logotypes. See Best practice for example.
Slide title 40 pt
Slide subtitle 24 pt
Text 24 pt
Bullets level 2-520 pt
2008-03-156
Informatica PowerCenter
Fundada en 1993– Líder del mercado en Data Integration (Según Gartner)– Más de 2600 clientes, de los cuales más de 100 son
grandes compañías (Grandes Administraciones o estánen Dow Jones)
Su principal enfoque es Data Integration– Dispone de un gran solución comercial para Data
Integration
Dispone de un gran Paquete para empresas para poder integrar sus sistemas, realizar limpieza de datos y permite conectarse a un gran número de sistemas actuales y legacy
http://www.informatica.com/products_services/powercenter/Pages/index.aspx
Top right corner for field-mark, customer or partner logotypes. See Best practice for example.
Slide title 40 pt
Slide subtitle 24 pt
Text 24 pt
Bullets level 2-520 pt
2008-03-157
Principales Conceptos PowerCenter utiliza un entorno que centraliza la administración
– Este entorno está constituido por múltiples nodos, y cada servicio corre sobre un nodo
Utiliza servicio “Administration Console” – Para centralizar la administración de nodos y servicios dentro del
entorno Utiliza quizás el mejor “Repository Service”
– Para administrar los repositorios de la aplicación Utiliza un “Integration Service” Permite globalizar los equipos de desarrollo permitiendo:
– Flexibilidad, arquitectura enfocada en metadatos– Herramientas visuales robustas
Arquitectura utilizando:– PowerCenter Domain– PowerCenter Repository– Administration Console– PowerCenter Client– Repository Service– Integration Service
http://www.informatica.com/products_services/powercenter/Pages/index.aspx
Top right corner for field-mark, customer or partner logotypes. See Best practice for example.
Slide title 40 pt
Slide subtitle 24 pt
Text 24 pt
Bullets level 2-520 pt
2008-03-158
Arquitectura
http://www.informatica.com/products_services/powercenter/Pages/index.aspx
Top right corner for field-mark, customer or partner logotypes. See Best practice for example.
Slide title 40 pt
Slide subtitle 24 pt
Text 24 pt
Bullets level 2-520 pt
2008-03-159
Integración Datos y Soporte SO
Alta disponibilidad por problemas de HW/SW Soporta “Grid Computing” Optimización de “pushdown” Particionamiento Dinámico Administración de metadatos Desarrollo de trabajo en equipo Enmascaramiento de datos Soporta multitud de Sistemas Operativos
– Solaris (32 bit SPARC) (64 bit SPARC) (64 bit PA-RISC) (64 bit Power)Windows 2000/2003 (32 bit Intel /AMD) (64 bit Itanium)
– HP/UX (32 bit PA-RISC) (64 bit Itanium) (64 bit PA-RISC)– RedHat Linux (32 bit Intel/AMD) (64 bit Intel/AMD)– Suse Linux (32 bit Intel/AMD) (64 bit Intel/AMD)– AIX (32 bit Power) (64 bit Power)
http://www.informatica.com/products_services/powercenter/Pages/index.aspx
Top right corner for field-mark, customer or partner logotypes. See Best practice for example.
Slide title 40 pt
Slide subtitle 24 pt
Text 24 pt
Bullets level 2-520 pt
2008-03-1510
Ventajas y Desventajas
Precio alto Cierto riesgo en
– retraso de proyectos– Incremento de presupuesto inicial
GUI muy potente (Ease of use), aunque requiere cierto training para hacer uso de todas sus capacidades
Ofrece Soporte a nivel mundial con varios centros Deployment. Cubre un gran abanico de plataformas SO
– pero requiere dos CPU’s con 1 Gb RAM para la Standard Edition Rendimiento. El mejor rendimiento del mercado
– Dispone de una opción de PushDown que reasigna las tareas de transformación dependiendo de la carga las máquinas
Calidad de los Datos DQ – Informatica PowerCenter no dispone de muchas características de DQ, pero..– Existe una herramienta Informática aparte Data Quality que proporciona muchas
características para garantizar la Calidad de los Datos Monitorización. Dispone de muchas y extensas herramientas de Monitorización
y Logging Conectividad. Conexión a multitud de Bases de Datos, mainframes, ficheros flat,
Ficheros excel, web services
http://www.informatica.com/products_services/powercenter/Pages/index.aspx
INFORMATICA POWER CENTER es “El Lider del Mercado a Nivel Mundial”
Top right corner for field-mark, customer or partner logotypes. See Best practice for example.
Slide title 40 pt
Slide subtitle 24 pt
Text 24 pt
Bullets level 2-520 pt
2008-03-1511
SAS ENTERPRISE DATA INTEGRATION SERVER
Top right corner for field-mark, customer or partner logotypes. See Best practice for example.
Slide title 40 pt
Slide subtitle 24 pt
Text 24 pt
Bullets level 2-520 pt
2008-03-1512
PRESENTACION
Incorporada en 1976 para desarrollar y comercializar el software Base SAS
Objetivo : aumentar la productividad y la flexibilidad de los procesos de extracción, transformación y carga de las bases de datos (ETL)
Es una solución completa que permite resolver problemas de negocios complejos, lograr los objetivos clave y gestionar más eficazmente sus activos de información
SAS proporciona a sus clientes en todo el mundo ”THE POWER TO KNOW ”
http://www.sas.com/offices/latinamerica/mexico/history.html
Top right corner for field-mark, customer or partner logotypes. See Best practice for example.
Slide title 40 pt
Slide subtitle 24 pt
Text 24 pt
Bullets level 2-520 pt
2008-03-1513
CARACTERISTICAS
Compatibilidad con las arquitecturas 64 bits Producto maduro : relativamente fiable y robusto
Principales Características: Gestión de metadatos
– Mejorar la eficiencia y reutilización con una gestión de metadatos centralizada
Migración y sincronización– Capacidad para migrar o sincronizar datos entre las estructuras
de base de datos, aplicaciones empresariales, texto, XML, y una multitud de otras fuentes.
Federación de datos– Acceso a las estructuras de base de datos, aplicaciones
empresariales, texto, XML, y una multitud de otras fuentes.
http://www.sas.com/technologies/dw/entdiserver/factsheet.pdf
Top right corner for field-mark, customer or partner logotypes. See Best practice for example.
Slide title 40 pt
Slide subtitle 24 pt
Text 24 pt
Bullets level 2-520 pt
2008-03-1514
Ventajas y Desventajas
Acceso a prácticamente todas las fuentes de datos Ofrece la suite más completa de la industria del software de
análisis de negocios y soluciones en un único entorno Permite combinar y analizar grandes cantidades de datos para
hacer descubrimientos, resolver problemas complejos y desplegar resultados precisos
Herramienta muy compleja (Es necesario una formación previa para controlar este software)
Para explotar todas las funcionalidades de este herramienta, es necesario poseer todo el paquete de Business Intelligence de SAS
Precio Alto
http://www.sas.com/technologies/dw/
Top right corner for field-mark, customer or partner logotypes. See Best practice for example.
Slide title 40 pt
Slide subtitle 24 pt
Text 24 pt
Bullets level 2-520 pt
2008-03-1515
COGNOS DECISION STREAM
Top right corner for field-mark, customer or partner logotypes. See Best practice for example.
Slide title 40 pt
Slide subtitle 24 pt
Text 24 pt
Bullets level 2-520 pt
2008-03-1516
PRESENTACIÓN
Ofrece una base de datos uniforme para la presentación de informes y análisis de toda la empresa (BI).
trabaja con datos en archivos planos, o Bases de datos.
Desarrallado por empresa canadiense comprada por IBM.
Cognos 8 Business Intelligence solución de IBM para BI.
Top right corner for field-mark, customer or partner logotypes. See Best practice for example.
Slide title 40 pt
Slide subtitle 24 pt
Text 24 pt
Bullets level 2-520 pt
2008-03-1517
CARACTERISTICAS
Multiplataforma, manejo de grandes volúmenes de datos con un mínimo de hardware
Interfaz gráfica amigable, procesos de transformación rápida y fácil para el usuario
Flexible (cambios de negocio) Escalable (división, empresa) Eventos de errores de entrada y un histórico
dimensional Un motor de transformación canalizado Un sofisticado ambiente multidesarrollador Manipula un proceso de eventos Desarrollo de prototipos y despliegue
Top right corner for field-mark, customer or partner logotypes. See Best practice for example.
Slide title 40 pt
Slide subtitle 24 pt
Text 24 pt
Bullets level 2-520 pt
2008-03-1518
ESPECIFICACIONES
Plataformas de Servidores:– HP-UX, Sun SPARC Solaris, IBM AIX, Compaq Tru64 UNIX,
Windows NT o Windows 2000.
Plataformas de Diseñador: – Windows 2000, Windows NT o Windows XP
Soporte a Bases de Datos/ Origen y Destino: – Oracle, Informix, Sybase, MS SQL Server, DB2, Teradata, ODBC,
o archivos planos.
Soporte de Otro Origen de Datos: – SAP R/3 (usando el conector para SAP R/3 de DecisionStream).
Soporte de Otros Destinos de Datos: – Cognos PowerPlay, Impromptu, o Architect u otros servidores
OLAP tales como Servicios de Análisis de Microsoft SQL Server.
Top right corner for field-mark, customer or partner logotypes. See Best practice for example.
Slide title 40 pt
Slide subtitle 24 pt
Text 24 pt
Bullets level 2-520 pt
2008-03-1519
PENTAGO DATA INTEGRATION
Top right corner for field-mark, customer or partner logotypes. See Best practice for example.
Slide title 40 pt
Slide subtitle 24 pt
Text 24 pt
Bullets level 2-520 pt
2008-03-1520
Arquitectura
Arquitectura Pentaho Data Integration
Arquitectura Pentaho Business Intelligence OpenSource
http://www.pentaho.com/products
Top right corner for field-mark, customer or partner logotypes. See Best practice for example.
Slide title 40 pt
Slide subtitle 24 pt
Text 24 pt
Bullets level 2-520 pt
2008-03-1521
Pentaho (Kettle)
Comenzó sus actividades en 2001 Su planteamiento hacia el mercado es en base a su potente
comunidad de desarrolladores con más de 15,000 usuarios registrados Pentaho es una herramienta Comercial Open-source para BI que
dispone de un producto llamado Kettle para Data Integration Interfaz grafica amigable y potente
– No requiere de gran formación previa Plataforma creada 100% en Java Soporte para múltiples tipos de plataformas Posee un planificador de tareas
– Para la ejecución automática de estas Arquitectura flexible y escalable
– Se ajusta a los requerimientos tanto en escalabilidad como en funciones
Utiliza un planteamiento innovador orientado a metadatos Utiliza un Motor Java Stand-alone que procesa las tareas de mover
datos entre diferentes bases de datos y ficheros
http://www.pentaho.com/products
PENTAHO es ”el gran player a nivel mundial como Open Source”
Top right corner for field-mark, customer or partner logotypes. See Best practice for example.
Slide title 40 pt
Slide subtitle 24 pt
Text 24 pt
Bullets level 2-520 pt
2008-03-1522
Ventajas y Desventajas
Herramienta OpenSource Buen precio Cierto riesgo en
– retraso de proyectos– No cumplimiento total de requerimientos
Dispone de la mejor GUI del mercado – Training puede ser proporcionado online o dentro de la comunidad Pentaho
Ofrece Soporte a nivel mundial – desde US, UK y dispone de Partners de Soporte en Asia
Despliegue. Motor Java stand-alone que puede correr sobre cualquier máquina que ejecute Java.
– Puede ser desplegado sobre diferentes máquinas usadas como “Servidores esclavos” para ayudar en el proceso de transformación
– Necesita de un planificador externo para correr automáticamente– Recomendado 1Ghz CPU’s con 512 Mb RAM
Rendimiento. Más lenta que Informática y más rápida que Talend. – El conector Java reduce el rendimiento.– Requiere ciertos ajustes manuales como Talend– Puede ser puesta en modo Cluster sobre muchas máquinas para reducir el tráfico de red
Calidad de los Datos DQ – Dispone de Funcionalidades de DQ en su GUI y permite customizar las entradas SQL usando
Java Script y Expresiones Regulares Monitorización. Dispone de herramientas básicas Monitorización y Logging Conectividad. Conexión a multitud de Bases de Datos, mainframes, ficheros flat, Ficheros
excel, web services
http://www.pentaho.com/products
Top right corner for field-mark, customer or partner logotypes. See Best practice for example.
Slide title 40 pt
Slide subtitle 24 pt
Text 24 pt
Bullets level 2-520 pt
2008-03-1523
TALEND
Top right corner for field-mark, customer or partner logotypes. See Best practice for example.
Slide title 40 pt
Slide subtitle 24 pt
Text 24 pt
Bullets level 2-520 pt
2008-03-1524
Empezó su actividad aprox en Octubre 2006– Compañía muy joven pero innovadora
Talend es una herramienta de Integración Open Source Utiliza hacia el mercado el posicionamiento de facilitar la
Generación de Código hacia los Desarrolladores Utiliza un Interfaz Gráfico de Usuario
– Implementado en Eclipse RC
Tiene una comunidad de desarrolladores mas pequeña que la de Pentaho, debido a un comienzo posterior
Soportada por dos grandes compañías financieras que avalan su futuro
Genera código Java o Perl que puede ser ejecutable sobre una gran variedad de plataformas
CARACTERISTICAS
http://es.talend.com/products-data-integration/talend-open-studio.php
Top right corner for field-mark, customer or partner logotypes. See Best practice for example.
Slide title 40 pt
Slide subtitle 24 pt
Text 24 pt
Bullets level 2-520 pt
2008-03-1525
Talend Integration Suite es una solución Open Source de integración de datos para la empresa
– Soporta el desarrollo multiusuarios– Hace frente a los niveles más elevados de volúmenes de datos y de
complejidad de elaboración. Talend Integration Suite es una suscripción basado en el modelo de Talend
Open Studio – añaden una asistencia técnica de alto nivel .
Talend Integration Suite consolida toda la información de proyectos y metadatos empresariales en un repositorio centralizado que comparten:
– Usuarios empresariales, desarrolladores de trabajos y personal de operaciones de TI, que pueden acceder a la misma versión.
– Este repositorio facilita la colaboración entre los miembros del equipo al permitirles almacenar y compartir sus trabajos y metadatos.
El Shared Repository ofrece capacidades de colaboración avanzadas:– checkout (se saca el fichero del repositorio y se almacena localmente para
poder trabajar con él) – check-in (una vez realizados los cambios, se vuelca el fichero al repositorio
donde estará disponible para el resto de desarrolladores)
CARACTERISTICAS
http://es.talend.com/products-data-integration/talend-open-studio.php
Top right corner for field-mark, customer or partner logotypes. See Best practice for example.
Slide title 40 pt
Slide subtitle 24 pt
Text 24 pt
Bullets level 2-520 pt
2008-03-1526
Ventajas y Desventajas
Herramienta OpenSource Buen precio Cierto riesgo en
– retraso de proyectos– No cumplimiento total de requerimientos
Dispone de GUI, aunque es un add-on dentro del Entorno Eclipse Soporte. Localizado principalmente en US. Despliegue. Crea un fichero Java o fichero perl que puede ser ejecutado con
un planificador externo sobre cualquier máquina con muy pocos recursos – Recomendado una 1GHz CPU con 512 Mb RAM
Rendimiento. Más lenta que Pentaho.– Requiere ciertos ajustes manuales y conocimiento previo de las fuentes de
datos para reducir el procesamiento y el tráfico de red Calidad de los Datos DQ
– Dispone de Funcionalidades de DQ en su GUI y permite customizar las entradas SQL usando Java
Monitorización. Dispone de herramientas básicas Monitorización y Logging Conectividad. Conexión a multitud de Bases de Datos, mainframes, ficheros
flat, Ficheros excel, web services– pero requiere y depende de drivers Java para dichas conexiones
http://es.talend.com/products-data-integration/talend-open-studio.php
Top right corner for field-mark, customer or partner logotypes. See Best practice for example.
Slide title 40 pt
Slide subtitle 24 pt
Text 24 pt
Bullets level 2-520 pt
2008-03-1527
Conclusiones
Informatica and Pentaho tienen muy buenos productos Informática dispone de un rango de productos más extenso, sin embargo
comparado con Pentaho es más cara Pentaho ha demostrado que puede manejar desde pequeños a grandes
sistemas escalables Pentaho está ganando mercado en algunos segmentos en los que antes
nunca se hubiese considerado usar un producto de Open Source Talend es la compañía Open source nueva en el mercado. Innovadora pero
sin cuota de mercado
SAS es la compañía líder de software de Business Analytics con años en el mercado, el mayor proveedor independiente del mercado de Business Intelligence, a través de soluciones innovadoras que se proporcionan dentro de un marco integrado.
La elección de una herramienta ETL implica el estudio de las necesidades de la empresa (presupuesto, cantidad de información, soporte) El lider en Open
Source es Pentaho y el Lider Comercial es Informatica