Date post: | 04-Oct-2015 |
Category: |
Documents |
Upload: | walter-antonio-toledo-sairitupac |
View: | 13 times |
Download: | 0 times |
helicr.com
DATAMINING Hel Campos R [email protected]
- 1 - helicr.com
AGENDA. Diseo de modelos de datos para Data Mining
1. Introduccin: Qu es Data Mining?
2. Bases de datos relacionales vs. DWH y Data Marts.
3. Data Warehousing
4. Modelo de datos para Marketing Intelligence
5. Ejercicio prctico
- 2 - helicr.com
AGENDA. Diseo de modelos de datos para Data Mining
1. Introduccin: Qu es Data Mining?
2. Bases de datos relacionales vs. DWH y Data Marts.
3. Data Warehousing
4. Modelo de datos para Marketing Intelligence
5. Ejercicio prctico
- 3 - helicr.com
1. Introduccin: Qu es Data Mining?
Herramientas analticas y estadsticas.
Herramientas de inteligencia artificial.
Reconocimiento de patrones.
El aumento en el poder de procesamiento de las mquinas y la alta reduccin del coste de almacenamiento, ha
permitido en los ltimos aos un gran crecimiento las capacidades de las empresas de generar y recolectar datos
sobre sus clientes. Sin embargo, dentro de esos datos existe una gran cantidad de informacin oculta, de gran
importancia estratgica, a la que no se puede acceder por las tcnicas convencionales de recuperacin de
informacin.
El Data Mining o minera de datos permite el descubrimiento de esta informacin oculta encontrando patrones y
relaciones dentro de los datos, los cuales permiten la creacin de representaciones abstractas de la realidad para
hallar el conocimiento oculto en dichos datos.
Para ello se sirve, entre otras,
de las siguientes tcnicas:
Esta presentacin se encarga de definir los distintos modelos de datos que es necesario mantener por debajo de
todos estos anlisis, as como las tcnicas necesarias para crearlos.
1.1 Data Mining
- 4 - helicr.com
1. Introduccin: Qu es Data Mining?
La informacin a recopilar puede provenir de distintos orgenes de datos, no necesariamente
heterogneos. Es necesario automatizar procesos de extraccin, transformacin y carga (ETL) de los
datos.
El alto volumen de informacin no debe impedir un tiempo de respuesta aceptable al consultar datos.
El rendimiento debe ser alto para consultas masivas de datos, para lo que es necesario mantener
informacin agregada.
Debe facilitar la explotacin de los datos por medio de herramientas de reporting o de consulta
analtica en lnea (OLAP).
Debe mantener una visin nica del cliente, y almacenar una serie de indicadores y dimensiones de
negocio que ayuden a la toma de decisiones.
Es necesario que aporte informacin histrica de los clientes, con el objetivo de realizar anlisis del
comportamiento de stos en el tiempo.
Para definir un modelo de datos que permita realizar todos estos anlisis es necesario tener en cuenta las
siguientes cuestiones:
Como vemos, para satisfacer la mayor parte de estas necesidades no es suficiente con un modelo de base de
datos relacional, sino que necesitamos algo ms. En las siguientes secciones hablaremos de los conceptos de
Data Warehouse, Data Mart y finalmente definiremos el concepto de Modelo de datos para Marketing Intelligence,
con el que trabajamos normalmente en CognoData.
1.2 Soporte de Datos
- 5 - helicr.com
AGENDA. Diseo de modelos de datos para Data Mining
1. Introduccin: Qu es Data Mining?
2. Bases de datos relacionales vs. DWH y Data Marts.
3. Data Warehousing
4. Modelo de datos para Marketing Intelligence
5. Ejercicio prctico
- 6 - helicr.com
2.1 Definiciones
2.- Bases de datos relacionales vs. DWH y Data Marts
Un Data Warehouse es una coleccin de datos, orientados a reas funcionales de la empresa, integrados, variables en el tiempo, no voltiles, que soporta el proceso de toma de decisiones.
Un Data Warehouse es un modelo que toma informacin de mltiples sistemas y bases de datos y la almacena de una manera que est diseada para dar a los usuarios acceso ms rpido, ms fcil y ms flexible a los aspectos claves.
Data Warehouse
Base de datos de Marketing Intelligence
Data Mart
Un Data Mart es la implementacin de un Data Warehouse con un mbito de datos y funciones ms pequeo y restringido, que sirve a un departamento nico o a una parte de la organizacin, pero sin diferencias tcnicas esenciales entre ellos.
Un Data Mart es una vista lgica de una particin de los datos de un Data Warehouse, con la adicin de nuevas dimensiones o informacin calculada. Representan un conjunto de datos relacionados con un tema en particular como Ventas, Operaciones, Recursos Humanos, etc, y estn a disposicin de los usuarios finales a quienes les puede interesar la misma.
En el contexto de trabajo de CognoData, vamos usar normalmente bases de datos orientadas al marketing intelligence. Se trata de Data Marts especficos de cada proyecto en los que se definen una serie de indicadores y dimensiones de negocio asociadas generalmente al cliente, y que posteriormente a su construccin servirn para aplicar las tcnicas de Data Mining necesarias.
- 7 - helicr.com
2.2 Diferencias entre BBDD Relacionales y Almacenes de datos
2.- Bases de datos relacionales vs. DWH y Data Marts
BBDD Relacionales y Operacionales Almacenes de Datos (DWH DM)
Volumen de informacin Mnimo por operacin Muy grande por operacin
Operaciones Altas, bajas y modificaciones Consultas y agregaciones de datos
Propsito Operaciones de consulta diarias Recuperacin de informacin mediante informes , anlisis y minera de datos
Tipo de datos Datos del funcionamiento de la organizacin Datos tiles para el anlisis y el reporting, y orientados a la toma de decisiones
Caractersticas de los datos
Datos de funcionamiento, internos, incompletos
Datos internos y externos, integrados, no voltiles, histricos, descriptivos
Estructura Diagrama entidad relacin, OLTP (OnLine Transaction Processing)
Datos en estrella, multidimensionales, OLAP (OnLine Analytical Processing)
Redundancia No se permite Redundancia controlada (agregaciones)
Acceso Lectura y escritura SQL SQL y herramientas propias. Slo lectura
Anlisis de calidad No lo permite Permite realizar anlisis de la calidad de la informacin
Facilidad de uso Usuario tcnico Usuario tcnico y usuario de negocio mediante herramientes propias
Orientacin Orientado a la aplicacin Orientado al sujeto
- 8 - helicr.com
AGENDA. Diseo de modelos de datos para Data Mining
1. Introduccin: Qu es Data Mining?
2. Bases de datos relacionales vs. DWH y Data Marts.
3. Data Warehousing
4. Modelo de datos para Marketing Intelligence
5. Ejercicio prctico
- 9 - helicr.com
Administracin
3.1 Arquitectura
3.- Data Warehousing
Orgenes de datos
BBDD Externas
Data Warehouse
Extraccin
Transformacin
Carga
Reporting
Data Mining
WWW
Explotacin
OLAP DataWarehouse
Almacn de datos DataMarts
BBDD Multidimensionales
http://www.oracle.com/index.htmlhttp://www.thesnorkel.org/toolkit/clipart/PC.gif
- 10 - helicr.com
3.2 Extraccin, Transformacin y Carga (1/2)
3.- Data Warehousing
Extraccin
Carga
Transformacin
Conexin con BBDD operacionales en distintos formatos y localizaciones, que hacen de fuentes de datos para el DW.
Adecuacin de la informacin, proveniente de distintos orgenes y en distintos formatos, a la estructura del DW.
Introduccin de los datos en tablas propias de la estructura del DW
Agregacin de los datos.
Homogeneizacin de formatos.
Series temporales
Tratamiento de missing values (valores nulos)
Tratamiento de outlayers (valores fuera de rango)
Construccin de indicadores derivados.
En las presentaciones de formacin n 4 y n 5 se explica con mayor detalle cmo realizamos, en la mayora de los
casos, los procesos de ETL en CognoData. Se describe la funcionalidad de SQL Server para crear paquetes DTS y
su integracin con el lenguaje Visual Basic Script. Con ambas funcionalidades se consigue un entorno para realizar
tareas de ETL bastante potente.
- 11 - helicr.com
3.2 Extraccin, Transformacin y Carga (2/2)
3.- Data Warehousing
Ejemplo de proceso ETL
En este ejemplo podemos ver como en las bases de datos de origen tenemos la misma variable codificada de 3
maneras distintas. Es necesario unificar la codificacin antes de realizar la carga de los datos.
BBDD A
Genero = { m , f }
BBDD B
Genero = { 0 , 1 }
BBDD C
Genero = { masculino , femenino }
DATA WAREHOUSE
Genero = { m , f }
- 12 - helicr.com
3.3 Estructura del Data Warehouse
3.- Data Warehousing
Almacena informacin agregada proveniente de un nivel
inferior en el que los datos estn descritos con mayor
detalle.
Estas particiones se construyen teniendo en cuenta unas
funcionalidades concretas, agrupando lo datos en base a
unos campos y unidades de tiempo determinadas.
P.E. Ventas semanales por producto o por provincia
Refleja la fotografa ms reciente de los datos, por lo que
es la informacin a la que se accede con mayor
frecuencia.
Es la parte ms voluminosa del DW, ya que se almacena
al ms bajo nivel de granularidad. Casi siempre se
almacena en disco, el cual es de fcil acceso, aunque su
administracin sea ms costosa.
Contiene el detalle de todos los clientes.
P.E. Detalle de las ventas de la empresa en el ao 2006
Almacena informacin antigua a un nivel de detalle
consistente con los datos actuales. Se suele almacenar en
dispositivos externos, ya que se accede a ella con menos
frecuencia.
P.E. Detalle de las ventas desde el 2001 al 2005
Detalle de los
datos actuales
Detalle de los
datos histricos
Ligeramente
resumido
Altamente
resumido
- 13 - helicr.com
3.4 Modelo de datos (1/3)
3.- Data Warehousing
Una de las principales diferencias entre las bases de datos relacionales y el Data Warehouse es que se sustentan
en modelos de datos distintos. Mientras que las primeras usan el modelo entidad relacin, los DW se valen del
modelo multidimensional (tambin llamado en estrella o copo de nieve).
TABLA DE HECHOS
Es la tabla central en un esquema dimensional. Se detalla a
nivel de la unidad bsica (como por ejemplo el cliente) y es
en ella donde se almacenan los indicadores de negocio.
Suelen tener 2 tipos de columnas:
TABLAS DE BSQUEDA
Tambin llamadas tablas de dimensiones o de lookup.
Almacenan un conjunto de valores asociados a una
propiedad o dimensin particular contenida en la tabla de
hechos.
En otras palabras, sirven para decodificar los valores de las
columnas tipo clave de la tabla de hechos.
Adicionalmente puede haber tambin tablas agregadas de
bsqueda, en las que se agrupan los valores de una
determinada dimensin en un nivel superior. De esta manera
se crean las jerarquas.
TABLA DE
HECHOS
TABLA DE
BUSQUEDA
TABLA DE
BUSQUEDA
TABLA DE
BUSQUEDA
TABLA DE
BUSQUEDA
TABLA
AGREGADA
DE
BUSQUEDA
JERARQUA
- Columnas de tipo clave: referencian valores en
cada una de las tablas de dimensiones (atributos)
- Columnas de tipo hecho: medidas o indicadores
de negocio.
- 14 - helicr.com
3.4 Modelo de datos (2/3)
3.- Data Warehousing
ID_CLIENTE ID_PROVINCIA ID_USO F_CONSUMO F_MARGEN F_VALOR
0000001 13 1 12,04 6,53 34,22
0000002 41 1 15,06 2,11 11,91
0000003 17 2 9,66 7,65 21,93
Ejemplo de modelo multidimensional
CLAVE DIMENSIONES
ATRIBUTOS
HECHOS
INDICADORES
ID_USO DES_USO
0 Sin uso
1 Domstico
2 Comercial
ID_PROVINCIA ID_CCAA DES_PROVINCIA
... ... ...
41 1 Sevilla
... ... ...
B_CLIENTES
LKP_USO LKP_PROVINCIA
ID_CCAA DES_CCAA
1 Andaluca
... ...
En la tabla de hecho se almacenan
los indicadores asociados a cada
cliente, y una serie de atributos
codificados.
Para hallar el valor o descripcin
de dichos atributos slo es
necesario acceder a la tabla de
bsqueda correspondiente.
Cuando el volumen de datos empieza a ser muy alto, comienza a crecer el nmero de objetos en el DW. Por eso es importante mantener una
nomenclatura fija que identifique que tipo de campo o tabla es cada uno de ellos simplemente con ver su nombre. En este ejemplo hemos
usado los prefijos ID_ (atributos), DES_ (descripciones), F_ (hechos), B_ (tablas base o tablas de hechos) y LKP_ (tablas de bsqueda)
Tip 1: Nomenclatura
- 15 - helicr.com
3.4 Modelo de datos (3/3)
3.- Data Warehousing
Si consideramos cada una de las dimensiones como un eje en un espacio de coordenadas, cada una de los
registros (clientes) quedar fijado en un punto en dicho espacio. La dimensionalidad de ste espacio estar dada
por el nmero de ejes o dimensiones que le asociemos.
TIEMPO
PR
OV
INC
IA
Cada casilla del cubo (en este caso tenemos 3 dimensiones), en la que
podemos encontrar una serie de indicadores o medidas, viene dada por una
interseccin entre coordenadas definidas por los valores de cada dimensin. De
esta manera se plantea un nuevo tipo de anlisis de los datos que se basa en ir
cortando o rebanando el cubo a travs de cada una de las dimensiones para
hallar la informacin deseada.
Este tipo de anlisis se llama OLAP (Online Analytical Processing), y lo veremos
con mas detalle en la presentacin de formacin n 6, en la que se explica el
funcionamiento de la herramienta Analysis Services de Microsoft para realizar
este tipo de anlisis.
Por ejemplo:
AO < 2005 PROVINCIA = 17 USO < 2 AO < 2005 AND
PROVINCIA = 17 AND
USO < 2
+ + =
- 16 - helicr.com
3.5 Explotacin de los datos (1/2)
3.- Data Warehousing
Reporting
Data Mining
WWW
OLAP
Aplicaciones que permiten definir, administrar y distribuir los distintos formatos de informes
dentro de una organizacin con un alto grado de automatizacin. Contienen funcionalidades
como la entrega planificada de informes por correo electrnico o la programacin de informes
de alerta que se generan automticamente en situaciones excepcionales.
Ejemplos usados en CognoData: Microsoft Reporting Services, SPSS OLAP Hub
Aplicaciones que integran modelos estadsticos y matemticos para realizar estudios y
predicciones sobre los datos para obtener el conocimiento oculto en ellos. Implementan redes
neuronales, clusterings, rboles de decisin, regresiones, etc.
Ejemplos usados en CognoData: SAS, SPSS, Clementine y la PMI de CodnoData (Plataforma de Marketing
intelligence)
Aplicaciones que presentan los resultados requeridos de forma grfica e intuitiva en formato
de pginas Web. Permiten montar plataformas de informes con una navegacin integrada,
establecimiento de permisos de acceso a los informes segn los perfiles dentro de la
empresa, seguimiento de objetivos, etc.
Ejemplos usados en CognoData: Aplicaciones propias desarrolladas en lenguajes Web como JavaScript o
VB Script, integradas con las herramientas de reporting.
Herramientas que automatizan el anlisis OLAP y permiten la generacin de cubos
(agregaciones de datos) de manera intuitiva.
Ejemplos usados en CognoData: Microsoft Analysis Services
- 17 - helicr.com
3.5 Explotacin de los datos (2/2)
3.- Data Warehousing
Normalmente las aplicaciones que explotan la informacin del DW se centran en pequeas particiones de datos.
Las consultas sobre el sistema entero tendran un rendimiento muy lento debido al gran volumen de datos y es por
eso que se suele mantener informacin redundante en tablas agregadas que sirven a propsitos determinados
normalmente por los usuarios de negocio.
Por ejemplo, nos podran interesar sacar todos los meses un informe del valor medio de la cartera de clientes en
cada una de las comunidades autnomas. Para ello, lo lgico podra ser mantener una tabla agregada con dicha
informacin, que se actualizase cada mes. De esta manera no se consulta el DW y el rendimiento de la consulta es
mucho mayor.
ID_MES ID_CCAA F_VALOR
200601 01 36,45
200601 02 12,99
... ... ...
200602 01 6,88
... ... ...
El informe se surte de la tabla
agregada correspondiente y no
del DM.
- 18 - helicr.com
AGENDA. Diseo de modelos de datos para Data Mining
1. Introduccin: Qu es Data Mining?
2. Bases de datos relacionales vs. DWH y Data Marts.
3. Data Warehousing
4. Modelo de datos para Marketing Intelligence
5. Ejercicio prctico
- 19 - helicr.com
4.1 Introduccin
4.- Modelo de datos para Marketing Intelligence
Vistas las generalidades de los DW, en las siguientes transparencias vamos a comentar cmo realizamos los
desarrollos de la mayora de los proyectos dentro de CognoData, aplicando algunas de las caractersticas de
dichos sistemas, pero con un alto grado de especializacin.
Normalmente es necesario desarrollar Data Marts que contengan los indicadores y dimensiones definidos en la
fase de anlisis del proyecto. Posteriormente se alimentan los modelos predictivos y las plataformas de
presentacin de informes con esos datos, segn corresponda.
Podemos dividir el desarrollo de los proyectos en varias fases, aunque a veces no se cumplen todas ellas:
Fase de anlisis Normalmente se realiza conjuntamente con el cliente, identificando el problema que se desea resolver, la informacin de que se
dispone, qu indicadores relevantes se pueden obtener, etc.
Extraccin de datos Extraccin de los datos necesarios para construir los indicadores y dimensiones necesarios para el DM. Auditoria de dichos datos.
Diseo y construccin del DataMart Elaboracin del DM con los datos obtenidos del cliente. Unificacin de formatos, seleccin de los indicadores importantes y
construccin de indicadores derivados que resulten de inters.
Pruebas Verificacin de los procesos ETL desarrollados y de la validez de los indicadores.
Modelo predictivos
Creacin de las tablas y ficheros de entrada para los modelos predictivos. Obtencin de nuevos indicadores mediante los modelos
Presentacin de resultados
Presentacin final de los resultados del proyecto. Documentacin y plataformas de informes va WWW. Si es necesario,
implantacin de la plataforma en el cliente y formacin a usuarios.
- 20 - helicr.com
4.2 Objetivos
4.- Modelo de datos para Marketing Intelligence
Los objetivos principales que se persiguen con el modelo de datos para Marketing Intelligence con el que
trabajamos en CognoData son los siguientes:
1. Debe servir para cualquier tipo de proyecto, independientemente del tipo de cliente.
2. Debe poder almacenar las distintas cargas de datos que se producen durante el desarrollo del proyecto.
3. Debe organizar la informacin para poder realizar 2 tipos de anlisis de los datos.
Proyectos de Banca
Proyectos de Seguros
Proyectos de Telecomunicaciones
...
Anlisis Descriptivos
Anlisis Predictivos
Carga inicial Primera carga que se realiza en el proyecto, con la foto de toda la base de datos del cliente en un momento de tiempo determinado, adems del histrico de que disponga el cliente.
Cargas incrementales Modificaciones o incrementos que ha sufrido la BBDD del cliente desde el momento de la carga inicial hasta el momento actual (nuevos clientes, nuevos datos de facturacin, etc).
Cargas parciales Por determinadas circunstancias o problemas, el cliente slo entrega una determinada particin de sus clientes
- 21 - helicr.com
PMI (PLATAFORMA DE
MARKETING
INTELLIGENCE)
4.3 Proceso de un proyecto de Marketing Intelligence
4.- Modelo de datos para Marketing Intelligence
NORMALIZACIN
ETL
DESNORMALIZACIN
ETL
ETL
Tablas extradas
del cliente
Exportacin
Anlisis
BBDD MARKETING
INTELLIGENCE ANLISIS
DESCRIPTIVO
ANLISIS
PREDICTIVO
Descripciones grficas
Estadstica de los datos
Histogramas
Grficos de burbujas
OLAP
Series temporales
Construccin del target o
funcin objetivo
Creacin de ficheros de
entrada para los modelos
INFORMES
- 22 - helicr.com
4.4 Distintos tipos de anlisis
4.- Modelo de datos para Marketing Intelligence
En la transparencia anterior hemos visto que una vez desarrollado el DM de origen con la informacin extrada del
cliente, se pueden realizar dos tipos de anlisis. El anlisis a realizar depende de la pregunta que se quiera
contestar:
Anlisis Descriptivo Anlisis Predictivo
Intenta contestar a preguntas como por ejemplo:
En que mes del ao se producen ms bajas de clientes?
Que clientes van a comprar un determinado producto en los prximos 2 meses?
ES NECESARIO NORMALIZAR
Para aplicar este tipo de anlisis necesitamos que la informacin de entrada est dividida y organizada segn dependencias funcionales, por lo tanto cada campo de la BBDD debe almacenar un concepto distinto:
Ejemplo: clientes de baja con sus fechas de baja.
ES NECESARIO DESNORMALIZAR
Para aplicar este tipo de anlisis se necesita que la informacin se estructure en un mismo nivel, es decir, toda la informacin de entrada asociada a un cliente debe estar en un mismo registro:
Ejemplo: serie temporal de altas de productos.
CLIENTE F_ALTA_PROD_1 F_ALTA_PROD_2 F_ALTA_PROD_3
132003 25/11/2005 14/02/2006 17/03/2006
CLIENTE F_BAJA
132003 25/11/2005
132007 25/06/2005
155219 30/02/2005
- 23 - helicr.com
4.5 Entidades (1/3)
4.- Modelo de datos para Marketing Intelligence
En principio, cada problema a resolver en un cliente es distinto, pero se pretende generar una plantilla de modelo
que valga para cualquier proyecto y cliente, de manera que slo haya que realizar una serie de modificaciones
mnimas para adaptarlo en cada caso.
Normalmente nos encontraremos siempre con las mismas entidades en todos los clientes (aunque pueden adoptar
nombre distintos):
CLIENTE Cada uno de los sujetos a los cuales la empresa u organizacin suministra servicios. Normalmente es la unidad mnima sobre la que se suelen centrar los anlisis.
CONTRATO Es la entidad que representa el uso de un producto o servicio que la empresa u organizacin suministra al cliente.
PRODUCTO Es el objeto del contrato. Un bien suministrado por la empresa al cliente. Nos lo podremos encontrar como una entidad independiente o bien como un atributo del contrato.
CONSUMO Coste asociado al uso de un producto o servicio por parte del cliente en una determinada unidad de tiempo.
FACTURA Indica el importe detallado, normalmente mensual, que el cliente abona a la empresa por el uso de sus servicios o productos.
CONTACTO Se refiere a comunicaciones que el cliente hace con la empresa u organizacin. Normalmente pueden ser reclamaciones, incidencias, solicitudes de baja o solicitudes de informacin.
PROSPECT Clientes potenciales de la empresa, es decir, aquellos sujetos de los que se tienen datos pero que, o bien no tienen contratos de los servicios suministrados por la empresa, o bien los tienen con alguna empresa de la competencia.
CAMPAA Conjunto de acciones que se realizan contra un grupo de clientes en un periodo de tiempo determinado con el fin de obtener un beneficio para la empresa (fidelizacin, prevencin de fugas, venta cruzada)
ACCIN DE MARKETING
Cada una de las distintas operaciones que componen una campaa.
- 24 - helicr.com
4.5 Entidades (2/3)
4.- Modelo de datos para Marketing Intelligence
CONTACTO
ACCION MKT
CAMPAA
PROSPECT
CONTRATO CONSUMO
FACTURA
PRODUCTO
CLIENTE
Cada una de estas entidades representarn tablas de
hechos en el modelo de datos.
A la derecha se muestra un posible esquema de
estrella simplificado que se podra obtener de la
entidad cliente.
Ejemplo de diseo de BBDD para Marketing Intelligence
CLIENTES
PROVINCIA SEMANA
MES
AO
SEGMENTO
MERCADO
CCAA
ANTIGUEDAD MOSAIC
...
Tabla de hechos
Tabla de bsqueda
- 25 - helicr.com
4.5 Entidades (3/3)
4.- Modelo de datos para Marketing Intelligence
CONTACTO
ACCION MKT
CAMPAA
PROSPECT
CONTRATO CONSUMO
FACTURA
PRODUCTO
CLIENTE
Otro ejemplo de lo que podra ser el esquema de la
entidad contrato.
Ejemplo de diseo de BBDD para Marketing Intelligence
CONTRATOS
CANAL VENTA FECHA ALTA
SEMANA
MES
TARIFA
OFICINA
TIPO ESTADO
...
AO Tabla de hechos
Tabla de bsqueda
- 26 - helicr.com
4.6 Anlisis Descriptivo
4.- Modelo de datos para Marketing Intelligence
Una vez construido el DataMart de origen, parte de los trabajos se enfocan en realizar un anlisis descriptivo de los
datos. Dicho anlisis nos permitir conocer la forma o distribucin de las variables, as como detectar posibles
errores, por ejemplo la presencia de valores fuera de rango y valores nulos.
Para esto, lo normal es desarrollar una serie de tablas agregadas o auxiliares que nos faciliten dicho anlisis.
0
15.000
30.000
45.000
60.000
75.000
90.000
105.000
120.000
135.000
Segment 1 Segment 2 Segment 3 Segment 4 Segment 6 Segment 7
Descripciones grficas de los datos:
- Grficos de barras
- Grficos de sectores
- Histogramas
- Grficos de burbujas
Estadstica de los datos:
- Medidas de posicin (media, moda, mediana,
percentiles)
- Medidas de dispersin (varianza, desviacin tpica)
- Relacin entre variables (Diagramas de dispersin y de
correlacin)
Anlisis OLAP:
- Generacin de cubos para la simplificacin de
consultas y agregaciones
(*) Puedes ver un pequeo resumen de tcnicas para estos anlisis aqu
Datos/Analisis descriptivo.pdf
- 27 - helicr.com
4.7 Anlisis Predictivo
4.- Modelo de datos para Marketing Intelligence
La otra visin del anlisis se centra en la preparacin de ficheros de entrada a los distintos modelos predictivos que
se vayan a aplicar. Estos modelos se encuentran integrados en CognoData en lo que llamamos PMI (Plataforma de
Marketing Intelligence), una serie de aplicaciones desarrolladas en varias plataformas y lenguajes que
implementan rboles de decisin, redes neuronales, modelos de clustering, etc.
Como input, estas aplicaciones reciben un fichero de datos con un formato determinado. Para preparar cada
modelo a aplicar se siguen los siguientes pasos:
Se crea una tabla auxiliar con los indicadores de entrada al modelo. Dicha tabla debe tener en cada registro la
informacin asociada al objeto del anlisis (normalmente el cliente), es decir, la clave primaria y todos los indicadores de
entrada asociados. En este punto puede ser necesario realizar alguna transformacin para pasar de filas a columnas
(series temporales).
En funcin del modelo que se vaya a ejecutar puede ser necesario calcular un indicador de target o funcin objetivo y
aadirlo a la tabla como una columna ms.
Se exporta el fichero a texto.
Se le aade la cabecera PMI (hay varios procedimientos desarrollados que automatizan esta tarea).
Se pasa el fichero a un consultor de modelos para que lo ejecute.
DESNORMALIZACIN
ETL EXPORTACIN
TABLA DE INDICADORES FICHERO PMI
Datos/FormatoPMI.doc
- 28 - helicr.com
4.8 Cuestiones tcnicas (1/2)
4.- Modelo de datos para Marketing Intelligence
a) Tratamiento de valores nulos (missing values)
b) Tratamiento de valores fuera de rango (outlayers)
Cuando en los datos de entrada a los anlisis tengamos valores nulos en alguno de los campos, es recomendable
sustituirlos por un carcter especial (por ejemplo, **, 99999, NaN), ya que las aplicaciones OLAP y los modelos
predictivos no suelen reconocerlos y normalmente los omiten o producen resultados incorrectos.
Hay ocasiones en las que incluso es necesario distinguir entre distintos tipos de valores nulos. Por ejemplo puede que
interese diferenciar el caso en el que no se dispone del dato del caso en el que no aplica la variable.
Puede ocurrir tambin que en determinadas variables aparezcan valores extremos, tambin llamados outlayers. Para
determinados procesos es necesario tratar estos valores, ya que desvirtan las estadsticas de la variable, como puedes ver
en el siguiente ejemplo
ID_CLIENTE NUM_PRODUCTOS
020303 5
123002 7
448522 800
114932 9
923881 4
El valor 800 en el indicador del nmero de productos es un outlayer, ya que no es un
valor lgico para esa variable sino un error de los datos. Es necesario tratarlo de
algn modo ya que invalida la media de la distribucin (que en este caso es 165,
mientras que la mediana es 7).
Una ver identificados los valores extremos, tenemos varias opciones, aunque las ms comunes son:
Sustitucin por la media
Sustitucin por la mediana
Borrado de los registros afectados
- 29 - helicr.com
4.8 Cuestiones tcnicas (2/2)
4.- Modelo de datos para Marketing Intelligence
c) Tabla de tiempo
d) Volumetra
Por regla general, siempre se hace necesaria la definicin de una tabla calendario en el DM. Esta tabla contendr toda la
informacin de fechas (aos, meses, semanas, etc) y estar relacionada con cualquier campo de tipo fecha, evitando de tal
manera el uso de funciones de fecha, que suelen dar bastantes problemas.
Tambin es recomendable, una vez se ha acabado el diseo del DM, realizar un estudio de volumetra, para prever el
espacio de almacenamiento necesario en los servidores. Un ejemplo sencillo podra ser una tabla como la siguiente:
Tabla Regs. estimados Bytes por registro Bytes estimados % crecimiento esperado
... ... ... ... ...
e) Creacin de series temporales
Para determinados anlisis, como ya hemos visto, es necesario desnormalizar la informacin y generar series de eventos o
series temporales asociadas a un registro. Normalmente esto se hace para ver el comportamiento en el tiempo de
determinados eventos como por ejemplo las altas de productos que un cliente realiza o las llamadas que hace al servicio de
atencin telefnica. Se puede sacar mucha informacin de la frecuencia y la distribucin de estos eventos a lo largo del
tiempo. :
CLIENTE F_ALTA_PROD_1 F_ALTA_PROD_2 F_ALTA_PROD_3
132003 25/11/2005 14/02/2006 17/03/2006
Actualmente, ya hay desarrollados procesos en SQL que
implementan estas transformaciones. Puedes preguntar a algn
consultor de ETL si quieres ms informacin. :
- 30 - helicr.com
AGENDA. Diseo de modelos de datos para Data Mining
1. Introduccin: Qu es Data Mining?
2. Bases de datos relacionales vs. DWH y Data Marts.
3. Data Warehousing
4. Modelo de datos para Marketing Intelligence
5. Ejercicio prctico
- 31 - helicr.com
5.- Ejercicio prctico
Puedes practicar las tareas que se han visto en esta presentacin con los siguientes ejercicios..
a) La empresa ALFA, presente en Madrid, Barcelona y Sevilla, necesita realizar un estudio de prevencin de
fugas, para lo que se va a servir principalmente de la informacin de las bajas de productos de sus
clientes. Actualmente, tiene los datos de sus clientes en varios orgenes en funcin de la provincia:
d) Una vez importado el fichero, intenta insertar en la tabla ClientesS1, aquellos clientes de datos.txt que
pertenezcan al segmento 1 (puedes usar una consulta del tipo INSERT INTO).
e) Selecciona el nmero de clientes por cada segmento en una tabla (SELECT INTO), y exporta dicha tabla a
una hoja excel. Abre la hoja de clculo para ver el resultado.
f) Borra todas las tablas de la base de datos.
PROVINCIA FORMATO COMENTARIOS
Madrid Excel Datos a nivel de producto de los clientes de Madrid
Barcelona Access
Sevilla Fichero de texto
- 32 - helicr.com
- 33 - helicr.com
Diseo de modelos de datos para Data Mining