+ All Categories
Home > Documents > Data Mining

Data Mining

Date post: 04-Oct-2015
Category:
Upload: walter-antonio-toledo-sairitupac
View: 13 times
Download: 0 times
Share this document with a friend
Description:
Minería de datos
Popular Tags:
34
helicr.com DATAMINING Helí Campos R [email protected]
Transcript
  • helicr.com

    DATAMINING Hel Campos R [email protected]

  • - 1 - helicr.com

    AGENDA. Diseo de modelos de datos para Data Mining

    1. Introduccin: Qu es Data Mining?

    2. Bases de datos relacionales vs. DWH y Data Marts.

    3. Data Warehousing

    4. Modelo de datos para Marketing Intelligence

    5. Ejercicio prctico

  • - 2 - helicr.com

    AGENDA. Diseo de modelos de datos para Data Mining

    1. Introduccin: Qu es Data Mining?

    2. Bases de datos relacionales vs. DWH y Data Marts.

    3. Data Warehousing

    4. Modelo de datos para Marketing Intelligence

    5. Ejercicio prctico

  • - 3 - helicr.com

    1. Introduccin: Qu es Data Mining?

    Herramientas analticas y estadsticas.

    Herramientas de inteligencia artificial.

    Reconocimiento de patrones.

    El aumento en el poder de procesamiento de las mquinas y la alta reduccin del coste de almacenamiento, ha

    permitido en los ltimos aos un gran crecimiento las capacidades de las empresas de generar y recolectar datos

    sobre sus clientes. Sin embargo, dentro de esos datos existe una gran cantidad de informacin oculta, de gran

    importancia estratgica, a la que no se puede acceder por las tcnicas convencionales de recuperacin de

    informacin.

    El Data Mining o minera de datos permite el descubrimiento de esta informacin oculta encontrando patrones y

    relaciones dentro de los datos, los cuales permiten la creacin de representaciones abstractas de la realidad para

    hallar el conocimiento oculto en dichos datos.

    Para ello se sirve, entre otras,

    de las siguientes tcnicas:

    Esta presentacin se encarga de definir los distintos modelos de datos que es necesario mantener por debajo de

    todos estos anlisis, as como las tcnicas necesarias para crearlos.

    1.1 Data Mining

  • - 4 - helicr.com

    1. Introduccin: Qu es Data Mining?

    La informacin a recopilar puede provenir de distintos orgenes de datos, no necesariamente

    heterogneos. Es necesario automatizar procesos de extraccin, transformacin y carga (ETL) de los

    datos.

    El alto volumen de informacin no debe impedir un tiempo de respuesta aceptable al consultar datos.

    El rendimiento debe ser alto para consultas masivas de datos, para lo que es necesario mantener

    informacin agregada.

    Debe facilitar la explotacin de los datos por medio de herramientas de reporting o de consulta

    analtica en lnea (OLAP).

    Debe mantener una visin nica del cliente, y almacenar una serie de indicadores y dimensiones de

    negocio que ayuden a la toma de decisiones.

    Es necesario que aporte informacin histrica de los clientes, con el objetivo de realizar anlisis del

    comportamiento de stos en el tiempo.

    Para definir un modelo de datos que permita realizar todos estos anlisis es necesario tener en cuenta las

    siguientes cuestiones:

    Como vemos, para satisfacer la mayor parte de estas necesidades no es suficiente con un modelo de base de

    datos relacional, sino que necesitamos algo ms. En las siguientes secciones hablaremos de los conceptos de

    Data Warehouse, Data Mart y finalmente definiremos el concepto de Modelo de datos para Marketing Intelligence,

    con el que trabajamos normalmente en CognoData.

    1.2 Soporte de Datos

  • - 5 - helicr.com

    AGENDA. Diseo de modelos de datos para Data Mining

    1. Introduccin: Qu es Data Mining?

    2. Bases de datos relacionales vs. DWH y Data Marts.

    3. Data Warehousing

    4. Modelo de datos para Marketing Intelligence

    5. Ejercicio prctico

  • - 6 - helicr.com

    2.1 Definiciones

    2.- Bases de datos relacionales vs. DWH y Data Marts

    Un Data Warehouse es una coleccin de datos, orientados a reas funcionales de la empresa, integrados, variables en el tiempo, no voltiles, que soporta el proceso de toma de decisiones.

    Un Data Warehouse es un modelo que toma informacin de mltiples sistemas y bases de datos y la almacena de una manera que est diseada para dar a los usuarios acceso ms rpido, ms fcil y ms flexible a los aspectos claves.

    Data Warehouse

    Base de datos de Marketing Intelligence

    Data Mart

    Un Data Mart es la implementacin de un Data Warehouse con un mbito de datos y funciones ms pequeo y restringido, que sirve a un departamento nico o a una parte de la organizacin, pero sin diferencias tcnicas esenciales entre ellos.

    Un Data Mart es una vista lgica de una particin de los datos de un Data Warehouse, con la adicin de nuevas dimensiones o informacin calculada. Representan un conjunto de datos relacionados con un tema en particular como Ventas, Operaciones, Recursos Humanos, etc, y estn a disposicin de los usuarios finales a quienes les puede interesar la misma.

    En el contexto de trabajo de CognoData, vamos usar normalmente bases de datos orientadas al marketing intelligence. Se trata de Data Marts especficos de cada proyecto en los que se definen una serie de indicadores y dimensiones de negocio asociadas generalmente al cliente, y que posteriormente a su construccin servirn para aplicar las tcnicas de Data Mining necesarias.

  • - 7 - helicr.com

    2.2 Diferencias entre BBDD Relacionales y Almacenes de datos

    2.- Bases de datos relacionales vs. DWH y Data Marts

    BBDD Relacionales y Operacionales Almacenes de Datos (DWH DM)

    Volumen de informacin Mnimo por operacin Muy grande por operacin

    Operaciones Altas, bajas y modificaciones Consultas y agregaciones de datos

    Propsito Operaciones de consulta diarias Recuperacin de informacin mediante informes , anlisis y minera de datos

    Tipo de datos Datos del funcionamiento de la organizacin Datos tiles para el anlisis y el reporting, y orientados a la toma de decisiones

    Caractersticas de los datos

    Datos de funcionamiento, internos, incompletos

    Datos internos y externos, integrados, no voltiles, histricos, descriptivos

    Estructura Diagrama entidad relacin, OLTP (OnLine Transaction Processing)

    Datos en estrella, multidimensionales, OLAP (OnLine Analytical Processing)

    Redundancia No se permite Redundancia controlada (agregaciones)

    Acceso Lectura y escritura SQL SQL y herramientas propias. Slo lectura

    Anlisis de calidad No lo permite Permite realizar anlisis de la calidad de la informacin

    Facilidad de uso Usuario tcnico Usuario tcnico y usuario de negocio mediante herramientes propias

    Orientacin Orientado a la aplicacin Orientado al sujeto

  • - 8 - helicr.com

    AGENDA. Diseo de modelos de datos para Data Mining

    1. Introduccin: Qu es Data Mining?

    2. Bases de datos relacionales vs. DWH y Data Marts.

    3. Data Warehousing

    4. Modelo de datos para Marketing Intelligence

    5. Ejercicio prctico

  • - 9 - helicr.com

    Administracin

    3.1 Arquitectura

    3.- Data Warehousing

    Orgenes de datos

    BBDD Externas

    Data Warehouse

    Extraccin

    Transformacin

    Carga

    Reporting

    Data Mining

    WWW

    Explotacin

    OLAP DataWarehouse

    Almacn de datos DataMarts

    BBDD Multidimensionales

    http://www.oracle.com/index.htmlhttp://www.thesnorkel.org/toolkit/clipart/PC.gif

  • - 10 - helicr.com

    3.2 Extraccin, Transformacin y Carga (1/2)

    3.- Data Warehousing

    Extraccin

    Carga

    Transformacin

    Conexin con BBDD operacionales en distintos formatos y localizaciones, que hacen de fuentes de datos para el DW.

    Adecuacin de la informacin, proveniente de distintos orgenes y en distintos formatos, a la estructura del DW.

    Introduccin de los datos en tablas propias de la estructura del DW

    Agregacin de los datos.

    Homogeneizacin de formatos.

    Series temporales

    Tratamiento de missing values (valores nulos)

    Tratamiento de outlayers (valores fuera de rango)

    Construccin de indicadores derivados.

    En las presentaciones de formacin n 4 y n 5 se explica con mayor detalle cmo realizamos, en la mayora de los

    casos, los procesos de ETL en CognoData. Se describe la funcionalidad de SQL Server para crear paquetes DTS y

    su integracin con el lenguaje Visual Basic Script. Con ambas funcionalidades se consigue un entorno para realizar

    tareas de ETL bastante potente.

  • - 11 - helicr.com

    3.2 Extraccin, Transformacin y Carga (2/2)

    3.- Data Warehousing

    Ejemplo de proceso ETL

    En este ejemplo podemos ver como en las bases de datos de origen tenemos la misma variable codificada de 3

    maneras distintas. Es necesario unificar la codificacin antes de realizar la carga de los datos.

    BBDD A

    Genero = { m , f }

    BBDD B

    Genero = { 0 , 1 }

    BBDD C

    Genero = { masculino , femenino }

    DATA WAREHOUSE

    Genero = { m , f }

  • - 12 - helicr.com

    3.3 Estructura del Data Warehouse

    3.- Data Warehousing

    Almacena informacin agregada proveniente de un nivel

    inferior en el que los datos estn descritos con mayor

    detalle.

    Estas particiones se construyen teniendo en cuenta unas

    funcionalidades concretas, agrupando lo datos en base a

    unos campos y unidades de tiempo determinadas.

    P.E. Ventas semanales por producto o por provincia

    Refleja la fotografa ms reciente de los datos, por lo que

    es la informacin a la que se accede con mayor

    frecuencia.

    Es la parte ms voluminosa del DW, ya que se almacena

    al ms bajo nivel de granularidad. Casi siempre se

    almacena en disco, el cual es de fcil acceso, aunque su

    administracin sea ms costosa.

    Contiene el detalle de todos los clientes.

    P.E. Detalle de las ventas de la empresa en el ao 2006

    Almacena informacin antigua a un nivel de detalle

    consistente con los datos actuales. Se suele almacenar en

    dispositivos externos, ya que se accede a ella con menos

    frecuencia.

    P.E. Detalle de las ventas desde el 2001 al 2005

    Detalle de los

    datos actuales

    Detalle de los

    datos histricos

    Ligeramente

    resumido

    Altamente

    resumido

  • - 13 - helicr.com

    3.4 Modelo de datos (1/3)

    3.- Data Warehousing

    Una de las principales diferencias entre las bases de datos relacionales y el Data Warehouse es que se sustentan

    en modelos de datos distintos. Mientras que las primeras usan el modelo entidad relacin, los DW se valen del

    modelo multidimensional (tambin llamado en estrella o copo de nieve).

    TABLA DE HECHOS

    Es la tabla central en un esquema dimensional. Se detalla a

    nivel de la unidad bsica (como por ejemplo el cliente) y es

    en ella donde se almacenan los indicadores de negocio.

    Suelen tener 2 tipos de columnas:

    TABLAS DE BSQUEDA

    Tambin llamadas tablas de dimensiones o de lookup.

    Almacenan un conjunto de valores asociados a una

    propiedad o dimensin particular contenida en la tabla de

    hechos.

    En otras palabras, sirven para decodificar los valores de las

    columnas tipo clave de la tabla de hechos.

    Adicionalmente puede haber tambin tablas agregadas de

    bsqueda, en las que se agrupan los valores de una

    determinada dimensin en un nivel superior. De esta manera

    se crean las jerarquas.

    TABLA DE

    HECHOS

    TABLA DE

    BUSQUEDA

    TABLA DE

    BUSQUEDA

    TABLA DE

    BUSQUEDA

    TABLA DE

    BUSQUEDA

    TABLA

    AGREGADA

    DE

    BUSQUEDA

    JERARQUA

    - Columnas de tipo clave: referencian valores en

    cada una de las tablas de dimensiones (atributos)

    - Columnas de tipo hecho: medidas o indicadores

    de negocio.

  • - 14 - helicr.com

    3.4 Modelo de datos (2/3)

    3.- Data Warehousing

    ID_CLIENTE ID_PROVINCIA ID_USO F_CONSUMO F_MARGEN F_VALOR

    0000001 13 1 12,04 6,53 34,22

    0000002 41 1 15,06 2,11 11,91

    0000003 17 2 9,66 7,65 21,93

    Ejemplo de modelo multidimensional

    CLAVE DIMENSIONES

    ATRIBUTOS

    HECHOS

    INDICADORES

    ID_USO DES_USO

    0 Sin uso

    1 Domstico

    2 Comercial

    ID_PROVINCIA ID_CCAA DES_PROVINCIA

    ... ... ...

    41 1 Sevilla

    ... ... ...

    B_CLIENTES

    LKP_USO LKP_PROVINCIA

    ID_CCAA DES_CCAA

    1 Andaluca

    ... ...

    En la tabla de hecho se almacenan

    los indicadores asociados a cada

    cliente, y una serie de atributos

    codificados.

    Para hallar el valor o descripcin

    de dichos atributos slo es

    necesario acceder a la tabla de

    bsqueda correspondiente.

    Cuando el volumen de datos empieza a ser muy alto, comienza a crecer el nmero de objetos en el DW. Por eso es importante mantener una

    nomenclatura fija que identifique que tipo de campo o tabla es cada uno de ellos simplemente con ver su nombre. En este ejemplo hemos

    usado los prefijos ID_ (atributos), DES_ (descripciones), F_ (hechos), B_ (tablas base o tablas de hechos) y LKP_ (tablas de bsqueda)

    Tip 1: Nomenclatura

  • - 15 - helicr.com

    3.4 Modelo de datos (3/3)

    3.- Data Warehousing

    Si consideramos cada una de las dimensiones como un eje en un espacio de coordenadas, cada una de los

    registros (clientes) quedar fijado en un punto en dicho espacio. La dimensionalidad de ste espacio estar dada

    por el nmero de ejes o dimensiones que le asociemos.

    TIEMPO

    PR

    OV

    INC

    IA

    Cada casilla del cubo (en este caso tenemos 3 dimensiones), en la que

    podemos encontrar una serie de indicadores o medidas, viene dada por una

    interseccin entre coordenadas definidas por los valores de cada dimensin. De

    esta manera se plantea un nuevo tipo de anlisis de los datos que se basa en ir

    cortando o rebanando el cubo a travs de cada una de las dimensiones para

    hallar la informacin deseada.

    Este tipo de anlisis se llama OLAP (Online Analytical Processing), y lo veremos

    con mas detalle en la presentacin de formacin n 6, en la que se explica el

    funcionamiento de la herramienta Analysis Services de Microsoft para realizar

    este tipo de anlisis.

    Por ejemplo:

    AO < 2005 PROVINCIA = 17 USO < 2 AO < 2005 AND

    PROVINCIA = 17 AND

    USO < 2

    + + =

  • - 16 - helicr.com

    3.5 Explotacin de los datos (1/2)

    3.- Data Warehousing

    Reporting

    Data Mining

    WWW

    OLAP

    Aplicaciones que permiten definir, administrar y distribuir los distintos formatos de informes

    dentro de una organizacin con un alto grado de automatizacin. Contienen funcionalidades

    como la entrega planificada de informes por correo electrnico o la programacin de informes

    de alerta que se generan automticamente en situaciones excepcionales.

    Ejemplos usados en CognoData: Microsoft Reporting Services, SPSS OLAP Hub

    Aplicaciones que integran modelos estadsticos y matemticos para realizar estudios y

    predicciones sobre los datos para obtener el conocimiento oculto en ellos. Implementan redes

    neuronales, clusterings, rboles de decisin, regresiones, etc.

    Ejemplos usados en CognoData: SAS, SPSS, Clementine y la PMI de CodnoData (Plataforma de Marketing

    intelligence)

    Aplicaciones que presentan los resultados requeridos de forma grfica e intuitiva en formato

    de pginas Web. Permiten montar plataformas de informes con una navegacin integrada,

    establecimiento de permisos de acceso a los informes segn los perfiles dentro de la

    empresa, seguimiento de objetivos, etc.

    Ejemplos usados en CognoData: Aplicaciones propias desarrolladas en lenguajes Web como JavaScript o

    VB Script, integradas con las herramientas de reporting.

    Herramientas que automatizan el anlisis OLAP y permiten la generacin de cubos

    (agregaciones de datos) de manera intuitiva.

    Ejemplos usados en CognoData: Microsoft Analysis Services

  • - 17 - helicr.com

    3.5 Explotacin de los datos (2/2)

    3.- Data Warehousing

    Normalmente las aplicaciones que explotan la informacin del DW se centran en pequeas particiones de datos.

    Las consultas sobre el sistema entero tendran un rendimiento muy lento debido al gran volumen de datos y es por

    eso que se suele mantener informacin redundante en tablas agregadas que sirven a propsitos determinados

    normalmente por los usuarios de negocio.

    Por ejemplo, nos podran interesar sacar todos los meses un informe del valor medio de la cartera de clientes en

    cada una de las comunidades autnomas. Para ello, lo lgico podra ser mantener una tabla agregada con dicha

    informacin, que se actualizase cada mes. De esta manera no se consulta el DW y el rendimiento de la consulta es

    mucho mayor.

    ID_MES ID_CCAA F_VALOR

    200601 01 36,45

    200601 02 12,99

    ... ... ...

    200602 01 6,88

    ... ... ...

    El informe se surte de la tabla

    agregada correspondiente y no

    del DM.

  • - 18 - helicr.com

    AGENDA. Diseo de modelos de datos para Data Mining

    1. Introduccin: Qu es Data Mining?

    2. Bases de datos relacionales vs. DWH y Data Marts.

    3. Data Warehousing

    4. Modelo de datos para Marketing Intelligence

    5. Ejercicio prctico

  • - 19 - helicr.com

    4.1 Introduccin

    4.- Modelo de datos para Marketing Intelligence

    Vistas las generalidades de los DW, en las siguientes transparencias vamos a comentar cmo realizamos los

    desarrollos de la mayora de los proyectos dentro de CognoData, aplicando algunas de las caractersticas de

    dichos sistemas, pero con un alto grado de especializacin.

    Normalmente es necesario desarrollar Data Marts que contengan los indicadores y dimensiones definidos en la

    fase de anlisis del proyecto. Posteriormente se alimentan los modelos predictivos y las plataformas de

    presentacin de informes con esos datos, segn corresponda.

    Podemos dividir el desarrollo de los proyectos en varias fases, aunque a veces no se cumplen todas ellas:

    Fase de anlisis Normalmente se realiza conjuntamente con el cliente, identificando el problema que se desea resolver, la informacin de que se

    dispone, qu indicadores relevantes se pueden obtener, etc.

    Extraccin de datos Extraccin de los datos necesarios para construir los indicadores y dimensiones necesarios para el DM. Auditoria de dichos datos.

    Diseo y construccin del DataMart Elaboracin del DM con los datos obtenidos del cliente. Unificacin de formatos, seleccin de los indicadores importantes y

    construccin de indicadores derivados que resulten de inters.

    Pruebas Verificacin de los procesos ETL desarrollados y de la validez de los indicadores.

    Modelo predictivos

    Creacin de las tablas y ficheros de entrada para los modelos predictivos. Obtencin de nuevos indicadores mediante los modelos

    Presentacin de resultados

    Presentacin final de los resultados del proyecto. Documentacin y plataformas de informes va WWW. Si es necesario,

    implantacin de la plataforma en el cliente y formacin a usuarios.

  • - 20 - helicr.com

    4.2 Objetivos

    4.- Modelo de datos para Marketing Intelligence

    Los objetivos principales que se persiguen con el modelo de datos para Marketing Intelligence con el que

    trabajamos en CognoData son los siguientes:

    1. Debe servir para cualquier tipo de proyecto, independientemente del tipo de cliente.

    2. Debe poder almacenar las distintas cargas de datos que se producen durante el desarrollo del proyecto.

    3. Debe organizar la informacin para poder realizar 2 tipos de anlisis de los datos.

    Proyectos de Banca

    Proyectos de Seguros

    Proyectos de Telecomunicaciones

    ...

    Anlisis Descriptivos

    Anlisis Predictivos

    Carga inicial Primera carga que se realiza en el proyecto, con la foto de toda la base de datos del cliente en un momento de tiempo determinado, adems del histrico de que disponga el cliente.

    Cargas incrementales Modificaciones o incrementos que ha sufrido la BBDD del cliente desde el momento de la carga inicial hasta el momento actual (nuevos clientes, nuevos datos de facturacin, etc).

    Cargas parciales Por determinadas circunstancias o problemas, el cliente slo entrega una determinada particin de sus clientes

  • - 21 - helicr.com

    PMI (PLATAFORMA DE

    MARKETING

    INTELLIGENCE)

    4.3 Proceso de un proyecto de Marketing Intelligence

    4.- Modelo de datos para Marketing Intelligence

    NORMALIZACIN

    ETL

    DESNORMALIZACIN

    ETL

    ETL

    Tablas extradas

    del cliente

    Exportacin

    Anlisis

    BBDD MARKETING

    INTELLIGENCE ANLISIS

    DESCRIPTIVO

    ANLISIS

    PREDICTIVO

    Descripciones grficas

    Estadstica de los datos

    Histogramas

    Grficos de burbujas

    OLAP

    Series temporales

    Construccin del target o

    funcin objetivo

    Creacin de ficheros de

    entrada para los modelos

    INFORMES

  • - 22 - helicr.com

    4.4 Distintos tipos de anlisis

    4.- Modelo de datos para Marketing Intelligence

    En la transparencia anterior hemos visto que una vez desarrollado el DM de origen con la informacin extrada del

    cliente, se pueden realizar dos tipos de anlisis. El anlisis a realizar depende de la pregunta que se quiera

    contestar:

    Anlisis Descriptivo Anlisis Predictivo

    Intenta contestar a preguntas como por ejemplo:

    En que mes del ao se producen ms bajas de clientes?

    Que clientes van a comprar un determinado producto en los prximos 2 meses?

    ES NECESARIO NORMALIZAR

    Para aplicar este tipo de anlisis necesitamos que la informacin de entrada est dividida y organizada segn dependencias funcionales, por lo tanto cada campo de la BBDD debe almacenar un concepto distinto:

    Ejemplo: clientes de baja con sus fechas de baja.

    ES NECESARIO DESNORMALIZAR

    Para aplicar este tipo de anlisis se necesita que la informacin se estructure en un mismo nivel, es decir, toda la informacin de entrada asociada a un cliente debe estar en un mismo registro:

    Ejemplo: serie temporal de altas de productos.

    CLIENTE F_ALTA_PROD_1 F_ALTA_PROD_2 F_ALTA_PROD_3

    132003 25/11/2005 14/02/2006 17/03/2006

    CLIENTE F_BAJA

    132003 25/11/2005

    132007 25/06/2005

    155219 30/02/2005

  • - 23 - helicr.com

    4.5 Entidades (1/3)

    4.- Modelo de datos para Marketing Intelligence

    En principio, cada problema a resolver en un cliente es distinto, pero se pretende generar una plantilla de modelo

    que valga para cualquier proyecto y cliente, de manera que slo haya que realizar una serie de modificaciones

    mnimas para adaptarlo en cada caso.

    Normalmente nos encontraremos siempre con las mismas entidades en todos los clientes (aunque pueden adoptar

    nombre distintos):

    CLIENTE Cada uno de los sujetos a los cuales la empresa u organizacin suministra servicios. Normalmente es la unidad mnima sobre la que se suelen centrar los anlisis.

    CONTRATO Es la entidad que representa el uso de un producto o servicio que la empresa u organizacin suministra al cliente.

    PRODUCTO Es el objeto del contrato. Un bien suministrado por la empresa al cliente. Nos lo podremos encontrar como una entidad independiente o bien como un atributo del contrato.

    CONSUMO Coste asociado al uso de un producto o servicio por parte del cliente en una determinada unidad de tiempo.

    FACTURA Indica el importe detallado, normalmente mensual, que el cliente abona a la empresa por el uso de sus servicios o productos.

    CONTACTO Se refiere a comunicaciones que el cliente hace con la empresa u organizacin. Normalmente pueden ser reclamaciones, incidencias, solicitudes de baja o solicitudes de informacin.

    PROSPECT Clientes potenciales de la empresa, es decir, aquellos sujetos de los que se tienen datos pero que, o bien no tienen contratos de los servicios suministrados por la empresa, o bien los tienen con alguna empresa de la competencia.

    CAMPAA Conjunto de acciones que se realizan contra un grupo de clientes en un periodo de tiempo determinado con el fin de obtener un beneficio para la empresa (fidelizacin, prevencin de fugas, venta cruzada)

    ACCIN DE MARKETING

    Cada una de las distintas operaciones que componen una campaa.

  • - 24 - helicr.com

    4.5 Entidades (2/3)

    4.- Modelo de datos para Marketing Intelligence

    CONTACTO

    ACCION MKT

    CAMPAA

    PROSPECT

    CONTRATO CONSUMO

    FACTURA

    PRODUCTO

    CLIENTE

    Cada una de estas entidades representarn tablas de

    hechos en el modelo de datos.

    A la derecha se muestra un posible esquema de

    estrella simplificado que se podra obtener de la

    entidad cliente.

    Ejemplo de diseo de BBDD para Marketing Intelligence

    CLIENTES

    PROVINCIA SEMANA

    MES

    AO

    SEGMENTO

    MERCADO

    CCAA

    ANTIGUEDAD MOSAIC

    ...

    Tabla de hechos

    Tabla de bsqueda

  • - 25 - helicr.com

    4.5 Entidades (3/3)

    4.- Modelo de datos para Marketing Intelligence

    CONTACTO

    ACCION MKT

    CAMPAA

    PROSPECT

    CONTRATO CONSUMO

    FACTURA

    PRODUCTO

    CLIENTE

    Otro ejemplo de lo que podra ser el esquema de la

    entidad contrato.

    Ejemplo de diseo de BBDD para Marketing Intelligence

    CONTRATOS

    CANAL VENTA FECHA ALTA

    SEMANA

    MES

    TARIFA

    OFICINA

    TIPO ESTADO

    ...

    AO Tabla de hechos

    Tabla de bsqueda

  • - 26 - helicr.com

    4.6 Anlisis Descriptivo

    4.- Modelo de datos para Marketing Intelligence

    Una vez construido el DataMart de origen, parte de los trabajos se enfocan en realizar un anlisis descriptivo de los

    datos. Dicho anlisis nos permitir conocer la forma o distribucin de las variables, as como detectar posibles

    errores, por ejemplo la presencia de valores fuera de rango y valores nulos.

    Para esto, lo normal es desarrollar una serie de tablas agregadas o auxiliares que nos faciliten dicho anlisis.

    0

    15.000

    30.000

    45.000

    60.000

    75.000

    90.000

    105.000

    120.000

    135.000

    Segment 1 Segment 2 Segment 3 Segment 4 Segment 6 Segment 7

    Descripciones grficas de los datos:

    - Grficos de barras

    - Grficos de sectores

    - Histogramas

    - Grficos de burbujas

    Estadstica de los datos:

    - Medidas de posicin (media, moda, mediana,

    percentiles)

    - Medidas de dispersin (varianza, desviacin tpica)

    - Relacin entre variables (Diagramas de dispersin y de

    correlacin)

    Anlisis OLAP:

    - Generacin de cubos para la simplificacin de

    consultas y agregaciones

    (*) Puedes ver un pequeo resumen de tcnicas para estos anlisis aqu

    Datos/Analisis descriptivo.pdf

  • - 27 - helicr.com

    4.7 Anlisis Predictivo

    4.- Modelo de datos para Marketing Intelligence

    La otra visin del anlisis se centra en la preparacin de ficheros de entrada a los distintos modelos predictivos que

    se vayan a aplicar. Estos modelos se encuentran integrados en CognoData en lo que llamamos PMI (Plataforma de

    Marketing Intelligence), una serie de aplicaciones desarrolladas en varias plataformas y lenguajes que

    implementan rboles de decisin, redes neuronales, modelos de clustering, etc.

    Como input, estas aplicaciones reciben un fichero de datos con un formato determinado. Para preparar cada

    modelo a aplicar se siguen los siguientes pasos:

    Se crea una tabla auxiliar con los indicadores de entrada al modelo. Dicha tabla debe tener en cada registro la

    informacin asociada al objeto del anlisis (normalmente el cliente), es decir, la clave primaria y todos los indicadores de

    entrada asociados. En este punto puede ser necesario realizar alguna transformacin para pasar de filas a columnas

    (series temporales).

    En funcin del modelo que se vaya a ejecutar puede ser necesario calcular un indicador de target o funcin objetivo y

    aadirlo a la tabla como una columna ms.

    Se exporta el fichero a texto.

    Se le aade la cabecera PMI (hay varios procedimientos desarrollados que automatizan esta tarea).

    Se pasa el fichero a un consultor de modelos para que lo ejecute.

    DESNORMALIZACIN

    ETL EXPORTACIN

    TABLA DE INDICADORES FICHERO PMI

    Datos/FormatoPMI.doc

  • - 28 - helicr.com

    4.8 Cuestiones tcnicas (1/2)

    4.- Modelo de datos para Marketing Intelligence

    a) Tratamiento de valores nulos (missing values)

    b) Tratamiento de valores fuera de rango (outlayers)

    Cuando en los datos de entrada a los anlisis tengamos valores nulos en alguno de los campos, es recomendable

    sustituirlos por un carcter especial (por ejemplo, **, 99999, NaN), ya que las aplicaciones OLAP y los modelos

    predictivos no suelen reconocerlos y normalmente los omiten o producen resultados incorrectos.

    Hay ocasiones en las que incluso es necesario distinguir entre distintos tipos de valores nulos. Por ejemplo puede que

    interese diferenciar el caso en el que no se dispone del dato del caso en el que no aplica la variable.

    Puede ocurrir tambin que en determinadas variables aparezcan valores extremos, tambin llamados outlayers. Para

    determinados procesos es necesario tratar estos valores, ya que desvirtan las estadsticas de la variable, como puedes ver

    en el siguiente ejemplo

    ID_CLIENTE NUM_PRODUCTOS

    020303 5

    123002 7

    448522 800

    114932 9

    923881 4

    El valor 800 en el indicador del nmero de productos es un outlayer, ya que no es un

    valor lgico para esa variable sino un error de los datos. Es necesario tratarlo de

    algn modo ya que invalida la media de la distribucin (que en este caso es 165,

    mientras que la mediana es 7).

    Una ver identificados los valores extremos, tenemos varias opciones, aunque las ms comunes son:

    Sustitucin por la media

    Sustitucin por la mediana

    Borrado de los registros afectados

  • - 29 - helicr.com

    4.8 Cuestiones tcnicas (2/2)

    4.- Modelo de datos para Marketing Intelligence

    c) Tabla de tiempo

    d) Volumetra

    Por regla general, siempre se hace necesaria la definicin de una tabla calendario en el DM. Esta tabla contendr toda la

    informacin de fechas (aos, meses, semanas, etc) y estar relacionada con cualquier campo de tipo fecha, evitando de tal

    manera el uso de funciones de fecha, que suelen dar bastantes problemas.

    Tambin es recomendable, una vez se ha acabado el diseo del DM, realizar un estudio de volumetra, para prever el

    espacio de almacenamiento necesario en los servidores. Un ejemplo sencillo podra ser una tabla como la siguiente:

    Tabla Regs. estimados Bytes por registro Bytes estimados % crecimiento esperado

    ... ... ... ... ...

    e) Creacin de series temporales

    Para determinados anlisis, como ya hemos visto, es necesario desnormalizar la informacin y generar series de eventos o

    series temporales asociadas a un registro. Normalmente esto se hace para ver el comportamiento en el tiempo de

    determinados eventos como por ejemplo las altas de productos que un cliente realiza o las llamadas que hace al servicio de

    atencin telefnica. Se puede sacar mucha informacin de la frecuencia y la distribucin de estos eventos a lo largo del

    tiempo. :

    CLIENTE F_ALTA_PROD_1 F_ALTA_PROD_2 F_ALTA_PROD_3

    132003 25/11/2005 14/02/2006 17/03/2006

    Actualmente, ya hay desarrollados procesos en SQL que

    implementan estas transformaciones. Puedes preguntar a algn

    consultor de ETL si quieres ms informacin. :

  • - 30 - helicr.com

    AGENDA. Diseo de modelos de datos para Data Mining

    1. Introduccin: Qu es Data Mining?

    2. Bases de datos relacionales vs. DWH y Data Marts.

    3. Data Warehousing

    4. Modelo de datos para Marketing Intelligence

    5. Ejercicio prctico

  • - 31 - helicr.com

    5.- Ejercicio prctico

    Puedes practicar las tareas que se han visto en esta presentacin con los siguientes ejercicios..

    a) La empresa ALFA, presente en Madrid, Barcelona y Sevilla, necesita realizar un estudio de prevencin de

    fugas, para lo que se va a servir principalmente de la informacin de las bajas de productos de sus

    clientes. Actualmente, tiene los datos de sus clientes en varios orgenes en funcin de la provincia:

    d) Una vez importado el fichero, intenta insertar en la tabla ClientesS1, aquellos clientes de datos.txt que

    pertenezcan al segmento 1 (puedes usar una consulta del tipo INSERT INTO).

    e) Selecciona el nmero de clientes por cada segmento en una tabla (SELECT INTO), y exporta dicha tabla a

    una hoja excel. Abre la hoja de clculo para ver el resultado.

    f) Borra todas las tablas de la base de datos.

    PROVINCIA FORMATO COMENTARIOS

    Madrid Excel Datos a nivel de producto de los clientes de Madrid

    Barcelona Access

    Sevilla Fichero de texto

  • - 32 - helicr.com

  • - 33 - helicr.com

    Diseo de modelos de datos para Data Mining

    [email protected]


Recommended