Data Mining para Marketing Directo Juan Carlos Ruilova T. [email protected].

Data Mining para Marketing Directo

Juan Carlos Ruilova T.

[email protected]

Marketing Directo

Porque Marketing Directo? A las personas no nos gusta que nos traten iguales.

Gran diversidad de clientes cada un con diferentes características.

One to one es el objetivo en los negocios. Ejemplos: Habib’s, UOL Diferente al Marketing de Masas.- requiere

conocimientos técnicos, el gasto es menor, es más estratégico.

Marketing Directo

Como abarcar todos los clientes, cada uno con diferentes características?

Segmentación de mercado.- Regresión Logística, Análisis Cluster, Árboles de Decisión, etc.

La segmentación es realizada sobre datos demográficos, de comportamiento y de actitud.

Antes es necesario conocer bien la base de datos.- Análisis exploratorios.

Marketing Directo

Después de la segmentación se aborda a los clientes con diferentes estrategias para: Fidelización, Cross Selling, Adquisición de Clientes, Migración, Life Time Value, Cancelamiento, Descancelamiento, etc.

Al final siempre son importantes las validaciones y las pruebas que confirmen los resultados.

Data Mining

Ha dado resultados prácticos importantes. A veces ha existido frustramiento por parte

de algunas empresas. El mineo de datos requiere operaciones que

deben ser analizadas por un estadístico o alguien quien conozca no solo los conceptos sino también sepa interpretar los datos cuando existen cambios.

Data Mining

Data Mining requiere de una iteración entre las áreas de Computación, Estadística y del área de Negocios.

Data Mining comenzó a popularizarse debido a la facilidad y bajo costo para guardar informaciones y para utilizar estos datos.

Profesionales con gran experiencia a veces rechazan el Data Mining, pero los resultados son los que le han popularidad.

Data Mining

Data Mining es parte del KDD (Knowledge Discovery in Databases) o búsqueda de conocimientos en bases de datos.

El Data Mining, podría definirse como el proceso que extrae informaciones, sin conocimiento previo, de grandes bases de datos, y las usa para la toma de decisiones.

Data Mining

Dentro del mundo estadístico, el Data Mining es definido peyorativamente como un análisis exploratorio dentro de grandes bases de datos.

El Data Mining es un área multidisciplinaria que relaciona procedimientos como técnicas estadísticas, reconocimiento de padrones, aprendizaje de máquinas, etc.

La selección de una herramienta adecuada es vital para el Data Mining.

Aplicaciones del Data Mining

Sector Bancario, modelos de credit e behavior scoring, comportamiento en el uso de tarjetas de crédito, fidelización, cross selling, life time value, etc.

Marketing y Comercio, comportamiento de compra de clientes, segmentación, respuestas a campañas de marketing, productos comprados vs. características demográficas, adquisición, etc.

Seguros y Planos de Salud, predicción de clientes propensos a comprar pólizas de seguros, identificación de fraudes, etc.

Aplicaciones del Data Mining

Medicina, identificación de mejores terapias para diferentes dolencias, etc.

Industrias, determinación de confiabilidad de productos industriales complejos, calidad, etc.

Transporte, análisis y comportamiento de cargas, logística, cronogramas, fraudes, etc.

Internet, identificación de patrones de home pages, búsqueda y agrupamiento de documentos.

Data Mining y Análisis Estadístico

El Data mining podría entenderse como una adaptación de las técnicas Estadísticas tradicionales, aplicadas a grandes bases de datos.

Muchas bases de datos son constituidas por una enorme cantidad de registros donde las variables pueden estar contaminadas, no ser iid, no presentar estacionariedad, presentar sesgo, etc.


Debido al gran tamaño de las bases de datos, algunos métodos de estimación secuencial y adaptativos fueron desarrollados.

Otro problema se debe al almacenamiento de la bases de datos y es que muchas veces los datos tienen una estructura hierárquica que dificulta el acceso a la base total. Por esto motivo, técnicas de estratificación y agrupamiento han sido necesarias.


Otro problema es que cuando existen datos en abundancia, las pruebas de hipótesis quedan comprometidas pues los resultados siempre apuntan a la fuerte evidencia de que efectos, aunque pequeños, existen. La palabra estadísticamente significante, entonces podría verse comprometida.


Otro aspecto importante dentro del data mining es la depuración de los datos contaminados que básicamente tiene que ver con la detección y tratamiento de los datos missing (datos faltantes o incoherentes) y outliers (datos erróneos y valores reales).

Importancia de las Bases de Datos

El tamaño de las bases de datos es de vital importancia en el Data Mining, así la importancia de un sistema gerenciador es fundamental.

Una característica en una base de datos es definida como un conjunto de líneas que comparten el mismo valor en 2 o más columnas.

La confianza, no en el sentido estadístico, es el porcentaje de líneas con una característica.


Estos términos son importantes para determinar incongruencias o excepciones en las bases de datos, así una característica con una gran confianza y un grande número de líneas es más poderosa que una corroborada por un pequeño número de líneas (característica débil).NumDBM Sexo Edad Estado Civil Compro

1 M 25 S 12 M 35 C 13 F 42 D 04 F 28 C 05 M 38 S 16 F 30 S 07 F 44 V 18 M 42 S 09 M 55 C 1

10 J 1


Data Warehouse, es un sistema de gerenciamiento de la base de datos relacional.

Tiene fuerte relación con el Data Mining. Data Warehouse extrae datos operacionales

archivados y supera las inconsistencias entre diferentes formatos de datos, además integra los datos de toda la empresa, independientemente de la localización.

En el Data Warehouse una vez que entran los datos no son actualizados ni alterados, simplemente cargados o accesados.


Base de Datos Transaccionales

Data Warehouse

Forma Padrón

Métodos de Aprendizaje


La idea principal en el Data warehouse es disponibilizar la información de tal forma que pueda ser usada para futuros procesamientos analíticos y toma de decisiones.

Las tareas de Extracción (datos con diferentes formatos), Transformación, Limpieza (Inconsistencias) e Integración son necesarias para mover los datos operacionales al datawarehouse central.


Extrae

Bases de Datos Operacionales

Transforma Limpia Data

Warehouse


El datawarehouse no resuelve todos los problemas de preparación de los datos para el Data Mining, así los datos extraídos del datawarehouse podrían necesitar de algunas transformaciones.

Otro problema importante que se tiene con las grandes bases de datos es respecto al procesamiento de la información sin sacrificar el tiempo de respuesta.


El OLAP (On-line Analytical Processing) permite minimizar este problema y puede ser visto como una extensión del datawarehouse.

La principal característica de una arquitectura OLAP es ser on line, de tal forma que el sistema pueda acceder a grandes cantidades de datos, promover los análisis de relaciones entre las variables, agregar los datos de forma adecuada para el análisis, presentar los datos en diferentes perspectivas y responder rapidamente a las preguntas del usuario (Dilly, 1998).

El proceso KDD

Datos

Selección

Datos Seleccionados

Datos Procesados

Pré procesamiento

Datos Transformados

Tra

nsfo

rmac

ión

Informaciones Extraídas

Data Mining

Asimilación

Aná

lisi

s

El proceso KDD

Selección de las variables.- se refiere a extraer el conjunto de datos necesarios para la aplicación de data mining.Las variables pueden ser categóricas (nominales o ordinales) o cuantitativas (discretas o continuas).Es importante tomar en cuenta las mudanzas de variables tales como empleo, dirección, etc.

El proceso KDD

Preprocesamiento de los datos.- trata de asegurar la calidad de los datos (datos limpios y comprensibles) para esto se usa métodos estadísticos y de visualización de los datos.Datos con errores (outliers) y valores faltantes (missing) son dos problemas resueltos en el preprocesamiento de los datos.

Transformación de los datos.- juega un papel importante, técnicas como discretización, reducción de la dimensionalidad, categorización, etc. Son comúnmente usadas.

El proceso KDD

Data Mining.- ajusta modelos y/o determina características en los datos.El proceso de data mining está directamente relacionado a la experiencia e intuición del analista, pues para cada problema existen un sinnúmero de algoritmos de data mining.Los algoritmos de data mining, en general, tienen una mezcla de cuatro componentes: El Modelo, Estimación de los parámetros, selección del modelo.

El proceso KDD

El modelo, cuya función puede ser: Clasificación, Regresión, Dependencia, Asociación, Tendencia, Cluster, Sumarización, etc.

La representación del modelo determina la flexibilidad del mismo a representar los datos y su interpretación.Los métodos más complejos generalmente ajustan mejor los datos pero son más difíciles de interpretar. Ejemplos son modelos que incluyen decisión por árbol, modelos lineales, modelos no lineales, reglas de decisión, etc.

El proceso KDD

Estimación de parámetros, estima los parámetros necesarios para poder realizar la representación del modelo.

Selección del mejor modelo, de entre varios modelos se escoge el mejor, pudiendo realizarse pruebas experimentales o teóricas o ambas.

El proceso KDD

Los pasos en el KDD no comparten el mismo peso en términos de esfuerzo y tiempo.

La preparación de los datos, por ejemplo, que envuelve la selección, procesamiento y transformación de los datos necesita entre el 60 y 80% del tiempo utilizado en todo el proceso, con la mayor parte del tiempo consumido en la limpieza de los datos.

Análisis Estadístico para KDD

Medidas de Locación Medidas de Dispersión Medidas de Simetría y Curtosis Tipos de Variables Distribución de frecuencias Tipos de Gráficos Análisis Exploratoria

– Análisis Univariada;– Análisis Cruzada; – Reducción de Datos; etc.

Correlación y Regresión Muestreo y Poblaciones Probabilidad y Estadística

Análisis Estadísticos

Atravesamos nuestra vida tomando decisiones basadas en informaciones incompletas.

La mayoría de nosotros convive confortablemente con algún nivel de inseguridad.

Lo que vuelve a los Estadísticos únicos es su habilidad de cuantificar la inseguridad – esto los vuelve capazes de hacer afirmaciones categóricas con total confianza, al respecto de sus insegiridades...

La Estadística es el arte de torturar los números hasta que digan la verdad...

Porqué la Estadística ha ganado importancia en el Database Marketing?

Empresas con gran cantidad de clientes Gran volumen de datos por cliente Costos computacionales en caida Capacidad de procesamiento en alta Busqueda de performance en Marketing

datosinfor-mación

deci-siones acciones

Estadística y Marketing Directo

Población

Muestra

Estimación/predicción de cantidades desconocidas y extrapolación de resultados

Modelos Predictivos

Estatística Descritiva Presentación, sumarización e interpretación de los datos

Conceptos básicos

Modelos de SegmentaciónSegmentaciones

PruebasPruebas de hipótesis a partir del análisis de probabilidades

Inferencia Estadística

Análisis Exploratorio

Consistencia de Datos. Detección y tratamiento de Outliers y

Missings. Transformación de datos. Selección de las variables para el modelo. Requiere técnicas de visualización. Requiere de experiencia para la selección y

tratamiento de las variables.

Análisis Exploratorio

Es fundamental que los profesionales de DBM conozcan íntimamente los dados de clientes y prospects.

La comprensión de la lógica aplicada a la arquitetura de datos y de las reglas empleadas para realizar las actualizaciones a cada carga de datos es crucial para el análisis. (Ejemplo Folha de Sao Paulo).

Gran parte de los análisis preliminares de datos es hecha a través de los portales web específicos (BI).

La estadística descriptiva es el primer paso para un buen conocimiento de los datos.

Tipos de variables

Nominales

(sexo, estado civil)

Cualitativas

(Dimensões) Ordinales

(grado de escolaridad)

Discretas/ categóricas

(edad, número de hijos)

Cuantitativas

(Fatos) Continuas

(gasto)

Variables

Base de datos Exemplo

Nome Peso Altura Idade Sexo Cargo/área Estado civil FilhoCátia Petri 56 1.59 24 Feminino estatítico Solteiro - Cristiane 57 1.79 21 Feminino analista Solteiro - Silvia 58 1.62 27 Feminino gerente Solteiro - Ana Cristina 64 1.7 24 Feminino dbm Solteiro - Denise 63 1.55 37 Feminino copeira Casado 5.00 Ana Paula 48 1.61 25 Feminino gerente Solteiro - Adriana 53 1.51 22 Feminino analista Solteiro - Tatiana 68 1.76 25 Feminino dbm Solteiro - Fernanda 59 1.62 27 Feminino gerente Solteiro - Carlos 80 1.81 44 Masculino gerente Casado - Johnny 72 1.71 31 Masculino dbm Casado 1.00 Rovane 89 1.85 30 Masculino gerente Casado 0.39 Giba 84 1.86 31 Masculino analista Solteiro - Ismael 82 1.8 23 Masculino dbm Casado 1.00 Ricardo 78 1.79 21 Masculino analista Solteiro - Henrique 81.5 1.8 22 Masculino dbm Solteiro - Fabiano 125 1.82 27 Masculino gerente Casado - Ranoya 79 1.7 33 Masculino diretor Casado 1.97 Rubão 87 1.9 49 Masculino presidente Casado 3.00 Marcelo 89 1.83 31 Masculino diretor Casado - Leonardo 85 1.85 31 Masculino gerente Casado 1.78 Ray 89 1.84 42 Masculino diretor Casado 1.00 Daniel 85 1.78 26 Masculino estatítico Casado 0.44

Medidas de Resumen

Medidas de ubicación:

– Media

– Mediana: valor que se encuentra en el centro de una serie ordenada de números

– Moda: valor que ocurre con mayor frecuencia

– Quartiles: valores que dividen una serie ordenada en cuatro partes iguales (Q1, mediana, Q3)

– Mínimo, máximo

n

x x i

Medidas de resumo

Medidas de posição: (variável peso)

48 53 56 57 58 59 63 64 68 72 78 79 80 81,5 82 84 85 85 87 89 89 89 125

Moda: 89Média: 75,28

Q1 Q3Mediana

Mínimo Máximo

Peso medio: 73.28kgConclusión: todos pesam 73.28 kg!!!

Nós não somos todos

iguais!!!

Medidas de Resumen

Medidas de dispersión

Amplitud: diferencia entre el mínimo y el máximo.Amplitud = max - min = 125 - 48 = 77

Intervalo interquartil: diferencia entre el tercer y el primer quartil.

IIQ = Q3 - Q1 = 85 - 59 = 26

IIQ

AmplitudeA idea es dividir los datos en 4 grupos iguales y verificar cuan distantes los grupos extremos son.

Box Plot para Edad

Q1 = 24Mediana = 27

Q3 = 31

23N =

IDA

DE

60

50

40

30

20

10

22

10

19

Outliers

IIQ = 6

Q3 + 1,5*IIQ=40

Medidas de Resumen

Medidas de dispersión• Desviación Estándar: La Desviación Estándar mide la

dispersión de los datos alrededor de la media.• Se puede pensar como la distancia media entre cada

observación y su media.• La Variancia es la Desviación Estandar al cuadrado.

n

)x(xσ

2i

Ejemplo

Peso Altura Idadenº funcionários 23 23 23Mínimo 48 1.51 21Máximo 125 1.9 49Média 75.28 1.74 29.26Mediana 79 1.79 27Q1 59 1.62 24Q3 85 1.83 31Desvio padrão 17.08 0.11 7.55

Observación Importante

• Los Box Plots son útiles para comparar variables dentro de las categorías de esta variable.

149N =

SEXO

MasculinFeminino

PE

SO

140

120

100

80

60

40

17

Los hombres son más pesados que las mujeres, siendo que la mujer más pesada es más liviana que el hombre más liviano.

No siempre es fácil establecer conclusiones, siendo necesarias otras herramientas.

Observación Importante

• Es importante tener mucho cuidado en las conclusiones.

En general, las personas casadas son más pesadas que las solteras.

Conclusión: El casamiento engorda!

1112N =

Estado civil

SolteiroCasado

PE

SO

140

120

100

80

60

40

5

17

Medidas de Resumen

Medidas de Simetría.

Distribución Simétrica (Curva Normal)

Media=Mediana=Moda

Asimétrica a la derecha Moda<Mediana<Media

Asimétrica a la izquierda Media<Mediana<Moda

s

Mediana)-x3( Asimetría de eCoeficient

Si 0.15 < |Coef.As.| < 1, la asimetría es considerada moderada, si |Coef.As|>1 la asimetría es considerada fuerte.

Medidas de Resumen

Coeficiente de Curtosis. Es el grado de achatamiento de una distribución en relación a una distribución estándar (curva normal, por exemplo).

Curva Leptocurtica Curva Normal (mesocurtica) Curva Platicurtica

0)Percentil1-l902(Percenti

Quartil1-Quartil3 Curtose

Curtose = 0.263 curva mesocurtica

Curtose < 0.263 curva leptocurtica

Curtose > 0.263 curva platicurtica

Muestreo

Población es un conjunto de entes portadores de por lo menos una característica en común, esto es la definición de universo estadístico.

Muestra es cualquier subconjunto finito de una población. La gran ventaja de una muestra es el entendimiento de la población a

bajo costo. Muestreo es el conjunto de técnicas para escoger una muestra.

Normalmente el muestreo debe ser hecho aleatoriamente para garantizar representatividad, puede ser hecho con base en diversos métodos que garantizan mayor representatividad, por ejemplo, a través de métodos de estratificación, conglomerados, etc.

Hacer inferencias al respecto de una población exige planeamiento correcto desde el cálculo del tamaño de muestra ideal, reglas de estratificación, y definición de los objetivos y objetos a ser medidos posteriormente, para que se garantice la calidad y validez de las informaciones.

Errores en el muestreo producirán errores en las inferencias.

Tabulaciones (Distribuciones de Frecuencia)

En la selección de un grupo de clientes para una oferta, en la preparación de un modelo, o en la segmentación de la base de datos, tabulaciones (uni o multivariadas) son la forma de análisis más común en DBM.

Este análisis permite que el analista identifique cuáles datos tienen relación con el comportamiento en análisis (compras, pagamientos, renovaciones, etc.)

Frecuencia es el número de observaciones relacionado a un determinado valor de la variable.

Puede ser representada en una tabla o gráficamente.

Distribución de Frecuencias

CARGO

4 17.4

1 4.3

5 21.7

3 13.0

2 8.7

7 30.4

1 4.3

23 100.0

analista

copeira

dbm

diretor

estatítico

gerente

presidente

Total

Frequência %"Cargo"

0%5%

10%15%

20%25%30%35%

anal

ista

copei

radbm

direto

r

geren

te

presi

dente

po

rcen

tag

em

Idade (anos) Frequência %Até 25 9 39.1%

De 26 a 30 5 21.7%De 31 a 35 5 21.7%De 36 a 40 1 4.3%Mais de 40 3 13.0%

Idade (anos)

0%

5%

10%

15%

20%

25%

30%

35%

40%

45%

Até 25 De 26 a 30 De 31 a 35 De 36 a 40 Mais de 40

po

rcen

tag

em

Histogramas

Es la representación gráfica de la distribución de frecuencias.

Son útiles para describir el comportamiento de una variable.

Es importante tener un buen conjunto de clases para tener una buena visualización gráfica.

Son una aproximación de la densidad, la que trae toda la información acerca de una variable.

Valor por ciclo

300

200

100

0

Std. Dev = 161.03

Mean = 420.7

N = 965.00

Cross Tabs (Tabulaciones Cruzadas)

Muestran 2 o más variables al mismo tiempo. Destacan inter-relacciones entre variables, mostrando que una

variable poco relevante puede ser bastante importante cuando es considerada en conjunto.

Ejemplo (Tabulación).- Tasa de respuesta a una oferta en relación a la edad del respondiente.

IdadeQtde

% da Amostra

No. dePedidos

Taxa deRespostaIndexação

Menos de 30 1,529 15.29% 67 4.38% 17531-40 1,775 17.75% 63 3.55% 14241-50 1,879 18.79% 46 2.45% 9851-60 2,054 20.54% 29 1.41% 56Mais de 61 1,785 17.85% 18 1.01% 40Info não disponível 978 9.78% 27 2.76% 110Total 10,000 100.00% 250 2.50% 100

Cross Tabs (Tabulaciones Cruzadas)

Ejemplo (Tabulación cruzada).- Ofertas realizadas en una campaña vs. Pedidos efectuados.

Total de Ofertas realizadas

Total de Pedidos 1-5 6-10 11-20 21-30 31 plus Total

00.00%

(0/0)

0.00%

(0/0)

0.00%

(0/0)

0.00%

(0/0)

0.00%

(0/0)

0.00%

(0/0)

1-50.00%

(0/0)

1.63%

(8/491)

1.76%

(17/967)

2.34%

(20/856)

1.60%

(16/998)

1.87%

(62/3,312)

6-100.00%

(0/0)

2.89%

(8/277)

1.85%

(14/756)

2.51%

(29/1,154)

1.80%

(16/887)

2.21%

(68/3,074)

11-150.00%

(0/0)

0.00%

(0/0)

3.03%

(14/462)

3.03%

(29/956)

2.67%

(21/787)

2.90%

(64/2,205)

15 plus0.00%

(0/0)

0.00%

(0/0)

3.34%

(12/359)

5.03%

(30/597)

3.53%

(16/453)

3.97%

(56/1,409)

Total0.00%

(0/0)

2.08%

(16/768)

2.24%

(57/2,544)

3.03%

(108/3,563)

2.21%

(69/3,125)

2.5%

(250/10,000)

Correlación

La relación entre dos variables puede ser medida a través de la correlación.

Dos variables pueden ser correlacionadas positiva o negativamente, pueden ser correlacionadas de forma no lineal o también pueden ser no correlacionadas.

Aplicaciones.- Cross Selling, Churn, etc.

Correlación Lineal Negativa

Correlación No-Lineal

No hay correlación (correlació

n nula)

Correlación Lineal Positiva

La existencia de grupos de

nubes de puntos puede interferir en el

resultado

Regresión

Determinar la relación de una variable vs. Otras.

0

10

20

30

40

50

60

70

80

90

0 5 10 15 20 25 30

Qtde. de cheques

Qtd

e.

de C

lien

tes

Regresión

Métodos.- Mínimos Cuadrados, Máxima Verosimilitud.

Tipos.- Lineal, No Lineal, Paramétrica, No Paramétrica, Modelos Mixtos, etc.

Objetivos.- Realizar previsiones de una variable de interés en función de otras variables conocidas.

Ejemplos.- Modelos de Descancelamiento, Estimación de la Volatilidad, Modelos Churn, Elasticidad del Precio, etc.

Distribuciones de Probabilidad

Importancia.- Describir totalmente el comportamiento de una variable aleatoria.

Existen, modelos teóricos de probabilidad, que podemos adaptar a experimentos aleatorios en la práctica, como por ejemplo, la distribución Binomial, Normal, Poisson, etc.

Exemplo1: La Regresión Logística, por ejemplo, admite que la variable respuesta tiene una distribución Binomial o Mutlinomial.

Exemplo2: La Regresión Lineal admite que hay un error aleatorio con distribución Normal.

Importancia de la Distribución Normal.- Teorema del Límite Central: Si tomamos una gran muestra de observaciones de una variable que sigue cualquier distribución, y que tenga variancia finita, entonces la distribución de la media muestral será aproximadamente normal.

Distribuciones de Probabilidad

Ejemplo 3: La Distribución del Número de Compras efectuada por los clientes de una empresa puede ser aproximada por Distribución de Poisson.

Ejemplo 4: La distribución Lognormal también es una buena aproximación para informaciones de consumo de clientes.

Ejemplo 5: El ajuste da regresión Logística permite la obtención de los Scores de Descancelamiento, Cancelamiento, Aquisición. El score ajustado de la regresión logística es un buen ejemplo de la aproximación de la Respuesta Binomial para la Distribución Normal. (Separación de buenos y malos clientes)

Tratamiento, limpieza, deduplicación, householding

Listas y otras fuentes externas

Call Center

Facturamiento

Sistemas transacionais

Base de Prospects

Base de Cadastros

Website

DBM Banco datos

Otras origenes

Modelos estadísticos, geomarketing

Customer Intelligence: Relatórios/ Análisis/ Estrategia

Website dinámico

Mala Direta

Call Center E-mail

Fuerza de Vendas

Campañas/ Resultados

Premios, puntos

Campañas de Relacionamiento Loyalty

Análisis Predictiva y Descriptiva

Predictiva Determina la relación entre

datos y respuesta Identifica que datos son

relevantes Determina la contribución de

cada variable

Descriptiva Describe miembros del

database conforme los datos

Asume que todos los datos son igualmente relevantes

Considera que todas las variables contribuyen

Análisis Predictiva y Descriptiva

Predictiva Regresión Lineal Regresión Logística Series Temporales Árboles de decisión Redes Neurales

Descriptiva Frecuencias Tablas cruzadas Análisis de perfil Árboles de decisión Análisis de Clusters Análisis Factorial

63

Segmentación.- Objetivos

Entender la utilidad y el porqué es necesario la segmentación.

Entender los métodos y las dificultades para segmentar una base de datos.

Comparar las diferentes técnicas de segmentación.

Discutir algunos ejemplos y cases de aplicación de las técnicas de segmentación.

Objetivo principal de una segmentación: Definir grupos de clientes de modo que los clientes de cada grupo tengan características semejantes.

Segmentación de mercado

Métodos de Segmentación:

Tabulación (Conteo)

Modelación Estadístico– Clusterización– Árboles de decisión– Análisis factorial, discriminante

Ejemplo de Tabulación

IngresosEdad 0 - 1.000 1.000 - 2.000 2.000 - 3.000 3.000 - 4.000

20 - 30 anos 400 200 120 60

31 - 40 anos 1000 300 - -

41 - 50 anos - - 400 300

51 - 60 anos - - 39 12

Más 60 anos - 500 120 -

Tabulación (conteo)

Pocas variables envueltas. Exige poca técnica. Usuario impone una segmentación a los datos. El resultado depende del formato impuesto. La identificación de los grupos se realiza en función

de la experiencia o de la necesidad de la empresa de tener tales grupos.

Ejemplo de segmentación con base en Edad e Ingresos

Renda

Idade Até 1000De 1001 a

2000De 2001 a

3000De 3001 a

4000Mais de

4001Total

21 a 30 anos 3 2 6 1 2 1431 a 40 anos 3 1 0 6 6 1641 a 50 anos 0 2 2 4 1 951 a 60 anos 5 2 0 4 0 11Mais de 61 anos 2 1 1 0 0 4

Total 13 8 9 15 9 54

Gráficamente

Ingresos

Edad

0 $ 1.000 $ 2.000 $ 3.000 $ 4.000

60

50

40

30

20

Podemos estipular puntos de corte para limitar los grupos

Ingresos

Edad

0 $ 1.000 $ 2.000 $ 3.000 $ 4.000

60

50

40

30

20

Ingresos: corte en 3.000 Edad: corte en 40 años

Ingrasos

Edad

0 $ 1.000 $ 2.000 $ 3.000 $ 4.000

60

50

40

30

20

Con quién estos

puntos más se parecen?

Muchas variables envueltas Exige conocimiento técnico Los datos hablan por si mismos El resultado “depende” de la propria naturaleza

de los datos. La experiencia y el conocimiento del negocio

también es importante, pero solo en la selección de las variables.

Segmentación con técnicas estadísticas

Es possível ‘forzar’ los resultados creando agrupamientos diversos.

Segmentación con técnicas estadísticas

Aplicaciones:

Segmentar el público en grupos homogéneos.

Descubrir individuos fuera del padrón.

Descubrir los individuos que mejor representan cada grupo (centroides – personificación de los grupos)

Gráficamente

Ingresos

Edad

0 $ 1.000 $ 2.000 $ 3.000 $ 4.000

60

50

40

30

20

Técnicas para segmentación

Cluster– Técnica estadística más utilizada para hacer segmentación.– Busca identificar grupos ‘naturales’ de clientes.

Análisis Factorial– Normalmente utilizado como un método de reducción de datos.– Crea variables compuestas que ‘capturan’ el máximo possible

De lo que es medido por los datos originales.– Estas variables compuestas pueden ser utilizadas como base

para una análisis de segmentación. Árboles de decisión

– Básicamente utilizado para identificar clientes que son probables de pertenecer a un grupo en particular.

Clusterización

Divide el universo en grupos homogéneos.

Clusters ideales : homogeneidad intra-grupo, heterogeneidad inter-grupos.

Clusterización

Clusterización

Variação intra grupos

Clusterización

Variação entre grupos

Clusterización: Algoritmos buscam maximizar las diferencias inter-grupos y minimizar las diferencias intra-grupos

Algoritmo

Diferencias Inter-GruposDiferencias Intra-Grupos~ F

Clusterización

Dos técnicas:– clusterización hierárquica– clusterización “K-means”

Cluster Hierárquico

Inicio: Los dos objetos (observaciones o variables) más próximos son combinados.

Para definir la proximidad entre los objetos, se adopta una medida de distancia.

El algoritmo continua paso a paso juntando a los clusters formados, los objetos más próximos a ellos, hasta formar un solo cluster.

Una vez unidos, dos objetos no son más separados.

Clusterización por el Método Hierárquico

Los pasos de la clusterización son mostrados en un dendograma.

El método es hierárquico pues una vez que dos objetos son unidos, ellos permanecen así hasta el fin.

Clusters formados en una etapa posterior contienen clusters formados en etapas anteriores.

Ejemplo: Dendograma

Distancia media entre los Clusters

Ciudad

Ciudades más semejantes

También son semejantes

Ejemplo: Dendograma


Ciudad Si quisiéramos

dos grupos de ciudades

Ejemplo: Dendograma


Ciudad Se quisiéramos

3 grupos de ciudades

Métodos para la clusterización hierárquica

Single Linkage (“Nearest Neighbor”) Complete Linkage (“Furthest Neighbor”) Centroid Clustering Median Clustering Average Linkage Between Groups Ward´s Method

Clusterización Hierárquica

Shortest

Simple Linkage

Longest

Complete Linkage

Clusterización Hierárquica

Average Linkage Between Groups

Centroid clustering

Clusterización por el método de K-Means

K porque el analista puede escoger el número de clusters a ser formados.

Means porque las medias (o centroides) de las observaciones representan el cluster.

Es un proceso iterativo donde, a cada paso, las observaciones son agrupadas en el cluster con el centroide más próximo, con el subsiguiente recálculo dos centros.

Define inicialmente 3 posibles centroides

Ejemplo (K-means)

Três clusters para um grupo de clientes utilizando as variáveis idade e renda

Ejemplo (K-means)

A cada nueva observación, se clasifica el individuo y el centroide es recalculado

A cada nueva observación, se clasifica el individuo y el centroide es recalculado

Precauciones para Clusterizar

Estandarizar las variables para evitar que valores grandes afecten más a las medidas de distancia que los valores pequeños.

La técnica no identifica automáticamente variables “sin sentido”

Es importante realizar primero una clusterización hierárquica (en una muestra) y después una K-means, caso no sea posible trabajar con toda la base.

Ejemplos

Cluster de Productos (variables).- Adams

Cluster de Clientes (Observaciones).- Credicard (Hierárquico y K-means)

Cluster de Censos.

Análisis Factorial

Utilizado para disminuir el número de variables a ser utilizadas en una segmentación.

Crea variables compuestas (factores) que pueden ser utilizadas en el análisis de cluster o en la regresión logística.

Cada factor atribuye un score a cada una de las variables, pudiendo variar de -1 a 1, de acuerdo con la importancia de la variable.

Análisis Factorial

Se puede crear tantos factores cuanto el número de variables utilizadas en el análisis.

Cada factor es responsable por explicar un porcentaje de la variabilidad total de los datos.

En general, los factores generados por el análisis poseen una interpretación lógica.

Cluster X Análisis Factorial

El análisis de clusters puede ser rodado utilizándose

un número grande de variables, mas pueden ocurrir

dos contratiempos: Se muchas variables miden las mismas (o muy

similares) características, entonces lo que ellas miden puede tener un peso mayor en el análisis.

Un análisis de clusters con muchas variables es de difícil interpretación.

Sugerencia: en estos casos es útil primeramente correr un análisis factorial y luego un análisis Cluster.

Análisis Factorial

Ejemplo: En un estudio de preferencia de los consumidores, una muestra aleatoria de clientes fue entrevistada sobre los

atributos de un nuevo producto. Las respuestas varían en

una escala de 0 a 7 (0: pésimo; 7: excelente)

Matriz de correlação

Atibuto (variável) 1 2 3 4 5

1 - Gosto 1.00 0.02 0.96 0.42 0.01

2 - Saudável 0.02 1.00 0.13 0.71 0.85

3 - Sabor 0.96 0.13 1.00 0.50 0.11

4 - Crocante 0.42 0.71 0.50 1.00 0.79

5 - Fonte de energia 0.01 0.85 0.11 0.79 1.00

Atibuto (variável) Fator 1 Fator 21 - Gosto 0.02 0.992 - Saudável 0.94 -0.013 - Sabor 0.13 0.984 - Crocante 0.84 0.435 - Fonte de energia 0.97 -0.02

Análisis Factorial

Proporção acumulada da variabilidade total explicada

0.507 0.932

Fator 1:

fator nutricional

Fator 2:

fator de sabor

Fator 1 = 0,02*Gosto + 0,94*Saudável + 0,13*Sabor + 0,84*Crocante + 0,97*Energia

Fator 2 = 0,99*Gosto - 0,01*Saudável + 0,98*Sabor + 0,43*Crocante - 0,02*Energia

Análisis Factorial

Independientemente del estudio que se desea hacer con estos datos, en lugar de utilizarse las

cinco variables, se puede utilizar apenas los scores de los dos factores, pues se tendría 93,2% de la variabilidad total de las cinco

variables siendo explicada por estos factores.

Árboles de Decisión

Aplicaciones típicas:Mailing (Mala direta): determinar cuáles grupos tienen la mayor tasa de respuesta.

Marketing: determinar cuáles variables están asociadas a las ventas.

Churn: determinar cuáles aspectos más influencian en el cancelamiento.

Listas: Cómo adquirir nuevos clientes.


El método más conocido para crearse árboles de decisión es el CHAID (Chi-square Automatic Interaction Detection)

Examina la relación entre muchas variables categóricas o discretas y un objetivo categórico o medida de resultado.

El resultado es presentado en forma de un diagrama que muestra las variables explicativas que resultan en una mayor diferencia de la variable objetivo.

CHAID

Ventajas sobre otros tipos de modelación

estadística: Produce un modelo que puede ser

representado por reglas y especificaciones lógicas de fácil entendimiento y que pueden ser utilizadas para generar predicción en nuevas bases de datos.

Trata valores nulos.


Ejemplo de motivación:– Investigación de clientes para descubrir se ellos

compraron o no un determinado producto. – A partir de variables demográficas (región, sexo,

edad y faja salarial), se desea saber cuáles subgrupos son más probables compradores.

Solución directa: Hacer tablas cruzadas con la respuesta y

verificar cuáles variables son individualmente más relacionadas con la respuesta.


Y si una combinación de los factores demográficos es relevante para la respuesta?

Tablas de triple entrada, entrada cuádruple...

El análisis sería confuso y complejo!

Algoritmo CHAID

Examina las tablas cruzadas de cada variable explicativa con la respuesta.

Realiza pruebas para verificar cual variable explicativa es más significante para la respuesta.

Si la variable posee más de una categoría, el CHAID las compara y agrupa aquellas que no presentan diferencias entre si.

Dentro de cada categoría de la primera variable escogida se examina las predictivas restantes y se verifica cual resulta en la diferencia más significante...

Ejemplos

•Cluster de datos del censatarios con primera parte usando análisis factorial.•Case da Renault, usando información cruzada.•Adquisición de Listas de la Folha de Sao Paulo.•Cultura Inglesa.

Chaid X Clusters

Chaid: los segmentos son derivados para predecir una variable dependiente.

Clusterización: los clusters resultantes pueden no ser predictores.

Precauciones

Realizar un análisis de correlaciones. Tratar las variables. Tener cuidado con el exceso de inteligencia

del árbol o la red neural. Comparar diferentes metodologías con la

curva de ganancia. Probar los resultados. Base de

entrenamiento y base de validación.

Date post:	16-Apr-2015
Category:	Documents
Upload:	velasco-menor
View:	7 times
Download:	1 times

Data Mining para Marketing Directo Juan Carlos Ruilova T. [email protected].

Documents