Date post: | 16-Apr-2015 |
Category: |
Documents |
Upload: | velasco-menor |
View: | 7 times |
Download: | 1 times |
Marketing Directo
Porque Marketing Directo? A las personas no nos gusta que nos traten iguales.
Gran diversidad de clientes cada un con diferentes características.
One to one es el objetivo en los negocios. Ejemplos: Habib’s, UOL Diferente al Marketing de Masas.- requiere
conocimientos técnicos, el gasto es menor, es más estratégico.
Marketing Directo
Como abarcar todos los clientes, cada uno con diferentes características?
Segmentación de mercado.- Regresión Logística, Análisis Cluster, Árboles de Decisión, etc.
La segmentación es realizada sobre datos demográficos, de comportamiento y de actitud.
Antes es necesario conocer bien la base de datos.- Análisis exploratorios.
Marketing Directo
Después de la segmentación se aborda a los clientes con diferentes estrategias para: Fidelización, Cross Selling, Adquisición de Clientes, Migración, Life Time Value, Cancelamiento, Descancelamiento, etc.
Al final siempre son importantes las validaciones y las pruebas que confirmen los resultados.
Data Mining
Ha dado resultados prácticos importantes. A veces ha existido frustramiento por parte
de algunas empresas. El mineo de datos requiere operaciones que
deben ser analizadas por un estadístico o alguien quien conozca no solo los conceptos sino también sepa interpretar los datos cuando existen cambios.
Data Mining
Data Mining requiere de una iteración entre las áreas de Computación, Estadística y del área de Negocios.
Data Mining comenzó a popularizarse debido a la facilidad y bajo costo para guardar informaciones y para utilizar estos datos.
Profesionales con gran experiencia a veces rechazan el Data Mining, pero los resultados son los que le han popularidad.
Data Mining
Data Mining es parte del KDD (Knowledge Discovery in Databases) o búsqueda de conocimientos en bases de datos.
El Data Mining, podría definirse como el proceso que extrae informaciones, sin conocimiento previo, de grandes bases de datos, y las usa para la toma de decisiones.
Data Mining
Dentro del mundo estadístico, el Data Mining es definido peyorativamente como un análisis exploratorio dentro de grandes bases de datos.
El Data Mining es un área multidisciplinaria que relaciona procedimientos como técnicas estadísticas, reconocimiento de padrones, aprendizaje de máquinas, etc.
La selección de una herramienta adecuada es vital para el Data Mining.
Aplicaciones del Data Mining
Sector Bancario, modelos de credit e behavior scoring, comportamiento en el uso de tarjetas de crédito, fidelización, cross selling, life time value, etc.
Marketing y Comercio, comportamiento de compra de clientes, segmentación, respuestas a campañas de marketing, productos comprados vs. características demográficas, adquisición, etc.
Seguros y Planos de Salud, predicción de clientes propensos a comprar pólizas de seguros, identificación de fraudes, etc.
Aplicaciones del Data Mining
Medicina, identificación de mejores terapias para diferentes dolencias, etc.
Industrias, determinación de confiabilidad de productos industriales complejos, calidad, etc.
Transporte, análisis y comportamiento de cargas, logística, cronogramas, fraudes, etc.
Internet, identificación de patrones de home pages, búsqueda y agrupamiento de documentos.
Data Mining y Análisis Estadístico
El Data mining podría entenderse como una adaptación de las técnicas Estadísticas tradicionales, aplicadas a grandes bases de datos.
Muchas bases de datos son constituidas por una enorme cantidad de registros donde las variables pueden estar contaminadas, no ser iid, no presentar estacionariedad, presentar sesgo, etc.
Data Mining y Análisis Estadístico
Debido al gran tamaño de las bases de datos, algunos métodos de estimación secuencial y adaptativos fueron desarrollados.
Otro problema se debe al almacenamiento de la bases de datos y es que muchas veces los datos tienen una estructura hierárquica que dificulta el acceso a la base total. Por esto motivo, técnicas de estratificación y agrupamiento han sido necesarias.
Data Mining y Análisis Estadístico
Otro problema es que cuando existen datos en abundancia, las pruebas de hipótesis quedan comprometidas pues los resultados siempre apuntan a la fuerte evidencia de que efectos, aunque pequeños, existen. La palabra estadísticamente significante, entonces podría verse comprometida.
Data Mining y Análisis Estadístico
Otro aspecto importante dentro del data mining es la depuración de los datos contaminados que básicamente tiene que ver con la detección y tratamiento de los datos missing (datos faltantes o incoherentes) y outliers (datos erróneos y valores reales).
Importancia de las Bases de Datos
El tamaño de las bases de datos es de vital importancia en el Data Mining, así la importancia de un sistema gerenciador es fundamental.
Una característica en una base de datos es definida como un conjunto de líneas que comparten el mismo valor en 2 o más columnas.
La confianza, no en el sentido estadístico, es el porcentaje de líneas con una característica.
Importancia de las Bases de Datos
Estos términos son importantes para determinar incongruencias o excepciones en las bases de datos, así una característica con una gran confianza y un grande número de líneas es más poderosa que una corroborada por un pequeño número de líneas (característica débil).NumDBM Sexo Edad Estado Civil Compro
1 M 25 S 12 M 35 C 13 F 42 D 04 F 28 C 05 M 38 S 16 F 30 S 07 F 44 V 18 M 42 S 09 M 55 C 1
10 J 1
Importancia de las Bases de Datos
Data Warehouse, es un sistema de gerenciamiento de la base de datos relacional.
Tiene fuerte relación con el Data Mining. Data Warehouse extrae datos operacionales
archivados y supera las inconsistencias entre diferentes formatos de datos, además integra los datos de toda la empresa, independientemente de la localización.
En el Data Warehouse una vez que entran los datos no son actualizados ni alterados, simplemente cargados o accesados.
Importancia de las Bases de Datos
Base de Datos Transaccionales
Data Warehouse
Forma Padrón
Métodos de Aprendizaje
Importancia de las Bases de Datos
La idea principal en el Data warehouse es disponibilizar la información de tal forma que pueda ser usada para futuros procesamientos analíticos y toma de decisiones.
Las tareas de Extracción (datos con diferentes formatos), Transformación, Limpieza (Inconsistencias) e Integración son necesarias para mover los datos operacionales al datawarehouse central.
Importancia de las Bases de Datos
Extrae
Bases de Datos Operacionales
Transforma Limpia Data
Warehouse
Importancia de las Bases de Datos
El datawarehouse no resuelve todos los problemas de preparación de los datos para el Data Mining, así los datos extraídos del datawarehouse podrían necesitar de algunas transformaciones.
Otro problema importante que se tiene con las grandes bases de datos es respecto al procesamiento de la información sin sacrificar el tiempo de respuesta.
Importancia de las Bases de Datos
El OLAP (On-line Analytical Processing) permite minimizar este problema y puede ser visto como una extensión del datawarehouse.
La principal característica de una arquitectura OLAP es ser on line, de tal forma que el sistema pueda acceder a grandes cantidades de datos, promover los análisis de relaciones entre las variables, agregar los datos de forma adecuada para el análisis, presentar los datos en diferentes perspectivas y responder rapidamente a las preguntas del usuario (Dilly, 1998).
El proceso KDD
Datos
Selección
Datos Seleccionados
Datos Procesados
Pré procesamiento
Datos Transformados
Tra
nsfo
rmac
ión
Informaciones Extraídas
Data Mining
Asimilación
Aná
lisi
s
El proceso KDD
Selección de las variables.- se refiere a extraer el conjunto de datos necesarios para la aplicación de data mining.Las variables pueden ser categóricas (nominales o ordinales) o cuantitativas (discretas o continuas).Es importante tomar en cuenta las mudanzas de variables tales como empleo, dirección, etc.
El proceso KDD
Preprocesamiento de los datos.- trata de asegurar la calidad de los datos (datos limpios y comprensibles) para esto se usa métodos estadísticos y de visualización de los datos.Datos con errores (outliers) y valores faltantes (missing) son dos problemas resueltos en el preprocesamiento de los datos.
Transformación de los datos.- juega un papel importante, técnicas como discretización, reducción de la dimensionalidad, categorización, etc. Son comúnmente usadas.
El proceso KDD
Data Mining.- ajusta modelos y/o determina características en los datos.El proceso de data mining está directamente relacionado a la experiencia e intuición del analista, pues para cada problema existen un sinnúmero de algoritmos de data mining.Los algoritmos de data mining, en general, tienen una mezcla de cuatro componentes: El Modelo, Estimación de los parámetros, selección del modelo.
El proceso KDD
El modelo, cuya función puede ser: Clasificación, Regresión, Dependencia, Asociación, Tendencia, Cluster, Sumarización, etc.
La representación del modelo determina la flexibilidad del mismo a representar los datos y su interpretación.Los métodos más complejos generalmente ajustan mejor los datos pero son más difíciles de interpretar. Ejemplos son modelos que incluyen decisión por árbol, modelos lineales, modelos no lineales, reglas de decisión, etc.
El proceso KDD
Estimación de parámetros, estima los parámetros necesarios para poder realizar la representación del modelo.
Selección del mejor modelo, de entre varios modelos se escoge el mejor, pudiendo realizarse pruebas experimentales o teóricas o ambas.
El proceso KDD
Los pasos en el KDD no comparten el mismo peso en términos de esfuerzo y tiempo.
La preparación de los datos, por ejemplo, que envuelve la selección, procesamiento y transformación de los datos necesita entre el 60 y 80% del tiempo utilizado en todo el proceso, con la mayor parte del tiempo consumido en la limpieza de los datos.
Análisis Estadístico para KDD
Medidas de Locación Medidas de Dispersión Medidas de Simetría y Curtosis Tipos de Variables Distribución de frecuencias Tipos de Gráficos Análisis Exploratoria
– Análisis Univariada;– Análisis Cruzada; – Reducción de Datos; etc.
Correlación y Regresión Muestreo y Poblaciones Probabilidad y Estadística
Análisis Estadísticos
Atravesamos nuestra vida tomando decisiones basadas en informaciones incompletas.
La mayoría de nosotros convive confortablemente con algún nivel de inseguridad.
Lo que vuelve a los Estadísticos únicos es su habilidad de cuantificar la inseguridad – esto los vuelve capazes de hacer afirmaciones categóricas con total confianza, al respecto de sus insegiridades...
La Estadística es el arte de torturar los números hasta que digan la verdad...
Porqué la Estadística ha ganado importancia en el Database Marketing?
Empresas con gran cantidad de clientes Gran volumen de datos por cliente Costos computacionales en caida Capacidad de procesamiento en alta Busqueda de performance en Marketing
datosinfor-mación
deci-siones acciones
Estadística y Marketing Directo
Población
Muestra
Estimación/predicción de cantidades desconocidas y extrapolación de resultados
Modelos Predictivos
Estatística Descritiva Presentación, sumarización e interpretación de los datos
Conceptos básicos
Modelos de SegmentaciónSegmentaciones
PruebasPruebas de hipótesis a partir del análisis de probabilidades
Inferencia Estadística
Análisis Exploratorio
Consistencia de Datos. Detección y tratamiento de Outliers y
Missings. Transformación de datos. Selección de las variables para el modelo. Requiere técnicas de visualización. Requiere de experiencia para la selección y
tratamiento de las variables.
Análisis Exploratorio
Es fundamental que los profesionales de DBM conozcan íntimamente los dados de clientes y prospects.
La comprensión de la lógica aplicada a la arquitetura de datos y de las reglas empleadas para realizar las actualizaciones a cada carga de datos es crucial para el análisis. (Ejemplo Folha de Sao Paulo).
Gran parte de los análisis preliminares de datos es hecha a través de los portales web específicos (BI).
La estadística descriptiva es el primer paso para un buen conocimiento de los datos.
Tipos de variables
Nominales
(sexo, estado civil)
Cualitativas
(Dimensões) Ordinales
(grado de escolaridad)
Discretas/ categóricas
(edad, número de hijos)
Cuantitativas
(Fatos) Continuas
(gasto)
Variables
Base de datos Exemplo
Nome Peso Altura Idade Sexo Cargo/área Estado civil FilhoCátia Petri 56 1.59 24 Feminino estatítico Solteiro - Cristiane 57 1.79 21 Feminino analista Solteiro - Silvia 58 1.62 27 Feminino gerente Solteiro - Ana Cristina 64 1.7 24 Feminino dbm Solteiro - Denise 63 1.55 37 Feminino copeira Casado 5.00 Ana Paula 48 1.61 25 Feminino gerente Solteiro - Adriana 53 1.51 22 Feminino analista Solteiro - Tatiana 68 1.76 25 Feminino dbm Solteiro - Fernanda 59 1.62 27 Feminino gerente Solteiro - Carlos 80 1.81 44 Masculino gerente Casado - Johnny 72 1.71 31 Masculino dbm Casado 1.00 Rovane 89 1.85 30 Masculino gerente Casado 0.39 Giba 84 1.86 31 Masculino analista Solteiro - Ismael 82 1.8 23 Masculino dbm Casado 1.00 Ricardo 78 1.79 21 Masculino analista Solteiro - Henrique 81.5 1.8 22 Masculino dbm Solteiro - Fabiano 125 1.82 27 Masculino gerente Casado - Ranoya 79 1.7 33 Masculino diretor Casado 1.97 Rubão 87 1.9 49 Masculino presidente Casado 3.00 Marcelo 89 1.83 31 Masculino diretor Casado - Leonardo 85 1.85 31 Masculino gerente Casado 1.78 Ray 89 1.84 42 Masculino diretor Casado 1.00 Daniel 85 1.78 26 Masculino estatítico Casado 0.44
Medidas de Resumen
Medidas de ubicación:
– Media
– Mediana: valor que se encuentra en el centro de una serie ordenada de números
– Moda: valor que ocurre con mayor frecuencia
– Quartiles: valores que dividen una serie ordenada en cuatro partes iguales (Q1, mediana, Q3)
– Mínimo, máximo
n
x x i
Medidas de resumo
Medidas de posição: (variável peso)
48 53 56 57 58 59 63 64 68 72 78 79 80 81,5 82 84 85 85 87 89 89 89 125
Moda: 89Média: 75,28
Q1 Q3Mediana
Mínimo Máximo
Peso medio: 73.28kgConclusión: todos pesam 73.28 kg!!!
Nós não somos todos
iguais!!!
Medidas de Resumen
Medidas de dispersión
Amplitud: diferencia entre el mínimo y el máximo.Amplitud = max - min = 125 - 48 = 77
Intervalo interquartil: diferencia entre el tercer y el primer quartil.
IIQ = Q3 - Q1 = 85 - 59 = 26
IIQ
AmplitudeA idea es dividir los datos en 4 grupos iguales y verificar cuan distantes los grupos extremos son.
Box Plot para Edad
Q1 = 24Mediana = 27
Q3 = 31
23N =
IDA
DE
60
50
40
30
20
10
22
10
19
Outliers
IIQ = 6
Q3 + 1,5*IIQ=40
Medidas de Resumen
Medidas de dispersión• Desviación Estándar: La Desviación Estándar mide la
dispersión de los datos alrededor de la media.• Se puede pensar como la distancia media entre cada
observación y su media.• La Variancia es la Desviación Estandar al cuadrado.
n
)x(xσ
2i
Ejemplo
Peso Altura Idadenº funcionários 23 23 23Mínimo 48 1.51 21Máximo 125 1.9 49Média 75.28 1.74 29.26Mediana 79 1.79 27Q1 59 1.62 24Q3 85 1.83 31Desvio padrão 17.08 0.11 7.55
Observación Importante
• Los Box Plots son útiles para comparar variables dentro de las categorías de esta variable.
149N =
SEXO
MasculinFeminino
PE
SO
140
120
100
80
60
40
17
Los hombres son más pesados que las mujeres, siendo que la mujer más pesada es más liviana que el hombre más liviano.
No siempre es fácil establecer conclusiones, siendo necesarias otras herramientas.
Observación Importante
• Es importante tener mucho cuidado en las conclusiones.
En general, las personas casadas son más pesadas que las solteras.
Conclusión: El casamiento engorda!
1112N =
Estado civil
SolteiroCasado
PE
SO
140
120
100
80
60
40
5
17
Medidas de Resumen
Medidas de Simetría.
Distribución Simétrica (Curva Normal)
Media=Mediana=Moda
Asimétrica a la derecha Moda<Mediana<Media
Asimétrica a la izquierda Media<Mediana<Moda
s
Mediana)-x3( Asimetría de eCoeficient
Si 0.15 < |Coef.As.| < 1, la asimetría es considerada moderada, si |Coef.As|>1 la asimetría es considerada fuerte.
Medidas de Resumen
Coeficiente de Curtosis. Es el grado de achatamiento de una distribución en relación a una distribución estándar (curva normal, por exemplo).
Curva Leptocurtica Curva Normal (mesocurtica) Curva Platicurtica
0)Percentil1-l902(Percenti
Quartil1-Quartil3 Curtose
Curtose = 0.263 curva mesocurtica
Curtose < 0.263 curva leptocurtica
Curtose > 0.263 curva platicurtica
Muestreo
Población es un conjunto de entes portadores de por lo menos una característica en común, esto es la definición de universo estadístico.
Muestra es cualquier subconjunto finito de una población. La gran ventaja de una muestra es el entendimiento de la población a
bajo costo. Muestreo es el conjunto de técnicas para escoger una muestra.
Normalmente el muestreo debe ser hecho aleatoriamente para garantizar representatividad, puede ser hecho con base en diversos métodos que garantizan mayor representatividad, por ejemplo, a través de métodos de estratificación, conglomerados, etc.
Hacer inferencias al respecto de una población exige planeamiento correcto desde el cálculo del tamaño de muestra ideal, reglas de estratificación, y definición de los objetivos y objetos a ser medidos posteriormente, para que se garantice la calidad y validez de las informaciones.
Errores en el muestreo producirán errores en las inferencias.
Tabulaciones (Distribuciones de Frecuencia)
En la selección de un grupo de clientes para una oferta, en la preparación de un modelo, o en la segmentación de la base de datos, tabulaciones (uni o multivariadas) son la forma de análisis más común en DBM.
Este análisis permite que el analista identifique cuáles datos tienen relación con el comportamiento en análisis (compras, pagamientos, renovaciones, etc.)
Frecuencia es el número de observaciones relacionado a un determinado valor de la variable.
Puede ser representada en una tabla o gráficamente.
Distribución de Frecuencias
CARGO
4 17.4
1 4.3
5 21.7
3 13.0
2 8.7
7 30.4
1 4.3
23 100.0
analista
copeira
dbm
diretor
estatítico
gerente
presidente
Total
Frequência %"Cargo"
0%5%
10%15%
20%25%30%35%
anal
ista
copei
radbm
direto
r
geren
te
presi
dente
po
rcen
tag
em
Idade (anos) Frequência %Até 25 9 39.1%
De 26 a 30 5 21.7%De 31 a 35 5 21.7%De 36 a 40 1 4.3%Mais de 40 3 13.0%
Idade (anos)
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
Até 25 De 26 a 30 De 31 a 35 De 36 a 40 Mais de 40
po
rcen
tag
em
Histogramas
Es la representación gráfica de la distribución de frecuencias.
Son útiles para describir el comportamiento de una variable.
Es importante tener un buen conjunto de clases para tener una buena visualización gráfica.
Son una aproximación de la densidad, la que trae toda la información acerca de una variable.
Valor por ciclo
300
200
100
0
Std. Dev = 161.03
Mean = 420.7
N = 965.00
Cross Tabs (Tabulaciones Cruzadas)
Muestran 2 o más variables al mismo tiempo. Destacan inter-relacciones entre variables, mostrando que una
variable poco relevante puede ser bastante importante cuando es considerada en conjunto.
Ejemplo (Tabulación).- Tasa de respuesta a una oferta en relación a la edad del respondiente.
IdadeQtde
% da Amostra
No. dePedidos
Taxa deRespostaIndexação
Menos de 30 1,529 15.29% 67 4.38% 17531-40 1,775 17.75% 63 3.55% 14241-50 1,879 18.79% 46 2.45% 9851-60 2,054 20.54% 29 1.41% 56Mais de 61 1,785 17.85% 18 1.01% 40Info não disponível 978 9.78% 27 2.76% 110Total 10,000 100.00% 250 2.50% 100
Cross Tabs (Tabulaciones Cruzadas)
Ejemplo (Tabulación cruzada).- Ofertas realizadas en una campaña vs. Pedidos efectuados.
Total de Ofertas realizadas
Total de Pedidos 1-5 6-10 11-20 21-30 31 plus Total
00.00%
(0/0)
0.00%
(0/0)
0.00%
(0/0)
0.00%
(0/0)
0.00%
(0/0)
0.00%
(0/0)
1-50.00%
(0/0)
1.63%
(8/491)
1.76%
(17/967)
2.34%
(20/856)
1.60%
(16/998)
1.87%
(62/3,312)
6-100.00%
(0/0)
2.89%
(8/277)
1.85%
(14/756)
2.51%
(29/1,154)
1.80%
(16/887)
2.21%
(68/3,074)
11-150.00%
(0/0)
0.00%
(0/0)
3.03%
(14/462)
3.03%
(29/956)
2.67%
(21/787)
2.90%
(64/2,205)
15 plus0.00%
(0/0)
0.00%
(0/0)
3.34%
(12/359)
5.03%
(30/597)
3.53%
(16/453)
3.97%
(56/1,409)
Total0.00%
(0/0)
2.08%
(16/768)
2.24%
(57/2,544)
3.03%
(108/3,563)
2.21%
(69/3,125)
2.5%
(250/10,000)
Correlación
La relación entre dos variables puede ser medida a través de la correlación.
Dos variables pueden ser correlacionadas positiva o negativamente, pueden ser correlacionadas de forma no lineal o también pueden ser no correlacionadas.
Aplicaciones.- Cross Selling, Churn, etc.
Correlación Lineal Negativa
Correlación No-Lineal
No hay correlación (correlació
n nula)
Correlación Lineal Positiva
La existencia de grupos de
nubes de puntos puede interferir en el
resultado
Regresión
Determinar la relación de una variable vs. Otras.
0
10
20
30
40
50
60
70
80
90
0 5 10 15 20 25 30
Qtde. de cheques
Qtd
e.
de C
lien
tes
Regresión
Métodos.- Mínimos Cuadrados, Máxima Verosimilitud.
Tipos.- Lineal, No Lineal, Paramétrica, No Paramétrica, Modelos Mixtos, etc.
Objetivos.- Realizar previsiones de una variable de interés en función de otras variables conocidas.
Ejemplos.- Modelos de Descancelamiento, Estimación de la Volatilidad, Modelos Churn, Elasticidad del Precio, etc.
Distribuciones de Probabilidad
Importancia.- Describir totalmente el comportamiento de una variable aleatoria.
Existen, modelos teóricos de probabilidad, que podemos adaptar a experimentos aleatorios en la práctica, como por ejemplo, la distribución Binomial, Normal, Poisson, etc.
Exemplo1: La Regresión Logística, por ejemplo, admite que la variable respuesta tiene una distribución Binomial o Mutlinomial.
Exemplo2: La Regresión Lineal admite que hay un error aleatorio con distribución Normal.
Importancia de la Distribución Normal.- Teorema del Límite Central: Si tomamos una gran muestra de observaciones de una variable que sigue cualquier distribución, y que tenga variancia finita, entonces la distribución de la media muestral será aproximadamente normal.
Distribuciones de Probabilidad
Ejemplo 3: La Distribución del Número de Compras efectuada por los clientes de una empresa puede ser aproximada por Distribución de Poisson.
Ejemplo 4: La distribución Lognormal también es una buena aproximación para informaciones de consumo de clientes.
Ejemplo 5: El ajuste da regresión Logística permite la obtención de los Scores de Descancelamiento, Cancelamiento, Aquisición. El score ajustado de la regresión logística es un buen ejemplo de la aproximación de la Respuesta Binomial para la Distribución Normal. (Separación de buenos y malos clientes)
Tratamiento, limpieza, deduplicación, householding
Listas y otras fuentes externas
Call Center
Facturamiento
Sistemas transacionais
Base de Prospects
Base de Cadastros
Website
DBM Banco datos
Otras origenes
Modelos estadísticos, geomarketing
Customer Intelligence: Relatórios/ Análisis/ Estrategia
Website dinámico
Mala Direta
Call Center E-mail
Fuerza de Vendas
Campañas/ Resultados
Premios, puntos
Campañas de Relacionamiento Loyalty
Análisis Predictiva y Descriptiva
Predictiva Determina la relación entre
datos y respuesta Identifica que datos son
relevantes Determina la contribución de
cada variable
Descriptiva Describe miembros del
database conforme los datos
Asume que todos los datos son igualmente relevantes
Considera que todas las variables contribuyen
Análisis Predictiva y Descriptiva
Predictiva Regresión Lineal Regresión Logística Series Temporales Árboles de decisión Redes Neurales
Descriptiva Frecuencias Tablas cruzadas Análisis de perfil Árboles de decisión Análisis de Clusters Análisis Factorial
63
Segmentación.- Objetivos
Entender la utilidad y el porqué es necesario la segmentación.
Entender los métodos y las dificultades para segmentar una base de datos.
Comparar las diferentes técnicas de segmentación.
Discutir algunos ejemplos y cases de aplicación de las técnicas de segmentación.
Objetivo principal de una segmentación: Definir grupos de clientes de modo que los clientes de cada grupo tengan características semejantes.
Segmentación de mercado
Métodos de Segmentación:
Tabulación (Conteo)
Modelación Estadístico– Clusterización– Árboles de decisión– Análisis factorial, discriminante
Ejemplo de Tabulación
IngresosEdad 0 - 1.000 1.000 - 2.000 2.000 - 3.000 3.000 - 4.000
20 - 30 anos 400 200 120 60
31 - 40 anos 1000 300 - -
41 - 50 anos - - 400 300
51 - 60 anos - - 39 12
Más 60 anos - 500 120 -
Tabulación (conteo)
Pocas variables envueltas. Exige poca técnica. Usuario impone una segmentación a los datos. El resultado depende del formato impuesto. La identificación de los grupos se realiza en función
de la experiencia o de la necesidad de la empresa de tener tales grupos.
Ejemplo de segmentación con base en Edad e Ingresos
Renda
Idade Até 1000De 1001 a
2000De 2001 a
3000De 3001 a
4000Mais de
4001Total
21 a 30 anos 3 2 6 1 2 1431 a 40 anos 3 1 0 6 6 1641 a 50 anos 0 2 2 4 1 951 a 60 anos 5 2 0 4 0 11Mais de 61 anos 2 1 1 0 0 4
Total 13 8 9 15 9 54
Gráficamente
Ingresos
Edad
0 $ 1.000 $ 2.000 $ 3.000 $ 4.000
60
50
40
30
20
Podemos estipular puntos de corte para limitar los grupos
Ingresos
Edad
0 $ 1.000 $ 2.000 $ 3.000 $ 4.000
60
50
40
30
20
Ingresos: corte en 3.000 Edad: corte en 40 años
Ingrasos
Edad
0 $ 1.000 $ 2.000 $ 3.000 $ 4.000
60
50
40
30
20
Con quién estos
puntos más se parecen?
Muchas variables envueltas Exige conocimiento técnico Los datos hablan por si mismos El resultado “depende” de la propria naturaleza
de los datos. La experiencia y el conocimiento del negocio
también es importante, pero solo en la selección de las variables.
Segmentación con técnicas estadísticas
Es possível ‘forzar’ los resultados creando agrupamientos diversos.
Segmentación con técnicas estadísticas
Aplicaciones:
Segmentar el público en grupos homogéneos.
Descubrir individuos fuera del padrón.
Descubrir los individuos que mejor representan cada grupo (centroides – personificación de los grupos)
Gráficamente
Ingresos
Edad
0 $ 1.000 $ 2.000 $ 3.000 $ 4.000
60
50
40
30
20
Técnicas para segmentación
Cluster– Técnica estadística más utilizada para hacer segmentación.– Busca identificar grupos ‘naturales’ de clientes.
Análisis Factorial– Normalmente utilizado como un método de reducción de datos.– Crea variables compuestas que ‘capturan’ el máximo possible
De lo que es medido por los datos originales.– Estas variables compuestas pueden ser utilizadas como base
para una análisis de segmentación. Árboles de decisión
– Básicamente utilizado para identificar clientes que son probables de pertenecer a un grupo en particular.
Clusterización
Divide el universo en grupos homogéneos.
Clusters ideales : homogeneidad intra-grupo, heterogeneidad inter-grupos.
Clusterización
Clusterización
Variação intra grupos
Clusterización
Variação entre grupos
Clusterización: Algoritmos buscam maximizar las diferencias inter-grupos y minimizar las diferencias intra-grupos
Algoritmo
Diferencias Inter-GruposDiferencias Intra-Grupos~ F
Clusterización
Dos técnicas:– clusterización hierárquica– clusterización “K-means”
Cluster Hierárquico
Inicio: Los dos objetos (observaciones o variables) más próximos son combinados.
Para definir la proximidad entre los objetos, se adopta una medida de distancia.
El algoritmo continua paso a paso juntando a los clusters formados, los objetos más próximos a ellos, hasta formar un solo cluster.
Una vez unidos, dos objetos no son más separados.
Clusterización por el Método Hierárquico
Los pasos de la clusterización son mostrados en un dendograma.
El método es hierárquico pues una vez que dos objetos son unidos, ellos permanecen así hasta el fin.
Clusters formados en una etapa posterior contienen clusters formados en etapas anteriores.
Ejemplo: Dendograma
Distancia media entre los Clusters
Ciudad
Ciudades más semejantes
También son semejantes
Ejemplo: Dendograma
Distancia media entre los Clusters
Ciudad Si quisiéramos
dos grupos de ciudades
Ejemplo: Dendograma
Distancia media entre los Clusters
Ciudad Se quisiéramos
3 grupos de ciudades
Métodos para la clusterización hierárquica
Single Linkage (“Nearest Neighbor”) Complete Linkage (“Furthest Neighbor”) Centroid Clustering Median Clustering Average Linkage Between Groups Ward´s Method
Clusterización Hierárquica
Shortest
Simple Linkage
Longest
Complete Linkage
Clusterización Hierárquica
Average Linkage Between Groups
Centroid clustering
Clusterización por el método de K-Means
K porque el analista puede escoger el número de clusters a ser formados.
Means porque las medias (o centroides) de las observaciones representan el cluster.
Es un proceso iterativo donde, a cada paso, las observaciones son agrupadas en el cluster con el centroide más próximo, con el subsiguiente recálculo dos centros.
Define inicialmente 3 posibles centroides
Ejemplo (K-means)
Três clusters para um grupo de clientes utilizando as variáveis idade e renda
Ejemplo (K-means)
A cada nueva observación, se clasifica el individuo y el centroide es recalculado
A cada nueva observación, se clasifica el individuo y el centroide es recalculado
Precauciones para Clusterizar
Estandarizar las variables para evitar que valores grandes afecten más a las medidas de distancia que los valores pequeños.
La técnica no identifica automáticamente variables “sin sentido”
Es importante realizar primero una clusterización hierárquica (en una muestra) y después una K-means, caso no sea posible trabajar con toda la base.
Ejemplos
Cluster de Productos (variables).- Adams
Cluster de Clientes (Observaciones).- Credicard (Hierárquico y K-means)
Cluster de Censos.
Análisis Factorial
Utilizado para disminuir el número de variables a ser utilizadas en una segmentación.
Crea variables compuestas (factores) que pueden ser utilizadas en el análisis de cluster o en la regresión logística.
Cada factor atribuye un score a cada una de las variables, pudiendo variar de -1 a 1, de acuerdo con la importancia de la variable.
Análisis Factorial
Se puede crear tantos factores cuanto el número de variables utilizadas en el análisis.
Cada factor es responsable por explicar un porcentaje de la variabilidad total de los datos.
En general, los factores generados por el análisis poseen una interpretación lógica.
Cluster X Análisis Factorial
El análisis de clusters puede ser rodado utilizándose
un número grande de variables, mas pueden ocurrir
dos contratiempos: Se muchas variables miden las mismas (o muy
similares) características, entonces lo que ellas miden puede tener un peso mayor en el análisis.
Un análisis de clusters con muchas variables es de difícil interpretación.
Sugerencia: en estos casos es útil primeramente correr un análisis factorial y luego un análisis Cluster.
Análisis Factorial
Ejemplo: En un estudio de preferencia de los consumidores, una muestra aleatoria de clientes fue entrevistada sobre los
atributos de un nuevo producto. Las respuestas varían en
una escala de 0 a 7 (0: pésimo; 7: excelente)
Matriz de correlação
Atibuto (variável) 1 2 3 4 5
1 - Gosto 1.00 0.02 0.96 0.42 0.01
2 - Saudável 0.02 1.00 0.13 0.71 0.85
3 - Sabor 0.96 0.13 1.00 0.50 0.11
4 - Crocante 0.42 0.71 0.50 1.00 0.79
5 - Fonte de energia 0.01 0.85 0.11 0.79 1.00
Atibuto (variável) Fator 1 Fator 21 - Gosto 0.02 0.992 - Saudável 0.94 -0.013 - Sabor 0.13 0.984 - Crocante 0.84 0.435 - Fonte de energia 0.97 -0.02
Análisis Factorial
Proporção acumulada da variabilidade total explicada
0.507 0.932
Fator 1:
fator nutricional
Fator 2:
fator de sabor
Fator 1 = 0,02*Gosto + 0,94*Saudável + 0,13*Sabor + 0,84*Crocante + 0,97*Energia
Fator 2 = 0,99*Gosto - 0,01*Saudável + 0,98*Sabor + 0,43*Crocante - 0,02*Energia
Análisis Factorial
Independientemente del estudio que se desea hacer con estos datos, en lugar de utilizarse las
cinco variables, se puede utilizar apenas los scores de los dos factores, pues se tendría 93,2% de la variabilidad total de las cinco
variables siendo explicada por estos factores.
Árboles de Decisión
Aplicaciones típicas:Mailing (Mala direta): determinar cuáles grupos tienen la mayor tasa de respuesta.
Marketing: determinar cuáles variables están asociadas a las ventas.
Churn: determinar cuáles aspectos más influencian en el cancelamiento.
Listas: Cómo adquirir nuevos clientes.
Árboles de Decisión
El método más conocido para crearse árboles de decisión es el CHAID (Chi-square Automatic Interaction Detection)
Examina la relación entre muchas variables categóricas o discretas y un objetivo categórico o medida de resultado.
El resultado es presentado en forma de un diagrama que muestra las variables explicativas que resultan en una mayor diferencia de la variable objetivo.
CHAID
Ventajas sobre otros tipos de modelación
estadística: Produce un modelo que puede ser
representado por reglas y especificaciones lógicas de fácil entendimiento y que pueden ser utilizadas para generar predicción en nuevas bases de datos.
Trata valores nulos.
Árboles de Decisión
Ejemplo de motivación:– Investigación de clientes para descubrir se ellos
compraron o no un determinado producto. – A partir de variables demográficas (región, sexo,
edad y faja salarial), se desea saber cuáles subgrupos son más probables compradores.
Solución directa: Hacer tablas cruzadas con la respuesta y
verificar cuáles variables son individualmente más relacionadas con la respuesta.
Árboles de Decisión
Y si una combinación de los factores demográficos es relevante para la respuesta?
Tablas de triple entrada, entrada cuádruple...
El análisis sería confuso y complejo!
Algoritmo CHAID
Examina las tablas cruzadas de cada variable explicativa con la respuesta.
Realiza pruebas para verificar cual variable explicativa es más significante para la respuesta.
Si la variable posee más de una categoría, el CHAID las compara y agrupa aquellas que no presentan diferencias entre si.
Dentro de cada categoría de la primera variable escogida se examina las predictivas restantes y se verifica cual resulta en la diferencia más significante...
Ejemplos
•Cluster de datos del censatarios con primera parte usando análisis factorial.•Case da Renault, usando información cruzada.•Adquisición de Listas de la Folha de Sao Paulo.•Cultura Inglesa.
Chaid X Clusters
Chaid: los segmentos son derivados para predecir una variable dependiente.
Clusterización: los clusters resultantes pueden no ser predictores.
Precauciones
Realizar un análisis de correlaciones. Tratar las variables. Tener cuidado con el exceso de inteligencia
del árbol o la red neural. Comparar diferentes metodologías con la
curva de ganancia. Probar los resultados. Base de
entrenamiento y base de validación.