Date post: | 22-Jan-2016 |
Category: |
Documents |
Upload: | rita-lagos |
View: | 220 times |
Download: | 0 times |
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000
CLASIFICACIÓN NO SUPERVISADA
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000
CLASIFICACION
IMPORTANCIA
PROPÓSITO
METODOLOGÍAS
TIPOS DE CLASIFICACIÓN
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000
IMPORTANCIA
CLASIFICAR HA SIDO, Y ES HOY DÍA, UN PROBLEMA FUNDAMENTAL EN UN AMPLIO ESPECTRO DE DISCIPLINAS CIENTÍFICAS QUE SE EXTIENDE DE LAS CIENCIAS BÁSICAS A LA INGENIERÍA
OTRAS DENOMINACIONES: TAXONOMÍA ANÁLISIS DE CONGLOMERADOS RECONOCIMIENTO DE PATRONES
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000
PROPÓSITO
HACER UNA PARTICIÓN DE UN CONJUNTO DE OBJETOS EN CLASES O CATEGORÍAS
ÉSTAS SE CONSTRUYEN DE MODO QUE UN OBJETO EN UNA CLASE DADA ES SIMILAR A CUALQUIER OTRO DE SU MISMA CLASE, Y OBJETOS EN DISTINTAS CLASES TIENDEN A SER DIFERENTES.
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000
CADA OBJETO ES OBSERVADO MEDIANTE UN CONJUNTO DE VARIABLES CUANTITATIVAS QUE REFLEJAN SUS CUALIDADES FUNDAMENTALES.
OBSERVACIÓN: CONJUNTO DE VALORES DE p VARIABLES ASOCIADO A CADA OBJETO.
CLASIFICAR: AGRUPAR UN CONJUNTO DE n OBSERVACIONES, CUYAS CARACTERÍSTICAS ESTÁN DADAS POR p VARIABLES, BASÁNDOSE EN LAS SEMEJANZAS QUE EXISTAN ENTRE SÍ.
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000
METODOLOGÍAS
ANÁLISIS ESTADÍSTICO MULTIVARIADO ANÁLISIS CLUSTER
ANÁLISIS DISCRIMINANTE
CARACTERÍSTICAS NÚCLEO DE LOS PROCESOS CLASIFICATORIOS
DESARROLLADO EN LA PRIMERA MITAD DE ESTE SIGLO
SE IMPLEMENTAN EFICIENTES ALGORITMOS EN LAS ÚLTIMAS DÉCADAS DEBIDO AL DESARRO-LLO DEL COMPUTADOR
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000
COMPUTACIÓN EMERGENTE
– REDES NEURONALES• PERCEPTRÓN MULTICAPA
• MAPAS AUTO-ORGANIZATIVOS
– LÓGICA DIFUSA
CARACTERÍSTICASMUY EFICIENTES ANTE DATA COMPLEJA
NO EXIGEN CONOCIMIENTO PREVIO DEL TIPO DE DISTRIBUCIÓN
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000
DIVISIÓN FUNDAMENTAL DE LOS MÉTODOS DE CLASIFICACIÓN
• CLASIFICACIÓN SUPERVISADA
SE CONOCE LA CLASE A LA CUAL PERTENECE
CADA PATRÓN DE LA MUESTRA
• CLASIFICACIÓN NO SUPERVISADA LA MUESTRA ES NO CONTROLADA, NO EXISTE UNA
CLASIFICACIÓN PREVIA DE LAS OBSERVACIONES
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000
CLASIFICACIÓN NO SUPERVISADA
DEFINICIÓN:
AGRUPAR UN CONJUNTO DE n OBJETOS, DEFINIDOS POR p VARIABLES, EN c CLASES, DONDE EN CADA CLASE LOS ELEMENTOS POSEAN CARACTERÍSTICAS AFINES Y SEAN MÁS SIMILARES ENTRE SÍ QUE RESPECTO A ELEMENTOS PERTENECIENTES A OTRAS CLASES
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000
PROPÓSITOSGRAFICAR GRUPOS AFINES, COMO ES EL CASO DE LOS DENDROGRAMAS DE LAS TAXONOMÍAS.CLASIFICAR, SIMPLEMENTE, INFORMACIÓN ABUNDANTE Y COMPLEJAHALLAR EL NÚMERO C DE CLASES ADECUADOENCONTRAR SUBCLASES DENTRO DE CLASES NATURALESINTERPRETAR LOS PATRONES ANALIZANDO LAS CAUSAS INTRÍNSECAS DE LA FORMACIÓN DE LOS MISMOS
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000
APLICACIONES
• Mercadeo
• Resultados de búsquedas Web
• Segmentación de imágenes
• Sistemas de recomendación
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000
OBJETIVOS DUALES EN LA OBTENCIÓN DE UNA CLASIFICACIÓN ÓPTIMA
• MINIMIZAR LAS DESVIACIONES ENTRE LAS OBSERVACIONES QUE PERTENECEN AL MISMO GRUPO
• MAXIMIZAR LAS DISTANCIAS ENTRE LOS
CENTROS DE LOS GRUPOS
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000
DISPERSIÓN DE UNA CLASE
DEFINICIÓN:
SE LLAMARÁ SWJ, DISPERSIÓN EN LA CLASE J, A LA SUMA DE LAS DISTANCIAS AL CUADRADO DE CADA OBSERVACIÓN Xi AL CENTRO mj DE LA
CLASE (J) QUE LA CONTIENE
Nj
ijiWj mXS
1
2mj
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000
C
jWjW SPmin
1
CRITERIO DE OPTIMIZACIÓN
MINIMIZAR LA SUMA DE LAS DISPERSIONES DELAS CLASES:
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000
DISPERSIÓN TOTAL:
N
ii mXST
1
2
m
STPw
R 12
INDICADOR, R2
MIDE LA BONDAD DE LA CLASIFICACIÓN
10 2 R
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000
¿CUÁNTAS PARTICIONES SON POSIBLES?
EL NÚMERO DE PARTICIONES DE UN CONJUNTO DE n ELEMENTOS EN c CLASES ESTÁ DADO POR LOS NÚMEROS DE STIRLING DE SEGUNDA CLASE :
N C PARTICIONES
8 3 966
12 4 611.501
15 4 42.355.950
20 5 749.206.090.500
POR EJEMPLO:
ES IMPRÁCTICO HALLAR EL ÓPTIMO CALCULANDO EXHAUSTIVAMENTE EL VALOR DE PW PARA CADA PARTICIÓN
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000
MÉTODOS DE CLASIFICACIÓNNO SUPERVISADA
• ANÁLISIS DE CONGLOMERADOS
– BASADOS EN CENTROIDES
– JERÁRQUICOS
– BASADOS EN DISTRIBUCIONES
– BASADOS EN DENSIDAD
• MAPAS AUTO-ORGANIZATIVOS
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000
MÉTODOS DIRECTOSCARACTERÍSTICAS: CALCULAN LAS DISTANCIAS DE LAS
OBSERVACIONES A POSIBLES CENTROS DE LAS CLASES, PARA LUEGO MODIFICAR ESTOS ÚLTIMOS SIGUIENDO EL CRITERIO DE OPTIMIZACIÓN
NO HACEN USO DE LAS DISTANCIAS ENTRE LOS ELEMENTOS
EL NÚMERO DE CLASES SE FIJA DE ANTEMANO
PRINCIPALMENTE USADO CUANDO N ES GRANDE (N >5000, POR EJEMPLO)
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000
ALGORITMO ITERATIVO DEEVOLUCIÓN DE LOS CENTROS
“K-MEANS”
ETAPAS:• UBICACIÓN DE LOS CENTROS INICIALES DE LAS
CLASES• ASIGNACIÓN DE LAS OBSERVACIONES A LA
CLASE MÁS CERCANA• DETERMINACIÓN DE LOS NUEVOS CENTROS DE
LAS CLASES• VERIFICAR SI SE CUMPLE ALGUNO DE LOS
CRITERIOS DE FINALIZACIÓN DEL ALGORITMO
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000
DETERMINACIÓN DEL NÚMERO DE CLASES
CENTROS FINALES
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000
K-means
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000
K-mean en una imagen
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000
DETERMINACIÓN DEL NÚMERO ÓPTIMO DE CLASES
R2
.7
.3
.6
.5
.4
.8
.2
ÓPTIMO
NO SE OBTIENE UN BENEFICIOSIGNIFICATIVOPOR DESGLOSAREN MAS DE 4CLASES
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000
MÉTODOS JERÁRQUICOSPROPÓSITO:• DADO UN CONJUNTO INICIAL DONDE CADA
ELEMENTO ES UNA CLASE, CREAR UN ARBOL JERÁRQUICO AGRUPANDO EN CADA ETAPA LAS DOS CLASES UBICADAS A MÍNIMA DISTANCIA, ÉSTA INDICA LA ALTURA SOBRE EL ÁRBOL
A
B
C
D
EALTURA
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000
CARACTERÍSTICAS
CLASIFICAN A PARTIR DE LA MATRIZ DE DISTANCIA ENTRE LAS OBSERVACIONES
NO SE FIJA EL NÚMERO DE CLASES SE DETERMINA EL NÚMERO ÓPTIMO DE CLASES
A PARTIR DEL ÁRBOL JERÁRQUICO APROPIADOS SÓLO SI EL TAMAÑO DEL
CONJUNTO ES PEQUEÑO, EN CUYO CASO SON MÁS EFICICIENTES QUE LOS MÉTODOS DIRECTOS
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000
DISTANCIAS A DISTINGUIR
ENTRE ELEMENTOS• EUCLÍDEA
• ESTANDAR
• MAHALANOBIS
• MANHATTAN
• COSENO
ENTRE CLASES• DISTANCIA MÍNIMA
• DISTANCIA MÁXIMA
• DISTANCIA PROMEDIO
• DISTANCIA PROTOTIPO (CENTROIDE)
• MÍNIMA VARIANZA
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000
DISTANCIA DE VUELOS ENTRE CIUDADES DISTANCIA DE VUELOS ENTRE CIUDADES
CLASIFICACIÓN NO SUPERVISADA
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000