Date post: | 26-Dec-2015 |
Category: |
Documents |
Upload: | juanjovaldes |
View: | 19 times |
Download: | 0 times |
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
1
Laboratorio 1:
Introducción a Rapid Miner y
Tareas básicas de importación y pre-procesamiento de datos
Temas en este laboratorio:
Introducción a la interfaz de RapidMiner, ventana de proceso, vista de diseño y vista de
resultados
Importar datos
Inspección de datos, y estadística descriptiva
Detección de Valores perdidos y Extremos
Selección y Filtro (muestreo aleatorio)
Ordenar Datos
Creación de atributos (columnas)
Modificación de atributos y columnas (nominal y numérica)
Presentación Gráfica Básica de resultados
Exportación datos formato Comma Separated Value “.CSV”
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
2
Notas para laboratorio Las siguientes notas son realizadas con el objetivo de proveer una visión sobre la aplicación de
RapidMiner y su uso en tareas de minería de datos.
Interfaz de RapidMiner La ventana principal del programa es la siguiente:
Figura 1
(a) Barra de Menú: La barra de menú posee todas las funciones básicas del programa, como abrir,
grabar, cargar datos y la siempre útil opción de ayuda.
(b) Barra de Herramientas: En la parte superior podemos ver una barra con funciones útiles para
poder trabajar con el programa que se verán más adelante.
(c) Accesos rápidos: En esta sección de la pantalla de inicio podemos ver los modos rápidos para
acceder a trabajar con RapidMiner.
(d) Publicidad: Por último debido a que este programa es Freeware posee publicidad para poder
mantenerse.
Primero cree un nuevo proyecto haciendo click en el ícono de “New” en el menú de accesos rápidos
o en alguna de las barras superiores. Con esto se abrirá la siguiente pantalla:
(c)
(b) (a)
(d)
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
3
Figura 2
(a) Proceso: Es la sección en la cual trabajamos con los datos y las acciones que tomamos con
ellos. Acá es donde se crean y manipulan los datos para realizar el Data Mining.
(b) Ventana de Parámetros: Esta ventana explica las opciones para trabajar en los distintos
procesos de manipulación de datos que se usarán.
(c) Ventana de trabajo: En esta ventana se puede intercambiar entre dos paneles (tabs), Panel
de Operadores y Panel de Repositorios. En el Panel de Operadores aparecen todas las
distintas opciones para trabajar con los datos, desde importarlos, exportarlos, hasta toda
operación que se hará con ellos como eliminar outliers, ordenarlos, sacar muestras, hacer
modelos, entre otros. En el Panel de Repositorios se aprecian las carpetas y repositorios
creados para contener los archivos con los datos importados, modelos y resultados.
(d) Ventana de explicación: En esta ventana se presenta una explicación breve o ayuda rápida
sobre que hace, qué es y cómo trabaja la función que deseamos realizar, incluyendo sus
argumentos mínimos y opcionales.
RapidMiner utiliza un enfoque visual para representar las tareas de data mining lo que provee una
manera amigable de trabajar con datos. En particular, cada operación es representada como un
ícono, u operador, los cuales son conectados siguiendo una secuencia lógica que representa los
pasos y operaciones a los cuales serán sometidos los datos. Un proceso es un conjunto de
operadores conectados secuencialmente para llevar a cabo la tarea de data mining deseada.
(a)
(b)
(c)
(d)
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
4
Figura 3 Ejemplo de Proceso en RapidMiner
En RapidMiner existe un Repositorio, desde el cual los datos son extraídos para luego ser
manipulados por medio de operadores en el proceso respectivo. Una vez que el proceso es
finalizado, es posible guardar tanto los resultados y modelos, como los procesos que fueron
llevados a cabo. El repositorio, entonces, puede contener simultáneamente datos, resultados,
modelos y procesos para su uso posterior o distribución.
El primer paso necesario para llevar a cabo una tarea de data mining es la importación de datos al
Repositorio. Una vez importados los datos pueden ser manipulados por el programa. A
continuación se explica cómo importar datos a RapidMiner.
Nota: Si es la primera vez que usted utiliza el programa, éste le preguntará si desea crear un
Repositorio. Esta tarea es sencilla, y consiste sólo en escoger un Nombre para su repositorio y una
carpeta en su disco duro local, donde desee que los datos, modelos, resultados, y procesos sean
almacenados. Más Información refiérase al Laboratorio Opcional 0.
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
5
Preparación y Exploración de Datos
1. Importar datos en RapidMiner.
RapidMiner soporta un gran número de formatos, incluyendo .xls, .csv, .txt, .mdb, etc. En este
laboratorio trabajaremos con un archivo separado por comas o Comma Separated File .csv formato
de uso común en minería de datos. Para importar el archivo Credit.csv que se encuentra en la
carpeta del laboratorio, haga click en File, Import Data, Import CSV File…
Figura 4
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
6
Figura 5
Utilizando las ventanas navegue hasta la ubicación donde tiene almacenado el archivo Credit.csv.
Una vez seleccionado haga click en el botón Next.
Figura 6
Dado que el archivo presenta datos separados por comas haga click en la opción de separación de
columnas respectiva. Luego presione el botón Next.
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
7
Figura 7
En la siguiente pantalla es posible definir el rol de cada fila. Por ejemplo, es posible determinar que
la primera fila representa el nombre de los atributos. Además, es posible agregar información
adicional como por ejemplo la unidad en que están expresados los datos (KGs, cms, monedas $,
USD$, etc), y cualquier otro comentario adicional. Todas aquellas filas a las cuales no se les asignó
específicamente uno de estos tres roles será tratada por el programa como una observación o dato
para el análisis.
En este caso, podemos notar que la primera fila representa el nombre de los atributos o columnas,
por lo cual, debemos hacer click el menú desplegable y escoger la opción Name. Una vez realizado
éste paso podemos pasar al siguiente haciendo click en Next
En el siguiente paso es posible determinar los tipos de datos correspondientes a cada columna. Por
ejemplo, si la columna es numérica es posible definir que los números sean reconocidos como
enteros, decimales, binarios, continuos, etc. Si la columna es un texto (también llamados cadenas o
strings) es posible determinar si se trata de un atributo ordinal, secuencial o nominal. Finalmente,
RapidMiner también es capaz de reconocer y trabajar con datos del tipo Fecha y Hora.
En la tabla siguiente se especifican los tipos soportados:
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
8
Figura 8
Haciendo click en el botón Guess Value Types es posible hacer que RapidMiner intente reconocer y
sugiera un tipo apropiado para cada atributo. Sin embargo, este proceso no siempre logra
reconocer correctamente el tipo de los datos. Por ejemplo, para que la columna Date sea
reconocida como una columna del tipo Fecha es necesario primero escribir en el campo el formato
en que la fecha fue ingresada. En este caso es necesario ingresar dd/MM/yyyy en el campo
respectivo, indicando que las fechas están en el formato, día, mes, año. Luego presione el botón
Guess Value Type.
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
9
Figura 9 Antes de ingresar formato de Fecha
Nota: Dependiendo del tamaño del archivo con el que esté trabajando puede ser una buena idea
primero abrir el archivo con MS Excel para familiarizarse con el tipo de datos incluidos en el
archivo. Recuerde, que sin embargo, MS Excel tiene un máximo de filas y columnas que pueden ser
abiertas por el programa, esto es, alrededor de 65mil para las versiones previas a 2003, y cerca de
1millón para las posteriores. Esto significa que si el archivo es demasiado grande no podrá ser
abierto en MS Excel correctamente.
ES MUY IMPORTANTE QUE USTED CIERRE EL MS EXCEL CUANDO TERMINE DE EXPLORAR LOS
DATOS, DADO QUE RAPIDMINER NO PODRÁ LEER EL ARCHIVO SI ESTA SIENDO EDITADO
SIMULTANEAMENTE POR MS EXCEL U OTRO PROGRAMA.
Si la operación fue exitosa será posible apreciar un cambio en la manera en que la Fecha es
reconocida. Note la diferencia en la columna DOB (Date of Birth) antes y después de haber ingresado
el formato de Fecha. Una vez realizada esta operación con éxito presione el botón Next
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
10
Figura 10 Después de ingresar formato de Fecha
En el siguiente paso el programa requiere que se defina en cual Repositorio los datos importados
serán guardados. Para ello, escoja una carpeta e ingrese el nombre con el cual los datos quedarán
almacenados en el Repositorio. Si la carpeta no existe, es posible crear una nueva para tales fines.
En este ejemplo guardaremos el archivo en la carpeta RapidMiner_DM_Labs y el archivo guardado
dentro de dicha carpeta será llamado CreditData_lab1
Figura 11
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
11
Después de hacer click en Finish podemos ver que al entrar al Panel de Repositorios del menú de la
izquierda nos sale el nuevo repositorio creado con nuestros datos. Posicionando el mouse encima
de CreditData_lab1 Rapidminer muestra una vista rápida de la Meta Data de la tabla de datos
importados. La Meta Data describe las características de los datos, es decir, datos acerca de los
datos, por ejemplo, el formato en el que fueron ingresados, los tipos de los atributos, valores
mínimos, medios, máximos, más frecuentes, etc.
Figura 12
2. Comienzo de Proceso de Data Mining. Exploración y Pre-procesamiento de datos
Una vez que los datos han sido importados exitosamente es posible comenzar a trabajar con ellos.
Siguiendo el estándar de minería de datos CRISP-DM, en las primeras etapas de un proyecto siempre
es necesario lograr un entendimiento adecuado de los datos que serán utilizados, y para ello,
previamente se requiere que los datos hayan sido pre-procesados adecuadamente. El pre-
procesamiento de los datos incluye un gran número de tareas, las que son frecuentemente
denominadas ETL o Extract, Transform, Load por sus siglas en inglés. En estas se incluyen muestreo,
filtro y selección de datos, integración de datos provenientes de diferentes fuentes, detección de
valores extremos y perdidos, creación de nuevos atributos o columnas, agregación o resumen de
datos, reducción de atributos, estructuración de datos no estructurados, etc.
Una vez que el pre-procesamiento ha sido finalizado, se procede a una exploración y visualización
de los mismos de manera de lograr el necesario entendimiento de los mismos de manera de facilitar
los procesos de modelamiento que serán usualmente ejecutados a continuación.
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
12
Para comenzar con el pre-procesamiento de los datos contenidos en la tabla Credit.csv simplemente
arrastre el ícono de CreditData_lab1 desde el repositorio a la ventana de proceso.
Figura 13
RapidMiner creará una conexión o línea con el repositorio a su derecha representado por un semi-
circulo al borde de la ventana de procesos y las letras res. Haciendo click con el botón derecho en
res asignaremos una tabla adicional dentro del repositorio donde todos los resultados del proceso
serán guardados:
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
13
Figura 14
Haga click en la opción Connect result 1 to repository location. Seleccione la carpeta
RapidMiner_DM_Labs, e ingrese el nombre de la tabla resultados ResultadoProceso_lab1.
Figura 15
Luego de hacer click en OK, vuelva a la ventana de procesos.
Similarmente, ahora crearemos un archivo de proceso el que será guardado en el repositorio. Para
ello, en la barra de menú haga click en File, Save As. Seleccione la carpeta RapidMiner_DM_Labs, e
ingrese el nombre del proceso Proceso_lab1.
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
14
Figura 16
Figura 17
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
15
Haciendo click en OK ahora se debería poder observar como el repositorio contiene dos archivos:
un archivo con datos CreditData_lab1 y un proceso ProcesoLab1. Al ejecutar el proceso, se creará
un tercer archivo con los resultados del mismo. Veremos como funciona esto más adelante.
Figura 18
Para ejecutar este proceso se debe apretar el botón play en la barra de herramientas de la parte
superior de la pantalla. Al apretar play deberá aparecer la pantalla que se explicará en la siguiente
sección.
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
16
3. Exploración de Datos, Meta Datos, Vista de Resultados y Diseño
Figura 19
En RapidMiner es importante notar que hay distintos tipos de vistas las que se pueden intercambiar
haciendo click en los 3 íconos marcados en la imagen en un círculo rojo. El primer botón es la vista
de diseño, el cual nos lleva de vuelta a la pantalla anterior o vista de los procesos. El segundo botón
permite visualizar los resultados de dichos procesos (cada vez que se aprieta el botón play llegamos
a esta vista automáticamente). Es interesante notar que en la mano derecha de la vista de resultados
se aprecia el repositorio. Dado que hemos apretado click en play, ahora también aparecerá un ícono
de ResultadoFinal_lab1 dentro del repositorio.
Hasta el momento el único proceso que hemos llevado a cabo con los datos es su importación al
repositorio. Por lo tanto, la vista de resultados nos presentará los datos tal y cómo fueron
importados desde su fuente de origen. Dentro de la vista de resultados, además, es posible
intercambiar entre diferentes vistas de los datos. Las principales son: Meta Data View, Data View y
Plot View. Para alternar entre ellas simplemente se escoge la vista deseada en el menú
inmediatamente debajo de la barra de menú indicada en un círculo azul.
En Meta Data View es posible apreciar la estadística descriptiva básica de los datos e información
acerca de la calidad de éstos (valores perdidos, nulos, etc.). Además, su Rol (más acerca de esto en
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
17
los laboratorios siguientes), el nombre del atributo, el tipo del atributo, y su estadística más
relevante dado el tipo de atributo seleccionado.
Comenzando el análisis y entendimiento de los mismos, podemos observar (Figura 19) que el
atributo de Occupation posee 124 valores perdidos y que existen valores en Mo_Expenses y
Mo_Income que son extremadamente altos, lo cual es un indicio de que los datos pueden contener
errores.
Al entrar en la segunda opción de la vista de resultados, “Data view”, es posible observar todos los
contenidos en la tabla, tal y como vemos en la siguiente imagen. Con esto es posible ver caso a caso
y en detalle los datos de nuestra base. Si bien la Data View es muy importante, ésta puede ser a
veces poco eficiente, sobre todo cuando se trabaja con bases de datos reales las cuales pueden
contener millones de observaciones.
Figura 20
La tercera opción, “Plot View”, nos permite apreciar gráficamente los datos. Por ejemplo,
seleccionado el atributo Mo_Expenses como eje x y atributo Mo_Income como eje y, atributo
Nbr_Children como código de color es posible apreciar el siguiente gráfico (Figura 21. Usar Log Scale
en los ejes x e y):
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
18
Figura 21
Figura 22
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
19
En la vista de Meta Data, y en la vista Gráfica es posible notar que existen dos valores extremos
(outliers) en los atributos Mo_Income y Mo_Expenses (Figuras 19 y 22). En el siguiente paso,
realizaremos una operación para tomar una acción respecto de éstos valores extremos.
4. Tratamiento de Outliers en la muestra.
Debido a que ahora ejecutaremos una operación en los datos, es preciso volver a la vista de diseño:
Figura 23
Hemos notado que existen outliers en los atributos Mo_Expenses y Mo_Income. Por ello, primero
seleccionaremos sólo estas dos columnas para trabajar en ellas. Para esto debemos entrar en el
Panel de Operadores y hacer click en la carpeta “Data Transformation”. Dentro de esta opción
seleccionamos “Attribute Set Reduction and Transformation”, “Selection”, y “Work on subset”
como aparece en la imagen a continuación:
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
20
Figura 24
Ahora para utilizar el proceso “Work on subset” arrastre su ícono al proceso y posiciónelo encima
de la línea. La línea debería cambiar de color levemente para reflejar que el ícono ha sido
posicionado correctamente. Una vez hecho esto suelte el ícono. Si los operadores están bien
conectados su pantalla debiera verse así:
Figura 25
A continuación, dirija su atención a la ventana de parámetros a la derecha de su pantalla. Aquí es
posible especificar en cual subconjunto de atributos trabajaremos, es decir, Mo_Expenses y
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
21
Mo_Income. Haga click en el menú desplegable que está situado junto a Attribute filter type.
Escoja la opción subset.
Figura 26
Ahora, haga click el botón Select Attributes que ha aparecido junto a la opción attributes. En la
ventana siguiente seleccione los atributos en los que quiere trabajar y haga click en OK:
Figura 27
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
22
Figura 28
En la pantalla siguiente haga doble click en el operador “Work on sub-set”. Al entrar en el Operador
Subset, nos saldrá nuevamente un proceso vacío. Esto es porque estaremos trabajando sólo en los
atributos seleccionados, y todos los procesos que se hagan en este subproceso serán aplicados sólo
a estos campos.
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
23
Figura 29
Para detectar valores extremos en los campos escogidos, es necesario navegar en el Panel de
Operadores hasta la carpeta Data Transformation, Data Cleansing, Outlier Detection y arrastrar el
operador Detect Outlier (Distances) a la ventana de proceso como se muestra en las siguientes
figuras:
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
24
Figura 30
Figura 31
Una vez arrastrado el operador, debemos entrar como parámetro el número de outliers que
creemos existen en la muestra. Por inspección del gráfico realizado en el paso Data View podemos
pensar que al menos los outliers eran 2, por lo cual pondremos esa cantidad.
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
25
Si presionamos el botón de play veremos el resultado de la detección de outliers y nos llevará
nuevamente a la vista de resultados, Meta Data View:
Figura 32
En esta vista se observa que apareció una nueva columna del tipo binomial llamada outlier que nos
dice si los valores caen dentro de esta categoría, es decir, tomará el valor verdadero o falso (true o
false) dependiendo de si la observación es considerada como valor extremo o no.
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
26
Figura 33
Si cambiamos a la vista Data View y ordenamos los datos de la columna Outlier de manera
descendente (dos veces click en el nombre de la columna) veremos que las observaciones 178 y 378
(Row no) tienen el valor true en la columna outlier. Cambiando a Plot View y seleccionado
Mo_expenses, Mo_Income y usando outlier en color column, podemos ver que fueron destacados
los outliers en el gráfico (recuerde seleccionar la opción log scale):
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
27
Figura 34
5. Operaciones de pre-procesamiento para vacíos, valores perdidos y valores extremos
En el paso anterior logramos identificar observaciones anómalas en nuestra base de datos, pero no
hemos tomado ninguna acción sobre ellas. Similarmente, podemos recordar que en la vista original
de Data View el atributo Occupation tenía 134 filas vacías o valores perdidos (missing). En este paso,
tomaremos una acción para solucionar ambos problemas.
Comenzaremos filtrando (descartando) las filas cuya ocupación es vacía o perdida. Para eso, primero
debemos volver al proceso principal haciendo click en el icono de vista de diseño:
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
28
Figura 35
Esto nos llevara a la vista del proceso, pero dado que estábamos trabajando en un subset también
necesitamos volver a trabajar al proceso principal. Para eso haga click en el icono Process que se
encuentra encima del lienzo de procesos como se aprecia en la figura anterior. Una vez en de vuelta
al proceso principal debemos navegar en el Panel de Operadores hasta Data Transformation,
Filtering, Filter Examples y arrastramos este operador al proceso principal, inmediatamente después
del operador Work on Subset:
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
29
Figura 36
Después de situar el filtro debemos ingresar en la Ventana de Parámetros que la condition class
será: Attribute_value_filter, y el parameter string: Occupation=\?, también debemos marcar que
se deben invertir el filtro, esto hará que los que posean la ocupación =\? desaparecerán de la base
para los siguientes trabajos. Luego presionamos play.
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
30
Figura 37
Nota: Podemos destacar que lo que estamos haciendo en este paso es filtrar los valores vacíos de
la columna Occupation, y para ellos hemos ingresado una condición Occupation=\? El símbolo a la
derecha del signo igual es la convención usada en RapidMiner para denotar un valor vacío cuando
el tipo del atributo es una cadena (string). En caso que quisiéramos filtrar valores vacíos o perdidos
en una columna numérica sería necesario ingresar solamente el signo de interrogación sin el valor
de escape \ por ejemplo, Mo_Income=?
Ahora filtraremos los outliers de las columnas Mo_Income y Mo_Outlier. Repitiendo el proceso
anterior, arrastramos un operador filtro y en el campo de parameter string escribimos la condición
outlier=true e invertimos el filtro seleccionado la opción invertir filter:
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
31
Figura 38
Si presionamos play, y pasamos a la vista resultados, Meta Data View ahora debería ser posible
distinguir que ambos valors outliers han sido removidos y que lo mismo ocurrió con los valores
perdidos de la columna Occupation:
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
32
Figura 39
6. Creación de nuevos atributos
En la etapa de pre-procesamiento muchas veces es necesario crear nuevas columnas o atributos
basado en los valores de atributos existentes. Por ejemplo, podríamos estar interesados en crear
una nueva columna que fuera el resultado de una operación matemática de otras dos. En esta etapa
crearemos una columna nueva “Mo_Balance”, que será simplemente la diferencia entre el ingreso
y el egreso mensual de cada cliente. Para realizar esto debemos volver a la vista de diseño, y navegar
en el Panel de Operadores a Data Transformation, Generation, y arrastrar desde allí el operador
Generate Attributes:
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
33
Figura 40
En la Vista de Parámetros haga click en el botón Edit List e ingresamos el nombre del nuevo atributo,
y la fórmula para crearlo, en este caso la diferencia entre las columnas Mo_Income y Mo_Expenses:
Figura 41
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
34
En la columna de la izquierda ponemos el nombre del campo, usaremos Mo_balance, en la columna
de la derecha ingresamos como se calculará, para esto es mejor usar la opción con la calculadora,
como vemos a continuación
Figura 42
Con esto apretamos ok y volverá al cuadro anterior, luego nuevamente aceptamos. Ahora al pasar
a la vista de resultados, Data View podemos ver que una nueva columna ha sido creada:
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
35
Figura 43
Como vemos se ha creado en la columna de la derecha el valor Mo_Balance.
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
36
7. Transformación de Datos
En la etapa de pre-procesamiento de datos a veces también es necesario o conveniente realizar una
transformación a los valores mismos de los atributos. Por ejemplo, podría ser conveniente cambiar
la escala de una variable, transformarla aplicándole una función de logaritmo, agruparla en
categorías como “alto”, “medio”, “bajo”, transformar una fecha de formato dd/MM/yyyy a sólo
meses o días, etc.
En este laboratorio realizaremos una de las posibles transformaciones a la columna Mo_Balance.
Para ello, en vez de ocupar el resultado numérico, buscaremos transformarla a un valor “alto”,
“medio” o “bajo” dependiendo de cuán lejos o cerca está el valor de cada cliente respecto del valor
promedio de la base de datos.
Para lo anterior, primero normalizaremos los datos usando una transformación Z-score, de manera
que el valor de cada cliente quede representado como una unidad que refleje en número de
desviaciones estándar cuán lejos o cerca está cada valor de la media. Para realizar la normalización
navegue hasta el Panel de Operadores a la carpeta Data Transformation, Value Modification,
Numerical Value Modification y arrastre el operador Normalize al proceso:
Figura 44
En la Ventana de Parametros escoja la opción attribute filter type “single” y el atributo Mo_Balance.
Asegurese que el method seleccionado sea Z-Transformation.
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
37
Al apretar play y navegar hasta la Data View podemos apreciar que cada valor de Mo_Balance ahora
ha sido reescalado para representar un z-score. En el siguiente paso transformaremos el z-score a
una categoría. La regla que ocuparemos será la siguiente: si el valor está a menos de 1 desviación
estándar de la media lo reemplazaremos con “average”, si el valor es mayor que una desviación
estandár será reemplazado con “high” y si es menor que 1 desviación con “low”.
Para esto navegue en el Panel de Operadores hasta Data Transformation, Type Conversion,
Discretization y arrastre el operador Discretize by User Specification:
Figura 45
En la Ventana de Parametros seleccione las opciones que se muestran en la figura anterior, y luego
haga click en el botón Edit List. En la ventana Edit Parameter List clases ingrese los intervalos
deseados como se muestra a continuación:
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
38
Figura 46
Así, el nivel alto será cuando el valor sea mayor a 1 desviación estándar del promedio, el average
será entre 1 y -1 desviaciones estándar y cuando sea menor a eso será low. Presionado OK y luego
play, podrá chequear como en la Data View la columna Mo_Balance ahora refleja una categoría en
vez de un valor numérico:
Figura 47
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
39
8. Técnicas de Muestro
Debido a la gran cantidad de datos con lo que los problemas de data mining tienen que lidiar,
usualmente es necesario trabajar sólo con una muestra. Esta puede ser aleatoria, representativa,
estratificada o no estratificada, dependiendo de lo que sea conveniente para la tarea de modelación
que se pretenda realizar. En este laboratorio partiremos realizando una muestra aleatoria del 50%
de los datos de manera de demostrar los conceptos básicos de este proceso.
Para ello, en la Ventana de Operadores navegue hasta Data Transformation, Filtering, Sampling y
arrastre el operador Sample hasta el proceso. En la ventana de parámetros ingrese la opción sample
relative y el parámetro 0,5 en el sample ratio, luego presione play (nótese que los íconos del proceso
fueron reacomodados sólo por conveniencia visual):
Figura 48
En la Meta Data View es posible observar que el tamaño de la muestra con la que estamos
trabajando ha sido reducida a la mitad, es decir, 141 observaciones:
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
40
Figura 49
9. Ordenar por
En pre-procesamiento otra tarea típica corresponde a la ordenación de los datos de acuerdo al valor
ascendente o descendente de algún atributo. Para ordenar por fecha navegamos hasta el operador
Sort y en la sub-carpeta Sorting de la carpeta Data Transformation y lo arrastramos al proceso.
Escogemos la opción de attribute name igual a DOB (Date of Birth) y que sea en orden creciente
(sorting dirección increasing). Al finalizar esto apretamos play, y navegamos hasta la Data View. Los
datos ahora estarán ordenado de menor a mayor de acuerdo a la fecha de nacimiento (DOB) de
cada cliente:
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
41
Figura 50
Al pasar a la vista de resultados podemos ver que los datos están ordenados por DOB ascendiente:
Figura 51
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
42
10. Guardar y exportar resultados y proceso
Para guardar el resultado final como un CSV, buscamos el operador en la carpeta Export, Data y
arrastramos el operador Write CSV. En la Ventana de Parámetros ingresamos la carpeta de destino,
el nombre del archivo a exportar e importantemente cambiamos el column separator al carácter
coma (,). Al presionar play un archivo .csv con los resultados habrá sido creado en la carpeta
escogida.
Figura 52
Para guardar y exportar el proceso final, dirigase a File, Export Process e ingrese un nombre y un
destino para el archivo que será creado:
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
43
Figura 53
Figura 54
Inteligencia de Mercados y Business Intelligence.
Profesor: David Díaz., PhD.
44
Tarea 1:
1. Usando el archivo con el resultado final del laboratorio remueva el valor perdido de la
columna Nbr_Children.
2. Transforme la columna Mo_Income a categorías “alto”, “medio”, “bajo”.
3. Genere un nuevo atributo discreto llamado “Age” según la edad de los clientes en
categorías nominales (mínimo 3 categorias por ejemplo Young, Adult, Old). Hint. Puede
utilizar operadores de Fecha.
4. Haga un gráfico en que el eje x sea Mo_Balance, eje y Mo_Expenses y el código de color
Mo_Income transformado. Recuerde usar log scale.
5. En vez de remover los valores perdidos o vacíos, ¿qué otro pre-procesamiento sería
interesante intentar? ¿Por qué? ¿Cuáles serían las ventajas y desventajas? Tip. Refiérase al
número de observaciones finales.
6. Explique en que consiste el KDD (Knowledge Discovery in Databases). ¿Cuáles son los pasos
del KDD? Explique la relación del KDD con Rapid Miner.
El formato de entrega de las tareas incluye la respuesta a las preguntas anteriores y la entrega de
todos los archivos de datos, y Rapidminer asociados (procesos y resultados). Además debe entregar
un archivo Word donde se muestren las pantallas de los procesos que fue realizando, junto con
comentarios explicativos de lo realizado.
La realización de tareas se realiza de manera grupal.
Todas las tareas deben ser enviadas a: