+ All Categories
Home > Documents > lab1.pdf

lab1.pdf

Date post: 26-Dec-2015
Category:
Upload: juanjovaldes
View: 19 times
Download: 0 times
Share this document with a friend
Popular Tags:
44
Inteligencia de Mercados y Business Intelligence. Profesor: David Díaz., PhD. 1 Laboratorio 1: Introducción a Rapid Miner y Tareas básicas de importación y pre-procesamiento de datos Temas en este laboratorio: Introducción a la interfaz de RapidMiner, ventana de proceso, vista de diseño y vista de resultados Importar datos Inspección de datos, y estadística descriptiva Detección de Valores perdidos y Extremos Selección y Filtro (muestreo aleatorio) Ordenar Datos Creación de atributos (columnas) Modificación de atributos y columnas (nominal y numérica) Presentación Gráfica Básica de resultados Exportación datos formato Comma Separated Value “.CSV”
Transcript
Page 1: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

1

Laboratorio 1:

Introducción a Rapid Miner y

Tareas básicas de importación y pre-procesamiento de datos

Temas en este laboratorio:

Introducción a la interfaz de RapidMiner, ventana de proceso, vista de diseño y vista de

resultados

Importar datos

Inspección de datos, y estadística descriptiva

Detección de Valores perdidos y Extremos

Selección y Filtro (muestreo aleatorio)

Ordenar Datos

Creación de atributos (columnas)

Modificación de atributos y columnas (nominal y numérica)

Presentación Gráfica Básica de resultados

Exportación datos formato Comma Separated Value “.CSV”

Page 2: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

2

Notas para laboratorio Las siguientes notas son realizadas con el objetivo de proveer una visión sobre la aplicación de

RapidMiner y su uso en tareas de minería de datos.

Interfaz de RapidMiner La ventana principal del programa es la siguiente:

Figura 1

(a) Barra de Menú: La barra de menú posee todas las funciones básicas del programa, como abrir,

grabar, cargar datos y la siempre útil opción de ayuda.

(b) Barra de Herramientas: En la parte superior podemos ver una barra con funciones útiles para

poder trabajar con el programa que se verán más adelante.

(c) Accesos rápidos: En esta sección de la pantalla de inicio podemos ver los modos rápidos para

acceder a trabajar con RapidMiner.

(d) Publicidad: Por último debido a que este programa es Freeware posee publicidad para poder

mantenerse.

Primero cree un nuevo proyecto haciendo click en el ícono de “New” en el menú de accesos rápidos

o en alguna de las barras superiores. Con esto se abrirá la siguiente pantalla:

(c)

(b) (a)

(d)

Page 3: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

3

Figura 2

(a) Proceso: Es la sección en la cual trabajamos con los datos y las acciones que tomamos con

ellos. Acá es donde se crean y manipulan los datos para realizar el Data Mining.

(b) Ventana de Parámetros: Esta ventana explica las opciones para trabajar en los distintos

procesos de manipulación de datos que se usarán.

(c) Ventana de trabajo: En esta ventana se puede intercambiar entre dos paneles (tabs), Panel

de Operadores y Panel de Repositorios. En el Panel de Operadores aparecen todas las

distintas opciones para trabajar con los datos, desde importarlos, exportarlos, hasta toda

operación que se hará con ellos como eliminar outliers, ordenarlos, sacar muestras, hacer

modelos, entre otros. En el Panel de Repositorios se aprecian las carpetas y repositorios

creados para contener los archivos con los datos importados, modelos y resultados.

(d) Ventana de explicación: En esta ventana se presenta una explicación breve o ayuda rápida

sobre que hace, qué es y cómo trabaja la función que deseamos realizar, incluyendo sus

argumentos mínimos y opcionales.

RapidMiner utiliza un enfoque visual para representar las tareas de data mining lo que provee una

manera amigable de trabajar con datos. En particular, cada operación es representada como un

ícono, u operador, los cuales son conectados siguiendo una secuencia lógica que representa los

pasos y operaciones a los cuales serán sometidos los datos. Un proceso es un conjunto de

operadores conectados secuencialmente para llevar a cabo la tarea de data mining deseada.

(a)

(b)

(c)

(d)

Page 4: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

4

Figura 3 Ejemplo de Proceso en RapidMiner

En RapidMiner existe un Repositorio, desde el cual los datos son extraídos para luego ser

manipulados por medio de operadores en el proceso respectivo. Una vez que el proceso es

finalizado, es posible guardar tanto los resultados y modelos, como los procesos que fueron

llevados a cabo. El repositorio, entonces, puede contener simultáneamente datos, resultados,

modelos y procesos para su uso posterior o distribución.

El primer paso necesario para llevar a cabo una tarea de data mining es la importación de datos al

Repositorio. Una vez importados los datos pueden ser manipulados por el programa. A

continuación se explica cómo importar datos a RapidMiner.

Nota: Si es la primera vez que usted utiliza el programa, éste le preguntará si desea crear un

Repositorio. Esta tarea es sencilla, y consiste sólo en escoger un Nombre para su repositorio y una

carpeta en su disco duro local, donde desee que los datos, modelos, resultados, y procesos sean

almacenados. Más Información refiérase al Laboratorio Opcional 0.

Page 5: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

5

Preparación y Exploración de Datos

1. Importar datos en RapidMiner.

RapidMiner soporta un gran número de formatos, incluyendo .xls, .csv, .txt, .mdb, etc. En este

laboratorio trabajaremos con un archivo separado por comas o Comma Separated File .csv formato

de uso común en minería de datos. Para importar el archivo Credit.csv que se encuentra en la

carpeta del laboratorio, haga click en File, Import Data, Import CSV File…

Figura 4

Page 6: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

6

Figura 5

Utilizando las ventanas navegue hasta la ubicación donde tiene almacenado el archivo Credit.csv.

Una vez seleccionado haga click en el botón Next.

Figura 6

Dado que el archivo presenta datos separados por comas haga click en la opción de separación de

columnas respectiva. Luego presione el botón Next.

Page 7: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

7

Figura 7

En la siguiente pantalla es posible definir el rol de cada fila. Por ejemplo, es posible determinar que

la primera fila representa el nombre de los atributos. Además, es posible agregar información

adicional como por ejemplo la unidad en que están expresados los datos (KGs, cms, monedas $,

USD$, etc), y cualquier otro comentario adicional. Todas aquellas filas a las cuales no se les asignó

específicamente uno de estos tres roles será tratada por el programa como una observación o dato

para el análisis.

En este caso, podemos notar que la primera fila representa el nombre de los atributos o columnas,

por lo cual, debemos hacer click el menú desplegable y escoger la opción Name. Una vez realizado

éste paso podemos pasar al siguiente haciendo click en Next

En el siguiente paso es posible determinar los tipos de datos correspondientes a cada columna. Por

ejemplo, si la columna es numérica es posible definir que los números sean reconocidos como

enteros, decimales, binarios, continuos, etc. Si la columna es un texto (también llamados cadenas o

strings) es posible determinar si se trata de un atributo ordinal, secuencial o nominal. Finalmente,

RapidMiner también es capaz de reconocer y trabajar con datos del tipo Fecha y Hora.

En la tabla siguiente se especifican los tipos soportados:

Page 8: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

8

Figura 8

Haciendo click en el botón Guess Value Types es posible hacer que RapidMiner intente reconocer y

sugiera un tipo apropiado para cada atributo. Sin embargo, este proceso no siempre logra

reconocer correctamente el tipo de los datos. Por ejemplo, para que la columna Date sea

reconocida como una columna del tipo Fecha es necesario primero escribir en el campo el formato

en que la fecha fue ingresada. En este caso es necesario ingresar dd/MM/yyyy en el campo

respectivo, indicando que las fechas están en el formato, día, mes, año. Luego presione el botón

Guess Value Type.

Page 9: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

9

Figura 9 Antes de ingresar formato de Fecha

Nota: Dependiendo del tamaño del archivo con el que esté trabajando puede ser una buena idea

primero abrir el archivo con MS Excel para familiarizarse con el tipo de datos incluidos en el

archivo. Recuerde, que sin embargo, MS Excel tiene un máximo de filas y columnas que pueden ser

abiertas por el programa, esto es, alrededor de 65mil para las versiones previas a 2003, y cerca de

1millón para las posteriores. Esto significa que si el archivo es demasiado grande no podrá ser

abierto en MS Excel correctamente.

ES MUY IMPORTANTE QUE USTED CIERRE EL MS EXCEL CUANDO TERMINE DE EXPLORAR LOS

DATOS, DADO QUE RAPIDMINER NO PODRÁ LEER EL ARCHIVO SI ESTA SIENDO EDITADO

SIMULTANEAMENTE POR MS EXCEL U OTRO PROGRAMA.

Si la operación fue exitosa será posible apreciar un cambio en la manera en que la Fecha es

reconocida. Note la diferencia en la columna DOB (Date of Birth) antes y después de haber ingresado

el formato de Fecha. Una vez realizada esta operación con éxito presione el botón Next

Page 10: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

10

Figura 10 Después de ingresar formato de Fecha

En el siguiente paso el programa requiere que se defina en cual Repositorio los datos importados

serán guardados. Para ello, escoja una carpeta e ingrese el nombre con el cual los datos quedarán

almacenados en el Repositorio. Si la carpeta no existe, es posible crear una nueva para tales fines.

En este ejemplo guardaremos el archivo en la carpeta RapidMiner_DM_Labs y el archivo guardado

dentro de dicha carpeta será llamado CreditData_lab1

Figura 11

Page 11: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

11

Después de hacer click en Finish podemos ver que al entrar al Panel de Repositorios del menú de la

izquierda nos sale el nuevo repositorio creado con nuestros datos. Posicionando el mouse encima

de CreditData_lab1 Rapidminer muestra una vista rápida de la Meta Data de la tabla de datos

importados. La Meta Data describe las características de los datos, es decir, datos acerca de los

datos, por ejemplo, el formato en el que fueron ingresados, los tipos de los atributos, valores

mínimos, medios, máximos, más frecuentes, etc.

Figura 12

2. Comienzo de Proceso de Data Mining. Exploración y Pre-procesamiento de datos

Una vez que los datos han sido importados exitosamente es posible comenzar a trabajar con ellos.

Siguiendo el estándar de minería de datos CRISP-DM, en las primeras etapas de un proyecto siempre

es necesario lograr un entendimiento adecuado de los datos que serán utilizados, y para ello,

previamente se requiere que los datos hayan sido pre-procesados adecuadamente. El pre-

procesamiento de los datos incluye un gran número de tareas, las que son frecuentemente

denominadas ETL o Extract, Transform, Load por sus siglas en inglés. En estas se incluyen muestreo,

filtro y selección de datos, integración de datos provenientes de diferentes fuentes, detección de

valores extremos y perdidos, creación de nuevos atributos o columnas, agregación o resumen de

datos, reducción de atributos, estructuración de datos no estructurados, etc.

Una vez que el pre-procesamiento ha sido finalizado, se procede a una exploración y visualización

de los mismos de manera de lograr el necesario entendimiento de los mismos de manera de facilitar

los procesos de modelamiento que serán usualmente ejecutados a continuación.

Page 12: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

12

Para comenzar con el pre-procesamiento de los datos contenidos en la tabla Credit.csv simplemente

arrastre el ícono de CreditData_lab1 desde el repositorio a la ventana de proceso.

Figura 13

RapidMiner creará una conexión o línea con el repositorio a su derecha representado por un semi-

circulo al borde de la ventana de procesos y las letras res. Haciendo click con el botón derecho en

res asignaremos una tabla adicional dentro del repositorio donde todos los resultados del proceso

serán guardados:

Page 13: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

13

Figura 14

Haga click en la opción Connect result 1 to repository location. Seleccione la carpeta

RapidMiner_DM_Labs, e ingrese el nombre de la tabla resultados ResultadoProceso_lab1.

Figura 15

Luego de hacer click en OK, vuelva a la ventana de procesos.

Similarmente, ahora crearemos un archivo de proceso el que será guardado en el repositorio. Para

ello, en la barra de menú haga click en File, Save As. Seleccione la carpeta RapidMiner_DM_Labs, e

ingrese el nombre del proceso Proceso_lab1.

Page 14: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

14

Figura 16

Figura 17

Page 15: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

15

Haciendo click en OK ahora se debería poder observar como el repositorio contiene dos archivos:

un archivo con datos CreditData_lab1 y un proceso ProcesoLab1. Al ejecutar el proceso, se creará

un tercer archivo con los resultados del mismo. Veremos como funciona esto más adelante.

Figura 18

Para ejecutar este proceso se debe apretar el botón play en la barra de herramientas de la parte

superior de la pantalla. Al apretar play deberá aparecer la pantalla que se explicará en la siguiente

sección.

Page 16: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

16

3. Exploración de Datos, Meta Datos, Vista de Resultados y Diseño

Figura 19

En RapidMiner es importante notar que hay distintos tipos de vistas las que se pueden intercambiar

haciendo click en los 3 íconos marcados en la imagen en un círculo rojo. El primer botón es la vista

de diseño, el cual nos lleva de vuelta a la pantalla anterior o vista de los procesos. El segundo botón

permite visualizar los resultados de dichos procesos (cada vez que se aprieta el botón play llegamos

a esta vista automáticamente). Es interesante notar que en la mano derecha de la vista de resultados

se aprecia el repositorio. Dado que hemos apretado click en play, ahora también aparecerá un ícono

de ResultadoFinal_lab1 dentro del repositorio.

Hasta el momento el único proceso que hemos llevado a cabo con los datos es su importación al

repositorio. Por lo tanto, la vista de resultados nos presentará los datos tal y cómo fueron

importados desde su fuente de origen. Dentro de la vista de resultados, además, es posible

intercambiar entre diferentes vistas de los datos. Las principales son: Meta Data View, Data View y

Plot View. Para alternar entre ellas simplemente se escoge la vista deseada en el menú

inmediatamente debajo de la barra de menú indicada en un círculo azul.

En Meta Data View es posible apreciar la estadística descriptiva básica de los datos e información

acerca de la calidad de éstos (valores perdidos, nulos, etc.). Además, su Rol (más acerca de esto en

Page 17: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

17

los laboratorios siguientes), el nombre del atributo, el tipo del atributo, y su estadística más

relevante dado el tipo de atributo seleccionado.

Comenzando el análisis y entendimiento de los mismos, podemos observar (Figura 19) que el

atributo de Occupation posee 124 valores perdidos y que existen valores en Mo_Expenses y

Mo_Income que son extremadamente altos, lo cual es un indicio de que los datos pueden contener

errores.

Al entrar en la segunda opción de la vista de resultados, “Data view”, es posible observar todos los

contenidos en la tabla, tal y como vemos en la siguiente imagen. Con esto es posible ver caso a caso

y en detalle los datos de nuestra base. Si bien la Data View es muy importante, ésta puede ser a

veces poco eficiente, sobre todo cuando se trabaja con bases de datos reales las cuales pueden

contener millones de observaciones.

Figura 20

La tercera opción, “Plot View”, nos permite apreciar gráficamente los datos. Por ejemplo,

seleccionado el atributo Mo_Expenses como eje x y atributo Mo_Income como eje y, atributo

Nbr_Children como código de color es posible apreciar el siguiente gráfico (Figura 21. Usar Log Scale

en los ejes x e y):

Page 18: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

18

Figura 21

Figura 22

Page 19: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

19

En la vista de Meta Data, y en la vista Gráfica es posible notar que existen dos valores extremos

(outliers) en los atributos Mo_Income y Mo_Expenses (Figuras 19 y 22). En el siguiente paso,

realizaremos una operación para tomar una acción respecto de éstos valores extremos.

4. Tratamiento de Outliers en la muestra.

Debido a que ahora ejecutaremos una operación en los datos, es preciso volver a la vista de diseño:

Figura 23

Hemos notado que existen outliers en los atributos Mo_Expenses y Mo_Income. Por ello, primero

seleccionaremos sólo estas dos columnas para trabajar en ellas. Para esto debemos entrar en el

Panel de Operadores y hacer click en la carpeta “Data Transformation”. Dentro de esta opción

seleccionamos “Attribute Set Reduction and Transformation”, “Selection”, y “Work on subset”

como aparece en la imagen a continuación:

Page 20: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

20

Figura 24

Ahora para utilizar el proceso “Work on subset” arrastre su ícono al proceso y posiciónelo encima

de la línea. La línea debería cambiar de color levemente para reflejar que el ícono ha sido

posicionado correctamente. Una vez hecho esto suelte el ícono. Si los operadores están bien

conectados su pantalla debiera verse así:

Figura 25

A continuación, dirija su atención a la ventana de parámetros a la derecha de su pantalla. Aquí es

posible especificar en cual subconjunto de atributos trabajaremos, es decir, Mo_Expenses y

Page 21: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

21

Mo_Income. Haga click en el menú desplegable que está situado junto a Attribute filter type.

Escoja la opción subset.

Figura 26

Ahora, haga click el botón Select Attributes que ha aparecido junto a la opción attributes. En la

ventana siguiente seleccione los atributos en los que quiere trabajar y haga click en OK:

Figura 27

Page 22: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

22

Figura 28

En la pantalla siguiente haga doble click en el operador “Work on sub-set”. Al entrar en el Operador

Subset, nos saldrá nuevamente un proceso vacío. Esto es porque estaremos trabajando sólo en los

atributos seleccionados, y todos los procesos que se hagan en este subproceso serán aplicados sólo

a estos campos.

Page 23: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

23

Figura 29

Para detectar valores extremos en los campos escogidos, es necesario navegar en el Panel de

Operadores hasta la carpeta Data Transformation, Data Cleansing, Outlier Detection y arrastrar el

operador Detect Outlier (Distances) a la ventana de proceso como se muestra en las siguientes

figuras:

Page 24: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

24

Figura 30

Figura 31

Una vez arrastrado el operador, debemos entrar como parámetro el número de outliers que

creemos existen en la muestra. Por inspección del gráfico realizado en el paso Data View podemos

pensar que al menos los outliers eran 2, por lo cual pondremos esa cantidad.

Page 25: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

25

Si presionamos el botón de play veremos el resultado de la detección de outliers y nos llevará

nuevamente a la vista de resultados, Meta Data View:

Figura 32

En esta vista se observa que apareció una nueva columna del tipo binomial llamada outlier que nos

dice si los valores caen dentro de esta categoría, es decir, tomará el valor verdadero o falso (true o

false) dependiendo de si la observación es considerada como valor extremo o no.

Page 26: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

26

Figura 33

Si cambiamos a la vista Data View y ordenamos los datos de la columna Outlier de manera

descendente (dos veces click en el nombre de la columna) veremos que las observaciones 178 y 378

(Row no) tienen el valor true en la columna outlier. Cambiando a Plot View y seleccionado

Mo_expenses, Mo_Income y usando outlier en color column, podemos ver que fueron destacados

los outliers en el gráfico (recuerde seleccionar la opción log scale):

Page 27: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

27

Figura 34

5. Operaciones de pre-procesamiento para vacíos, valores perdidos y valores extremos

En el paso anterior logramos identificar observaciones anómalas en nuestra base de datos, pero no

hemos tomado ninguna acción sobre ellas. Similarmente, podemos recordar que en la vista original

de Data View el atributo Occupation tenía 134 filas vacías o valores perdidos (missing). En este paso,

tomaremos una acción para solucionar ambos problemas.

Comenzaremos filtrando (descartando) las filas cuya ocupación es vacía o perdida. Para eso, primero

debemos volver al proceso principal haciendo click en el icono de vista de diseño:

Page 28: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

28

Figura 35

Esto nos llevara a la vista del proceso, pero dado que estábamos trabajando en un subset también

necesitamos volver a trabajar al proceso principal. Para eso haga click en el icono Process que se

encuentra encima del lienzo de procesos como se aprecia en la figura anterior. Una vez en de vuelta

al proceso principal debemos navegar en el Panel de Operadores hasta Data Transformation,

Filtering, Filter Examples y arrastramos este operador al proceso principal, inmediatamente después

del operador Work on Subset:

Page 29: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

29

Figura 36

Después de situar el filtro debemos ingresar en la Ventana de Parámetros que la condition class

será: Attribute_value_filter, y el parameter string: Occupation=\?, también debemos marcar que

se deben invertir el filtro, esto hará que los que posean la ocupación =\? desaparecerán de la base

para los siguientes trabajos. Luego presionamos play.

Page 30: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

30

Figura 37

Nota: Podemos destacar que lo que estamos haciendo en este paso es filtrar los valores vacíos de

la columna Occupation, y para ellos hemos ingresado una condición Occupation=\? El símbolo a la

derecha del signo igual es la convención usada en RapidMiner para denotar un valor vacío cuando

el tipo del atributo es una cadena (string). En caso que quisiéramos filtrar valores vacíos o perdidos

en una columna numérica sería necesario ingresar solamente el signo de interrogación sin el valor

de escape \ por ejemplo, Mo_Income=?

Ahora filtraremos los outliers de las columnas Mo_Income y Mo_Outlier. Repitiendo el proceso

anterior, arrastramos un operador filtro y en el campo de parameter string escribimos la condición

outlier=true e invertimos el filtro seleccionado la opción invertir filter:

Page 31: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

31

Figura 38

Si presionamos play, y pasamos a la vista resultados, Meta Data View ahora debería ser posible

distinguir que ambos valors outliers han sido removidos y que lo mismo ocurrió con los valores

perdidos de la columna Occupation:

Page 32: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

32

Figura 39

6. Creación de nuevos atributos

En la etapa de pre-procesamiento muchas veces es necesario crear nuevas columnas o atributos

basado en los valores de atributos existentes. Por ejemplo, podríamos estar interesados en crear

una nueva columna que fuera el resultado de una operación matemática de otras dos. En esta etapa

crearemos una columna nueva “Mo_Balance”, que será simplemente la diferencia entre el ingreso

y el egreso mensual de cada cliente. Para realizar esto debemos volver a la vista de diseño, y navegar

en el Panel de Operadores a Data Transformation, Generation, y arrastrar desde allí el operador

Generate Attributes:

Page 33: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

33

Figura 40

En la Vista de Parámetros haga click en el botón Edit List e ingresamos el nombre del nuevo atributo,

y la fórmula para crearlo, en este caso la diferencia entre las columnas Mo_Income y Mo_Expenses:

Figura 41

Page 34: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

34

En la columna de la izquierda ponemos el nombre del campo, usaremos Mo_balance, en la columna

de la derecha ingresamos como se calculará, para esto es mejor usar la opción con la calculadora,

como vemos a continuación

Figura 42

Con esto apretamos ok y volverá al cuadro anterior, luego nuevamente aceptamos. Ahora al pasar

a la vista de resultados, Data View podemos ver que una nueva columna ha sido creada:

Page 35: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

35

Figura 43

Como vemos se ha creado en la columna de la derecha el valor Mo_Balance.

Page 36: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

36

7. Transformación de Datos

En la etapa de pre-procesamiento de datos a veces también es necesario o conveniente realizar una

transformación a los valores mismos de los atributos. Por ejemplo, podría ser conveniente cambiar

la escala de una variable, transformarla aplicándole una función de logaritmo, agruparla en

categorías como “alto”, “medio”, “bajo”, transformar una fecha de formato dd/MM/yyyy a sólo

meses o días, etc.

En este laboratorio realizaremos una de las posibles transformaciones a la columna Mo_Balance.

Para ello, en vez de ocupar el resultado numérico, buscaremos transformarla a un valor “alto”,

“medio” o “bajo” dependiendo de cuán lejos o cerca está el valor de cada cliente respecto del valor

promedio de la base de datos.

Para lo anterior, primero normalizaremos los datos usando una transformación Z-score, de manera

que el valor de cada cliente quede representado como una unidad que refleje en número de

desviaciones estándar cuán lejos o cerca está cada valor de la media. Para realizar la normalización

navegue hasta el Panel de Operadores a la carpeta Data Transformation, Value Modification,

Numerical Value Modification y arrastre el operador Normalize al proceso:

Figura 44

En la Ventana de Parametros escoja la opción attribute filter type “single” y el atributo Mo_Balance.

Asegurese que el method seleccionado sea Z-Transformation.

Page 37: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

37

Al apretar play y navegar hasta la Data View podemos apreciar que cada valor de Mo_Balance ahora

ha sido reescalado para representar un z-score. En el siguiente paso transformaremos el z-score a

una categoría. La regla que ocuparemos será la siguiente: si el valor está a menos de 1 desviación

estándar de la media lo reemplazaremos con “average”, si el valor es mayor que una desviación

estandár será reemplazado con “high” y si es menor que 1 desviación con “low”.

Para esto navegue en el Panel de Operadores hasta Data Transformation, Type Conversion,

Discretization y arrastre el operador Discretize by User Specification:

Figura 45

En la Ventana de Parametros seleccione las opciones que se muestran en la figura anterior, y luego

haga click en el botón Edit List. En la ventana Edit Parameter List clases ingrese los intervalos

deseados como se muestra a continuación:

Page 38: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

38

Figura 46

Así, el nivel alto será cuando el valor sea mayor a 1 desviación estándar del promedio, el average

será entre 1 y -1 desviaciones estándar y cuando sea menor a eso será low. Presionado OK y luego

play, podrá chequear como en la Data View la columna Mo_Balance ahora refleja una categoría en

vez de un valor numérico:

Figura 47

Page 39: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

39

8. Técnicas de Muestro

Debido a la gran cantidad de datos con lo que los problemas de data mining tienen que lidiar,

usualmente es necesario trabajar sólo con una muestra. Esta puede ser aleatoria, representativa,

estratificada o no estratificada, dependiendo de lo que sea conveniente para la tarea de modelación

que se pretenda realizar. En este laboratorio partiremos realizando una muestra aleatoria del 50%

de los datos de manera de demostrar los conceptos básicos de este proceso.

Para ello, en la Ventana de Operadores navegue hasta Data Transformation, Filtering, Sampling y

arrastre el operador Sample hasta el proceso. En la ventana de parámetros ingrese la opción sample

relative y el parámetro 0,5 en el sample ratio, luego presione play (nótese que los íconos del proceso

fueron reacomodados sólo por conveniencia visual):

Figura 48

En la Meta Data View es posible observar que el tamaño de la muestra con la que estamos

trabajando ha sido reducida a la mitad, es decir, 141 observaciones:

Page 40: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

40

Figura 49

9. Ordenar por

En pre-procesamiento otra tarea típica corresponde a la ordenación de los datos de acuerdo al valor

ascendente o descendente de algún atributo. Para ordenar por fecha navegamos hasta el operador

Sort y en la sub-carpeta Sorting de la carpeta Data Transformation y lo arrastramos al proceso.

Escogemos la opción de attribute name igual a DOB (Date of Birth) y que sea en orden creciente

(sorting dirección increasing). Al finalizar esto apretamos play, y navegamos hasta la Data View. Los

datos ahora estarán ordenado de menor a mayor de acuerdo a la fecha de nacimiento (DOB) de

cada cliente:

Page 41: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

41

Figura 50

Al pasar a la vista de resultados podemos ver que los datos están ordenados por DOB ascendiente:

Figura 51

Page 42: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

42

10. Guardar y exportar resultados y proceso

Para guardar el resultado final como un CSV, buscamos el operador en la carpeta Export, Data y

arrastramos el operador Write CSV. En la Ventana de Parámetros ingresamos la carpeta de destino,

el nombre del archivo a exportar e importantemente cambiamos el column separator al carácter

coma (,). Al presionar play un archivo .csv con los resultados habrá sido creado en la carpeta

escogida.

Figura 52

Para guardar y exportar el proceso final, dirigase a File, Export Process e ingrese un nombre y un

destino para el archivo que será creado:

Page 43: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

43

Figura 53

Figura 54

Page 44: lab1.pdf

Inteligencia de Mercados y Business Intelligence.

Profesor: David Díaz., PhD.

44

Tarea 1:

1. Usando el archivo con el resultado final del laboratorio remueva el valor perdido de la

columna Nbr_Children.

2. Transforme la columna Mo_Income a categorías “alto”, “medio”, “bajo”.

3. Genere un nuevo atributo discreto llamado “Age” según la edad de los clientes en

categorías nominales (mínimo 3 categorias por ejemplo Young, Adult, Old). Hint. Puede

utilizar operadores de Fecha.

4. Haga un gráfico en que el eje x sea Mo_Balance, eje y Mo_Expenses y el código de color

Mo_Income transformado. Recuerde usar log scale.

5. En vez de remover los valores perdidos o vacíos, ¿qué otro pre-procesamiento sería

interesante intentar? ¿Por qué? ¿Cuáles serían las ventajas y desventajas? Tip. Refiérase al

número de observaciones finales.

6. Explique en que consiste el KDD (Knowledge Discovery in Databases). ¿Cuáles son los pasos

del KDD? Explique la relación del KDD con Rapid Miner.

El formato de entrega de las tareas incluye la respuesta a las preguntas anteriores y la entrega de

todos los archivos de datos, y Rapidminer asociados (procesos y resultados). Además debe entregar

un archivo Word donde se muestren las pantallas de los procesos que fue realizando, junto con

comentarios explicativos de lo realizado.

La realización de tareas se realiza de manera grupal.

Todas las tareas deben ser enviadas a:

[email protected]


Recommended