+ All Categories
Home > Documents > Aprendizaje de maquinas Simulacion

Aprendizaje de maquinas Simulacion

Date post: 18-Feb-2018
Category:
Upload: edwinalejandrootalvarogarcia
View: 219 times
Download: 0 times
Share this document with a friend
16
7/23/2019 Aprendizaje de maquinas Simulacion http://slidepdf.com/reader/full/aprendizaje-de-maquinas-simulacion 1/16 1 > REPLACE THIS LINE WITH YOUR PAPER IDENTIFICATION NUMBER (DOUBLE-CLICK HERE TO EDIT) < Predicciones 2.0 1 USING DATA MINING TO PREDICT SECONDARY  SCHOOL STUDENT PERFORMANCE (Math) //cambiar a  español  Abstract   — En este documento se pretende mostrar el trabajo de modelado realizado sobre una base de datos de estudiantes de dos  escuelas secundarias portuguesas que incluyen atributos tales como las calificaciones del estudiante, demográficos, características  sociales y escolares relacionadas, para predecir el comportamiento de sus notas en el area de matematicas… y al mismo tiempo hacer  comparaciones con los resultados de otros autores sobre la misma base de datos o algunas similares... tratado como un problema de  regresión para el cual se simularon resultados de varios métodos de aprendizaje de maquina (Regresión múltiple, Ventana de Parzen,  Redes Neuronales Artificiales y Random Forest) para hallar el método óptimo para la solución del problema y predecir el rendimiento  de los nuevos estudiantes ingresados al sistema … los resultados muestran que...  Index Terms  — Modelos fenomenológicos, aprendizaje de maquina, Regresión, Student Performance, Simulation, Regresión  Múltiple, Ventana de Parzen, Random Forest, Redes Neuronales.  I. I  NTRODUCTION Este documento aborda un problema de aprendizaje de maquina especialmente diseñado para evaluar el rendimiento de los  estudiantes de secundaria en el area de matematicas de dos colegios en Portugal... II. DESCRIPCION DEL PROBLEMA Este documento aborda un problema de aprendizaje de maquina especialmente diseñado para evaluar el rendimiento de los  estudiantes de secundaria en el área de matemáticas con bases de datos tomadas de dos colegios en Portugal, las cuales incluyen  atributos de los datos discretizados tales como las calificaciones del estudiante, aspectos demográficos y características sociales  y escolares relacionadas. El problema se basa en predecir el rendimiento de un nuevo estudiante ingresado al sistema ...fue  tratado como un problema de regresión donde se busca una salida numérica entre cero (0%) y veinte (100%), la cual indica la  nota del estudiante al final del año. Variables de entrada Las variables de entrada tomadas para este experimento fueron las siguientes (las variables de entrada al sistema no están  organizadas en el mismo orden en que son mostradas a continuación). 1 school - student's school (binary: 'GP' - Gabriel Pereira or 'MS' - Mousinho da Silveira) 2 sex - student's sex (binary: 'F' - female or 'M' - male) 3 age - student's age (numeric: from 15 to 22) 4 address - student's home address type (binary: 'U' - urban or 'R' - rural) 5 famsize - family size (binary: 'LE3' - less or equal to 3 or 'GT3' - greater than 3) 6 Pstatus - parent's cohabitation status (binary: 'T' - living together or 'A' - apart) 7 Medu - mother's education (numeric: 0 - none, 1 - primary education (4th grade), 2 – 5th to 9th grade, 3 – secondary  education or 4 – higher education) 8 Fedu - father's education (numeric: 0 - none, 1 - primary education (4th grade), 2 – 5th to 9th grade, 3 – secondary  education or 4 – higher education) 9 Mjob - mother's job (nominal: 'teacher', 'health' care related, civil 'services' (e.g. administrative or police), 'at_home' or 'other') 10 Fjob - father's job (nominal: 'teacher', 'health' care related, civil 'services' (e.g. administrative or police), 'at_home' or 'other') 11 reason - reason to choose this school (nominal: close to 'home', school 'reputation', 'course' preference or 'other') 12 guardian - student's guardian (nominal: 'mother', 'father' or 'other') 1  
Transcript
Page 1: Aprendizaje de maquinas Simulacion

7/23/2019 Aprendizaje de maquinas Simulacion

http://slidepdf.com/reader/full/aprendizaje-de-maquinas-simulacion 1/16

1> REPLACE THIS LINE WITH YOUR PAPER IDENTIFICATION NUMBER (DOUBLE-CLICK HERE TO EDIT) <

Predicciones 2.01

USING DATA MINING TO PREDICT SECONDARY SCHOOL STUDENT PERFORMANCE (Math) //cambiar a español

 Abstract   — En este documento se pretende mostrar el trabajo de modelado realizado sobre una base de datos de estudiantes de dos 

escuelas secundarias portuguesas que incluyen atributos tales como las calificaciones del estudiante, demográficos, características 

sociales y escolares relacionadas, para predecir el comportamiento de sus notas en el area de matematicas… y al mismo tiempo hacer 

comparaciones con los resultados de otros autores sobre la misma base de datos o algunas similares... tratado como un problema de 

regresión para el cual se simularon resultados de varios métodos de aprendizaje de maquina (Regresión múltiple, Ventana de Parzen, 

Redes Neuronales Artificiales y Random Forest) para hallar el método óptimo para la solución del problema y predecir el rendimiento 

de los nuevos estudiantes ingresados al sistema … los resultados muestran que...

 Index Terms — Modelos fenomenológicos, aprendizaje de maquina, Regresión, Student Performance, Simulation, Regresión 

Múltiple, Ventana de Parzen, Random Forest, Redes Neuronales. 

I. I NTRODUCTION

Este documento aborda un problema de aprendizaje de maquina especialmente diseñado para evaluar el rendimiento de los estudiantes de secundaria en el area de matematicas de dos colegios en Portugal...

II. DESCRIPCION DEL PROBLEMA 

Este documento aborda un problema de aprendizaje de maquina especialmente diseñado para evaluar el rendimiento de los estudiantes de secundaria en el área de matemáticas con bases de datos tomadas de dos colegios en Portugal, las cuales incluyen atributos de los datos discretizados tales como las calificaciones del estudiante, aspectos demográficos y características sociales y escolares relacionadas. El problema se basa en predecir el rendimiento de un nuevo estudiante ingresado al sistema ...fue tratado como un problema de regresión donde se busca una salida numérica entre cero (0%) y veinte (100%), la cual indica la 

nota del estudiante al final del año.

Variables de entradaLas variables de entrada tomadas para este experimento fueron las siguientes (las variables de entrada al sistema no están organizadas en el mismo orden en que son mostradas a continuación).

1 school - student's school (binary: 'GP' - Gabriel Pereira or 'MS' - Mousinho da Silveira)2 sex - student's sex (binary: 'F' - female or 'M' - male)3 age - student's age (numeric: from 15 to 22)4 address - student's home address type (binary: 'U' - urban or 'R' - rural)5 famsize - family size (binary: 'LE3' - less or equal to 3 or 'GT3' - greater than 3)6 Pstatus - parent's cohabitation status (binary: 'T' - living together or 'A' - apart)7 Medu - mother's education (numeric: 0 - none, 1 - primary education (4th grade), 2 – 5th to 9th grade, 3 – secondary 

education or 4 – higher education)8 Fedu - father's education (numeric: 0 - none, 1 - primary education (4th grade), 2 – 5th to 9th grade, 3 – secondary education or 4 – higher education)9 Mjob - mother's job (nominal: 'teacher', 'health' care related, civil 'services' (e.g. administrative or police), 'at_home' or 'other')10 Fjob - father's job (nominal: 'teacher', 'health' care related, civil 'services' (e.g. administrative or police), 'at_home' or 'other')11 reason - reason to choose this school (nominal: close to 'home', school 'reputation', 'course' preference or 'other')12 guardian - student's guardian (nominal: 'mother', 'father' or 'other')

Page 2: Aprendizaje de maquinas Simulacion

7/23/2019 Aprendizaje de maquinas Simulacion

http://slidepdf.com/reader/full/aprendizaje-de-maquinas-simulacion 2/16

2> REPLACE THIS LINE WITH YOUR PAPER IDENTIFICATION NUMBER (DOUBLE-CLICK HERE TO EDIT) <

Predicciones 2.0

13 traveltime - home to school travel time (numeric: 1 - <15 min., 2 - 15 to 30 min., 3 - 30 min. to 1 hour, or 4 - >1 hour)14 studytime - weekly study time (numeric: 1 - <2 hours, 2 - 2 to 5 hours, 3 - 5 to 10 hours, or 4 - >10 hours)15 failures - number of past class failures (numeric: n if 1<=n<3, else 4)16 schoolsup - extra educational support (binary: yes or no)17 famsup - family educational support (binary: yes or no)18 paid - extra paid classes within the course subject (Math or Portuguese) (binary: yes or no)19 activities - extra-curricular activities (binary: yes or no)20 nursery - attended nursery school (binary: yes or no)21 higher - wants to take higher education (binary: yes or no)22 internet - Internet access at home (binary: yes or no)23 romantic - with a romantic relationship (binary: yes or no)24 famrel - quality of family relationships (numeric: from 1 - very bad to 5 - excellent)25 freetime - free time after school (numeric: from 1 - very low to 5 - very high)26 goout - going out with friends (numeric: from 1 - very low to 5 - very high)27 Dalc - workday alcohol consumption (numeric: from 1 - very low to 5 - very high)28 Walc - weekend alcohol consumption (numeric: from 1 - very low to 5 - very high)29 health - current health status (numeric: from 1 - very bad to 5 - very good)

30 absences - number of school absences (numeric: from 0 to 93)

Variables de salida Nuestra variable de salida es única e indica la nota del estudiante a final del año.G3 - final grade (numeric: from 0 to 20, output target)

III.   TRABAJOS PREVIOS 

Se han investigado algunos artículos de divulgación científica (sólo artículos de revista) para identificar algunos trabajos similares sobre bases de datos de estudiantes de secundaria, tales como el de Paulo Cortez y Alice Silva [1] los cuales, con nuestra misma base de datos asumen el problema como una regresión y una clasificación para intentar predecir el fracaso en las 

 pruebas de matemáticas, para terminar hallando Random Forest como el mejor modelo para el problema de regresión que es el de nuestro interés, con un ECM de 3.90. Sin embargo otros estudios como los de M. Ramaswami [2][4] se buscan otras formas de resolver este tipo de problemas con métodos como Bayesian Networks (BN) y CHIAD, usando bases de datos muy similares con variables de tipo personal, socioeconómico, psicológico, ambientales y academicos para describir y predecir el rendimiento de los estudiantes en las escuelas secundarias [2], mientras que Ramesh, V y Ramar, K [3] tratan el problema como una clasificación para hallar el mejor método para clasificar a los estudiantes con alto o bajo desempeño en las escuelas secundarias, de acuerdo a las variables que influyen altamente en su rendimiento académico.

En M.Ramaswami y R.Bhaskaran [2] se usa un modelo de predicción CHIAD para analizar la interrelacion entre las variables que se utilizan para predecir el resultado del desempeño en la educación superior de la escuela secundaria. Los modelos CHIAD de predicción del rendimiento fueron construidos con un predictor de variables de siete clases. Una técnica de regresión lineal simple fue usada para construir el modelo de regresión, después de la codificación de los valores categóricos de todas las variables predictoras en valores numéricos. La exactitud de predicción del rendimiento de los estudiantes que se encontró a 

través de este modelo fue del 39,23%. Durante el proceso de construcción de modelos de predicción CHAID se usó el método de validación cruzada (k=10) para la validación.

Mientras en M. Ramaswami [4] han usado el método de BN classifier como una herramienta para predecir el rendimiento académico de los estudiantes, presentan una base de datos con 5650 objetos y 35 atributos para estudiantes de la escuela secundaria en India. Se entrenó la Red Bayesiana con 2, 3, 5 y 7 categorías de valor de clase con un método de validación cruzada con K=10. Los resultados revelaron que la mayor precisión se obtiene con el algoritmo de búsqueda TAN y es de 84.91% para 2 clases.

Page 3: Aprendizaje de maquinas Simulacion

7/23/2019 Aprendizaje de maquinas Simulacion

http://slidepdf.com/reader/full/aprendizaje-de-maquinas-simulacion 3/16

3> REPLACE THIS LINE WITH YOUR PAPER IDENTIFICATION NUMBER (DOUBLE-CLICK HERE TO EDIT) <

Predicciones 2.0

IV.   EXPERIMENTOS 

Los experimentos fueron realizados con cuatro diferentes modelos de predicción, ellos son, Regresión Múltiple (RM), Ventana de Parzen (VP), Redes Neuronales Artificiales (RNA) y Random Forest (RF). con una metodología de validación cruzada con 

K=10 y con la base de datos del UCI Machine Learning Repository, Student Performance Data Set [x], con un numero de muestras de 649 y 33 características.

 Normalización de las muestras usando zscoreValidación cruzada, k=10, se divide las muestras en 10.Intervalo de confianza de 95%

Para el caso de la regresión se usó una tasa de aprendizaje de 0.1. y se usa el algoritmo de gradiente descendente. Los mejores resultados se observan cuando se utilizan polinomios de grado bajo

Grado del

polinomio

Regresión

RMSE IC  R 

2

1 4.2027 0.4028 0.0854

2 4.339 0.38904 0.021876

3 4.6591 0.33545 -0.23012

4 4.8278 0.49758 -0.39702

5 4.8121 0.41408 -0.35095

Para el método de ventana de parzen se usó el estimador   de Nadaraya-Watson. Para valores pequeños de h este método daba como resultado errores grandes, indicando que era necesario “ampliar” la vecindad (darle más 

peso a las muestras más alejadas) para obtener mejores resultados 

h

Ventana de Parzen

RMSE IC  R 

2

0.3 5.2074 0.6653 -0.4679

0.7 4.7876 0.64573 -0.2352

1 4.4865 0.5435 -0.0703

Page 4: Aprendizaje de maquinas Simulacion

7/23/2019 Aprendizaje de maquinas Simulacion

http://slidepdf.com/reader/full/aprendizaje-de-maquinas-simulacion 4/16

4> REPLACE THIS LINE WITH YOUR PAPER IDENTIFICATION NUMBER (DOUBLE-CLICK HERE TO EDIT) <

Predicciones 2.0

1.5 4.0947 0.48788 0.13541

1.8 4.0493 0.47328 0.15929

2 4.06 0.45193 0.15498

Se usó la red neuronal perceptrón multicapa con dos capas ocultas y una capa de salida con solo una neurona, cada capa oculta tiene el mismo número de neuronas. La funcion de activacion en las capas oculta es tangente hiperbólica y en la capa de salida una función lineal.

Número de

neuronas

en la capa

oculta

Redes neuronales

RMSE IC  R 

2

4 4.5941 0.49674 -0.0826

8 4.4334 0.34431 -0.0339

10 4.4913 0.40474 -0.0444

16 4.4809 0.46587 -0.0372

20 4.6977 0.33492 -0.1682

30 5.1563 0.40507 -0.4700

Se usó un random forest para resolver un problema de regresión, los árboles crecen sin podar y luego se calculan las secuencias óptimas de poda para los subarboles

Número

de

arboles

Random Forest

RMSE IC  R 

2

5 4.1259 0.37542 0.11694

8 4.0336 0.39646 0.16015

13 4.0623 0.40799 0.15067

Page 5: Aprendizaje de maquinas Simulacion

7/23/2019 Aprendizaje de maquinas Simulacion

http://slidepdf.com/reader/full/aprendizaje-de-maquinas-simulacion 5/16

5> REPLACE THIS LINE WITH YOUR PAPER IDENTIFICATION NUMBER (DOUBLE-CLICK HERE TO EDIT) <

Predicciones 2.0

20 3.9786 0.40632 0.18361

25 3.9703 0.40677 0.18836

30 3.9457 0.41165 0.19922

31 3.9272 0.39826 0.20565

35 3.9593 0.41543 0.19LISTO

Tambien se utilizo una regresión por vectores de soporte con los siguientes resultados //LISTA

Ingrese 1 para regresión multiple, 2 para ventana de parzen, 3 para redes neuronales, 4 para random forest, 5 para vectores de soporte: 5Maquinas Soporte VectorialGamma: 10 boxConstraint0.7raiz cuadrada del error cuadratico medio = 3.9959 IC: 0.40222Determinacion: 0.17523Gamma: 13 boxConstraint0.7raiz cuadrada del error cuadratico medio = 4.0008 IC: 0.40564Determinacion: 0.17081Gamma: 16 boxConstraint0.7raiz cuadrada del error cuadratico medio = 4.018 IC: 0.39862Determinacion: 0.16291Gamma: 20 boxConstraint0.7raiz cuadrada del error cuadratico medio = 4.0203 IC: 0.41219Determinacion: 0.16324Gamma: 10 boxConstraint1raiz cuadrada del error cuadratico medio = 3.999 IC: 0.41891Determinacion: 0.17274Gamma: 13 boxConstraint1raiz cuadrada del error cuadratico medio = 4.0185 IC: 0.40029Determinacion: 0.16217

Gamma: 16 boxConstraint1raiz cuadrada del error cuadratico medio = 4.0093 IC: 0.41938Determinacion: 0.1669Gamma: 20 boxConstraint1raiz cuadrada del error cuadratico medio = 4.0062 IC: 0.42763Determinacion: 0.16833Gamma: 10 boxConstraint1.2raiz cuadrada del error cuadratico medio = 3.9882 IC: 0.41991Determinacion: 0.1761Gamma: 13 boxConstraint1.2raiz cuadrada del error cuadratico medio = 4.0244 IC: 0.39804Determinacion: 0.16005Gamma: 16 boxConstraint1.2raiz cuadrada del error cuadratico medio = 4.006 IC: 0.42742Determinacion: 0.16838Gamma: 20 boxConstraint1.2raiz cuadrada del error cuadratico medio = 3.9881 IC: 0.41729Determinacion: 0.17472Gamma: 10 boxConstraint1.5

raiz cuadrada del error cuadratico medio = 4.001 IC: 0.41518Determinacion: 0.17155Gamma: 13 boxConstraint1.5raiz cuadrada del error cuadratico medio = 4.0416 IC: 0.40953Determinacion: 0.15227Gamma: 16 boxConstraint1.5raiz cuadrada del error cuadratico medio = 4.0382 IC: 0.42204Determinacion: 0.15281Gamma: 20 boxConstraint1.5raiz cuadrada del error cuadratico medio = 4.0126 IC: 0.42849Determinacion: 0.16355

Page 6: Aprendizaje de maquinas Simulacion

7/23/2019 Aprendizaje de maquinas Simulacion

http://slidepdf.com/reader/full/aprendizaje-de-maquinas-simulacion 6/16

6> REPLACE THIS LINE WITH YOUR PAPER IDENTIFICATION NUMBER (DOUBLE-CLICK HERE TO EDIT) <

Predicciones 2.0

V. SELECCIÓN Y EXTRACCIÓN DE CARACTERÍSTICAS  

● Correlación de parson

Se realizó un análisis de correlación de parson entre cada caracteristica y la salida Y. Se encuentra que las características 8, 9, 16y 22 tienen una correlación insignificante con la salida Y. Se eliminan estas características y se mira el resultado con los tresmodelos que dieron mejor resultado en el punto IV (Random forest, ventana de parzen y SVM)

SVM // para cambiar si da el tiempo

Eliminando caracteristicas con correlacion insignificanteIngrese 1 para regresión multiple, 2 para ventana de parzen, 3 para redes neuronales, 4 para random forest: 5Maquinas Soporte VectorialGamma: 10 boxConstraint0.7raiz cuadrada del error cuadratico medio = 3.9871 IC: 0.45024Determinacion: 0.17841Gamma: 13 boxConstraint0.7

raiz cuadrada del error cuadratico medio = 3.9982 IC: 0.43633Determinacion: 0.17122Gamma: 16 boxConstraint0.7raiz cuadrada del error cuadratico medio = 3.9863 IC: 0.44316Determinacion: 0.17547Gamma: 20 boxConstraint0.7raiz cuadrada del error cuadratico medio = 4.0074 IC: 0.43748Determinacion: 0.16856Gamma: 10 boxConstraint1raiz cuadrada del error cuadratico medio = 4.0021 IC: 0.45797Determinacion: 0.17222Gamma: 13 boxConstraint1raiz cuadrada del error cuadratico medio = 3.9887 IC: 0.44402Determinacion: 0.17488Gamma: 16 boxConstraint1raiz cuadrada del error cuadratico medio = 3.9756 IC: 0.44891Determinacion: 0.1798Gamma: 20 boxConstraint1raiz cuadrada del error cuadratico medio = 3.9899 IC: 0.44728Determinacion: 0.17432Gamma: 10 boxConstraint1.2raiz cuadrada del error cuadratico medio = 3.9916 IC: 0.45573Determinacion: 0.1738Gamma: 13 boxConstraint1.2raiz cuadrada del error cuadratico medio = 4.0346 IC: 0.4542Determinacion: 0.15611Gamma: 16 boxConstraint1.2raiz cuadrada del error cuadratico medio = 3.998 IC: 0.4673Determinacion: 0.17094Gamma: 20 boxConstraint1.2raiz cuadrada del error cuadratico medio = 3.995 IC: 0.44867Determinacion: 0.1711Gamma: 10 boxConstraint1.5raiz cuadrada del error cuadratico medio = 4.0306 IC: 0.46279Determinacion: 0.15671Gamma: 13 boxConstraint1.5raiz cuadrada del error cuadratico medio = 4.035 IC: 0.44858Determinacion: 0.15417

Gamma: 16 boxConstraint1.5raiz cuadrada del error cuadratico medio = 4.0296 IC: 0.4695Determinacion: 0.15789Gamma: 20 boxConstraint1.5raiz cuadrada del error cuadratico medio = 4.013 IC: 0.46054Determinacion: 0.16428

Page 7: Aprendizaje de maquinas Simulacion

7/23/2019 Aprendizaje de maquinas Simulacion

http://slidepdf.com/reader/full/aprendizaje-de-maquinas-simulacion 7/16

7> REPLACE THIS LINE WITH YOUR PAPER IDENTIFICATION NUMBER (DOUBLE-CLICK HERE TO EDIT) <

Predicciones 2.0

● Analisis PCA

Se realiza un análisis usando PCA. Se tiene que utilizando 28 componentes se explica mas del 98% de la varianza y se mostrará su resultado en tres modelos

SVM //voy… LISTA

***** PCA ***** Numero de características que explican una varianza mayor al 85%: 20Maquinas Soporte VectorialGamma: 10 boxConstraint0.7raiz cuadrada del error cuadratico medio = 3.97 IC: 0.43903 Determinacion: 0.18702

Gamma: 13 boxConstraint0.7raiz cuadrada del error cuadratico medio = 3.9577 IC: 0.41996 Determinacion: 0.18998

Gamma: 16 boxConstraint0.7

raiz cuadrada del error cuadratico medio = 3.9445 IC: 0.43027 Determinacion: 0.19743

Gamma: 20 boxConstraint0.7raiz cuadrada del error cuadratico medio = 3.9562 IC: 0.44071 Determinacion: 0.19415

Gamma: 10 boxConstraint1raiz cuadrada del error cuadratico medio = 3.9819 IC: 0.40827 Determinacion: 0.17817

Gamma: 13 boxConstraint1raiz cuadrada del error cuadratico medio = 3.953 IC: 0.43071 Determinacion: 0.19008

Gamma: 16 boxConstraint1raiz cuadrada del error cuadratico medio = 3.9358 IC: 0.42048 Determinacion: 0.19691

Gamma: 20 boxConstraint1raiz cuadrada del error cuadratico medio = 3.9471 IC: 0.41524 Determinacion: 0.1936

Gamma: 10 boxConstraint1.2raiz cuadrada del error cuadratico medio = 3.9779 IC: 0.41688 Determinacion: 0.17923

Gamma: 13 boxConstraint1.2raiz cuadrada del error cuadratico medio = 3.9633 IC: 0.42591 Determinacion: 0.18492

Gamma: 16 boxConstraint1.2raiz cuadrada del error cuadratico medio = 3.958 IC: 0.4175 Determinacion: 0.18678

Gamma: 20 boxConstraint1.2raiz cuadrada del error cuadratico medio = 3.929 IC: 0.41098 Determinacion: 0.19884

Gamma: 10 boxConstraint1.5raiz cuadrada del error cuadratico medio = 4.0117 IC: 0.42498 Determinacion: 0.16323

Gamma: 13 boxConstraint1.5raiz cuadrada del error cuadratico medio = 3.9854 IC: 0.43363 Determinacion: 0.1735

Page 8: Aprendizaje de maquinas Simulacion

7/23/2019 Aprendizaje de maquinas Simulacion

http://slidepdf.com/reader/full/aprendizaje-de-maquinas-simulacion 8/16

8> REPLACE THIS LINE WITH YOUR PAPER IDENTIFICATION NUMBER (DOUBLE-CLICK HERE TO EDIT) <

Predicciones 2.0

Gamma: 16 boxConstraint1.5raiz cuadrada del error cuadratico medio = 3.9664 IC: 0.42507 Determinacion: 0.18152

Gamma: 20 boxConstraint1.5raiz cuadrada del error cuadratico medio = 3.9477 IC: 0.41901 Determinacion: 0.18949

Ventana Parzen //Voy.. LISTA

***** PCA ***** Numero de caracteristicas que explican una varianza mayor al 85%: 20Ventana de parzenH: 0.3raiz cuadrada del error cuadratico medio = 5.3826 IC: 0.48801 Determinacion: -0.57041

H: 0.7raiz cuadrada del error cuadratico medio = 4.9479 IC: 0.48167 Determinacion: -0.31497H: 1raiz cuadrada del error cuadratico medio = 4.5202 IC: 0.47499 Determinacion: -0.080059H: 1.5raiz cuadrada del error cuadratico medio = 4.1189 IC: 0.47048 Determinacion: 0.12244H: 1.8raiz cuadrada del error cuadratico medio = 4.0702 IC: 0.47587 Determinacion: 0.15043H: 2raiz cuadrada del error cuadratico medio = 4.0826 IC: 0.47081 Determinacion: 0.14741

RANDOM FOREST //...LISTA

***** PCA ***** Numero de caracteristicas que explican una varianza mayor al85%: 20Random Forest

 Numero de arboles: 25raiz cuadrada del error cuadratico medio = 4.1338 IC: 0.45505 Determinacion: 0.1204

 Numero de arboles: 31

raiz cuadrada del error cuadratico medio = 4.1357 IC: 0.45922 Determinacion: 0.12098 Numero de arboles: 35raiz cuadrada del error cuadratico medio = 4.1347 IC: 0.45873 Determinacion: 0.12112

 Numero de arboles: 37raiz cuadrada del error cuadratico medio = 4.1316 IC: 0.45277 Determinacion: 0.12146

 Numero de arboles: 40raiz cuadrada del error cuadratico medio = 4.108 IC: 0.45391 Determinacion: 0.13169

 Numero de arboles: 45

Page 9: Aprendizaje de maquinas Simulacion

7/23/2019 Aprendizaje de maquinas Simulacion

http://slidepdf.com/reader/full/aprendizaje-de-maquinas-simulacion 9/16

9> REPLACE THIS LINE WITH YOUR PAPER IDENTIFICATION NUMBER (DOUBLE-CLICK HERE TO EDIT) <

Predicciones 2.0

raiz cuadrada del error cuadratico medio = 4.1141 IC: 0.44588 Determinacion: 0.1273 Numero de arboles: 55raiz cuadrada del error cuadratico medio = 4.1185 IC: 0.44498 Determinacion: 0.12781

● SFS

Se realizo una seleccion de caracteristicas usando el metodo sequencial forward selection usando como función objetivo el errorcuadrático medio usando random forest. Las caracteristicas seleccionadas por el metodo SFS fueron 4,8,12,16,20

SVM //...LISTO

***** SFS *****Maquinas Soporte VectorialGamma: 10 boxConstraint0.7raiz cuadrada del error cuadratico medio = 4.4569 IC: 0.39285 Determinacion: -0.02317

Gamma: 13 boxConstraint0.7raiz cuadrada del error cuadratico medio = 4.4508 IC: 0.39428 Determinacion: -0.019858

Gamma: 16 boxConstraint0.7raiz cuadrada del error cuadratico medio = 4.4454 IC: 0.40338 Determinacion: -0.016248

Gamma: 20 boxConstraint0.7raiz cuadrada del error cuadratico medio = 4.4289 IC: 0.40591 Determinacion: -0.0085199

Gamma: 10 boxConstraint1raiz cuadrada del error cuadratico medio = 4.4588 IC: 0.39488 Determinacion: -0.023636

Gamma: 13 boxConstraint1

raiz cuadrada del error cuadratico medio = 4.4569 IC: 0.39104 Determinacion: -0.023007

Gamma: 16 boxConstraint1raiz cuadrada del error cuadratico medio = 4.447 IC: 0.40311 Determinacion: -0.017047

Gamma: 20 boxConstraint1raiz cuadrada del error cuadratico medio = 4.4289 IC: 0.40648 Determinacion: -0.0084339

Gamma: 10 boxConstraint1.2raiz cuadrada del error cuadratico medio = 4.4514 IC: 0.39352 Determinacion: -0.020521

Gamma: 13 boxConstraint1.2raiz cuadrada del error cuadratico medio = 4.4573 IC: 0.39212 Determinacion: -0.023064

Gamma: 16 boxConstraint1.2raiz cuadrada del error cuadratico medio = 4.4442 IC: 0.39905 Determinacion: -0.016082

Gamma: 20 boxConstraint1.2raiz cuadrada del error cuadratico medio = 4.434 IC: 0.40503 Determinacion: -0.010927

Gamma: 10 boxConstraint1.5

Page 10: Aprendizaje de maquinas Simulacion

7/23/2019 Aprendizaje de maquinas Simulacion

http://slidepdf.com/reader/full/aprendizaje-de-maquinas-simulacion 10/16

10> REPLACE THIS LINE WITH YOUR PAPER IDENTIFICATION NUMBER (DOUBLE-CLICK HERE TO EDIT) <

Predicciones 2.0

raiz cuadrada del error cuadratico medio = 4.4393 IC: 0.38769 Determinacion: -0.015744

Gamma: 13 boxConstraint1.5raiz cuadrada del error cuadratico medio = 4.4493 IC: 0.38922 Determinacion: -0.019903

Gamma: 16 boxConstraint1.5raiz cuadrada del error cuadratico medio = 4.4532 IC: 0.39464 Determinacion: -0.020972

Gamma: 20 boxConstraint1.5raiz cuadrada del error cuadratico medio = 4.4365 IC: 0.40519 Determinacion: -0.012152

Ventana de parzen // LISTA

Ventana de parzenH: 0.3raiz cuadrada del error cuadratico medio = 4.7885 IC: 0.48778 Determinacion: -0.17863

H: 0.7raiz cuadrada del error cuadratico medio = 4.6202 IC: 0.45781 Determinacion: -0.094615H: 1raiz cuadrada del error cuadratico medio = 4.5551 IC: 0.44589 Determinacion: -0.064199H: 1.5raiz cuadrada del error cuadratico medio = 4.4899 IC: 0.43391 Determinacion: -0.03444H: 1.8raiz cuadrada del error cuadratico medio = 4.4699 IC: 0.43065 Determinacion: -0.025429H: 2

Random Forest //LISTA

***** SFS *****

Random Forest Numero de arboles: 8raiz cuadrada del error cuadratico medio = 4.5482 IC: 0.453 Determinacion: -0.062626

 Numero de arboles: 13raiz cuadrada del error cuadratico medio = 4.5849 IC: 0.49156 Determinacion: -0.075329

 Numero de arboles: 17raiz cuadrada del error cuadratico medio = 4.5951 IC: 0.45703 Determinacion: -0.082706

 Numero de arboles: 20raiz cuadrada del error cuadratico medio = 4.5935 IC: 0.46252 Determinacion: -0.081773

 Numero de arboles: 25raiz cuadrada del error cuadratico medio = 4.592 IC: 0.45395 Determinacion: -0.082494

 Numero de arboles: 30raiz cuadrada del error cuadratico medio = 4.5706 IC: 0.45141 Determinacion: -0.071853

 Numero de arboles: 35raiz cuadrada del error cuadratico medio = 4.6053 IC: 0.44887 Determinacion: -0.088384

Page 11: Aprendizaje de maquinas Simulacion

7/23/2019 Aprendizaje de maquinas Simulacion

http://slidepdf.com/reader/full/aprendizaje-de-maquinas-simulacion 11/16

11> REPLACE THIS LINE WITH YOUR PAPER IDENTIFICATION NUMBER (DOUBLE-CLICK HERE TO EDIT) <

Predicciones 2.0

● LASSO

Se utilizo la tecnica lasso para seleccion de caracteristicas. El resultado de Lasso es que se pueden descartar las caracteristicas 1,5, 14 y 23

svm //LISTA

Ingrese 1 para regresión multiple, 2 para ventana de parzen, 3 para redes neuronales, 4 para random forest, 5 para vectores desoporte: 5**** LASSO ****Maquinas Soporte VectorialGamma: 10 boxConstraint0.7raiz cuadrada del error cuadratico medio = 4.4347 IC: 0.41594 Determinacion: -0.010863

Gamma: 13 boxConstraint0.7raiz cuadrada del error cuadratico medio = 4.433 IC: 0.41001 Determinacion: -0.010628

Gamma: 16 boxConstraint0.7raiz cuadrada del error cuadratico medio = 4.4293 IC: 0.40556 Determinacion: -0.0090376

Gamma: 20 boxConstraint0.7raiz cuadrada del error cuadratico medio = 4.4285 IC: 0.40462 Determinacion: -0.0094435

Gamma: 10 boxConstraint1raiz cuadrada del error cuadratico medio = 4.4342 IC: 0.41798 Determinacion: -0.01049

Gamma: 13 boxConstraint1raiz cuadrada del error cuadratico medio = 4.4232 IC: 0.41161 Determinacion: -0.005946

Gamma: 16 boxConstraint1

raiz cuadrada del error cuadratico medio = 4.4165 IC: 0.40546 Determinacion: -0.003209

Gamma: 20 boxConstraint1raiz cuadrada del error cuadratico medio = 4.4392 IC: 0.41009 Determinacion: -0.013646

Gamma: 10 boxConstraint1.2raiz cuadrada del error cuadratico medio = 4.4319 IC: 0.41845 Determinacion: -0.0093992

Gamma: 13 boxConstraint1.2raiz cuadrada del error cuadratico medio = 4.4245 IC: 0.41087 Determinacion: -0.0067586

Gamma: 16 boxConstraint1.2raiz cuadrada del error cuadratico medio = 4.4286 IC: 0.41278 Determinacion: -0.0081973

Gamma: 20 boxConstraint1.2raiz cuadrada del error cuadratico medio = 4.433 IC: 0.40374 Determinacion: -0.011433

Gamma: 10 boxConstraint1.5raiz cuadrada del error cuadratico medio = 4.4364 IC: 0.41702 Determinacion: -0.011517

Gamma: 13 boxConstraint1.5

Page 12: Aprendizaje de maquinas Simulacion

7/23/2019 Aprendizaje de maquinas Simulacion

http://slidepdf.com/reader/full/aprendizaje-de-maquinas-simulacion 12/16

12> REPLACE THIS LINE WITH YOUR PAPER IDENTIFICATION NUMBER (DOUBLE-CLICK HERE TO EDIT) <

Predicciones 2.0

raiz cuadrada del error cuadratico medio = 4.4241 IC: 0.41076 Determinacion: -0.006661

Gamma: 16 boxConstraint1.5raiz cuadrada del error cuadratico medio = 4.4299 IC: 0.40941 Determinacion: -0.0092846

Gamma: 20 boxConstraint1.5raiz cuadrada del error cuadratico medio = 4.4295 IC: 0.4035 Determinacion: -0.009366

Ventana parzen //Voy… LISTA

Ingrese 1 para regresión multiple, 2 para ventana de parzen, 3 para redes neuronales, 4 para random forest, 5 para vectores desoporte: 2**** LASSO ****Ventana de parzenH: 0.3raiz cuadrada del error cuadratico medio = 4.7381 IC: 0.48489 Determinacion: -0.15224

H: 0.7raiz cuadrada del error cuadratico medio = 4.5843 IC: 0.45096 Determinacion: -0.077744H: 1raiz cuadrada del error cuadratico medio = 4.5202 IC: 0.43955 Determinacion: -0.048197H: 1.5raiz cuadrada del error cuadratico medio = 4.4685 IC: 0.43042 Determinacion: -0.02476H: 1.8raiz cuadrada del error cuadratico medio = 4.4536 IC: 0.42801 Determinacion: -0.018067H: 2raiz cuadrada del error cuadratico medio = 4.4461 IC: 0.42639 Determinacion: -0.014743

Random Forest //voy…

Ingrese 1 para regresión multiple, 2 para ventana de parzen, 3 para redes neuronales, 4 para random forest, 5 para vectores desoporte: 4**** LASSO ****Random Forest

 Numero de arboles: 5raiz cuadrada del error cuadratico medio = 4.9311 IC: 0.46111 Determinacion: -0.26332

 Numero de arboles: 8raiz cuadrada del error cuadratico medio = 4.8778 IC: 0.46194 Determinacion: -0.22904

 Numero de arboles: 13raiz cuadrada del error cuadratico medio = 4.842 IC: 0.45169 Determinacion: -0.20982

 Numero de arboles: 20raiz cuadrada del error cuadratico medio = 4.8869 IC: 0.49981 Determinacion: -0.2271

 Numero de arboles: 25raiz cuadrada del error cuadratico medio = 4.8679 IC: 0.46837 Determinacion: -0.22011

 Numero de arboles: 30raiz cuadrada del error cuadratico medio = 4.8276 IC: 0.48978 Determinacion: -0.19801

 Numero de arboles: 31raiz cuadrada del error cuadratico medio = 4.8314 IC: 0.48308 Determinacion: -0.19975

 Numero de arboles: 35raiz cuadrada del error cuadratico medio = 4.8313 IC: 0.46706 Determinacion: -0.201

Page 13: Aprendizaje de maquinas Simulacion

7/23/2019 Aprendizaje de maquinas Simulacion

http://slidepdf.com/reader/full/aprendizaje-de-maquinas-simulacion 13/16

13> REPLACE THIS LINE WITH YOUR PAPER IDENTIFICATION NUMBER (DOUBLE-CLICK HERE TO EDIT) <

Predicciones 2.0

 Numero de arboles: 40raiz cuadrada del error cuadratico medio = 4.8637 IC: 0.47316 Determinacion: -0.2172

VI. A NÁLISIS DE RESULTADOS 

Los resultados han demostrado que es dificil realizar predicciones sobre el desempeño de los estudiantes, esto es debido a que aunque existen muchas variables que pueden influir (no todas consideradas en este trabajo) es determinante las capacidades y motivación del alumno a la hora de su desempeño académico. El mejor modelo de los considerados anteriormente fue random forest, una de las razones es que el método de random forest no se ve tan afectado por problemas de datos no balanceados (La mayoría de los alumnos tienen a sacar puntaje por encima de 10).

Como trabajo futuro se investigará cuáles variables son más importantes en la determinación de la nota de los alumnos

VII.   PREDICCIONES DEL MEJOR  MODELO 

Page 14: Aprendizaje de maquinas Simulacion

7/23/2019 Aprendizaje de maquinas Simulacion

http://slidepdf.com/reader/full/aprendizaje-de-maquinas-simulacion 14/16

14> REPLACE THIS LINE WITH YOUR PAPER IDENTIFICATION NUMBER (DOUBLE-CLICK HERE TO EDIT) <

Predicciones 2.0

VIII. Conclusion

En el trabajo de predecir el desempeño de los estudiantes usando técnicas de inteligencia artificial la mayoría de esfuerzos se han realizado tratando la situación como un problema de clasificación (desempeño bajo, medio, alto, etc) por dos razones principales:La primera es que al ser un problema tan complejo, muchas variables y casos “atípicos”, es dificil obtener buenos resultados si lo que se busca es exactitud en la nota. La segunda razón es que no es tan importante pronosticar la nota exacta de un estudiante, lo que se busca es tener una idea de que variables desempeñan un papel más importante y un desempeño probable del estudiante (rendimiento bajo o alto) para poder definir acciones a realizar.

Los resultados han demostrado que es difícil realizar predicciones sobre el desempeño de los estudiantes, esto es debido a que aunque existen muchas variables que pueden influir (no todas consideradas en este trabajo) es determinante las capacidades y motivación del alumno a la hora de su desempeño académico El mejor modelo de los considerados anteriormente fue Random Forest con un RMSE de 3.92, muy cercano al obtenido en Paulo Cortez y Alice Silva [1], una de las razones es que el método de Random Forest no se ve tan afectado por problemas de datos no balanceados (La mayoría de los alumnos tienen a sacar puntaje 

 por encima de 10).

Page 15: Aprendizaje de maquinas Simulacion

7/23/2019 Aprendizaje de maquinas Simulacion

http://slidepdf.com/reader/full/aprendizaje-de-maquinas-simulacion 15/16

15> REPLACE THIS LINE WITH YOUR PAPER IDENTIFICATION NUMBER (DOUBLE-CLICK HERE TO EDIT) <

Predicciones 2.0

IX.   REFERENCIAS 

[1] Cortez, Paulo and Silva, Alice, “USING DATA MINING TO PREDICT SECONDARY SCHOOL STUDENT PERFORMANCE”,[2]   Ramesh, V and Ramar, K, “Predicting Student Performance : A Statistical and Data Mining Approach”, International Journal of Computer Applications, Vol. 67,, No.8, February 2013.

[3] Ramaswami, M, “Student Performance Prediction”, International Journal of Computational Intelligence and Informatics, Vol. 1, No: 4, January-March 2012.

[4] Ramaswami, M, Bhaskaran, R, “A CHAID Based Performance Prediction Model in Educational Data Mining”, IJCSI International Journalof Computer  Science Issues, Vol 7, No 1, January 2010.

//cambiar esto

Tecnology no TECnology, //FUBUTEC

Z = 1 o 2 // pesos a las clases minoritarias = 2

Grafica, Solo para RF

Corregir el Doc //los párrafos que no estan alineados y las referencias

Clasificacion del mejor modelo

0-5 5-10 10-15 15-20 // hacer Smote

Box

Constrain

t

Gam

ma

Máquinas de Soporte Vectorial

RMSE IC  R2

0.5 1 4.4028 0.41882 0.00531

0.5 10 4.0316 0.42114 0.15963

0.5 25 3.9715 0.42765 0.18556

0.5 30 3.9949 0.42132 0.17459

1 1 4.4085 0.41461 0.00219

1 10 4.0021 0.45797 0.17222

1

25 4.0033 0.43847 0.168371 30 3.9967 0.43805 0.17343

10 1 4.4224 0.41432 -0.00434

10 10 4.2411 0.48112 0.05707

10 25 4.2431 0.51793 0.05783

Page 16: Aprendizaje de maquinas Simulacion

7/23/2019 Aprendizaje de maquinas Simulacion

http://slidepdf.com/reader/full/aprendizaje-de-maquinas-simulacion 16/16

16> REPLACE THIS LINE WITH YOUR PAPER IDENTIFICATION NUMBER (DOUBLE-CLICK HERE TO EDIT) <

Predicciones 2.0

10 30 4.2342 0.4923 0.06175

20 1 4.4216 0.41125 -0.00438

20

10 4.2788 0.47978 0.0389320 25 4.3975 0.50396 -0.01882

20 30 4.3517 0.5046 0.00154


Recommended