Date post: | 18-Feb-2018 |
Category: |
Documents |
Upload: | edwinalejandrootalvarogarcia |
View: | 219 times |
Download: | 0 times |
7/23/2019 Aprendizaje de maquinas Simulacion
http://slidepdf.com/reader/full/aprendizaje-de-maquinas-simulacion 1/16
1> REPLACE THIS LINE WITH YOUR PAPER IDENTIFICATION NUMBER (DOUBLE-CLICK HERE TO EDIT) <
Predicciones 2.01
USING DATA MINING TO PREDICT SECONDARY SCHOOL STUDENT PERFORMANCE (Math) //cambiar a español
Abstract — En este documento se pretende mostrar el trabajo de modelado realizado sobre una base de datos de estudiantes de dos
escuelas secundarias portuguesas que incluyen atributos tales como las calificaciones del estudiante, demográficos, características
sociales y escolares relacionadas, para predecir el comportamiento de sus notas en el area de matematicas… y al mismo tiempo hacer
comparaciones con los resultados de otros autores sobre la misma base de datos o algunas similares... tratado como un problema de
regresión para el cual se simularon resultados de varios métodos de aprendizaje de maquina (Regresión múltiple, Ventana de Parzen,
Redes Neuronales Artificiales y Random Forest) para hallar el método óptimo para la solución del problema y predecir el rendimiento
de los nuevos estudiantes ingresados al sistema … los resultados muestran que...
Index Terms — Modelos fenomenológicos, aprendizaje de maquina, Regresión, Student Performance, Simulation, Regresión
Múltiple, Ventana de Parzen, Random Forest, Redes Neuronales.
I. I NTRODUCTION
Este documento aborda un problema de aprendizaje de maquina especialmente diseñado para evaluar el rendimiento de los estudiantes de secundaria en el area de matematicas de dos colegios en Portugal...
II. DESCRIPCION DEL PROBLEMA
Este documento aborda un problema de aprendizaje de maquina especialmente diseñado para evaluar el rendimiento de los estudiantes de secundaria en el área de matemáticas con bases de datos tomadas de dos colegios en Portugal, las cuales incluyen atributos de los datos discretizados tales como las calificaciones del estudiante, aspectos demográficos y características sociales y escolares relacionadas. El problema se basa en predecir el rendimiento de un nuevo estudiante ingresado al sistema ...fue tratado como un problema de regresión donde se busca una salida numérica entre cero (0%) y veinte (100%), la cual indica la
nota del estudiante al final del año.
Variables de entradaLas variables de entrada tomadas para este experimento fueron las siguientes (las variables de entrada al sistema no están organizadas en el mismo orden en que son mostradas a continuación).
1 school - student's school (binary: 'GP' - Gabriel Pereira or 'MS' - Mousinho da Silveira)2 sex - student's sex (binary: 'F' - female or 'M' - male)3 age - student's age (numeric: from 15 to 22)4 address - student's home address type (binary: 'U' - urban or 'R' - rural)5 famsize - family size (binary: 'LE3' - less or equal to 3 or 'GT3' - greater than 3)6 Pstatus - parent's cohabitation status (binary: 'T' - living together or 'A' - apart)7 Medu - mother's education (numeric: 0 - none, 1 - primary education (4th grade), 2 – 5th to 9th grade, 3 – secondary
education or 4 – higher education)8 Fedu - father's education (numeric: 0 - none, 1 - primary education (4th grade), 2 – 5th to 9th grade, 3 – secondary education or 4 – higher education)9 Mjob - mother's job (nominal: 'teacher', 'health' care related, civil 'services' (e.g. administrative or police), 'at_home' or 'other')10 Fjob - father's job (nominal: 'teacher', 'health' care related, civil 'services' (e.g. administrative or police), 'at_home' or 'other')11 reason - reason to choose this school (nominal: close to 'home', school 'reputation', 'course' preference or 'other')12 guardian - student's guardian (nominal: 'mother', 'father' or 'other')
1
7/23/2019 Aprendizaje de maquinas Simulacion
http://slidepdf.com/reader/full/aprendizaje-de-maquinas-simulacion 2/16
2> REPLACE THIS LINE WITH YOUR PAPER IDENTIFICATION NUMBER (DOUBLE-CLICK HERE TO EDIT) <
Predicciones 2.0
13 traveltime - home to school travel time (numeric: 1 - <15 min., 2 - 15 to 30 min., 3 - 30 min. to 1 hour, or 4 - >1 hour)14 studytime - weekly study time (numeric: 1 - <2 hours, 2 - 2 to 5 hours, 3 - 5 to 10 hours, or 4 - >10 hours)15 failures - number of past class failures (numeric: n if 1<=n<3, else 4)16 schoolsup - extra educational support (binary: yes or no)17 famsup - family educational support (binary: yes or no)18 paid - extra paid classes within the course subject (Math or Portuguese) (binary: yes or no)19 activities - extra-curricular activities (binary: yes or no)20 nursery - attended nursery school (binary: yes or no)21 higher - wants to take higher education (binary: yes or no)22 internet - Internet access at home (binary: yes or no)23 romantic - with a romantic relationship (binary: yes or no)24 famrel - quality of family relationships (numeric: from 1 - very bad to 5 - excellent)25 freetime - free time after school (numeric: from 1 - very low to 5 - very high)26 goout - going out with friends (numeric: from 1 - very low to 5 - very high)27 Dalc - workday alcohol consumption (numeric: from 1 - very low to 5 - very high)28 Walc - weekend alcohol consumption (numeric: from 1 - very low to 5 - very high)29 health - current health status (numeric: from 1 - very bad to 5 - very good)
30 absences - number of school absences (numeric: from 0 to 93)
Variables de salida Nuestra variable de salida es única e indica la nota del estudiante a final del año.G3 - final grade (numeric: from 0 to 20, output target)
III. TRABAJOS PREVIOS
Se han investigado algunos artículos de divulgación científica (sólo artículos de revista) para identificar algunos trabajos similares sobre bases de datos de estudiantes de secundaria, tales como el de Paulo Cortez y Alice Silva [1] los cuales, con nuestra misma base de datos asumen el problema como una regresión y una clasificación para intentar predecir el fracaso en las
pruebas de matemáticas, para terminar hallando Random Forest como el mejor modelo para el problema de regresión que es el de nuestro interés, con un ECM de 3.90. Sin embargo otros estudios como los de M. Ramaswami [2][4] se buscan otras formas de resolver este tipo de problemas con métodos como Bayesian Networks (BN) y CHIAD, usando bases de datos muy similares con variables de tipo personal, socioeconómico, psicológico, ambientales y academicos para describir y predecir el rendimiento de los estudiantes en las escuelas secundarias [2], mientras que Ramesh, V y Ramar, K [3] tratan el problema como una clasificación para hallar el mejor método para clasificar a los estudiantes con alto o bajo desempeño en las escuelas secundarias, de acuerdo a las variables que influyen altamente en su rendimiento académico.
En M.Ramaswami y R.Bhaskaran [2] se usa un modelo de predicción CHIAD para analizar la interrelacion entre las variables que se utilizan para predecir el resultado del desempeño en la educación superior de la escuela secundaria. Los modelos CHIAD de predicción del rendimiento fueron construidos con un predictor de variables de siete clases. Una técnica de regresión lineal simple fue usada para construir el modelo de regresión, después de la codificación de los valores categóricos de todas las variables predictoras en valores numéricos. La exactitud de predicción del rendimiento de los estudiantes que se encontró a
través de este modelo fue del 39,23%. Durante el proceso de construcción de modelos de predicción CHAID se usó el método de validación cruzada (k=10) para la validación.
Mientras en M. Ramaswami [4] han usado el método de BN classifier como una herramienta para predecir el rendimiento académico de los estudiantes, presentan una base de datos con 5650 objetos y 35 atributos para estudiantes de la escuela secundaria en India. Se entrenó la Red Bayesiana con 2, 3, 5 y 7 categorías de valor de clase con un método de validación cruzada con K=10. Los resultados revelaron que la mayor precisión se obtiene con el algoritmo de búsqueda TAN y es de 84.91% para 2 clases.
7/23/2019 Aprendizaje de maquinas Simulacion
http://slidepdf.com/reader/full/aprendizaje-de-maquinas-simulacion 3/16
3> REPLACE THIS LINE WITH YOUR PAPER IDENTIFICATION NUMBER (DOUBLE-CLICK HERE TO EDIT) <
Predicciones 2.0
IV. EXPERIMENTOS
Los experimentos fueron realizados con cuatro diferentes modelos de predicción, ellos son, Regresión Múltiple (RM), Ventana de Parzen (VP), Redes Neuronales Artificiales (RNA) y Random Forest (RF). con una metodología de validación cruzada con
K=10 y con la base de datos del UCI Machine Learning Repository, Student Performance Data Set [x], con un numero de muestras de 649 y 33 características.
Normalización de las muestras usando zscoreValidación cruzada, k=10, se divide las muestras en 10.Intervalo de confianza de 95%
Para el caso de la regresión se usó una tasa de aprendizaje de 0.1. y se usa el algoritmo de gradiente descendente. Los mejores resultados se observan cuando se utilizan polinomios de grado bajo
Grado del
polinomio
Regresión
RMSE IC R
2
1 4.2027 0.4028 0.0854
2 4.339 0.38904 0.021876
3 4.6591 0.33545 -0.23012
4 4.8278 0.49758 -0.39702
5 4.8121 0.41408 -0.35095
Para el método de ventana de parzen se usó el estimador de Nadaraya-Watson. Para valores pequeños de h este método daba como resultado errores grandes, indicando que era necesario “ampliar” la vecindad (darle más
peso a las muestras más alejadas) para obtener mejores resultados
h
Ventana de Parzen
RMSE IC R
2
0.3 5.2074 0.6653 -0.4679
0.7 4.7876 0.64573 -0.2352
1 4.4865 0.5435 -0.0703
7/23/2019 Aprendizaje de maquinas Simulacion
http://slidepdf.com/reader/full/aprendizaje-de-maquinas-simulacion 4/16
4> REPLACE THIS LINE WITH YOUR PAPER IDENTIFICATION NUMBER (DOUBLE-CLICK HERE TO EDIT) <
Predicciones 2.0
1.5 4.0947 0.48788 0.13541
1.8 4.0493 0.47328 0.15929
2 4.06 0.45193 0.15498
Se usó la red neuronal perceptrón multicapa con dos capas ocultas y una capa de salida con solo una neurona, cada capa oculta tiene el mismo número de neuronas. La funcion de activacion en las capas oculta es tangente hiperbólica y en la capa de salida una función lineal.
Número de
neuronas
en la capa
oculta
Redes neuronales
RMSE IC R
2
4 4.5941 0.49674 -0.0826
8 4.4334 0.34431 -0.0339
10 4.4913 0.40474 -0.0444
16 4.4809 0.46587 -0.0372
20 4.6977 0.33492 -0.1682
30 5.1563 0.40507 -0.4700
Se usó un random forest para resolver un problema de regresión, los árboles crecen sin podar y luego se calculan las secuencias óptimas de poda para los subarboles
Número
de
arboles
Random Forest
RMSE IC R
2
5 4.1259 0.37542 0.11694
8 4.0336 0.39646 0.16015
13 4.0623 0.40799 0.15067
7/23/2019 Aprendizaje de maquinas Simulacion
http://slidepdf.com/reader/full/aprendizaje-de-maquinas-simulacion 5/16
5> REPLACE THIS LINE WITH YOUR PAPER IDENTIFICATION NUMBER (DOUBLE-CLICK HERE TO EDIT) <
Predicciones 2.0
20 3.9786 0.40632 0.18361
25 3.9703 0.40677 0.18836
30 3.9457 0.41165 0.19922
31 3.9272 0.39826 0.20565
35 3.9593 0.41543 0.19LISTO
Tambien se utilizo una regresión por vectores de soporte con los siguientes resultados //LISTA
Ingrese 1 para regresión multiple, 2 para ventana de parzen, 3 para redes neuronales, 4 para random forest, 5 para vectores de soporte: 5Maquinas Soporte VectorialGamma: 10 boxConstraint0.7raiz cuadrada del error cuadratico medio = 3.9959 IC: 0.40222Determinacion: 0.17523Gamma: 13 boxConstraint0.7raiz cuadrada del error cuadratico medio = 4.0008 IC: 0.40564Determinacion: 0.17081Gamma: 16 boxConstraint0.7raiz cuadrada del error cuadratico medio = 4.018 IC: 0.39862Determinacion: 0.16291Gamma: 20 boxConstraint0.7raiz cuadrada del error cuadratico medio = 4.0203 IC: 0.41219Determinacion: 0.16324Gamma: 10 boxConstraint1raiz cuadrada del error cuadratico medio = 3.999 IC: 0.41891Determinacion: 0.17274Gamma: 13 boxConstraint1raiz cuadrada del error cuadratico medio = 4.0185 IC: 0.40029Determinacion: 0.16217
Gamma: 16 boxConstraint1raiz cuadrada del error cuadratico medio = 4.0093 IC: 0.41938Determinacion: 0.1669Gamma: 20 boxConstraint1raiz cuadrada del error cuadratico medio = 4.0062 IC: 0.42763Determinacion: 0.16833Gamma: 10 boxConstraint1.2raiz cuadrada del error cuadratico medio = 3.9882 IC: 0.41991Determinacion: 0.1761Gamma: 13 boxConstraint1.2raiz cuadrada del error cuadratico medio = 4.0244 IC: 0.39804Determinacion: 0.16005Gamma: 16 boxConstraint1.2raiz cuadrada del error cuadratico medio = 4.006 IC: 0.42742Determinacion: 0.16838Gamma: 20 boxConstraint1.2raiz cuadrada del error cuadratico medio = 3.9881 IC: 0.41729Determinacion: 0.17472Gamma: 10 boxConstraint1.5
raiz cuadrada del error cuadratico medio = 4.001 IC: 0.41518Determinacion: 0.17155Gamma: 13 boxConstraint1.5raiz cuadrada del error cuadratico medio = 4.0416 IC: 0.40953Determinacion: 0.15227Gamma: 16 boxConstraint1.5raiz cuadrada del error cuadratico medio = 4.0382 IC: 0.42204Determinacion: 0.15281Gamma: 20 boxConstraint1.5raiz cuadrada del error cuadratico medio = 4.0126 IC: 0.42849Determinacion: 0.16355
7/23/2019 Aprendizaje de maquinas Simulacion
http://slidepdf.com/reader/full/aprendizaje-de-maquinas-simulacion 6/16
6> REPLACE THIS LINE WITH YOUR PAPER IDENTIFICATION NUMBER (DOUBLE-CLICK HERE TO EDIT) <
Predicciones 2.0
V. SELECCIÓN Y EXTRACCIÓN DE CARACTERÍSTICAS
● Correlación de parson
Se realizó un análisis de correlación de parson entre cada caracteristica y la salida Y. Se encuentra que las características 8, 9, 16y 22 tienen una correlación insignificante con la salida Y. Se eliminan estas características y se mira el resultado con los tresmodelos que dieron mejor resultado en el punto IV (Random forest, ventana de parzen y SVM)
SVM // para cambiar si da el tiempo
Eliminando caracteristicas con correlacion insignificanteIngrese 1 para regresión multiple, 2 para ventana de parzen, 3 para redes neuronales, 4 para random forest: 5Maquinas Soporte VectorialGamma: 10 boxConstraint0.7raiz cuadrada del error cuadratico medio = 3.9871 IC: 0.45024Determinacion: 0.17841Gamma: 13 boxConstraint0.7
raiz cuadrada del error cuadratico medio = 3.9982 IC: 0.43633Determinacion: 0.17122Gamma: 16 boxConstraint0.7raiz cuadrada del error cuadratico medio = 3.9863 IC: 0.44316Determinacion: 0.17547Gamma: 20 boxConstraint0.7raiz cuadrada del error cuadratico medio = 4.0074 IC: 0.43748Determinacion: 0.16856Gamma: 10 boxConstraint1raiz cuadrada del error cuadratico medio = 4.0021 IC: 0.45797Determinacion: 0.17222Gamma: 13 boxConstraint1raiz cuadrada del error cuadratico medio = 3.9887 IC: 0.44402Determinacion: 0.17488Gamma: 16 boxConstraint1raiz cuadrada del error cuadratico medio = 3.9756 IC: 0.44891Determinacion: 0.1798Gamma: 20 boxConstraint1raiz cuadrada del error cuadratico medio = 3.9899 IC: 0.44728Determinacion: 0.17432Gamma: 10 boxConstraint1.2raiz cuadrada del error cuadratico medio = 3.9916 IC: 0.45573Determinacion: 0.1738Gamma: 13 boxConstraint1.2raiz cuadrada del error cuadratico medio = 4.0346 IC: 0.4542Determinacion: 0.15611Gamma: 16 boxConstraint1.2raiz cuadrada del error cuadratico medio = 3.998 IC: 0.4673Determinacion: 0.17094Gamma: 20 boxConstraint1.2raiz cuadrada del error cuadratico medio = 3.995 IC: 0.44867Determinacion: 0.1711Gamma: 10 boxConstraint1.5raiz cuadrada del error cuadratico medio = 4.0306 IC: 0.46279Determinacion: 0.15671Gamma: 13 boxConstraint1.5raiz cuadrada del error cuadratico medio = 4.035 IC: 0.44858Determinacion: 0.15417
Gamma: 16 boxConstraint1.5raiz cuadrada del error cuadratico medio = 4.0296 IC: 0.4695Determinacion: 0.15789Gamma: 20 boxConstraint1.5raiz cuadrada del error cuadratico medio = 4.013 IC: 0.46054Determinacion: 0.16428
7/23/2019 Aprendizaje de maquinas Simulacion
http://slidepdf.com/reader/full/aprendizaje-de-maquinas-simulacion 7/16
7> REPLACE THIS LINE WITH YOUR PAPER IDENTIFICATION NUMBER (DOUBLE-CLICK HERE TO EDIT) <
Predicciones 2.0
● Analisis PCA
Se realiza un análisis usando PCA. Se tiene que utilizando 28 componentes se explica mas del 98% de la varianza y se mostrará su resultado en tres modelos
SVM //voy… LISTA
***** PCA ***** Numero de características que explican una varianza mayor al 85%: 20Maquinas Soporte VectorialGamma: 10 boxConstraint0.7raiz cuadrada del error cuadratico medio = 3.97 IC: 0.43903 Determinacion: 0.18702
Gamma: 13 boxConstraint0.7raiz cuadrada del error cuadratico medio = 3.9577 IC: 0.41996 Determinacion: 0.18998
Gamma: 16 boxConstraint0.7
raiz cuadrada del error cuadratico medio = 3.9445 IC: 0.43027 Determinacion: 0.19743
Gamma: 20 boxConstraint0.7raiz cuadrada del error cuadratico medio = 3.9562 IC: 0.44071 Determinacion: 0.19415
Gamma: 10 boxConstraint1raiz cuadrada del error cuadratico medio = 3.9819 IC: 0.40827 Determinacion: 0.17817
Gamma: 13 boxConstraint1raiz cuadrada del error cuadratico medio = 3.953 IC: 0.43071 Determinacion: 0.19008
Gamma: 16 boxConstraint1raiz cuadrada del error cuadratico medio = 3.9358 IC: 0.42048 Determinacion: 0.19691
Gamma: 20 boxConstraint1raiz cuadrada del error cuadratico medio = 3.9471 IC: 0.41524 Determinacion: 0.1936
Gamma: 10 boxConstraint1.2raiz cuadrada del error cuadratico medio = 3.9779 IC: 0.41688 Determinacion: 0.17923
Gamma: 13 boxConstraint1.2raiz cuadrada del error cuadratico medio = 3.9633 IC: 0.42591 Determinacion: 0.18492
Gamma: 16 boxConstraint1.2raiz cuadrada del error cuadratico medio = 3.958 IC: 0.4175 Determinacion: 0.18678
Gamma: 20 boxConstraint1.2raiz cuadrada del error cuadratico medio = 3.929 IC: 0.41098 Determinacion: 0.19884
Gamma: 10 boxConstraint1.5raiz cuadrada del error cuadratico medio = 4.0117 IC: 0.42498 Determinacion: 0.16323
Gamma: 13 boxConstraint1.5raiz cuadrada del error cuadratico medio = 3.9854 IC: 0.43363 Determinacion: 0.1735
7/23/2019 Aprendizaje de maquinas Simulacion
http://slidepdf.com/reader/full/aprendizaje-de-maquinas-simulacion 8/16
8> REPLACE THIS LINE WITH YOUR PAPER IDENTIFICATION NUMBER (DOUBLE-CLICK HERE TO EDIT) <
Predicciones 2.0
Gamma: 16 boxConstraint1.5raiz cuadrada del error cuadratico medio = 3.9664 IC: 0.42507 Determinacion: 0.18152
Gamma: 20 boxConstraint1.5raiz cuadrada del error cuadratico medio = 3.9477 IC: 0.41901 Determinacion: 0.18949
Ventana Parzen //Voy.. LISTA
***** PCA ***** Numero de caracteristicas que explican una varianza mayor al 85%: 20Ventana de parzenH: 0.3raiz cuadrada del error cuadratico medio = 5.3826 IC: 0.48801 Determinacion: -0.57041
H: 0.7raiz cuadrada del error cuadratico medio = 4.9479 IC: 0.48167 Determinacion: -0.31497H: 1raiz cuadrada del error cuadratico medio = 4.5202 IC: 0.47499 Determinacion: -0.080059H: 1.5raiz cuadrada del error cuadratico medio = 4.1189 IC: 0.47048 Determinacion: 0.12244H: 1.8raiz cuadrada del error cuadratico medio = 4.0702 IC: 0.47587 Determinacion: 0.15043H: 2raiz cuadrada del error cuadratico medio = 4.0826 IC: 0.47081 Determinacion: 0.14741
RANDOM FOREST //...LISTA
***** PCA ***** Numero de caracteristicas que explican una varianza mayor al85%: 20Random Forest
Numero de arboles: 25raiz cuadrada del error cuadratico medio = 4.1338 IC: 0.45505 Determinacion: 0.1204
Numero de arboles: 31
raiz cuadrada del error cuadratico medio = 4.1357 IC: 0.45922 Determinacion: 0.12098 Numero de arboles: 35raiz cuadrada del error cuadratico medio = 4.1347 IC: 0.45873 Determinacion: 0.12112
Numero de arboles: 37raiz cuadrada del error cuadratico medio = 4.1316 IC: 0.45277 Determinacion: 0.12146
Numero de arboles: 40raiz cuadrada del error cuadratico medio = 4.108 IC: 0.45391 Determinacion: 0.13169
Numero de arboles: 45
7/23/2019 Aprendizaje de maquinas Simulacion
http://slidepdf.com/reader/full/aprendizaje-de-maquinas-simulacion 9/16
9> REPLACE THIS LINE WITH YOUR PAPER IDENTIFICATION NUMBER (DOUBLE-CLICK HERE TO EDIT) <
Predicciones 2.0
raiz cuadrada del error cuadratico medio = 4.1141 IC: 0.44588 Determinacion: 0.1273 Numero de arboles: 55raiz cuadrada del error cuadratico medio = 4.1185 IC: 0.44498 Determinacion: 0.12781
● SFS
Se realizo una seleccion de caracteristicas usando el metodo sequencial forward selection usando como función objetivo el errorcuadrático medio usando random forest. Las caracteristicas seleccionadas por el metodo SFS fueron 4,8,12,16,20
SVM //...LISTO
***** SFS *****Maquinas Soporte VectorialGamma: 10 boxConstraint0.7raiz cuadrada del error cuadratico medio = 4.4569 IC: 0.39285 Determinacion: -0.02317
Gamma: 13 boxConstraint0.7raiz cuadrada del error cuadratico medio = 4.4508 IC: 0.39428 Determinacion: -0.019858
Gamma: 16 boxConstraint0.7raiz cuadrada del error cuadratico medio = 4.4454 IC: 0.40338 Determinacion: -0.016248
Gamma: 20 boxConstraint0.7raiz cuadrada del error cuadratico medio = 4.4289 IC: 0.40591 Determinacion: -0.0085199
Gamma: 10 boxConstraint1raiz cuadrada del error cuadratico medio = 4.4588 IC: 0.39488 Determinacion: -0.023636
Gamma: 13 boxConstraint1
raiz cuadrada del error cuadratico medio = 4.4569 IC: 0.39104 Determinacion: -0.023007
Gamma: 16 boxConstraint1raiz cuadrada del error cuadratico medio = 4.447 IC: 0.40311 Determinacion: -0.017047
Gamma: 20 boxConstraint1raiz cuadrada del error cuadratico medio = 4.4289 IC: 0.40648 Determinacion: -0.0084339
Gamma: 10 boxConstraint1.2raiz cuadrada del error cuadratico medio = 4.4514 IC: 0.39352 Determinacion: -0.020521
Gamma: 13 boxConstraint1.2raiz cuadrada del error cuadratico medio = 4.4573 IC: 0.39212 Determinacion: -0.023064
Gamma: 16 boxConstraint1.2raiz cuadrada del error cuadratico medio = 4.4442 IC: 0.39905 Determinacion: -0.016082
Gamma: 20 boxConstraint1.2raiz cuadrada del error cuadratico medio = 4.434 IC: 0.40503 Determinacion: -0.010927
Gamma: 10 boxConstraint1.5
7/23/2019 Aprendizaje de maquinas Simulacion
http://slidepdf.com/reader/full/aprendizaje-de-maquinas-simulacion 10/16
10> REPLACE THIS LINE WITH YOUR PAPER IDENTIFICATION NUMBER (DOUBLE-CLICK HERE TO EDIT) <
Predicciones 2.0
raiz cuadrada del error cuadratico medio = 4.4393 IC: 0.38769 Determinacion: -0.015744
Gamma: 13 boxConstraint1.5raiz cuadrada del error cuadratico medio = 4.4493 IC: 0.38922 Determinacion: -0.019903
Gamma: 16 boxConstraint1.5raiz cuadrada del error cuadratico medio = 4.4532 IC: 0.39464 Determinacion: -0.020972
Gamma: 20 boxConstraint1.5raiz cuadrada del error cuadratico medio = 4.4365 IC: 0.40519 Determinacion: -0.012152
Ventana de parzen // LISTA
Ventana de parzenH: 0.3raiz cuadrada del error cuadratico medio = 4.7885 IC: 0.48778 Determinacion: -0.17863
H: 0.7raiz cuadrada del error cuadratico medio = 4.6202 IC: 0.45781 Determinacion: -0.094615H: 1raiz cuadrada del error cuadratico medio = 4.5551 IC: 0.44589 Determinacion: -0.064199H: 1.5raiz cuadrada del error cuadratico medio = 4.4899 IC: 0.43391 Determinacion: -0.03444H: 1.8raiz cuadrada del error cuadratico medio = 4.4699 IC: 0.43065 Determinacion: -0.025429H: 2
Random Forest //LISTA
***** SFS *****
Random Forest Numero de arboles: 8raiz cuadrada del error cuadratico medio = 4.5482 IC: 0.453 Determinacion: -0.062626
Numero de arboles: 13raiz cuadrada del error cuadratico medio = 4.5849 IC: 0.49156 Determinacion: -0.075329
Numero de arboles: 17raiz cuadrada del error cuadratico medio = 4.5951 IC: 0.45703 Determinacion: -0.082706
Numero de arboles: 20raiz cuadrada del error cuadratico medio = 4.5935 IC: 0.46252 Determinacion: -0.081773
Numero de arboles: 25raiz cuadrada del error cuadratico medio = 4.592 IC: 0.45395 Determinacion: -0.082494
Numero de arboles: 30raiz cuadrada del error cuadratico medio = 4.5706 IC: 0.45141 Determinacion: -0.071853
Numero de arboles: 35raiz cuadrada del error cuadratico medio = 4.6053 IC: 0.44887 Determinacion: -0.088384
7/23/2019 Aprendizaje de maquinas Simulacion
http://slidepdf.com/reader/full/aprendizaje-de-maquinas-simulacion 11/16
11> REPLACE THIS LINE WITH YOUR PAPER IDENTIFICATION NUMBER (DOUBLE-CLICK HERE TO EDIT) <
Predicciones 2.0
● LASSO
Se utilizo la tecnica lasso para seleccion de caracteristicas. El resultado de Lasso es que se pueden descartar las caracteristicas 1,5, 14 y 23
svm //LISTA
Ingrese 1 para regresión multiple, 2 para ventana de parzen, 3 para redes neuronales, 4 para random forest, 5 para vectores desoporte: 5**** LASSO ****Maquinas Soporte VectorialGamma: 10 boxConstraint0.7raiz cuadrada del error cuadratico medio = 4.4347 IC: 0.41594 Determinacion: -0.010863
Gamma: 13 boxConstraint0.7raiz cuadrada del error cuadratico medio = 4.433 IC: 0.41001 Determinacion: -0.010628
Gamma: 16 boxConstraint0.7raiz cuadrada del error cuadratico medio = 4.4293 IC: 0.40556 Determinacion: -0.0090376
Gamma: 20 boxConstraint0.7raiz cuadrada del error cuadratico medio = 4.4285 IC: 0.40462 Determinacion: -0.0094435
Gamma: 10 boxConstraint1raiz cuadrada del error cuadratico medio = 4.4342 IC: 0.41798 Determinacion: -0.01049
Gamma: 13 boxConstraint1raiz cuadrada del error cuadratico medio = 4.4232 IC: 0.41161 Determinacion: -0.005946
Gamma: 16 boxConstraint1
raiz cuadrada del error cuadratico medio = 4.4165 IC: 0.40546 Determinacion: -0.003209
Gamma: 20 boxConstraint1raiz cuadrada del error cuadratico medio = 4.4392 IC: 0.41009 Determinacion: -0.013646
Gamma: 10 boxConstraint1.2raiz cuadrada del error cuadratico medio = 4.4319 IC: 0.41845 Determinacion: -0.0093992
Gamma: 13 boxConstraint1.2raiz cuadrada del error cuadratico medio = 4.4245 IC: 0.41087 Determinacion: -0.0067586
Gamma: 16 boxConstraint1.2raiz cuadrada del error cuadratico medio = 4.4286 IC: 0.41278 Determinacion: -0.0081973
Gamma: 20 boxConstraint1.2raiz cuadrada del error cuadratico medio = 4.433 IC: 0.40374 Determinacion: -0.011433
Gamma: 10 boxConstraint1.5raiz cuadrada del error cuadratico medio = 4.4364 IC: 0.41702 Determinacion: -0.011517
Gamma: 13 boxConstraint1.5
7/23/2019 Aprendizaje de maquinas Simulacion
http://slidepdf.com/reader/full/aprendizaje-de-maquinas-simulacion 12/16
12> REPLACE THIS LINE WITH YOUR PAPER IDENTIFICATION NUMBER (DOUBLE-CLICK HERE TO EDIT) <
Predicciones 2.0
raiz cuadrada del error cuadratico medio = 4.4241 IC: 0.41076 Determinacion: -0.006661
Gamma: 16 boxConstraint1.5raiz cuadrada del error cuadratico medio = 4.4299 IC: 0.40941 Determinacion: -0.0092846
Gamma: 20 boxConstraint1.5raiz cuadrada del error cuadratico medio = 4.4295 IC: 0.4035 Determinacion: -0.009366
Ventana parzen //Voy… LISTA
Ingrese 1 para regresión multiple, 2 para ventana de parzen, 3 para redes neuronales, 4 para random forest, 5 para vectores desoporte: 2**** LASSO ****Ventana de parzenH: 0.3raiz cuadrada del error cuadratico medio = 4.7381 IC: 0.48489 Determinacion: -0.15224
H: 0.7raiz cuadrada del error cuadratico medio = 4.5843 IC: 0.45096 Determinacion: -0.077744H: 1raiz cuadrada del error cuadratico medio = 4.5202 IC: 0.43955 Determinacion: -0.048197H: 1.5raiz cuadrada del error cuadratico medio = 4.4685 IC: 0.43042 Determinacion: -0.02476H: 1.8raiz cuadrada del error cuadratico medio = 4.4536 IC: 0.42801 Determinacion: -0.018067H: 2raiz cuadrada del error cuadratico medio = 4.4461 IC: 0.42639 Determinacion: -0.014743
Random Forest //voy…
Ingrese 1 para regresión multiple, 2 para ventana de parzen, 3 para redes neuronales, 4 para random forest, 5 para vectores desoporte: 4**** LASSO ****Random Forest
Numero de arboles: 5raiz cuadrada del error cuadratico medio = 4.9311 IC: 0.46111 Determinacion: -0.26332
Numero de arboles: 8raiz cuadrada del error cuadratico medio = 4.8778 IC: 0.46194 Determinacion: -0.22904
Numero de arboles: 13raiz cuadrada del error cuadratico medio = 4.842 IC: 0.45169 Determinacion: -0.20982
Numero de arboles: 20raiz cuadrada del error cuadratico medio = 4.8869 IC: 0.49981 Determinacion: -0.2271
Numero de arboles: 25raiz cuadrada del error cuadratico medio = 4.8679 IC: 0.46837 Determinacion: -0.22011
Numero de arboles: 30raiz cuadrada del error cuadratico medio = 4.8276 IC: 0.48978 Determinacion: -0.19801
Numero de arboles: 31raiz cuadrada del error cuadratico medio = 4.8314 IC: 0.48308 Determinacion: -0.19975
Numero de arboles: 35raiz cuadrada del error cuadratico medio = 4.8313 IC: 0.46706 Determinacion: -0.201
7/23/2019 Aprendizaje de maquinas Simulacion
http://slidepdf.com/reader/full/aprendizaje-de-maquinas-simulacion 13/16
13> REPLACE THIS LINE WITH YOUR PAPER IDENTIFICATION NUMBER (DOUBLE-CLICK HERE TO EDIT) <
Predicciones 2.0
Numero de arboles: 40raiz cuadrada del error cuadratico medio = 4.8637 IC: 0.47316 Determinacion: -0.2172
VI. A NÁLISIS DE RESULTADOS
Los resultados han demostrado que es dificil realizar predicciones sobre el desempeño de los estudiantes, esto es debido a que aunque existen muchas variables que pueden influir (no todas consideradas en este trabajo) es determinante las capacidades y motivación del alumno a la hora de su desempeño académico. El mejor modelo de los considerados anteriormente fue random forest, una de las razones es que el método de random forest no se ve tan afectado por problemas de datos no balanceados (La mayoría de los alumnos tienen a sacar puntaje por encima de 10).
Como trabajo futuro se investigará cuáles variables son más importantes en la determinación de la nota de los alumnos
VII. PREDICCIONES DEL MEJOR MODELO
7/23/2019 Aprendizaje de maquinas Simulacion
http://slidepdf.com/reader/full/aprendizaje-de-maquinas-simulacion 14/16
14> REPLACE THIS LINE WITH YOUR PAPER IDENTIFICATION NUMBER (DOUBLE-CLICK HERE TO EDIT) <
Predicciones 2.0
VIII. Conclusion
En el trabajo de predecir el desempeño de los estudiantes usando técnicas de inteligencia artificial la mayoría de esfuerzos se han realizado tratando la situación como un problema de clasificación (desempeño bajo, medio, alto, etc) por dos razones principales:La primera es que al ser un problema tan complejo, muchas variables y casos “atípicos”, es dificil obtener buenos resultados si lo que se busca es exactitud en la nota. La segunda razón es que no es tan importante pronosticar la nota exacta de un estudiante, lo que se busca es tener una idea de que variables desempeñan un papel más importante y un desempeño probable del estudiante (rendimiento bajo o alto) para poder definir acciones a realizar.
Los resultados han demostrado que es difícil realizar predicciones sobre el desempeño de los estudiantes, esto es debido a que aunque existen muchas variables que pueden influir (no todas consideradas en este trabajo) es determinante las capacidades y motivación del alumno a la hora de su desempeño académico El mejor modelo de los considerados anteriormente fue Random Forest con un RMSE de 3.92, muy cercano al obtenido en Paulo Cortez y Alice Silva [1], una de las razones es que el método de Random Forest no se ve tan afectado por problemas de datos no balanceados (La mayoría de los alumnos tienen a sacar puntaje
por encima de 10).
7/23/2019 Aprendizaje de maquinas Simulacion
http://slidepdf.com/reader/full/aprendizaje-de-maquinas-simulacion 15/16
15> REPLACE THIS LINE WITH YOUR PAPER IDENTIFICATION NUMBER (DOUBLE-CLICK HERE TO EDIT) <
Predicciones 2.0
IX. REFERENCIAS
[1] Cortez, Paulo and Silva, Alice, “USING DATA MINING TO PREDICT SECONDARY SCHOOL STUDENT PERFORMANCE”,[2] Ramesh, V and Ramar, K, “Predicting Student Performance : A Statistical and Data Mining Approach”, International Journal of Computer Applications, Vol. 67,, No.8, February 2013.
[3] Ramaswami, M, “Student Performance Prediction”, International Journal of Computational Intelligence and Informatics, Vol. 1, No: 4, January-March 2012.
[4] Ramaswami, M, Bhaskaran, R, “A CHAID Based Performance Prediction Model in Educational Data Mining”, IJCSI International Journalof Computer Science Issues, Vol 7, No 1, January 2010.
//cambiar esto
Tecnology no TECnology, //FUBUTEC
Z = 1 o 2 // pesos a las clases minoritarias = 2
Grafica, Solo para RF
Corregir el Doc //los párrafos que no estan alineados y las referencias
Clasificacion del mejor modelo
0-5 5-10 10-15 15-20 // hacer Smote
Box
Constrain
t
Gam
ma
Máquinas de Soporte Vectorial
RMSE IC R2
0.5 1 4.4028 0.41882 0.00531
0.5 10 4.0316 0.42114 0.15963
0.5 25 3.9715 0.42765 0.18556
0.5 30 3.9949 0.42132 0.17459
1 1 4.4085 0.41461 0.00219
1 10 4.0021 0.45797 0.17222
1
25 4.0033 0.43847 0.168371 30 3.9967 0.43805 0.17343
10 1 4.4224 0.41432 -0.00434
10 10 4.2411 0.48112 0.05707
10 25 4.2431 0.51793 0.05783
7/23/2019 Aprendizaje de maquinas Simulacion
http://slidepdf.com/reader/full/aprendizaje-de-maquinas-simulacion 16/16
16> REPLACE THIS LINE WITH YOUR PAPER IDENTIFICATION NUMBER (DOUBLE-CLICK HERE TO EDIT) <
Predicciones 2.0
10 30 4.2342 0.4923 0.06175
20 1 4.4216 0.41125 -0.00438
20
10 4.2788 0.47978 0.0389320 25 4.3975 0.50396 -0.01882
20 30 4.3517 0.5046 0.00154