Aprendizaje de maquinas Simulacion

7/23/2019 Aprendizaje de maquinas Simulacion

http://slidepdf.com/reader/full/aprendizaje-de-maquinas-simulacion 1/16

1> REPLACE THIS LINE WITH YOUR PAPER IDENTIFICATION NUMBER (DOUBLE-CLICK HERE TO EDIT) <

Predicciones 2.01

USING DATA MINING TO PREDICT SECONDARY SCHOOL STUDENT PERFORMANCE (Math) //cambiar a español

Abstract — En este documento se pretende mostrar el trabajo de modelado realizado sobre una base de datos de estudiantes de dos

escuelas secundarias portuguesas que incluyen atributos tales como las calificaciones del estudiante, demográficos, características

sociales y escolares relacionadas, para predecir el comportamiento de sus notas en el area de matematicas… y al mismo tiempo hacer

comparaciones con los resultados de otros autores sobre la misma base de datos o algunas similares... tratado como un problema de

regresión para el cual se simularon resultados de varios métodos de aprendizaje de maquina (Regresión múltiple, Ventana de Parzen,

Redes Neuronales Artificiales y Random Forest) para hallar el método óptimo para la solución del problema y predecir el rendimiento

de los nuevos estudiantes ingresados al sistema … los resultados muestran que...

Index Terms — Modelos fenomenológicos, aprendizaje de maquina, Regresión, Student Performance, Simulation, Regresión

Múltiple, Ventana de Parzen, Random Forest, Redes Neuronales.

I. I NTRODUCTION

Este documento aborda un problema de aprendizaje de maquina especialmente diseñado para evaluar el rendimiento de los estudiantes de secundaria en el area de matematicas de dos colegios en Portugal...

II. DESCRIPCION DEL PROBLEMA

Este documento aborda un problema de aprendizaje de maquina especialmente diseñado para evaluar el rendimiento de los estudiantes de secundaria en el área de matemáticas con bases de datos tomadas de dos colegios en Portugal, las cuales incluyen atributos de los datos discretizados tales como las calificaciones del estudiante, aspectos demográficos y características sociales y escolares relacionadas. El problema se basa en predecir el rendimiento de un nuevo estudiante ingresado al sistema ...fue tratado como un problema de regresión donde se busca una salida numérica entre cero (0%) y veinte (100%), la cual indica la

nota del estudiante al final del año.

Variables de entradaLas variables de entrada tomadas para este experimento fueron las siguientes (las variables de entrada al sistema no están organizadas en el mismo orden en que son mostradas a continuación).

1 school - student's school (binary: 'GP' - Gabriel Pereira or 'MS' - Mousinho da Silveira)2 sex - student's sex (binary: 'F' - female or 'M' - male)3 age - student's age (numeric: from 15 to 22)4 address - student's home address type (binary: 'U' - urban or 'R' - rural)5 famsize - family size (binary: 'LE3' - less or equal to 3 or 'GT3' - greater than 3)6 Pstatus - parent's cohabitation status (binary: 'T' - living together or 'A' - apart)7 Medu - mother's education (numeric: 0 - none, 1 - primary education (4th grade), 2 â€“ 5th to 9th grade, 3 â€“ secondary

education or 4 â€“ higher education)8 Fedu - father's education (numeric: 0 - none, 1 - primary education (4th grade), 2 â€“ 5th to 9th grade, 3 â€“ secondary education or 4 â€“ higher education)9 Mjob - mother's job (nominal: 'teacher', 'health' care related, civil 'services' (e.g. administrative or police), 'at_home' or 'other')10 Fjob - father's job (nominal: 'teacher', 'health' care related, civil 'services' (e.g. administrative or police), 'at_home' or 'other')11 reason - reason to choose this school (nominal: close to 'home', school 'reputation', 'course' preference or 'other')12 guardian - student's guardian (nominal: 'mother', 'father' or 'other')

1

http://www.ieee.org/organizations/pubs/ani_prod/keywrd98.txt




Predicciones 2.0

13 traveltime - home to school travel time (numeric: 1 - <15 min., 2 - 15 to 30 min., 3 - 30 min. to 1 hour, or 4 - >1 hour)14 studytime - weekly study time (numeric: 1 - <2 hours, 2 - 2 to 5 hours, 3 - 5 to 10 hours, or 4 - >10 hours)15 failures - number of past class failures (numeric: n if 1<=n<3, else 4)16 schoolsup - extra educational support (binary: yes or no)17 famsup - family educational support (binary: yes or no)18 paid - extra paid classes within the course subject (Math or Portuguese) (binary: yes or no)19 activities - extra-curricular activities (binary: yes or no)20 nursery - attended nursery school (binary: yes or no)21 higher - wants to take higher education (binary: yes or no)22 internet - Internet access at home (binary: yes or no)23 romantic - with a romantic relationship (binary: yes or no)24 famrel - quality of family relationships (numeric: from 1 - very bad to 5 - excellent)25 freetime - free time after school (numeric: from 1 - very low to 5 - very high)26 goout - going out with friends (numeric: from 1 - very low to 5 - very high)27 Dalc - workday alcohol consumption (numeric: from 1 - very low to 5 - very high)28 Walc - weekend alcohol consumption (numeric: from 1 - very low to 5 - very high)29 health - current health status (numeric: from 1 - very bad to 5 - very good)

30 absences - number of school absences (numeric: from 0 to 93)

Variables de salida Nuestra variable de salida es única e indica la nota del estudiante a final del año.G3 - final grade (numeric: from 0 to 20, output target)

III. TRABAJOS PREVIOS

Se han investigado algunos artículos de divulgación científica (sólo artículos de revista) para identificar algunos trabajos similares sobre bases de datos de estudiantes de secundaria, tales como el de Paulo Cortez y Alice Silva [1] los cuales, con nuestra misma base de datos asumen el problema como una regresión y una clasificación para intentar predecir el fracaso en las

pruebas de matemáticas, para terminar hallando Random Forest como el mejor modelo para el problema de regresión que es el de nuestro interés, con un ECM de 3.90. Sin embargo otros estudios como los de M. Ramaswami [2][4] se buscan otras formas de resolver este tipo de problemas con métodos como Bayesian Networks (BN) y CHIAD, usando bases de datos muy similares con variables de tipo personal, socioeconómico, psicológico, ambientales y academicos para describir y predecir el rendimiento de los estudiantes en las escuelas secundarias [2], mientras que Ramesh, V y Ramar, K [3] tratan el problema como una clasificación para hallar el mejor método para clasificar a los estudiantes con alto o bajo desempeño en las escuelas secundarias, de acuerdo a las variables que influyen altamente en su rendimiento académico.

En M.Ramaswami y R.Bhaskaran [2] se usa un modelo de predicción CHIAD para analizar la interrelacion entre las variables que se utilizan para predecir el resultado del desempeño en la educación superior de la escuela secundaria. Los modelos CHIAD de predicción del rendimiento fueron construidos con un predictor de variables de siete clases. Una técnica de regresión lineal simple fue usada para construir el modelo de regresión, después de la codificación de los valores categóricos de todas las variables predictoras en valores numéricos. La exactitud de predicción del rendimiento de los estudiantes que se encontró a

través de este modelo fue del 39,23%. Durante el proceso de construcción de modelos de predicción CHAID se usó el método de validación cruzada (k=10) para la validación.

Mientras en M. Ramaswami [4] han usado el método de BN classifier como una herramienta para predecir el rendimiento académico de los estudiantes, presentan una base de datos con 5650 objetos y 35 atributos para estudiantes de la escuela secundaria en India. Se entrenó la Red Bayesiana con 2, 3, 5 y 7 categorías de valor de clase con un método de validación cruzada con K=10. Los resultados revelaron que la mayor precisión se obtiene con el algoritmo de búsqueda TAN y es de 84.91% para 2 clases.




Predicciones 2.0

IV. EXPERIMENTOS

Los experimentos fueron realizados con cuatro diferentes modelos de predicción, ellos son, Regresión Múltiple (RM), Ventana de Parzen (VP), Redes Neuronales Artificiales (RNA) y Random Forest (RF). con una metodología de validación cruzada con

K=10 y con la base de datos del UCI Machine Learning Repository, Student Performance Data Set [x], con un numero de muestras de 649 y 33 características.

Normalización de las muestras usando zscoreValidación cruzada, k=10, se divide las muestras en 10.Intervalo de confianza de 95%

Para el caso de la regresión se usó una tasa de aprendizaje de 0.1. y se usa el algoritmo de gradiente descendente. Los mejores resultados se observan cuando se utilizan polinomios de grado bajo

Grado del

polinomio

Regresión

RMSE IC R

2

1 4.2027 0.4028 0.0854

2 4.339 0.38904 0.021876

3 4.6591 0.33545 -0.23012

4 4.8278 0.49758 -0.39702

5 4.8121 0.41408 -0.35095

Para el método de ventana de parzen se usó el estimador de Nadaraya-Watson. Para valores pequeños de h este método daba como resultado errores grandes, indicando que era necesario “ampliar” la vecindad (darle más

peso a las muestras más alejadas) para obtener mejores resultados

h

Ventana de Parzen

RMSE IC R

2

0.3 5.2074 0.6653 -0.4679

0.7 4.7876 0.64573 -0.2352

1 4.4865 0.5435 -0.0703




Predicciones 2.0

1.5 4.0947 0.48788 0.13541

1.8 4.0493 0.47328 0.15929

2 4.06 0.45193 0.15498

Se usó la red neuronal perceptrón multicapa con dos capas ocultas y una capa de salida con solo una neurona, cada capa oculta tiene el mismo número de neuronas. La funcion de activacion en las capas oculta es tangente hiperbólica y en la capa de salida una función lineal.

Número de

neuronas

en la capa

oculta

Redes neuronales

RMSE IC R

2

4 4.5941 0.49674 -0.0826

8 4.4334 0.34431 -0.0339

10 4.4913 0.40474 -0.0444

16 4.4809 0.46587 -0.0372

20 4.6977 0.33492 -0.1682

30 5.1563 0.40507 -0.4700

Se usó un random forest para resolver un problema de regresión, los árboles crecen sin podar y luego se calculan las secuencias óptimas de poda para los subarboles

Número

de

arboles

Random Forest

RMSE IC R

2

5 4.1259 0.37542 0.11694

8 4.0336 0.39646 0.16015

13 4.0623 0.40799 0.15067




Predicciones 2.0

20 3.9786 0.40632 0.18361

25 3.9703 0.40677 0.18836

30 3.9457 0.41165 0.19922

31 3.9272 0.39826 0.20565

35 3.9593 0.41543 0.19LISTO

Tambien se utilizo una regresión por vectores de soporte con los siguientes resultados //LISTA

Ingrese 1 para regresión multiple, 2 para ventana de parzen, 3 para redes neuronales, 4 para random forest, 5 para vectores de soporte: 5Maquinas Soporte VectorialGamma: 10 boxConstraint0.7raiz cuadrada del error cuadratico medio = 3.9959 IC: 0.40222Determinacion: 0.17523Gamma: 13 boxConstraint0.7raiz cuadrada del error cuadratico medio = 4.0008 IC: 0.40564Determinacion: 0.17081Gamma: 16 boxConstraint0.7raiz cuadrada del error cuadratico medio = 4.018 IC: 0.39862Determinacion: 0.16291Gamma: 20 boxConstraint0.7raiz cuadrada del error cuadratico medio = 4.0203 IC: 0.41219Determinacion: 0.16324Gamma: 10 boxConstraint1raiz cuadrada del error cuadratico medio = 3.999 IC: 0.41891Determinacion: 0.17274Gamma: 13 boxConstraint1raiz cuadrada del error cuadratico medio = 4.0185 IC: 0.40029Determinacion: 0.16217

Gamma: 16 boxConstraint1raiz cuadrada del error cuadratico medio = 4.0093 IC: 0.41938Determinacion: 0.1669Gamma: 20 boxConstraint1raiz cuadrada del error cuadratico medio = 4.0062 IC: 0.42763Determinacion: 0.16833Gamma: 10 boxConstraint1.2raiz cuadrada del error cuadratico medio = 3.9882 IC: 0.41991Determinacion: 0.1761Gamma: 13 boxConstraint1.2raiz cuadrada del error cuadratico medio = 4.0244 IC: 0.39804Determinacion: 0.16005Gamma: 16 boxConstraint1.2raiz cuadrada del error cuadratico medio = 4.006 IC: 0.42742Determinacion: 0.16838Gamma: 20 boxConstraint1.2raiz cuadrada del error cuadratico medio = 3.9881 IC: 0.41729Determinacion: 0.17472Gamma: 10 boxConstraint1.5

raiz cuadrada del error cuadratico medio = 4.001 IC: 0.41518Determinacion: 0.17155Gamma: 13 boxConstraint1.5raiz cuadrada del error cuadratico medio = 4.0416 IC: 0.40953Determinacion: 0.15227Gamma: 16 boxConstraint1.5raiz cuadrada del error cuadratico medio = 4.0382 IC: 0.42204Determinacion: 0.15281Gamma: 20 boxConstraint1.5raiz cuadrada del error cuadratico medio = 4.0126 IC: 0.42849Determinacion: 0.16355




Predicciones 2.0

V. SELECCIÓN Y EXTRACCIÓN DE CARACTERÍSTICAS

● Correlación de parson

Se realizó un análisis de correlación de parson entre cada caracteristica y la salida Y. Se encuentra que las características 8, 9, 16y 22 tienen una correlación insignificante con la salida Y. Se eliminan estas características y se mira el resultado con los tresmodelos que dieron mejor resultado en el punto IV (Random forest, ventana de parzen y SVM)

SVM // para cambiar si da el tiempo

Eliminando caracteristicas con correlacion insignificanteIngrese 1 para regresión multiple, 2 para ventana de parzen, 3 para redes neuronales, 4 para random forest: 5Maquinas Soporte VectorialGamma: 10 boxConstraint0.7raiz cuadrada del error cuadratico medio = 3.9871 IC: 0.45024Determinacion: 0.17841Gamma: 13 boxConstraint0.7

raiz cuadrada del error cuadratico medio = 3.9982 IC: 0.43633Determinacion: 0.17122Gamma: 16 boxConstraint0.7raiz cuadrada del error cuadratico medio = 3.9863 IC: 0.44316Determinacion: 0.17547Gamma: 20 boxConstraint0.7raiz cuadrada del error cuadratico medio = 4.0074 IC: 0.43748Determinacion: 0.16856Gamma: 10 boxConstraint1raiz cuadrada del error cuadratico medio = 4.0021 IC: 0.45797Determinacion: 0.17222Gamma: 13 boxConstraint1raiz cuadrada del error cuadratico medio = 3.9887 IC: 0.44402Determinacion: 0.17488Gamma: 16 boxConstraint1raiz cuadrada del error cuadratico medio = 3.9756 IC: 0.44891Determinacion: 0.1798Gamma: 20 boxConstraint1raiz cuadrada del error cuadratico medio = 3.9899 IC: 0.44728Determinacion: 0.17432Gamma: 10 boxConstraint1.2raiz cuadrada del error cuadratico medio = 3.9916 IC: 0.45573Determinacion: 0.1738Gamma: 13 boxConstraint1.2raiz cuadrada del error cuadratico medio = 4.0346 IC: 0.4542Determinacion: 0.15611Gamma: 16 boxConstraint1.2raiz cuadrada del error cuadratico medio = 3.998 IC: 0.4673Determinacion: 0.17094Gamma: 20 boxConstraint1.2raiz cuadrada del error cuadratico medio = 3.995 IC: 0.44867Determinacion: 0.1711Gamma: 10 boxConstraint1.5raiz cuadrada del error cuadratico medio = 4.0306 IC: 0.46279Determinacion: 0.15671Gamma: 13 boxConstraint1.5raiz cuadrada del error cuadratico medio = 4.035 IC: 0.44858Determinacion: 0.15417

Gamma: 16 boxConstraint1.5raiz cuadrada del error cuadratico medio = 4.0296 IC: 0.4695Determinacion: 0.15789Gamma: 20 boxConstraint1.5raiz cuadrada del error cuadratico medio = 4.013 IC: 0.46054Determinacion: 0.16428




Predicciones 2.0

● Analisis PCA

Se realiza un análisis usando PCA. Se tiene que utilizando 28 componentes se explica mas del 98% de la varianza y se mostrará su resultado en tres modelos

SVM //voy… LISTA

***** PCA ***** Numero de características que explican una varianza mayor al 85%: 20Maquinas Soporte VectorialGamma: 10 boxConstraint0.7raiz cuadrada del error cuadratico medio = 3.97 IC: 0.43903 Determinacion: 0.18702

Gamma: 13 boxConstraint0.7raiz cuadrada del error cuadratico medio = 3.9577 IC: 0.41996 Determinacion: 0.18998

Gamma: 16 boxConstraint0.7

raiz cuadrada del error cuadratico medio = 3.9445 IC: 0.43027 Determinacion: 0.19743


Gamma: 10 boxConstraint1raiz cuadrada del error cuadratico medio = 3.9819 IC: 0.40827 Determinacion: 0.17817













Predicciones 2.0



Ventana Parzen //Voy.. LISTA

***** PCA ***** Numero de caracteristicas que explican una varianza mayor al 85%: 20Ventana de parzenH: 0.3raiz cuadrada del error cuadratico medio = 5.3826 IC: 0.48801 Determinacion: -0.57041

H: 0.7raiz cuadrada del error cuadratico medio = 4.9479 IC: 0.48167 Determinacion: -0.31497H: 1raiz cuadrada del error cuadratico medio = 4.5202 IC: 0.47499 Determinacion: -0.080059H: 1.5raiz cuadrada del error cuadratico medio = 4.1189 IC: 0.47048 Determinacion: 0.12244H: 1.8raiz cuadrada del error cuadratico medio = 4.0702 IC: 0.47587 Determinacion: 0.15043H: 2raiz cuadrada del error cuadratico medio = 4.0826 IC: 0.47081 Determinacion: 0.14741

RANDOM FOREST //...LISTA

***** PCA ***** Numero de caracteristicas que explican una varianza mayor al85%: 20Random Forest

Numero de arboles: 25raiz cuadrada del error cuadratico medio = 4.1338 IC: 0.45505 Determinacion: 0.1204

Numero de arboles: 31

raiz cuadrada del error cuadratico medio = 4.1357 IC: 0.45922 Determinacion: 0.12098 Numero de arboles: 35raiz cuadrada del error cuadratico medio = 4.1347 IC: 0.45873 Determinacion: 0.12112



Numero de arboles: 45




Predicciones 2.0

raiz cuadrada del error cuadratico medio = 4.1141 IC: 0.44588 Determinacion: 0.1273 Numero de arboles: 55raiz cuadrada del error cuadratico medio = 4.1185 IC: 0.44498 Determinacion: 0.12781

● SFS

Se realizo una seleccion de caracteristicas usando el metodo sequencial forward selection usando como función objetivo el errorcuadrático medio usando random forest. Las caracteristicas seleccionadas por el metodo SFS fueron 4,8,12,16,20

SVM //...LISTO

***** SFS *****Maquinas Soporte VectorialGamma: 10 boxConstraint0.7raiz cuadrada del error cuadratico medio = 4.4569 IC: 0.39285 Determinacion: -0.02317

Gamma: 13 boxConstraint0.7raiz cuadrada del error cuadratico medio = 4.4508 IC: 0.39428 Determinacion: -0.019858



Gamma: 10 boxConstraint1raiz cuadrada del error cuadratico medio = 4.4588 IC: 0.39488 Determinacion: -0.023636

Gamma: 13 boxConstraint1

raiz cuadrada del error cuadratico medio = 4.4569 IC: 0.39104 Determinacion: -0.023007











Predicciones 2.0





Ventana de parzen // LISTA

Ventana de parzenH: 0.3raiz cuadrada del error cuadratico medio = 4.7885 IC: 0.48778 Determinacion: -0.17863

H: 0.7raiz cuadrada del error cuadratico medio = 4.6202 IC: 0.45781 Determinacion: -0.094615H: 1raiz cuadrada del error cuadratico medio = 4.5551 IC: 0.44589 Determinacion: -0.064199H: 1.5raiz cuadrada del error cuadratico medio = 4.4899 IC: 0.43391 Determinacion: -0.03444H: 1.8raiz cuadrada del error cuadratico medio = 4.4699 IC: 0.43065 Determinacion: -0.025429H: 2

Random Forest //LISTA

***** SFS *****

Random Forest Numero de arboles: 8raiz cuadrada del error cuadratico medio = 4.5482 IC: 0.453 Determinacion: -0.062626

Numero de arboles: 13raiz cuadrada del error cuadratico medio = 4.5849 IC: 0.49156 Determinacion: -0.075329









Predicciones 2.0

● LASSO

Se utilizo la tecnica lasso para seleccion de caracteristicas. El resultado de Lasso es que se pueden descartar las caracteristicas 1,5, 14 y 23

svm //LISTA

Ingrese 1 para regresión multiple, 2 para ventana de parzen, 3 para redes neuronales, 4 para random forest, 5 para vectores desoporte: 5**** LASSO ****Maquinas Soporte VectorialGamma: 10 boxConstraint0.7raiz cuadrada del error cuadratico medio = 4.4347 IC: 0.41594 Determinacion: -0.010863






Gamma: 16 boxConstraint1












Predicciones 2.0




Ventana parzen //Voy… LISTA

Ingrese 1 para regresión multiple, 2 para ventana de parzen, 3 para redes neuronales, 4 para random forest, 5 para vectores desoporte: 2**** LASSO ****Ventana de parzenH: 0.3raiz cuadrada del error cuadratico medio = 4.7381 IC: 0.48489 Determinacion: -0.15224

H: 0.7raiz cuadrada del error cuadratico medio = 4.5843 IC: 0.45096 Determinacion: -0.077744H: 1raiz cuadrada del error cuadratico medio = 4.5202 IC: 0.43955 Determinacion: -0.048197H: 1.5raiz cuadrada del error cuadratico medio = 4.4685 IC: 0.43042 Determinacion: -0.02476H: 1.8raiz cuadrada del error cuadratico medio = 4.4536 IC: 0.42801 Determinacion: -0.018067H: 2raiz cuadrada del error cuadratico medio = 4.4461 IC: 0.42639 Determinacion: -0.014743

Random Forest //voy…

Ingrese 1 para regresión multiple, 2 para ventana de parzen, 3 para redes neuronales, 4 para random forest, 5 para vectores desoporte: 4**** LASSO ****Random Forest












Predicciones 2.0


VI. A NÁLISIS DE RESULTADOS

Los resultados han demostrado que es dificil realizar predicciones sobre el desempeño de los estudiantes, esto es debido a que aunque existen muchas variables que pueden influir (no todas consideradas en este trabajo) es determinante las capacidades y motivación del alumno a la hora de su desempeño académico. El mejor modelo de los considerados anteriormente fue random forest, una de las razones es que el método de random forest no se ve tan afectado por problemas de datos no balanceados (La mayoría de los alumnos tienen a sacar puntaje por encima de 10).

Como trabajo futuro se investigará cuáles variables son más importantes en la determinación de la nota de los alumnos

VII. PREDICCIONES DEL MEJOR MODELO




Predicciones 2.0

VIII. Conclusion

En el trabajo de predecir el desempeño de los estudiantes usando técnicas de inteligencia artificial la mayoría de esfuerzos se han realizado tratando la situación como un problema de clasificación (desempeño bajo, medio, alto, etc) por dos razones principales:La primera es que al ser un problema tan complejo, muchas variables y casos “atípicos”, es dificil obtener buenos resultados si lo que se busca es exactitud en la nota. La segunda razón es que no es tan importante pronosticar la nota exacta de un estudiante, lo que se busca es tener una idea de que variables desempeñan un papel más importante y un desempeño probable del estudiante (rendimiento bajo o alto) para poder definir acciones a realizar.

Los resultados han demostrado que es difícil realizar predicciones sobre el desempeño de los estudiantes, esto es debido a que aunque existen muchas variables que pueden influir (no todas consideradas en este trabajo) es determinante las capacidades y motivación del alumno a la hora de su desempeño académico El mejor modelo de los considerados anteriormente fue Random Forest con un RMSE de 3.92, muy cercano al obtenido en Paulo Cortez y Alice Silva [1], una de las razones es que el método de Random Forest no se ve tan afectado por problemas de datos no balanceados (La mayoría de los alumnos tienen a sacar puntaje

por encima de 10).




Predicciones 2.0

IX. REFERENCIAS

[1] Cortez, Paulo and Silva, Alice, “USING DATA MINING TO PREDICT SECONDARY SCHOOL STUDENT PERFORMANCE”,[2] Ramesh, V and Ramar, K, “Predicting Student Performance : A Statistical and Data Mining Approach”, International Journal of Computer Applications, Vol. 67,, No.8, February 2013.

[3] Ramaswami, M, “Student Performance Prediction”, International Journal of Computational Intelligence and Informatics, Vol. 1, No: 4, January-March 2012.

[4] Ramaswami, M, Bhaskaran, R, “A CHAID Based Performance Prediction Model in Educational Data Mining”, IJCSI International Journalof Computer Science Issues, Vol 7, No 1, January 2010.

//cambiar esto

Tecnology no TECnology, //FUBUTEC

Z = 1 o 2 // pesos a las clases minoritarias = 2

Grafica, Solo para RF

Corregir el Doc //los párrafos que no estan alineados y las referencias

Clasificacion del mejor modelo

0-5 5-10 10-15 15-20 // hacer Smote

Box

Constrain

t

Gam

ma

Máquinas de Soporte Vectorial

RMSE IC R2

0.5 1 4.4028 0.41882 0.00531

0.5 10 4.0316 0.42114 0.15963

0.5 25 3.9715 0.42765 0.18556

0.5 30 3.9949 0.42132 0.17459

1 1 4.4085 0.41461 0.00219

1 10 4.0021 0.45797 0.17222

1

25 4.0033 0.43847 0.168371 30 3.9967 0.43805 0.17343

10 1 4.4224 0.41432 -0.00434

10 10 4.2411 0.48112 0.05707

10 25 4.2431 0.51793 0.05783




Predicciones 2.0

10 30 4.2342 0.4923 0.06175

20 1 4.4216 0.41125 -0.00438

20

10 4.2788 0.47978 0.0389320 25 4.3975 0.50396 -0.01882

20 30 4.3517 0.5046 0.00154

Date post:	18-Feb-2018
Category:	Documents
Upload:	edwinalejandrootalvarogarcia
View:	219 times
Download:	0 times

Aprendizaje de maquinas Simulacion

Documents