UNIVERSIDAD MAYOR
FACULTAD DE INGENIERIA
PROYECCIÓN DE DEMANDA A TRAVÉS DE REDES NEURONALES
ARTIFICIALES
Proyecto de Titulación para Optar al Título de Ingeniero Civil Industrial
CLAUDIO AGUILAR SAPUNAR
CRISTIAN REYES FARIAS
SANTIAGO DE CHILE
JUNIO-2012
UNIVERSIDAD MAYOR
FACULTAD DE INGENIERIA
PROYECCIÓN DE DEMANDA A TRAVÉS DE REDES NEURONALES
ARTIFICIALES
Proyecto de Titulación para Optar al Título de Ingeniero Civil Industrial
Alumnos: Claudio Aguilar Sapunar
Cristian Reyes Farias
Profesor Guía: Oscar Agustín Inostroza Aliaga
Ingeniero Civil Electricista
SANTIAGO DE CHILE
JUNIO-2012
DEDICATORIA
A mis padres por su permanente apoyo en todo lo que emprendo, al entregarme sus
consejos y alentarme persistentemente a mejorar, enseñándome la importancia de la
perseverancia y a nunca rendirme.
A mis hermanos que continuamente han estado conmigo y con los cuales he
compartido mis mejores momentos.
A mis amigos que me han entregado su apoyo, consejos y buenos ratos de
esparcimiento durante todo el periodo de la Tesis.
Claudio.
A mis padres e Isabel, gracias por la paciencia sin límites y por el apoyo constante e
incondicional.
Cristián.
AGRADECIMIENTOS
A nuestro profesor guía Oscar Inostroza, que nos ha enseñado y tutelado en un tema
tan poco conocido como son las redes neuronales artificiales, reconociéndole su
buena acogida y estar siempre atento a nuestras inquietudes.
Al Dr. Sergio Velastin de Kingston University; Ex director del Instituto de Informática y
Métodos Cuantitativos de la Universidad Austral de Chile, donde el profesor Inostroza
también fue académico; por atender el requerimiento efectuado por uno de nosotros
en Inglaterra, facilitándonos su ayuda, su consejo y la franca cooperación al
proporcionarnos recomendaciones para el trabajo y contactarnos con uno de los
profesores de su Universidad.
Al Dr. Gordon Hunter de Kingston University, por asistirnos en este trabajo y guiarnos
en la definición del problema en cuestión.
Claudio Aguilar
Cristián Reyes
ÍNDICE
PAG N°
RESUMEN EJECUTIVO i
ABSTRACT ii
CAPITULO I INTRODUCCION 1
1.1 Antecedentes Generales y de Contexto 1
1.2 Objetivos 2
1.2.1 Objetivo General 2
1.2.2 Objetivos Específicos 3
CAPITULO II MARCO TEORICO 5
PARTE I 6
2.1 Neurociencia 6
2.1.1 Sistema Nervioso Central 6
2.1.2 Neuronas 7
2.1.2.1 Estructura de la Neurona 8
2.1.2.2 Base electroquímica 10
2.1.3 Sinapsis 16
2.1.4 Procesamiento de la Información 17
2.1.5 Mecanismo Neuronales de Aprendizaje 17
2.1.6 Memoria 22
2.1.6.1 Subprocesos de la Memoria 23
2.1.7 Modelos Matemáticos de Aprendizaje 24
PARTE II 26
2.2 Redes Neuronales Artificiales 26
2.2.1 Modelo General de Neurona Artificial. 26
2.2.2 Arquitectura 30
A Redes Neuronales de una Capa Realimentación
Positiva
30
B Redes Neuronales de Múltiples Capas
Realimentación Positiva
31
C Redes recurrentes 33
2.2.3 Aprendizaje 34
A Aprendizaje Error-Corrección 35
B Aprendizaje Basado en Memoria 37
C Aprendizaje Hebbiano 39
D Aprendizaje Competitivo 40
E Aprendizaje de Boltzman 43
F Aprender con Profesor 47
G Aprender sin Profesor 48
2.3 Diferentes Modelos de Redes 49
2.3.1 Modelo Mcculloch-Pitts 49
2.3.2 Perceptrón 52
2.3.3 Neurona Lineal Adaptativa (ADALINE) 55
2.3.4 Perceptrón Multicapa 56
2.3.5 Redes Neuronales de Base Radial 59
2.3.6 Redes de Neuronas Recurrente 62
A Redes Parcialmente Recurrente 64
B Redes Totalmente Recurrentes 65
C Red de Hopfield 66
D Máquina de Boltzmann 69
2.3.7 Cognitron 71
2.3.8 Neocognitron 72
2.3.9 Red Neuronal de Atención Selectiva. 73
2.3.10 Mapas Auto-Organizados y Crecientes 74
A Mapas Auto-Organizados de Kohonen 74
B Método de Aprendizaje Vector de Cuantización (AVC) 77
C Gas Neural de Crecimiento (GNC) 78
D Crece Cuando se Requiere (CCR) 81
PARTE III 88
2.4 Proyección de Demanda 88
2.4.1 Modelos de Series de Tiempo 88
2.4.2 Modelos Causales 91
2.4.3 Modelos Subjetivos 96
CAPITULO III DESARROLLO 100
3.1 Parametrización 102
3.2 Análisis de Datos 105
3.2.1 Estudios de Variables sin tratamiento 105
3.2.2 Estudio de Variables Normalizadas 113
3.3 Selección de Muestra 119
3.4 Modelos 119
3.5 Normalización de Variables 120
3.6 Pronóstico 121
3.6.1 Regresión Lineal 121
3.6.2 Promedio Móvil 124
3.6.3 Promedio Móvil Ponderado 124
3.6.4 Suavizamiento Exponencial 125
3.6.5 Red de Perceptrón Multicapa 126
3.6.6 Red Crece Cuando se Requiere 136
3.6.7 Mapas Auto-Organizados 142
3.7 Análisis de Resultados 147
3.7.1 Porcentaje de errores de los Métodos Tradicionales 148
3.7.2 Porcentaje de error de las Redes Seleccionadas 153
3.8 Múltiples Muestras 169
CAPITULO IV CONCLUSIONES 174
4.1 Conclusiones 174
4.2 Discusiones 177
BIBLIOGRAFÍA 183
ANEXOS
ÍNDICE DE TABLA
PAG N°
Tabla 1 Prueba de Kolmogorov-Smirnov para variables sin
tratamiento
106
Tabla 2 Pruebas Estadísticas para variables sin tratamiento 107
Tabla 3 Corrlación de Rho de Spearman para variables sin
tratamiento
112
Tabla 4 Prueba de Kolmogorov-Smirnov para variables
Normalizadas
113
Tabla 5 Pruebas Estadísticas para variables normalizadas 114
Tabla 6 Correlación de Rho de Spearman para variables
normalizadas
118
Tabla 7 Pronóstico con Regresión Lineal 122
Tabla 8 Proyección de Regresión Lineal 123
Tabla 9 Promedio Móvil 124
Tabla 10 Promedio Móvil Ponderado 125
Tabla 11 Suavizamiento Exponencial 126
Tabla 12 Red de Perceptrón Multicapa Auto-regresivo no-lineal
con entrada externa con la variable de entrada Dólar
127
Tabla 13 Red de Perceptrón Multicapa Auto-regresivo no-lineal
con entrada externa con las variables de entrada
Dólar y Fecha de Reserva
128
Tabla 14 Red de Perceptrón Multicapa Auto-regresivo no-lineal
con entrada externa con las variables de entrada
Dólar y Número de Pasajeros
128
Tabla 15 Red de Perceptrón Multicapa Auto-regresivo no-lineal
con entrada externa con las variables de entrada
Dólar, Número de Pasajeros y Fecha de Reserva
129
Tabla 16 Red de Perceptrón Multicapa Auto-regresivo no-lineal
con entrada externa con las variables de entrada
Fecha de Reserva
129
Tabla 17 Red de Perceptrón Multicapa Auto-regresivo no-lineal
con entrada externa con las variables de entrada
Número de Pasajeros
130
Tabla 18 Red de Perceptrón Multicapa Auto-regresivo no-lineal
con entrada externa con las variables de entrada
Número de Pasajeros y Fecha de Reserva
130
Tabla 19 Red de Perceptrón Multicapa Auto-regresivo no-lineal 131
Tabla 20 Red de Perceptrón Multicapa Entrada-Salida No-
Lineal para la variable de entrada Dólar
132
Tabla 21 Red de Perceptrón Multicapa Entrada-Salida No-
Lineal para la variable de entrada Dólar y Fecha de
Reserva
133
Tabla 22 Red de Perceptrón Multicapa Entrada-Salida No-
Lineal para la variable de entrada Dólar y Número de
133
Pasajeros
Tabla 23 Red de Perceptrón Multicapa Entrada-Salida No-
Lineal para la variable de entrada Dólar, Fecha de
Reserva y Número de Pasajeros
134
Tabla 24 Red de Perceptrón Multicapa Entrada-Salida No-
Lineal para la variable de entrada Fecha de Reservas
134
Tabla 25 Red de Perceptrón Multicapa Entrada-Salida No-
Lineal para la variable de entrada Número de
Pasajeros
135
Tabla 26 Red de Perceptrón Multicapa Entrada-Salida No-
Lineal para la variable de entrada Número de
Pasajeros y Fecha de Reservas
135
Tabla 27 Red Crece Cuando Se Requiere y Perceptrón
Multicapa con Entrada-Salida No-lineal para las
variables de entrada: Fecha de Reserva, Dólar y
Número de Pasajeros
137
Tabla 28 Red Crece Cuando Se Requiere y Perceptrón
Multicapa con Entrada-Salida No-lineal para las
variables de entrada: Fecha de Reserva y Dólar
138
Tabla 29 Red Crece Cuando Se Requiere y Perceptrón
Multicapa con Entrada-Salida No-lineal para las
variables de entrada: Dólar y Número de Pasajeros
138
Tabla 30 Red Crece Cuando Se Requiere y Perceptrón 139
Multicapa con Entrada-Salida No-lineal para las
variables de entrada: Fecha de Reserva y Número de
Pasajeros
Tabla 31 Red Crece Cuando Se Requiere y Perceptrón
Multicapa con Auto-Regresivo No-Lineal con Entrada
Externa para las variables de entrada: Fecha de
Reserva, Dólar y Número de Pasajeros
140
Tabla 32 Red Crece Cuando Se Requiere y Perceptrón
Multicapa con Auto-Regresivo No-Lineal con Entrada
Externa para las variables de entrada: Dólar y
Número de Pasajeros
140
Tabla 33 Red Crece Cuando Se Requiere y Perceptrón
Multicapa con Auto-Regresivo No-Lineal con Entrada
Externa para las variables de entrada: Fecha de
Reserva y Dólar
141
Tabla 34 Red Crece Cuando Se Requiere y Perceptrón
Multicapa con Auto-Regresivo No-Lineal con Entrada
Externa para las variables de entrada: Fecha de
Reserva y Número de Pasajeros
141
Tabla 35 Mapa Auto-Organizado y Perceptrón Multicapa con
Entrada-Salida No-Lineal para las variables de
entrada: Fecha de Reserva, Dólar y Número de
Pasajeros
143
Tabla 36 Mapa Auto-Organizado y Perceptrón Multicapa con
Entrada-Salida No-Lineal para las variables de entrada:
Fecha de Reserva y Dólar
143
Tabla 37 Mapa Auto-Organizado y Perceptrón Multicapa con
Entrada-Salida No-Lineal para las variables de
entrada: Dólar y Número de Pasajeros
144
Tabla 38 Mapa Auto-Organizado y Perceptrón Multicapa con
Entrada-Salida No-Lineal para las variables de
entrada: Fecha de Reserva y Número de Pasajeros
144
Tabla 39 Mapa Auto-Organizado y Perceptrón Multicapa con
Auto-Regresivo No-Lineal con Entrada Externa para
las variables de entrada: Fecha de Reserva, Dólar y
Número de Pasajeros
145
Tabla 40 Mapa Auto-Organizado y Perceptrón Multicapa con
Auto-Regresivo No-Lineal con Entrada Externa para
las variables de entrada: Dólar y Número de
Pasajeros
146
Tabla 41 Mapa Auto-Organizado y Perceptrón Multicapa con
Auto-Regresivo No-Lineal con Entrada Externa para
las variables de entrada: Fecha de Reserva y Dólar
146
Tabla 42 Mapa Auto-Organizado y Perceptrón Multicapa con
Auto-Regresivo No-Lineal con Entrada Externa para
las variables de entrada: Fecha de Reserva y
147
Número de Pasajeros
Tabla 43 Porcentaje de error de las proyecciones con Métodos
Tradicionales
149
Tabla 44 Porcentaje de error de las proyecciones con
Perceptrón Multicapa con entrada-salida no-lineal
153
Tabla 45 Porcentaje de Error y Coeficiente de Correlación para
Perceptrón Multicapa con Entrada-Salida No-Lineal
para las variables: Número de Pasajeros y Fecha de
Reserva
154
Tabla 46 Porcentaje de error de las proyecciones con
Perceptrón Multicapa con Auto-Regresivo No-Lineal
155
Tabla 47 Porcentaje de Error y Coeficiente de Correlación para
Perceptrón Multicapa con Auto-Regresivo No-Lineal
para la variable Objetivo Cantidad de Reservas
157
Tabla 48 Porcentaje de error de las proyecciones con
Perceptrón Multicapa con Auto-Regresivo No-Lineal
con entrada externa
157
Tabla 49 Porcentaje de Error y Coeficiente de Correlación para
Perceptrón Multicapa con Auto-Regresivo No-Lineal
con Entrada Externa para las variables: Dólar,
Número de Pasajeros y Fecha de Reserva
158
Tabla 50 Porcentaje de error de las proyecciones con Crece
Cuando se Requiere y Perceptrón Multicapa con
159
Entrada-Salida No-Lineal
Tabla 51 Porcentaje de Error y Coeficiente de Correlación para
Crece Cuando se Requiere con Perceptrón Multicapa
con Entrada-Salida No-Lineal para la variable:
Número de Pasajeros y Dólar
160
Tabla 52 Porcentaje de error de las proyecciones con Crece
Cuando se Requiere y Perceptrón Multicapa con
Auto-Regresivo No-Lineal con Entrada Externa
161
Tabla 53 Porcentaje de Error y Coeficiente de Correlación para
Crece Cuando se Requiere con Perceptrón Multicapa
con Auto-Regresivo No-Lineal con Entrada Externa
para las variables: Número de Pasajeros, Dólar y
Fecha de Reserva
163
Tabla 54 Porcentaje de error de las proyecciones con Mapa
Auto-Organizado y Perceptrón Multicapa con
Entrada-Salida No-Lineal
163
Tabla 55 Porcentaje de Error y Coeficiente de Correlación para
Mapa Auto-Organizados con Perceptrón Multicapa
con Entrada-Salida No-Lineal para las variables:
Número de Pasajeros, Dólar y Fecha de Reserva
164
Tabla 56 Porcentaje de error de las proyecciones con Mapa
Auto-Organizado y Perceptrón Multicapa con Auto-
Regresivo No-Lineal con Entrada Externa.
165
Tabla 57 Porcentaje de Error y Coeficiente de Correlación para
Mapa Auto-Organizados con Perceptrón Multicapa
con Auto-Regresivo No-Lineal con Entrada Externa
para las variables: Número de Pasajeros y Fecha de
Reserva
167
Tabla 58 Resumen de los Porcentaje de Error de las Redes
Neuronales con el tipo de problema Entrada-Salida
No-Lineal (ESN) para la primera muestra utilizada.
167
Tabla 59 Resumen de los Porcentaje de Error de las Redes
Neuronales con el tipo de problema Auto-Regresivo
No-Lineal con Entrada Externa (ANEE) para la
primera muestra utilizada.
168
Tabla 60 Resumen de los resultados finales de Porcentaje de
Error de las Redes Neuronales para las 163
muestras. Mejor Mínimo para tipo de problema
Entrada-Salida No-Lineal (ESN).
170
Tabla 61 Resumen de los resultados finales de Porcentaje de
Error de las Redes Neuronales para las 163
muestras. Mejor Promedio para tipo de problema
Entrada-Salida No-Lineal (ESN).
171
Tabla 62 Resumen de los resultados finales de Porcentaje de
Error de las Redes Neuronales para las 163
muestras. Mejor Mínimo para tipo de problema Auto-
171
Regresivo No-Lineal con Entrada Externa (ANEE).
Tabla 63 Resumen de los resultados finales de Porcentaje de
Error de las Redes Neuronales para las 163
muestras. Mejor promedio para tipo de problema
Auto-Regresivo No-Lineal con Entrada Externa.
172
ÍNDICE DE FIGURAS
PAG N°
Figura 1 Sistema Nervioso Central 7
Figura 2 Neurona 8
Figura 3 Potencial eléctrico a través de la membrana del axón
medida con microelectrodos
conectados a un osciloscopio
12
Figura 4 Axón en Estado de Reposo 13
Figura 5 El Potencial de Acción de una Neurona 14
Figura 6 Propagación del Potencial de Acción de una
Neurona.
16
Figura 7 Caracol Marino Aplysia Califórnica. 19
Figura 8 Clasificación de aprendizaje 22
Figura 9 Modelo genérico de neurona artificial 27
Figura 10 Modelo de neurona estándar 29
Figura 11 Redes Neuronales de una capa Realimentación
Positiva
31
Figura 12 Red Multicapa Realimentación Positiva 32
Figura 13 Red recurrente sin auto alimentación 33
Figura 14 Neurona de Mcculloch-Pitts. 50
Figura 15 Perceptrón 53
Figura 16 Función Discriminante 54
Figura 17 ADALINE 55
Figura 18 Red Neuronal de Base Radial 61
Figura 19 Red de Hopfield 67
Figura 20 Red de Hopfield 67
Figura 21 Maquina de Boltzmann 70
Figura 22 Proceso de lotes donde las muestras de entrada son
distribuidas en sublista bajo el modelo de la mejor
combinación
76
Figura 23 Gráficos de Regresiones 93
Figura 24 Captura de Pantalla de la base de datos 101
Figura 25 Captura de Pantalla de la Tabla Dinámica 102
Figura 26 Captura de Pantalla de las variables en el programa
IBM SPSS Statistics 19
105
Figura 27 Gráficos de Asimetría y Curtosis de variables sin
tratamiento
109
Figura 28 Diagramas de Dispersión para las variables Cantidad
de Reservas-N°Pasajeros
110
Figura 29 Gráfico de Asimetría y Curtosis de variables
Normalizadas
116
Figura 30 Diagramas de Dispersión para variables Cantidad de
Reservas-N° Pasajeros
117
Figura 31 Captura de Pantalla de variables Normalizadas. 121
Figura 32 Gráficos de contraste la demanda real con la 150
demanda proyectada por Promedio Móvil
Figura 33 Gráficos de contraste la demanda real con la
demanda proyectada por Promedio Móvil Ponderado
151
Figura 34 Gráficos de contraste la demanda real con la
demanda proyectada por Suavizamiento Exponencial
151
Figura 35 Gráficos de contraste la demanda real con la
demanda proyectada por Regresión Lineal
152
Figura 36 Gráfico Demanda Real V/S Perceptrón Multicapa con
Entrada-Salida no-lineal, con variables de entrada
Número de Pasajeros y Fecha de Reservas
154
Figura 37 Gráfico Demanda Real V/S Perceptrón Multicapa con
Auto-Regresivo No-Lineal
155
Figura 38 Gráfico Demanda Real V/S Perceptrón Multicapa con
Auto-Regresivo No-Lineal con entrada externa, con
variables de entrada Dólar, Fecha de Reservas y
Número de Pasajeros
159
Figura 39 Gráfico Demanda Real V/S Crece Cuando se
Requiere y Perceptrón Multicapa con Entrada-Salida
No-Lineal, con variables de entrada Dólar Observado
y Número de Pasajeros
160
Figura 40 Gráfico Demanda Real V/S Crece Cuando se
Requiere y Perceptrón Multicapa con Auto-Regresivo
No-Lineal con Entrada Externa, con variables de
162
entrada Dólar Observado, Número de Pasajeros y
Fecha de Reservas
Figura 41 Gráfico Demanda Real V/S Mapa Auto-Organizado y
Perceptrón Multicapa con Entrada-Salida No-Lineal,
con variables de entrada Dólar Observado, Número
de Pasajeros y Fecha de Reservas.
164
Figura 42 Gráfico Demanda Real V/S Mapa Auto-Organizado y
Perceptrón Multicapa con Auto-Regresivo No-Lineal
con Entrada Externa, con variables de entrada
Número de Pasajeros y Fecha de Reservas
166
Dímelo y lo olvidaré;
enséñame y lo recordaré;
involúcrame y lo aprenderé.
Benjamín Franklin
RESUMEN EJECUTIVO
Los métodos de pronóstico son ampliamente utilizados en las variadas industrias para
predecir la demanda de insumos, para pronosticar la demanda de productos con fines
que van desde la disminución de costos hasta la maximización del beneficio. Escenario
en el cual las empresas dependen de la precisión de estas predicciones para continuar
operando, es por ello que un método que ofrezca resultados más próximos a la
demanda real nace como una necesidad de las organizaciones.
Esta Tesis propone un modelo basado en redes neuronales artificiales que genera
pronósticos más precisos y con un error asociado menor que los modelos tradicionales
para la demanda de un servicio. El estudio estadístico de la información histórica de la
que se dispone, permite generar un conjunto de datos de entrada que proveerá los
elementos para alimentar el modelo desarrollado.
Se utilizan varios esquemas de redes, las cuales se someten a procesos de
entrenamiento, validación y testeo para verificar su eficacia. Los distintos conjuntos de
datos se utilizan para generar pronósticos por arreglo de dato y esquema de red, los
cuales luego son comparados con los resultados de los métodos tradicionales, de esta
manera se comprueba que los métodos que utilizan redes neuronales entregan
resultados más asertivos al momento de pronosticar la demanda de un servicio, esta
conclusión es extensible a la generación de modelos de demanda de productos e
insumos.
i
ABSTRACT
Forecast methods are widely used in many industries to predict consumables demand,
as well as products demand with objectives that range from lowering cost to increasing
profit. Many businesses depend on the accuracy of their forecasting to keep working;
this is why a method that provides a forecast closer to the real demand is a business
necessity.
This Thesis proposes a neural network based model of forecasting more accurate and
less error prone than the traditional service forecasting methods. The statistical analyses
of the service time-series data generate some sets of input data for the model
developed.
Some neural network models are submitted to training process, validation and testing to
verify their effectiveness. The data sets are used to generate forecast for every data set
and for every network model. Then the results are compared with the results of the
traditional methods. In this way it’s verified that neural network based model of
forecasting return more accurate predictions of services demand. Also this conclusion
can be used to predict consumables and products demand.
ii
1
CAPITULO I
INTRODUCCIÓN
1.1 ANTECEDENTES GENERALES Y DE CONTEXTO
Los avances tecnológicos han exacerbado la necesidad de tener que generar
ventajas competitivas que permitan diferenciarse de los competidores y entreguen
valor a los productos.
Las distintas valoraciones que pueden recibir los productos desde las tangibles hasta
las intangibles han afectado su precio, demanda, y las características mismas del
producto. Esto lleva al establecimiento del intercambio1, en el cual se agregan o
eliminan características, en función de un costo óptimo determinado por la empresa.
Es innegable la importancia del costo al momento de la fabricación, una mala
decisión o un mal cálculo del mismo, puede llevar a la empresa a tener serios
problemas de liquidez, problemas fiscales o incluso a la quiebra de la misma.
En las cadenas productivas predictivas, se adelantan a la demanda futura con una
estimación de cuanto será necesario producir - bienes o servicios - para el período o
periodos siguientes, la precisión de esta valoración es vital para el funcionamiento
adecuado de la empresa.
Una mala estimación en una empresa manufacturera puede implicar desde una
escases de producto, (con la perdida de consumidores y clientes asociada), a un
sobre stock de producto, (con los gastos asociados al almacenaje de las unidades de
mercancía extra). En una empresa de servicios, se puede producir una caída en la
calidad del servicio hasta el impedimento de prestacion de los mismos.
La búsqueda de aumentar la precisión de los pronósticos, disminuir el error relativo
de las predicciones si se prefiere, ha llevado al desarrollo de diferentes técnicas que
buscan eliminar o disminuir al mínimo las imprecisiones en la valoración de la
1 Del término inglés Trade-off.
2
producción en los periodos venideros. Este mismo proceso es lo que ha llevado a la
técnica a migrar desde métodos cualitativos a procesos cuantitativos.
En este contexto es donde la utilización de nuevas técnicas, redes neuronales, lógica
difusa, algoritmos genéticos, adquiere relevancia. Cada uno de estos métodos recién
nombrados, con sus ventajas y desventajas propias, que favorezcan su utilización
serán incorporadas en conjunto con las condiciones más apropiadas para cada
instancia. Todas estas metodologías buscan obtener resultados más precisos a
través de la forma de operar del cerebro (redes neuronales), así como de la manera
de pensar (lógica difusa2).
1.2 OBJETIVOS
1.2.1 Objetivo General
Construir un modelo de red neuronal artificial que provea un pronóstico más asertivo,
en comparación a los métodos tradicionales de proyección de demanda, para una
empresa de servicios del mercado chileno.
Este modelo buscará reflejar el comportamiento complejo de un fenómeno, que más
allá, de establecer las relaciones causa efecto de las variables del fenómeno mismo,
será capaz de utilizar estas interaccciones para obtener un pronóstico de mejor
calidad que los métodos tradicionales.
2 En inglés se denomina Fuzzy Logic.
3
1.2.2 Objetivos Específicos
Realizar análisis estadísticos de los datos que dan origen a los pronósticos, se
utilizarán técnicas de estadística descriptiva que permitan que los resultados
obtenidos puedan ser comprendidos por personas sin una formación
estadística sólida.
Revisar las relaciones que se forman entre los datos que dan origen a los
pronósticos y las distintas anormalidades de los mismos.
Utilizar técnicas de pronósticos más comunes y determinar los pronósticos
para estos métodos y el error medido de cada una de estas técnicas.
Efectuar la selección de los parámetros, las distintas variables del problema,
de modo de elegir las más adecuadas para dar solución a este.
Escoger de forma aleatoria una muestra de los datos que se utilizará como
base de comparación entre los modelos de redes neuronales y las técnicas de
pronóstico tradicionales.
Generar dsitintos modelos de redes neuronales con los parámetros
seleccionados para obtener distintas soluciones de pronósticos.
Ajustar las variables del modelo para obtener las respuestas más cercanas a
la solución del problema.
Medir el error de la proyección de cada uno de los modelos.
Seleccionar el mejor modelo en relación al error de predicción asociado al
mismo.
Comparar los resultados entre las técnicas usuales y el modelo elegido; de
este modo, determinar cual método es más asertivo.
4
Generar múltiples muestras que serán entrenadas, validadas y probadas en
los distintos modelos de redes neuronales con el fin de verificar con mas de un
90% de confianza que los pronósticos entregados por los modelos de redes
neuronales superan a los de las técnicas tradicionales.
5
CAPÍTULO II
MARCO TEÓRICO
Como se ha explicado en la introducción, la presente Tesis tiene como objetivo
desarrollar un modelo que sea capaz de proyectar la demanda esperada de
productos de consumo masivo, para ello se ha elegido las redes neuronales
artificiales como herramientas para lograr este propósito.
Pero, antes de explicar lo que son las redes neuronales artificiales, hay que decir
cuales son sus orígenes, que son las neuronas de los seres vivos, especialmente las
de los seres humanos.
Para esto se expondrá a continuación los diferentes aspectos tanto biológicos como
psicológicos, entre otros, del Sistema Nervioso y de las neuronas; como así también
se detallará los aspectos más relevantes del aprendizaje en el cual se ve involucrado
el cerebro.
6
PARTE I
2.1 NEUROCIENCIA
2.1.1 Sistema Nervioso Central3
El sistema nervioso es aquel que nos da las características propias de cada ser
humano; esto es la inteligencia, personalidad, los puntos de vistas entre otras, de
muchas características que el ser humano puede o no poseer.
Se puede decir que el Sistema Nervioso Central está integrando diferentes
estructuras de alta complejidad en un sólo sistema. De las distintas estructuras la
más básica es la neurona, la célula nerviosa por esencia, de la cual se hablará en
detalle posteriormente.
El sistema nervioso humano está conformado por tres sistemas: el Sistema Nervioso
Central, (en adelante SNC), el Sistema Nervioso Periférico, (en adelante SNP) y el
Sistema Nervioso Autónomo o Vegetativo, (en adelante SNA). Para este desarrollo el
objeto de esta Tesis será el SNC.
Las estructuras que integran el SNC son el encéfalo y la medula espinal, ambos
componentes se encuentran resguardados por el cráneo y la columna vertebral
respectivamente. A continuación en la Figura N°1 se ven los componentes generales
del SNC.
Luego de esto se puede dividir el SNC en seis regiones básicas, que son: medula
espinal, bulbo raquídeo, protuberancia y cerebelo, mesencéfalo, tálamo y hemisferios
cerebrales. Para más Información sobre este tema ver el Anexo 1: Estructura del
Sistema Nervioso Central.
3 (Haines, 2003) & (UCSH, 2009).
7
Figura 1: Sistema nervioso central. Fuente: “Principios de Neurociencia”.
2.1.2 Neurona4
“La célula nerviosa (neurona) es considerada como la unidad básica de
funcionamiento del cerebro, debido a su extensa interconectividad y por su
especialización en la comunicación”.
Las neuronas gestionan la información, lo cual produce que haya cambios en sus
propiedades bioeléctricas o bioquímicas. Estos cambios se producen con un enorme
costo energético para cada célula involucrada. Debido a esto último, es que el
4 (UCSH, 2009), (Haines, 2003) & (Squire, Berg, Floyd, Du Lac, Ghosh, & Spitzer, 2008).
8
sistema nervioso es el mayor consumidor de oxígeno y glucosa de nuestro cuerpo al
ser comparado con los otros órganos y sistemas.
Las neuronas, mientras mantienen su metabolismo, son capaces de realizar las
siguientes funciones, en el orden que son presentadas a continuación: recibir
información del entorno o de otras neuronas, procesar información y enviar
información a otras neuronas o tejidos efectores.
2.1.2.1 Estructura de la Neurona
La neurona arquetípica está conformada de un soma o cuerpo neural del cual brotan
las dendritas y el axón. Además, la neurona se observa circunscrita por una
membrana plasmática continúa. En la siguiente ilustración (Figura N°2) se puede
apreciar la neurona arquetípica.
Figura 2: Neurona. Fuente: “Principles of Neural Science”.
9
La información en las neuronas, en su mayoría, va desde las dendritas al soma y
continúa por el axón y sus terminales para pasar a la siguiente neurona o al tejido
efector.
A continuación se explicará cada una de las estructuras de la neurona en el orden en
que se transmite la información.
a. Dendritas: Estas estructuras suelen ramificarse profusamente en las
proximidades del soma, alrededor del cual toma la forma de un árbol o
arbusto. Se encargan de la recepción de las señales que vienen de otras
neuronas o del entorno a través de receptores especializados. La mayoría de
las neuronas son multipolares, o sea, tienen varias dendritas que salen del
soma. Las señales, (información), son recibidas por parte de la dendrita de
dos formas, la primera a través de receptores especiales, cuando es por parte
del entorno de la señal; y la segunda es a través de los contactos que tienen
lugar en la superficie, (la sinapsis), cuando la señal viene de otra neurona.
Esta información viaja desde la parte distal a la parte proximal para converger
en el soma.
En los extremos de las extensiones de la dendrita - ramas distales - existen
prolongaciones de pequeño tamaño, denominadas espinas dendríticas, las
cuales poseen diversas formas y es en ellas donde se desarrollan los
contactos sinápticos. Al aproximarse al soma las dendritas comienzan a unirse
y permiten que adquiera un mayor grosor.
b. Soma: Este es el centro metabólico de la neurona y constituyen la sustancia
gris del sistema nervioso central.
Debido a que hay distintitas formas del soma y patrones de las prolongaciones
que salen de él, las neuronas pueden ser clasificadas en tres grandes tipos:
Multipolares, con múltiples dendritas que le dan la forma poligonal al soma,
Seudomonopolar (o Monopolar), de forma redondeado y que da lugar a una
única prolongación, y Bipolares, que tienen somas redondo u ovalado y desde
sus extremos surgen sendas prolongaciones gruesas.
10
c. Axones y terminales axónicas: “este surge del soma en una pequeña
elevación denominada cono de implantación o más comúnmente, cono
axónico”.
Los axones y las terminales axónicas pueden alcanzar grandes distancias
antes de ramificarse y terminar.
Estas ramificaciones antes mencionadas son conocidas como arborizaciones
terminales o campos terminales. Las neuronas en su mayoría, rematan en su
axón terminal con pequeños botones terminales. Estos son puntos de contacto
funcional (sinapsis) entre las neuronas. A su vez, también se pueden
encontrar a lo largo del axón botones de paso. En otros axones se pueden
encontrar engrosamiento o varicosidades, aunque estos no tienen la forma de
botón antes dicha, pues este engrosamiento representa puntos de
transferencia de información entre una célula a otra.
El lugar donde el terminal axónico se comunica con una segunda neurona se
llama sinapsis. Esta sinapsis se define como el contacto de una sección de la
neurona (que generalmente es el axón) con las dendritas, el soma o el axón
de una segunda neurona.
2.1.2.2 Base Electroquímica
Las neuronas establecen cientos o miles de conexiones con otras neuronas y envían
de forma continua señales basadas en los estimulos que reciben. “Esta propagación
eléctrica (o señal) dentro de la célula es unidireccional”, como ya se dijo en el punto
anterior. “Todas estas computaciones neuronales ocurren simultáneamente, el
procesamiento de la información en el cerebro se produce en paralelo”.
“Las conexiones sinápticas entre neuronas están organizadas de manera que las
corrientes de información paralelas se segregan en vías y núcleos separados. Esta
organización hace que cada función se asocie a una combinación concreta de
11
núcleos y vías”. La información viaja en serie de núcleo en núcleo, y en cada núcleo
las señales se ven envueltas en un grupo determinado de procedimientos. Esto
otorga que más y más información abstracta sea sustraída en base a los datos
suministrados por los receptores sensoriales. A lo recién expuesto se le conoce
como procesamiento jerárquico.
La información en el Sistema Nerviosos Central se almacena distribuyéndola, para
lograr esto, las características de las conexiones sinápticas son cambiadas. Un
ejemplo es el almacenamiento de una asociación concreta de señales aferentes y
eferentes que conlleva a la modificación de las características de varias sinapsis en
cualquier neurona. Cada una de estas neuronas guarda varias asociaciones,
provocando cambios en sus características sinápticas. En el instante que se recogen
grupos parecidos de señales, varias neuronas participan en la respuesta a estas
señales con cálculos similares; es debido a esto que la pérdida de neuronas
individuales no trae consecuencias visibles en el funcionamiento del sistema
nervioso. Esta redundancia es muy importante, ya que en el transcurso de la vida se
pierden muchas neuronas, las cuales no son remplazadas y por ende se pierden
para siempre.
a. Potencial de Reposo
Debido a que el potencial de reposo de la membrana de una neurona no es el
equilibrio potencial para cualquier ion particular, los iones constantemente
disminuyen sus gradientes de concentración.
El potencial de reposo, o potencial de membrana, es generado por una
distribución desigual de iones, particularmente (Potasio), (Sodio) y
(Cloro), a través del plasma de la membrana. Esta distribución inusual es
mantenida por las bombas iónicas y cambiadores. Los ionesde Potasio
están concentrados dentro de la neurona y tienden a disminuir su gradiente de
concentración, llevando a la hiperpolarización de la célula. En el potencial de
equilibrio, la tendencia de los iones de fluir fuera de la célula será
12
compensada de entrar en la célula debido a la atracción del potencial negativo
dentro de esta. La membrana en reposo es también permeable a los iones de
Sodio ( ) y Cloro ( ) y debido a esto el potencial de reposo de la neurona
es aproximadamente -75 a -40mV, (ver Figura N°3).
Las grabaciones intracelulares de mamíferos muestran que distintos tipos de
neuronas presentan diferentes potenciales de reposo de membrana, incluso
en algunas no existe un potencial de reposo propiamente tal, estas continua y
espontáneamente generan potenciales de acción.
Figura 3: Potencial eléctrico a través de la membrana del axón medida con microelectrodos conectados a un osciloscopio. Fuente: “Biología de los Animales”, Capítulo 47, A. Curtis,
Editorial Médica Panamericana.
b. Potencial de Acción
En la sinapsis se realiza un potencial generador debido a un proceso local.
Este es un potencial lento o gradual, ya que su amplitud varía de modo
continuo. Si este potencial se transmite pasivamente a una zona de la
13
membrana eléctricamente excitable, llamada zona de disparo, y sobrepasa un
cierto nivel umbral, se genera un potencial de acción. Este potencial de acción
es “una onda de despolarización del tipo todo o nada que tiende a la
perpetuación y se propaga a lo largo de la membrana de la fibra nervioso”. Si
las despolarizaciónes son más débiles que el umbral es un fenómeno local y
se extingue pasivamente. En la Figura N°4 se observa este fenómeno de
estado de reposo.
Figura 4: Axón en Estado de Reposo. Fuente: “Biología de los Animales”, Capítulo 47, A. Curtis, Editorial Médica Panamericana.
“El umbral de despolarización se define como el nivel de despolarización que
da origen a un potencial de acción en el 50% de las ocasiones”, (ver Figura 5).
Cuando ocurre esto, se activan los canales de con la fuerza necesaria
para que la entrada de no sea sobrepasada por la creciente salida de ,
con el fin de que esta se equilibre con ella. Una pequeña desviación en
cualquiera de los dos sentidos puede establecer el resultado final; lo que
puede llevar a la extinción o a transformarse en un potencial de acción.
Cuando la despolarización es superior al umbral siempre provocará un
14
potencial de acción. “En este caso, la entrada de iguala a la salida de
en el momento en que la despolarización alcanza el valor umbral”.
Figura 5: El Potencial de Acción de una Neurona. Fuente: “Biología de los Animales”, Capítulo 47, A. Curtis, Editorial Médica Panamericana
c. Repolarización
Después de la generación de potencial de acción, el potencial de membrana
se repolariza y se vuelve incluso más negativo que antes, generando una
hiperpolarización.
Inmediatamente después de la generación de un potencial de acción, otro
potencial de acción generalmente no se puede generar, sin importar la
cantidad de corriente inyectada dentro del axón. Este período corresponde a la
etapa de refracción absoluta y usualmente pasa por la inactivación de los
canales de Sodio ( ). El período refractario relativo ocurre durante el
potencial de acción, después de una hiperpolirización y sigue el periodo
refractario absoluto.
15
En la mayoría de las neuronas, la hiperpolarización negativa aproximada a
60mV activa una corriente iónica llamada , que conduce iones y .
Esta corriente típicamente tiene una cinética muy lenta, desarrollándose en un
tiempo constante del orden de decenas de milisegundos. Debido a que los
canales admiten el pasaje de los iones mencionados, está típicamente
dominada por el momento hacia el interior de iones se produce la
depolarización. Entre más se active más rápido la membrana se depolariza
y es menor el tiempo en que se alcanza el umbral para el siguiente potencial
de acción.
d. Propagación del Potencial de Acción
Para que se produzca el desplazamiento del potencial de acción de un
extremo al otro, se realiza un proceso en el cual se despolariza la membrana
adyacente en reposo a la región activa, llevándola hasta el umbral. “En este
instante la membrana inactiva podrá desarrollar un potencial de acción y su
ciclo de despolarización podrá despolarizar a la siguiente sección de
membrana inactiva.” El proceso resultante se mueve como una onda a lo largo
del axón, y se denomina propagación o conducción del potencial de acción
(ver Figura N°6).
16
Figura 6: Propagación del Potencial de Acción de una Neurona. Fuente: “Biología Celular y Molecular”, H. Lodish et al., Editorial Médica Panamericana, Buenos Aires, 2004
2.1.3 Sinapsis5
Existen dos clasificaciones de sinapsis: la eléctrica y la química. En el presente
estudio se hablará de la sinapsis química, dada su ocurrencia en la gran mayoría de
los mamíferos.
En la sinapsis química, el neurotransmisor, (ver Anexo 2: Neurotransmisores), es
producido por la célula presináptica, el cual esta envuelto en pequeñas vesículas
sinápticas, rodeadas de membrana dentro de las terminales nerviosas. En el
momento que un potencial de acción es recibido por la terminal presináptica, esta
libera el neurotransmisor, que se propaga atravesando el espacio sináptico, y se
acopla a moléculas de receptor de la membrana postsináptica. Esto trae que se
modifique la permeabilidad de los canales iónicos postsinápticos, produciendo así
una corriente sináptica que despolariza o hiperpolariza a la membrana postsináptica.
“Debido a la especialización de los elementos presinápticos y postsinápticos, las
sinapsis químicas son unidireccionales”.
5 (Haines, 2003).
17
“En una neurona postsináptica, las corrientes sinápticas pueden ser provocadas por
la actividad de miles de sinapsis. Estas corrientes interactúan produciendo una
hiperpolarización o despolarización netas. Esta interacción de potenciales graduales
o lentos es la base para buena parte del procesamiento de información en el sistema
nervioso”. Para mayor información ver el Anexo 3: Sinapsis.
2.1.4 Procesamiento de la Información5
“En general, cada célula recibe aferencias tanto excitadoras como inhibidoras desde
diferentes fuentes, y el balance entre la inhibición y la excitación determina la
respuesta final. Este tipo de interacciones permite el control de la naturaleza y la
magnitud de los reflejos motores, la detección de las características de un estímulo
visual, tales como la posición de los bordes de los objetos, y la comparación del
tiempo de llegada de los sonidos a los oídos para determinar en qué dirección se
halla una fuente de sonido”.
2.1.5 Mecanismo Neuronales de Aprendizaje6
1. Habituación
“Es la forma más simple de aprendizaje, un organismo aprende a disminuir o suprimir
por completo una respuesta a un estímulo neutral recurrente, es decir, un estímulo
que no es reforzante ni dañino”
Por ejemplo de habituación se puede exponer al caracol marino Aplysia Califórnica,
(se usa este animal debido a su simplicidad del sistema nervioso, en la Figura N°7 se
aprecia una fotografía), se le estimula su sifón, esto provoca que retire con energía
6 (Kandel, 2001) & (Rains, 2007).
18
su branquia. Después de la estimulación repetida del sifón, se reducirá o incluso será
eliminada esta respuesta de retracción.
La habituación se puede dividir en dos tipos; la de corto plazo y de largo plazo. Por
ejemplo, la habituación de corto plazo tendrá lugar después de 10 estímulos al sifón,
la disminución de la retracción de las branquias puede durar alrededor de 10
minutos. Mientras que una habituación de largo plazo tendrá lugar con una cantidad
mayor de estimulaciones por un periodo más largo.
Kandel junto a sus colaboradores describieron el circuito de retracción de la branquia
de la Aplysia. En este estudio se describe como las neuronas sensoriales reciben
estimulos de entradas desde el sifón formando conexiones monosinapticas con las
neuronas motoras que activan la branquia. Estos estudios además han revelado
componentes del mecanismo de habituación a corto plazo en este circuito, el cual
muestra el efecto que involucra la modificación de la actividad en las terminales del
axón de las neuronas sensoriales y por las interneuronas excitatorias que inervan las
neuronas motoras. La habituación también está asociada a su vez a la disminución
en la capacidad de las vesículas transmisoras para moverse a zonas activas de la
membrana presináptica y así estar disponibles para liberar sus contenidos en la
sinapsis.
En la habituación de largo plazo se involucra la activación de genes que provocan
cambios estructurales en estas conexiones. Los estudios de microscopia electrónica,
que compara animales habituados y no habituados, han revelado que después de la
habituación de largo plazo el número promedio de contactos sinápticos que las
ramificaciones de las terminales sinápticas de las neuronas sensoriales establecen
con las neuronas motoras se reduce a un tercio. Además, la proporción de las
terminales del axón sensorial con zonas activas se reduce de manera significativa.
19
Figura 7: Caracol Marino Aplysia Califórnica. Fuente: “Psiquiatria, psicoanálisis y la nueva biologia de la
mente”, Eric Kandel, Ars medica, Barcelona, 2007
Todo esto nos da dos implicaciones de este mecanismo. Primero, aunque es la
forma más simple de aprendizaje, están involucrados diferentes tipos de neuronas:
neuronas sensoriales e interneuronas excitatorias. Por tanto, aún en la habituación
de un reflejo simple, los cambios en la fuerza funcional de los contactos sinápticos no
están restringidos a un sitio en la neurona, sino que están distribuidos en varios
sitios. Segundo, es que este mecanismo no depende de neuronas que están
especializadas para el aprendizaje. En lugar de ello, los cambios neuronales
subyacentes a la habituación del reflejo de retracción de la branquia de la Aplysia
involucran cambios en las neuronas que son componentes del reflejo mismo.
2. Sensibilización
“La magnitud de una respuesta a un estímulo neutral aumenta cuando es procedido
por un estímulo nociceptivo (doloroso)”. Volviendo al circuito de retracción de la
Aplysia, si se aplica un fuerte choque eléctrico a su sifón provocará un reflejo de
retractación de branquia más vigoroso.
20
Eric Kandel y sus colaboradores encontraron que el choque eléctrico a la cola
estimula la interneuronas, que son llamadas interneuronas facilitadoras, las cuales
establecen sinapsis sobre las terminales del axón de las neuronas sensoriales que
reciben entradas desde el sifón y que, a su vez, forman sinapsis: a) sobre las
neuronas motoras que activan la retirada de la branquia y, b) sobre otras
interneuronas que forman sinapsis sobre estas neuronas motoras. Estas conexiones
axo-axonales permiten que una neurona modifique la actividad de una segunda
neurona al influir sobre los eventos en la terminal del axón de la segunda neurona.
En este caso, en respuesta al choque eléctrico en la cola, las interneuronas
facilitadoras liberan serotonina. Esta se une con los receptores (NI) de la terminal del
axón de la neurona sensorial y pone en marcha una cascada bioquímica que, al final
de cuentas, provoca un incremento en el influjo de Ca2+ dentro de la terminal del
axón y causa un aumento en la cantidad del neurotransmisor liberado.
La sensibilización se puede clasificar en corto plazo y a largo plazo, esto depende del
número y la magnitud de estimulación nociceptiva previa. En la sensibilización a
largo plazo se ven envueltos cambios estructurales a través de la activación de
genes. Entre los cambios que se producen se encuentran el incremento en el número
promedio de conexiones sinápticas que se producen entre las neuronas sensoriales
con las neuronas motoras y un crecimiento correspondiente de las dendritas de las
neuronas motoras con el fin de poder adecuar el aumento de los contactos.
“Además, existe un aumento en la proporción de las terminales del axón de la
neurona sensorial con zonas activas”.
3. Condicionamiento Clásico
“Es un proceso altamente específico. El establecimiento de una respuesta
condicionada requiere que el inicio de un estímulo neutro particular preceda de
manera repetida el inicio de un intervalo de tiempo específico (aproximadamente 0,5
21
s)”7. “Aquí el organismo aprende a asociar un estímulo específico con otro. Cuando
un estímulo neutro (uno que no produce una respuesta particular) precede de
manera repetida a un estímulo incondicional (un estímulo que de manera natural
provoca una respuesta particular, llamada respuesta incondicionada), el estímulo
neutro previo se convertirá en un activador de una respuesta idéntica a (o similar a)
la respuesta incondicionada. Cuando esto ocurre, el estímulo previamente neutro se
le denomina estímulo condicionado y la respuesta que evoca se le llama respuesta
condicionada”.
Volviendo al ejemplo de la Aplysia, “el choque eléctrico a la cola es el estímulo
incondicionado, la estimulación de la base del manto es el estímulo condicionado y la
retirada de la branquia es la respuesta incondicionada y, eventualmente, la
condicionada. Por ende, si el choque eléctrico a la cola es precedido durante varios
intentos por una estimulación ligera de la base del manto, esto provocara una
vigorosa retracción de la branquia”. En este caso “las interneuronas, que reciben
entradas de las neuronas sensoriales que inervan la cola, establecen sinapsis axo-
axonales con la neuronas sensoriales que llevan las entradas desde el manto; el
disparo de estas interneuronas provoca la facilitación presinápticas de la neurona
sensorial que transmite las señales desde el manto. Las interneuronas hacen esto
mediante la liberación de serotonina, lo cual genera un incremento en la liberación de
glutamato por las terminales del axón de la neurona sensorial que establece sinapsis
con las neuronas motoras”.
Además de lo anterior “en el condicionamiento, la facilitación presináptica es
bastante amplificada si el estímulo condicionado (estímulo de la base del manto)
produce potenciales de acción en las neuronas sensoriales justo antes del inicio del
estímulo incondicionado (choque eléctrico a la cola). Por tanto, la magnitud de la
facilitación presináptica depende de la actividad de las neuronas sensoriales que
reciben la facilitación, un fenómeno al cual se le denomina facilitación presináptica
dependiente de la actividad”.
7 (Rains, 2007) & (Kandel, 2001).
22
Estos tres mecanismos neuronales del aprendizaje pueden ser clasificados en dos
tipos; en asociativo y no asociativos, el cual puede ser apreciado en la Figura N°8.
2.1.6 Memoria8
“Durante el proceso del aprendizaje quedan huellas que dejan el procesamiento y la
integración de la información percibida. Así es como se activa la memoria. Este es un
proceso cognitivo que permite recordar las experiencias pasadas, tanto en términos
de la adquisición de información nueva como de recordar información”. El
aprendizaje permite que la memoria se vaya edificando y a su vez la memoria
permite hacer perdurar los beneficios del aprendizaje. Tanto la memoria como el
aprendizaje están influenciados por los mismos factores. Es debido a esto que la
memorización de información o de eventos puede ser perfeccionada a través de una
motivación acrecentada, un contexto especial, un estado emocional fuerte o una
atención aumentada.
8 (UCSH, 2009) & (Rains, 2007).
Aprendizaje
No Asociativo
Asociativo
Habituación
Sensibilización
Condicionamiento
Solución de Problemas
Figura 8: Clasificación de Aprendizaje. Basado en “Inostroza, Canessa & Holzmann”.
23
La memoria es uno de los aspectos más centrales del ser humano. Mediante ella, el
sistema nervioso codifica los eventos pasados en una forma que en ocasiones
permite recordar de manera consciente eventos en el pasado distante tan
vívidamente como si apenas hubiesen ocurrido, y estos recuerdos con frecuencia
llevan consigo emociones intensas que van desde lo maravilloso hasta lo
tormentoso. “Los eventos pasados están representados en el sistema nervioso en
una forma que no produce recuerdos conscientes y que incluso afectan la conducta
subsecuente, como cuando se desempeña una habilidad motora como pasear en
bicicleta”.
Otros dominios de la cognición se relacionan con la memoria, lo que se recuerda
está influenciado por lo que ya se sabe y lo que se infiere acerca del pasado. Hay
que destacar que la memoria no es un registro estático, sino que es un proceso
dinámico afectado por los marcos conceptuales y por el conocimiento general; y las
inferencias sacadas a partir de ellos. Por lo tanto, recordar es una construcción o
reconstrucción dinámica del pasado.
Hace un par de años atrás, Elizabeth Loftus demostró de manera experimental la
capacidad reconstructiva de la memoria y lo importante que son los esquemas en
este proceso a través de la manipulación del recuerdo de un evento de los individuos
por medio de la introducción de información después de la experiencia del suceso.
2.1.6.1 Subprocesos de la Memoria
“El proceso de la memoria es dividido en tres subprocesos secuenciales:
registro/codificación, almacenamiento/mantenimiento y recuperación”:
A. Registro/Codificación: el registro es cuando el estímulo debe crear un cierto
impacto sobre un sistema nervioso, con el fin de que el sistema plasme una
representación del mismo. La codificación es la manera en que la información
se representa en el sistema nervioso. La codificación puede adoptar distintas
24
formas, las cuales dependen de las características del estímulo que la usan
como base. Además, esto va a depender mucho del individuo que realiza la
codificación.
B. Almacenamiento/Mantenimiento: esta es una gran incógnita de la
neurobiología. La representación no es precisamente estática, como lo sería al
grabar símbolos, letras, entre otras, en piedras. El recordar, al contrario del
ejemplo anterior, es un proceso dinámico, el cual se ve afectado por una
multitud de factores. Por último, decir que aunque la representación es
dinámicamente cambiante, debe ser almacenada en el cerebro para que la
memoria opere.
C. Recuperación: ocurre cuando se busca acceder a parte de la información
almacenada en el cerebro.
2.1.7 Modelos Matemáticos de Aprendizaje9
Los primeros pasos hacia el entendimiento matemático del aprendizaje se dieron al
inicio del siglo pasado, y están relacionados a los pioneros de la psicología
matemática, dirigiendo su atención a la curva de aprendizaje, en sus estados más
simples, basados en la experimentación con animales. En estos estudios se buscaba
identificar el perfil de la curva que se forma al medir las variaciones en el desempeño
del objeto de estudio al realizar una tarea, a través del tiempo.
El primer intento formal de modelar una gran sección de datos del comportamiento
animal con aprendizaje y motivación se puede atribuir a Clark Hull, ingeniero
eléctrico, quien creía que mucha de la teoría supuestamente confirmada con ratas
podía ser generalizada al comportamiento humano.
La idea de Clark Hull era proveer de un sistema de conceptos primitivos sin
definición, siguiendo luego definiciones y enseguida axiomas y teoremas. Luego, la
9 (Inostroza , Canessa, & Holzmann, 1982) & (Townsend & Kadlec, 1990).
25
teoría se relacionaría con la realidad a través de la creación de correlaciones entre
definiciones desde términos primitivos, axiomas o teoremas posteriores, a
mediciones o datos experimentales. Después de la muerte de Hull en 1952 muchas
de las teorías matemático-psicológicas han sido menos ambiciosas, con muy pocas
excepciones. La mayoría de las teorías se han centrado en paradigmas
relativamente pequeños. Se pueden considerar como modelos relativamente
ambiciosos la teoría de estímulo-muestreo de W. K. Estes y la de comportamiento de
elección individual de R.D. Luce, ellos intentaron formulaciones para describir una
amplia variedad de situaciones de aprendizaje o situaciones de decisión
respectivamente.
La psicología, al igual que muchas otras ciencias, han sacado provecho de los
avances matemáticos, esto se puede apreciar en las teorías del aprendizaje que se
han ido formulando a través del tiempo se puede apreciar esto. Desde los conceptos
intuitivos de C. Hull hasta el trabajo de Robert R. Bush y Frederick Mosteller, los
cuales incorporan modelos estocásticos y ecuaciones diferenciales de primer orden,
la psicología ha seguido incorporando los avances matemáticos como la teoría
general de sistemas y la teoría de autómatas, entre otras.
Esta disciplina, (psicología), se ha ido desarrollando a través del uso de las
probabilidades y estadística. En el desarrollo se ha migrado de acercamientos
cualitativos e intuitivos para probar las hipótesis a una estrategia cuantitativa con el
aumento de un modelamiento matemático cada vez más riguroso.
El desarrollo de las líneas de investigación del aprendizaje lleva a investigadores del
área de la psicología a aventurarse al área de la inteligencia artificial, así como a
investigadores de las ciencias de la computación a entrar en el terreno de la
psicología llegando a que muchos modelos de inteligencia artificial han sido
candidatos para explicar procesos cognitivos del cerebro.
Es así como nacen modelos cognitivos que proveen de información de un ajuste muy
preciso con los datos experimentales.
26
PARTE II
2.2 REDES NEURONALES ARTIFICIALES
Esta sección se organiza de manera de ir ordenando los conceptos de redes
neuronales artificiales para facilitar su comprensión. Primero se entregarán los
conceptos básicos de los modelos de neurona, para luego avanzar hacia las
arquitecturas básicas que pueden representar, y de esta manera introducir los tipos
de aprendizajes clásicos y los paradigmas del entrenamiento de redes neuronales.
En el resto de este capítulo se presentan los modelos de redes neuronales desde los
primeros tipos hasta los más actuales.
2.2.1 Modelo General de Neurona Artificial10
“Se denomina procesador elemental o neurona a un dispositivo simple de cálculo
que, a partir de un vector de entrada procedente del exterior o de otras neuronas,
proporciona una única respuesta o salida”. Esta estructura está compuesta de los
siguientes elementos:
10
(Martin del Brio, 2007).
27
Figura 9: Modelo genérico de neurona artificial. Fuente:“Redes Neuronales y Sistemas Difusos”.
Como se puede apreciar en la Figura N°9 el modelo general de neurona artificial esta
compuesto de:
Conjunto de entradas,
Pesos sinápticos de la neurona i, que representa la intensidad de relación
entre cada neurona presináptica y la neurona postsinaptica .
Regla de propagación , que proporciona el valor del potencial
postsináptico de la neurona en función de sus pesos de
entradas.
Función de activación , que proporciona el estado activación
actual de la neurona , en función de su estado
anterior y de su potencial postsináptico actual.
Función de salida , que proporciona la salida actual
de la neurona en función de su estado activación.
xj wij
hi=
σ(wij,xj)
Sinapsis
ai=f(hi)
yi=F(ai) Entradas
Salida yi
Función de
activación
Regla de
propagación
Función de
salida
28
La operación formal de la neurona se puede expresar como:
(1)
Las entradas y salidas de la ecuación (1) podrán ser de distintos tipos dependiendo
del modelo y la aplicación del mismo.
Los pesos sinápticos de la neurona , representan la intensidad de relación entre
cada neurona presináptica y neurona postsináptica . Dada una entrada positiva
procedente de un sensor o de otra neurona, si el peso es positivo tenderá a excitar a
la neurona postsináptica, en caso contrario tenderá a inhibirla; de esta manera se
puede diferenciar las sinapsis en excitadoras (de peso positivo) e inhibitorias (de
peso negativo).
La regla de propagación permitirá calcular el potencial postsináptico de la neurona a
partir de las entradas y los pesos asociados a estas. La función más habitual es la
lineal y se basa en la suma ponderada de las entradas con los pesos sinápticos
, otra regla de propagación habitual está basada en el cálculo de
distancia entre vectores, en la distancia euclediana.
(2)
Este modelo se puede considerar demasiado general, en la práctica se utiliza un
modelo más simple que se denominará neurona estándar, el cual está compuesto
de:
Un conjunto de entradas y pesos sinápticos .
Una regla de propagación donde es la
regla de uso más común.
Una función de activación , que representa simultáneamente
la salida de la neurona y su estado de activación.
Todo lo anterior se puede apreciar de mejor forma en la Figura N°10.
29
Figura 10: Modelo de neurona estándar. Fuente: “Redes neuronales y sistemas difusos”.
Con frecuencia se añade al conjunto de pesos de la neurona un parámetro adicional
, que se denominará umbral, que se resta del potencial postsináptico, por lo que el
argumento de la función de activación queda:
(3)
Lo que representa añadir un grado de libertad adicional a la neurona.
De esta manera el modelo de neurona estándar queda:
(4)
Sinapsis
Wi1
Wi2
Wij
Win . . .
. . .
x1
x2
xj
xn
Entradas
Umbral
-1
f ( ) yi
Salida
30
2.2.2 Arquitectura11
Basado en los aspectos biológicos de las neuronas se pueden identificar entre las
conexiones existentes algunos tipos de comportamientos. La mayoría de las
neuronas están conectadas con muchas, pero no todas, las neuronas vecinas en la
misma capa. Muchas de estas conexiones pueden ser excitatorias (la mayoría de las
conexiones), algunas inhibitorias, otras neuronas pueden tener un grado de
autoestimulación (un nodo excita a su vecino y este responde con una señal
excitatoria al nodo inicial), a una respuesta excitatoria casi nula.
Se denomina arquitectura a la topología, estructura o patrón de conexión de una red
neuronal. En los sistemas de redes neuronales los nodos se conectan por medio de
sinapsis, esta estructura de conexiones sinápticas determina el comportamiento de la
red. Las conexiones sinápticas son direccionales, es decir, la información solamente
puede propagarse en un sentido (desde la neurona presináptica a la postpsináptica).
En general, las neuronas se suelen agrupar en unidades estructurales que se
denominan capas. Las neuronas de una capa pueden a su vez agruparse, formando
acumulaciones neuronales (grupos12, vecindarios). Dentro de un grupo o de una
capa, si no existe este tipo de agrupación, las neuronas suelen ser del mismo tipo.
Finalmente el conjunto de una o más capas constituye la red neuronal.
A. Redes Neuronales de una Capa con Realimentación Positiva13
Se presenta como la red más básica posible en que cada neurona está conectada
con todas las neuronas que le sigue, esas conexiones pueden ser excitatorias (pesos
positivos), inhibitorias (pesos negativos) o irrelevantes (pesos cercanos a cero).
11
(Mehrotra, Mohan, & Ranka, 2000), (Martin del Brio, 2007) & (Haykin, 2005). 12
En inglés Clusters. 13
En inglés es llamadoFeedforward.
31
Las conexiones alimentan la información hacia adelante estrictamente, también se le
conoce como red de tipo acíclico. Se le conoce como de capa única porque sólo se
consideran las neuronas donde se realizan cálculos, las de salida o nodos de
computación. No se considera la capa de entrada como tal ya que no se realizan
cálculos en ella. A continuación en la Figura N°11 se aprecia una red de una capa
con realimentación positiva.
Figura 11: Redes Neuronales de una capa con Realimentación Positiva. Fuente: “Neural Networks a Comprehensive Foundation”.
B. Redes Neuronales de Múltiples Capas con Realimentación Positiva
Esta arquitectura de redes neuronales se distingue por la presencia de una o más
capas ocultas, en las cuales los nodos se llaman neuronas ocultas, la función de las
neuronas ocultas es intervenir entre la entrada externa y la salida de la red de alguna
manera útil.
Al agregar una o más capaz ocultas, es posible extraer estadísticas de orden
superior; ya que en un sentido intuitivo, la red adquiere una perspectiva global pese a
Capa de
neuronas de
entrada
Capa de neuronas
de salida
32
sus conexiones locales debido al conjunto extra de conexiones sinápticas y la
dimensión extra de interacciones neuronales.
Los nodos de entrada proveen los elementos de activación, o vector de entrada, que
se aplican a las neuronas de la segunda capa. La señal de salida de la segunda capa
se vuelve, a su vez, la señal de entrada de la tercera capa, y de esta manera para el
resto de la red.
Figura 12: Red Multicapa con Realimentación Positiva. Fuente: “Neural Networks a Comprehensive Foundation”.
En la Figura N°12 se puede apreciar una red multicapa con realimentación positiva
totalmente conectada, todas las neuronas se conectan con los nodos de la siguiente
capa, en el caso que existieran conexiones inexistentes se diría que la red es
parcialmente conectada.
Capa de
neuronas de
entrada
Capa de neuronas
de salida
Capa de neuronas
ocultas
33
C. Redes Recurrentes
Estas redes se distinguen de las realimentadas positivamente, en que poseen al
menos un circuito alimentación negativo. Por ejemplo, una red recurrente puede
consistir de una capa simple de neuronas, donde cada una alimenta la señal anterior
de todas las otras neuronas.
En la figura siguiente se muestra una red con realimentación negativa. En el caso de
la Figura N°13 no hay auto alimentación – el flujo de la información vuelve a la misma
neurona - y se utilizan operadores de retardo que resultan en comportamiento
dinámico no lineal, asumiendo que la red neuronal contiene unidades no lineales.
Figura 13: Red recurrente sin auto alimentación. Fuente: “Neural Networks a Comprehensive Foundation”.
z-1
z-1
z-1
z-1
34
2.2.3 Aprendizaje14
La propiedad que tiene mayor significancia para una red neural es la habilidad de la
red de aprender de su entorno y mejorar su rendimiento a través del aprendizaje. La
mejora en el rendimiento ocurre en el tiempo, de acuerdo a una medida
prestablecida.
Una red neural aprende sobre su entorno a través de un proceso interactivo de ajuste
aplicado a los pesos sinápticos y niveles de sesgo15. Idealmente, la red se vuelve
más informada acerca del entorno después de cada iteración del proceso de
aprendizaje.
Existen demasiadas actividades asociadas a la notación de aprendizaje por esto se
hace necesario definirlo en una manera precisa. Adicionalmente, el proceso de
aprendizaje es un punto de vista que vuelve aún más difícil la definición precisa del
término.
Admitiendo que nuestro interés particular son las redes neurales, se utilizará una
definición de aprendizaje adaptada de J. M. Mendel y R. W. McClaren, donde se
define aprendizaje, en el contexto de las redes neuronales, como:
“Aprendizaje es el proceso por el cual los parámetros libres de una red neural
son adaptados a través de un proceso de simulación del entorno en el cual la
red está integrada. El tipo de aprendizaje está determinado por la manera en
que ocurre cada cambio en el parámetro.”
La definición de este proceso implica la siguiente secuencia de eventos:
La red neuronal se estimula por el entorno.
La red neuronal sufre cambios en sus parámetros libres como resultado de
esta estimulación.
14
(Haykin, 2005). 15
Sesgo de un estimador es la diferencia entre el valor esperado del estimador y el verdadero valor del parámetro a estimar.
35
La red neuronal responde en una nueva manera al entorno producto de los
cambios ocurridos en su estructura interna.
Se denomina algoritmo de aprendizaje al conjunto establecido de reglas bien
definidas para la solución del problema de aprendizaje. Como se podría esperar, no
existe un algoritmo único para diseñar las redes neuronales. Más que esto, se tiene
un conjunto de herramientas representada por la variedad de algoritmos de
aprendizaje, cada uno ofrece ventajas propias.
Básicamente, los algoritmos de aprendizaje difieren uno del otro en la manera en que
ajustan los pesos sinápticos de una neurona. Además, otro factor a considerar es la
manera en la cual una red neuronal, hecha de un conjunto de neuronas, se relaciona
con su entorno. En este contexto se puede hablar de paradigma de aprendizaje que
se refiere al modelo de entorno en el cual la red operara.
Primero se revisarán las reglas básicas de aprendizaje, luego se enfocará en el
paradigma fundamental del aprendizaje: aprender con un profesor o aprender solo.
A. Aprendizaje Error-Corrección
Considerar un caso simple de una neurona que constituye el único nodo de una
capa de salida en una red neuronal con realimentación positiva. La neurona está
impulsada por un vector señal producido por una o más capas de neuronas
escondidas, las cuales están impulsadas a su vez por un vector de entrada
(estímulo) aplicado sobre los nodos fuentes (capa de entrada) de la red neuronal. El
argumento indica un tiempo discreto, o más precisamente, el tiempo de paso de un
proceso iterativo involucrado en ajustar los pesos sinápticos de la neurona . La
señal de salida de la neurona se denota por . Esta señal de salida, que
representa la única salida de la red neuronal, se compara con la respuesta deseada
36
o salida esperada, definida como . En consecuencia, se produce el error de la
señal, que se definirá como . Por definición se tiene:
(5)
La señal de error actúa como mecanismo de control, donde el propósito
consiste en aplicar una secuencia de ajustes correctivos a los pesos sinápticos de la
neurona . Los ajustes correctivos están diseñados para hacer que la señal de salida
se acerque a la respuesta deseada en un proceso paso a paso. Este objetivo
se alcanza minimizando la función de costo o índice de desarrollo, , definida en
base a la señal de error como:
(6)
Donde, es el valor instantáneo de energía de error. El ajuste paso a paso de los
pesos sinápticos de la neurona continúa hasta que el sistema alcanza un estado
constante, los pesos sinápticos esencialmente se estabilizan. En este punto el
proceso de aprendizaje termina.
El proceso anterior es claramente un proceso de aprendizaje de error-corrección. En
particular, la minimización de la función de costo lleva a la regla de aprendizaje
conocida comúnmente como regla delta o regla de Widrow-Hoff, llamada así por sus
creadores.
Sea el valor del peso sináptico de de una neurona excitada por el
elemento del vector señal en el tiempo . De acuerdo a la regla delta, el
ajuste aplicado al peso sináptico en el tiempo esta definido por:
(7)
37
Donde es una constante positiva que determina la tasa de aprendizaje a la cual se
procede desde un paso a otro en el proceso de aprendizaje. De ahí que sea natural
el referirse a como el parámetro de la tasa de aprendizaje. En otras palabras, la
regla delta se puede definir como:
“El ajuste realizado al peso sináptico de una neurona es proporcional al
producto de la señal de error y la señal de entrada de la sinapsis referida”.
Hay que considerar que la regla delta, definida así, presume que la señal de error es
medible directamente. Para que esta medición sea factible claramente se necesita
proveer la respuesta deseada desde una fuente externa, que tiene acceso directo a
la neurona . En otras palabras, la neurona es visible al mundo externo. Se debe
mencionar que los ajustes sinápticos realizados por la regla delta están localizados
alrededor de la neurona .
Es del caso destacar la importancia de la elección cuidadosa de , parámetro de la
tasa de aprendizaje, para asegurar que se consiga la estabilidad y convergencia del
proceso iterativo de aprendizaje. Además, la elección de tiene profunda influencia
en la precisión y otros aspectos del proceso de aprendizaje; dicho de otra manera, el
parámetro de la tasa de aprendizaje juega un rol importantísimo en el desarrollo de
los procesos de aprendizaje error-corrección.
B. Aprendizaje Basado en Memoria
En el aprendizaje basado en memoria, todos (o la mayoría) de las experiencias
pasadas están almacenadas en una gran memoria de ejemplos de clasificaciones
correctas entrada-salida, , donde es un vector de entrada y es la
respuesta deseada correspondiente. Cuando se requiere la clasificación de un vector
de prueba (que no se ha visto anteriormente), el algoritmo responde
38
recuperando y analizando los datos de entrenamiento en un "vecindario local” de
.
Todos los algoritmos de aprendizaje basados en memoria envuelven dos
componentes esenciales:
El criterio usado para definir el vecindario local del vector de prueba .
Regla de aprendizaje aplicada para los ejemplos de entrenamientos en el
vecindario local de .
Los algoritmos difieren unos de otros en la manera en que estos dos componentes
son definidos.
En un tipo de aprendizaje basado en memoria simple pero efectivo conocido como
regla del vecino más cercano, el vecindario local se define como el ejemplo de
entrenamiento que descansa en el vecindario inmediato del vector de prueba .
En particular, el vector:
(8)
Se dice el más cercano vecino de si,
(9)
Donde es la distancia euclidiana entre los vectores y . La clase
asociada con la distancia mínima, esto es, vector se reporta como la clasificación
de . Esta regla es independiente de la distribución responsable de generar los
ejemplos de entrenamiento.
Una variante del clasificador de vecino más cercano es el clasificador de -vecinos
más cercanos, el procedimiento es el siguiente:
Identificar los patrones clasificados que descansan más cercanos al vector
de prueba para algún entero .
39
Asignar a la clase que es más frecuentemente representada en los
vecinos más cercanos a .
De esta manera la clasificación de vecinos más cercanos actúa como un
dispositivo promediador. Particularmente discrimina contra una observación que es
improbablemente grande para un modelo de interés nominal.
C. Aprendizaje Hebbiano
Este es el modelo más antiguo y famoso de las reglas de aprendizaje. Debe su
nombre al neuropsicologo Donald Hebb. Se define como una sinapsis hebbiana a
una sinapsis que utiliza un mecanismo dependiente del tiempo, altamente local,
fuertemente interactivo para incrementar la eficiencia sináptica como una función de
correlación entre las actividades presinápticas y postsinápticas. De esta definición se
pueden definir las siguientes cuatro propiedades que caracterizan las sinapsis
hebbianas:
Mecanismo Dependiente del Tiempo: Este mecanismo se refiere a que las
modificaciones en una sinapsis hebbiana dependerán en el tiempo exacto de
ocurrencia de las señales presinápticas y postsinápticas.
Mecanismo Local: Por su naturaleza, una sinapsis es el sitio de transmisión
donde señales portadoras de información (representando ocurrencia de
actividad en las unidades presinápticas y postsinápticas) son próximos en
espacio y tiempo. Esta información disponible localmente es utilizada por una
sinapsis hebbiana para producir una modificación sináptica local que es una
entrada específica.
Mecanismo Interactivo: La ocurrencia del cambio en una sinapsis hebbiana
depende de la señal de ambos lados de la sinapsis. Esto quiere decir, que una
forma de aprendizaje hebbiano depende de una "interacción real” entre las
40
señales presináptica y la postsináptica en el sentido de que no se puede hacer
una predicción de cualquiera de las dos actividades por si mismas.
Mecanismo correlacional: Una interpretación del postulado de aprendizaje de
D. Hebb es que la condición para un cambio en la eficiencia sináptica es la
conjunción de señales presinápticas y postsinápticas; además, de acuerdo a
esta interpretación; la ocurrencia simultánea de señales presináptica y
postsináptica (con un intervalo de tiempo pequeño) es suficiente para producir
el cambio sináptico.
C.1 Modelos Matemáticos de Modificaciones Hebbianas.
Para formular el aprendizaje en términos matemáticos, se considera peso sináptico
de una neurona con señales presinápticas y postsinápticas denominadas e
respectivamente. El ajuste aplicado al peso sináptico al momento es
expresada en la forma general:
(10)
Donde es una función de ambas señales –pre y post sinápticas-. Las señales a
menudo son tratadas como no dimensionales.
D. Aprendizaje Competitivo
En el aprendizaje competitivo, como lo indica su nombre, las neuronas de salida de
la red neuronal compiten entre ellas para ser la activa (la que se dispara). Mientras
que en una red neuronal de aprendizaje hebbiano, varias neuronas pueden estar
activas simultáneamente, en el aprendizaje competitivo solo una única neurona esta
41
activa en un momento dado. Esta característica hace del aprendizaje competitivo
muy adecuado para descubrir características estadísticas sobresalientes que pueden
usarse para clasificar conjuntos de patrones de entrada.
Los tres elementos básicos para una regla de aprendizaje competitivo:
Es un conjunto de neuronas, todas iguales, con la excepción de los pesos
sinápticos distribuidos aleatoriamente, y por lo mismo con una respuesta
diferente a un conjunto de patrones de entrada.
Se impone un límite de "fuerza” a cada una de las neuronas.
Un mecanismo que permite a las neuronas competir por el derecho a
responder a un subconjunto de entradas dado, tal que solo una neurona de
salida, o sólo una neurona por grupo, se encuentra activa en un momento
dado. La neurona que gana la competencia sigue el esquema de "el ganador
lo toma todo”.
De esta manera, las neuronas individuales de la red aprenden a especializarse en
conjuntos de patrones similares, y de esta forma se vuelven detectores de
características para diferentes clases de patrones de entrada.
En la forma más simple del aprendizaje competitivo, la red neural tiene sólo una capa
de neuronas de salida, cada una de ellas está completamente conectada a los nodos
de entrada. La red puede incluir conexiones de retroalimentación entre las neuronas.
En la arquitectura que se está describiendo, la conexión de retroalimentación genera
una inhibición lateral, donde cada neurona tiende a inhibir la neurona a la que está
lateralmente conectada. En contraste, las conexiones sinápticas realimentadas
positivamente en la neurona son todas excitatorias.
Para que una neurona sea la ganadora, el campo local inducido para un patrón
de entrada específico debe ser el más grande entre todas las neuronas de la red.
La señal de salida de cada neurona ganadora es igual a uno, las señales de
salida de todas las neuronas que pierden la competencia es igual a cero. Esto se
escribe:
42
(11)
donde el campo local inducido representa la acción combinada de todas las
entradas, neuronas conectadas positivamente y las neuronas retroalimentadoras, de
la neurona .
Sea el peso sináptico conectando el nodo de entrada a la neurona . Suponga
que cada neurona tiene permitido un monto fijo de pesos sinápticos, por ejemplo,
todos los pesos sinápticos son positivos, los cuales son distribuidos entre los nodos
de entrada,
(12)
Una neurona que aprende va cambiando sus pesos sinápticos de nodos de entrada
desde inactivo hasta activo. Si una neurona no responde a un patrón de entrada
particular, no ocurre aprendizaje en la neurona. Si una neurona particular gana la
competencia, cada nodo de entrada de dicha neurona disminuye una porción de su
peso sináptico, y esa porción de peso sináptico entonces se distribuye
equitativamente entre los nodos de entrada activos. De acuerdo a la regla estándar
de aprendizaje competitivo, el cambio aplicado en el peso sináptico es
definido como:
(13)
donde es el parámetro de la tasa de aprendizaje. Esta regla tiene el efecto global
de mover el vector de peso sináptico de la neurona ganadora hacia el patrón de
entrada .
43
E. Aprendizaje de Boltzman
La máquina de Boltzmann al ser una máquina estocástica, hace natural mirar una
teoría de probabilidad para un apropiado índice de rendimiento. Un criterio es la
Función de Verosimilitud. El objetivo del Aprendizaje de Boltzmann es maximizar la
función de verosimilitud o, equivalentemente, la función de verosimilitud logarítmica,
de acuerdo con el principio de máxima verosimilitud.
Se denota a como el conjunto de ejemplo de entrenamiento de la distribución de
probabilidad de interés. Supone que los ejemplos son todos de dos valores. Un
subconjunto del vector estado , dicho , denota el estado de las neuronas visibles.
La parte restante del vector estado , dicho , representa el estado de las neuronas
ocultas. Los vectores estados , y son la realización de los vectores aleatorios
, y , respectivamente. La operación de la máquina de Boltzmann presenta dos
fases:
Fase positiva: En esta fase la red opera en su condición fijada, (por ejemplo,
bajo la influencia directa del conjunto de entrenamiento ).
Fase negativa: En esta segunda fase, la red se puede ejecutar libremente, y
por lo tanto, sin entrada medioambiental.
dado el peso sináptico para la red entera, la probabilidad que las neuronas visibles
estén en el estado es . Con los muchos posibles valores de
contenidos en el conjunto de entrenamiento , suponer que es estadísticamente
independiente, la distribución de probabilidad global es la distribución factorial
. Para formular la función verosimilitud logarítmica , toma el
logaritmo de esta distribución factorial y trata como el vector de parámetro
desconocido. Se puede así escribir:
44
(14)
Para formular la expresión de la probabilidad marginal en términos de la
función energía , se utiliza lo siguiente:
La probabilidad es igual a .
Por definición, el vector estado es la combinación conjunta de
perteneciente a las neuronas visibles y perteneciente a las neuronas
ocultas. Por consiguiente, la probabilidad de encontrar las neuronas visibles
en estados con cualquier es dada por.
(15)
donde el vector aleatorio es un subconjunto de . La función partición es así
misma definida por:
(16)
Así es que, sustituyendo las dos ecuaciones anteriores con la ecuación (que tiene la
función logaritmo), se obtiene la expresión deseada para la función logarítmica de
verosimilitud16:
(17)
La dependencia en es contenida en la función energía , como muestra la
siguiente ecuación:
16
En inglés es llamado Log-likelihood Function.
45
(18)
Al diferenciar con respecto a de la ecuación anterior, se obtiene el siguiente
resultado después de algunas manipulaciones de términos:
(19)
Para simplificar las cosas, se introduciran dos definiciones:
Y
(20)
En un amplio sentido, se puede ver el primer promedio, , como la tasa de disparo
medio o correlación entre los estados de neuronas y con la red operando en su
fase positiva o fija, y similarmente visto el segundo promedio, , como la
correlación entre las fases de neuronas y con la red operando en su
funcionamiento libre o fase negativa. Con estas definiciones se puede simplificar la
ecuación (19) a:
(21)
El objetivo del aprendizaje de Boltzmann es maximizar la función logarítmica de
verosimilitud . Se puede utilizar la gradiente de ascenso para lograr ese objetivo
al escribir:
46
(22)
donde es el parámetro de tasa de aprendizaje; este es definido en términos de y
la temperatura de operación como:
(23)
La regla de la gradiente de ascenso es llamada regla de aprendizaje Boltzmann. El
aprendizaje se desarrolla en lotes; eso es, los cambios para los pesos sinápticos son
hechos en la presentación del conjunto entero de los ejemplos de entrenamiento.
De acuerdo a esta regla de aprendizaje, los pesos sinápticos de una máquina de
Boltzmann son ajustados utilizando solo las observaciones disponibles a nivel local
bajo dos diferentes condiciones: (1) fijado, (2) funcionamiento libre. Esta importante
característica del aprendizaje de Boltzmann simplifica en gran medida la arquitectura
de la red, particularmente cuando se trata de grandes redes. Otra característica útil
del aprendizaje de Boltzmann, que puede venir como una sorpresa, es que la regla
para ajustar el peso sináptico de la neurona a neurona es independientemente de
que estas dos neuronas sean ambas visibles, ambas ocultas, o una de cada una.
Desde un punto de vista de aprendizaje, los dos términos que constituyen la regla de
aprendizaje de Boltzmann tienen significado distinto. Se puede considerar el primer
aspecto, correspondiente a la condición fijada de la red, esencialmente como una
regla de aprendizaje Hebbiano, el segundo aspecto, la red corriendo libremente, se
puede considerar como un des-aprendizaje o condición de olvido.
47
F. Aprender con Profesor
También conocido como aprendizaje supervisado. Se puede conceptualizar este
paradigma diciendo que el profesor tiene conocimiento del entorno, y que este se
representa como un conjunto de ejemplos de entrada-salida. El entorno, sin
embargo, no conoce a la red neuronal de nuestro interés. Suponiendo que tanto, el
profesor como la red neural están expuestos a un vector de aprendizaje atraído
desde el entorno; por medio del conocimiento construido en él, el profesor es capaz
de proveer a la red neuronal con una respuesta esperada para ese vector de
aprendizaje. De hecho, la respuesta deseada representa la acción óptima que
desarrollará la red neuronal.
Los parámetros de la red son ajustados bajo la influencia combinada del vector de
entrenamiento y la señal de error. La señal de error se define como la diferencia
entre la respuesta deseada y la verdadera respuesta de la red. Este ajuste se realiza
iterativamente de una manera paso a paso, con el objetivo de hacer que la red
neuronal emule al profesor eventualmente. Esta emulación presume ser óptima en
un sentido estadístico. De esta manera, el conocimiento del entorno que posee el
profesor se transfiere a la red neuronal a través del entrenamiento tan
completamente como se puede. Cuando se alcanza esta condición, es posible
prescindir del profesor y dejar que la red neuronal enfrente el entorno completamente
sola.
Esta forma de aprendizaje supervisado que se acaba de describir está basada en un
aprendizaje error-corrección.
48
G. Aprender sin Profesor
En la sección anterior se describía el aprendizaje tutelado por un profesor, sin
embargo en este paradigma –como su nombre lo indica- no existe un profesor que
supervise el proceso de aprendizaje. Esto quiere decir que no existen ejemplos
etiquetados de la función que aprenderá la red. Bajo este sistema se identifican dos
subdivisiones.
Aprendizaje reforzado. El aprendizaje de un mapeo entrada-salida se realiza a
través de una interacción continua con el entorno de manera de minimizar un
índice de desempeño escalar. El sistema esta diseñado para aprender bajo
refuerzo retrasado, esto quiere decir, que el sistema observa una secuencia
de estímulos temporales, por ejemplo vectores de estado, también recibidos
del entorno, los cuales eventualmente resultan en la generación de una señal
de refuerzo heurístico. El objetivo de este aprendizaje es minimizar la función
de costo, definida como la expectativa de costo acumulado de las acciones
realizadas sobre una secuencia de pasos de tiempo son de hecho las mejores
determinantes del comportamiento total del sistema. La función del
aprendizaje de máquina, que constituye el segundo componente del sistema,
es descubrir estas acciones y alimentarlas de nuevo al entorno.
Este aprendizaje es de difícil desarrollo debido a dos razones básicas:
No existe profesor para proveer de una respuesta deseada a cada paso
del proceso de aprendizaje.
El retraso en que se incurre en la generación de la primera señal de
refuerzo, implica que la máquina de aprendizaje debe ser capaz de
asignar crédito y culpa individualmente a cada acción en la secuencia
de pasos temporales que conducen a la salida final, mientras el
refuerzo primario puede sólo evaluar la salida.
49
No obstante las dificultades, el método de aprendizaje de refuerzo retrasado
es muy atractivo. Provee las bases de un sistema que interactúa con el
entorno, aprendiendo así a desarrollar una tarea únicamente en la base de la
salida de una experiencia que es el resultado de la interacción.
Aprendizaje sin supervisión: En el aprendizaje sin supervisión o auto-
organizado no existe un profesor externo o crítico que supervisa el proceso
de aprendizaje. Incluso más, se hace una provisión para la medición
independiente de tareas de la calidad de representación que la red
requiere para aprender, y los parámetros de la red se optimizan en relación
a esta medición. Una vez que la red se ha sintonizado a las regularidades
estadísticas de los datos de entrada, desarrolla la habilidad de formar
representaciones internas de las características codificadas en la entrada
y, de esta manera, crear nuevas clases automáticamente.
Para desarrollar este método se debe usar una regla de aprendizaje
competitivo.
2.3 Diferentes Modelos de Redes
2.3.1 Modelo Mcculloch-Pitts17
Propuesto por Warren McCulloch, (Psiquiatra y Neuroanatomista), y Walter Pitts,
(Matemático), en 194318; es el primer modelo considerado como una red de
neuronas artificiales. En este artículo se unían los estudios neurofisiológicos y de
lógica matemática.
17
(Haykin, 2005), (Arbib, 2003) & (Isasi, 2004). 18
En el artículo “A Logical Calculus of the Ideas Immanent in Nervous Activity”.
50
Figura 14: Neurona de Mcculloch-Pitts. Fuente “Redes Neuronales Artificiales Un Enfoque Práctico”.
Ellos mostraban como la excitación, la inhibición y el umbral podrían ser usados para
construir una amplia variedad de neuronas. Este fue el primer modelo en vincular el
estudio de las redes neuronales de lleno a la idea de la computación en su sentido
moderno.
Este modelo muestra “una estructura y un funcionamiento simplificado de las
neuronas del cerebro, considerándolas como dispositivos con sólo dos estados
posibles: apagado (0) y encendido (1)”.
“La neurona de McCulloch-Pitts recibe como entrada un conjunto de n valores
binarios, procedentes de las salidas de otras células, o de la
entrada a la red; y produce una única salida también binaria”, se denominará esta
salida binaria como (ver Figura N°14).
La idea básica es dividir el tiempo en unidades comparables a un período refractario
para que en cada período de tiempo a lo sumo una cima pueda ser generada en el
montículo axónico de una neurona dada. Esta neurona además opera en escala de
tiempos discretos, donde la unidad de tiempo es, (en biología), en el
orden de un milisegundo. Se escribe si un pico aparece en el tiempo , e
si no. Cada conexión o sinapsis, de la salida de una neurona a la entrada de
otra, tiene un peso adjunto. Se denotará al peso en la i-esima conexión en una
∑/Θ
51
neurona determinada. Se denominará sinapsis excitatoria si , e inhibición si
. También se asocia un umbral con cada neurona, y supone exactamente
una unidad de retraso en el efecto de todas las entradas presinápticas en la salida de
la célula, así que una neurona dispara, (por ejemplo tiene un valor 1 en su línea de
salida), en el tiempo si el valor del peso de su entrada en el tiempo es por lo
menos . Formalmente, si en tiempo el valor de la i-esima entrada es y la
salida un paso más adelante es , entonces:
(24)
El modelo se define como: Una red neuronal es una colección de neuronas de
McCulloch-Pitts, todas con las mismas escalas de tiempo, donde sus salidas están
conectadas a las entradas de otras neuronas.
“De este modo, una salida puede actuar sobre varias entradas, pero una entrada
viene a lo sumo de una salida. La red tiene contacto con el exterior a través de líneas
de entrada y de salida. Las líneas de entrada de la red formarán parte de la entrada
de alguna o de todas las neuronas de la red. Asimismo, las líneas de salida
procederán de algunas o de todas las neuronas de la red”.
Este modelo matemático de una red neuronal no busca modelar el cerebro, pero se
considera como el punto de inicio para el estudio del mismo.
El modelo de McCulloch-Pitts se puede utilizar para representar las funciones
lógicas, que se detallan en el Anexo 4: Modelo Mcculloch-Pitts.
52
2.3.2 Perceptrón19
Este modelo de red neuronal fue introducido por Frank Rosemblatt en 1958, y fue el
primer modelo de aprendizaje supervisado. Este es la forma más simple de red
neuronal usada para la clasificación de patrones linealmente separables.
La estructura del perceptrón se inspira en las primeras etapas de procesamiento de
los sistemas sensoriales de los animales (por ejemplo, el de la visión), en los cuales
la información va atravesando sucesivas capas de neuronas, que realizan un
procesamiento progresivamente de más alto nivel.
Este modelo consiste básicamente de una sola neurona con pesos sinápticos
ajustables y de polarización20. El algoritmo que se usó para ajustar los parámetros
libres de esta primera red neuronal apareció en un procedimiento de aprendizaje
desarrollado por F. Rosenblatt (1958, 1962) para su modelo de cerebro Perceptrón.
El Perceptrón simple es un modelo unidireccional compuesto de dos capas de
neuronas, una sensorial o de entrada y otra de salida. La cantidad de neuronas de
entrada o de salida depende del problema que se quiere resolver. Cada una de las
neuronas de entrada tiene conexiones con todas las células de salidas, y son estas
conexiones las que determinan las superficies de discriminación.
Como se ve en la Figura N°15, los pesos sinápticos están denotados por
siguiendo este metodo las entradas del perceptrón son denotadas por
y su salida denotada por . Cabe mencionar que además de lo anterior
existe un parámetro adicional llamado umbral y denotado por . El umbral se utiliza
como factor de comparación para producir la salida, y habrá tantos como neuronas
de salidas existan en la red, uno por cada una.
La salida de la red se produce al aplicarle una función de salida al nivel de activación
de la neurona. La ecuación es la siguiente:
19
(Haykin, 2005), (Martin del Brio, 2007), (Isasi, 2004) & (Kröse, 1996). 20
En inglés es Bias.
53
(25)
Figura 15: Perceptrón. Fuente: “Mathematics An Introduction To Neural Networks”.
La función de activación puede ser lineal para tener una red lineal o no lineal. La
función umbral21:
(26)
Esta ecuación equivale a introducir artificialmente en la salida un nuevo peso que
no está conectado a ninguna entrada, sino a una ficticia con un valor constante de -1.
La salida de la red puede ser +1 o -1 dependiendo de la entrada. La red puede ser
usada para una tarea de clasificación: esta puede decidir si un patrón de entrada
pertenece a una de dos clases. Si el total de entradas es positivo, el patrón será
asignado a la clase +1. Si el total de entrada es negativo, la muestra será asignada a
la clase -1.
En el caso de dos dimensiones la ecuación anterior se transforma en:
21
En inglés Heaviside Fuction.
Θ
54
(27)
La red de una sola capa representa una función discriminante lineal.
Una representación geométrica del umbral lineal de la red neuronal es dada en la
Figura N°16 y la ecuación (27) puede ser escrita como:
(28)
En la Figura N°16 se aprecia que los pesos determinan la pendiente de la línea y el
umbral determina la compensación; por ejemplo, cuán lejos está la línea del origen.
Se debe considerar que también el peso puede ser trazado en la entrada del
espacio; el vector peso es siempre perpendicular a la función discriminante.
Figura 16: Función Discriminante. Fuente: “Mathematics An Introduction To Neural Networks”.
Para ver la regla de aprendizaje del Perceptrón dirigirse al Anexo 5: Perceptrón.
55
2.3.3 Neurona Lineal Adaptativa22 (ADALINE)23
Este modelo fue propuesto por Bernard Widrow y Marcian Hoff en el año 1960, en el
cual aplicaron la regla de aprendizaje que habían desarrollado, Regla Delta, la cual
es una generalización del algoritmo de entrenamiento del Perceptrón.
Figura 17: ADALINE. Fuente: “Mathematics An Introduction To Neural Networks”.
El ADALINE es una estructura prácticamente idéntica a la del Perceptrón, pero es un
mecanismo físico, capaz de realizar aprendizaje. Es un elemento combinador
adaptativo, que recibe un conjunto de entradas y las combina para producir una
salida (ver Figura N°17). Esta salida puede transformarse en binaria mediante un
conmutador bipolar que produce un 1 si la salida es positiva y un -1 si es negativa:
(29)
22
En inglés Adaptive Linear Neuron (ADALINE) 23
(Kröse, 1996) & (Isasi, 2004).
56
donde . El propósito de este dispositivo es el de obtener un valor determinado
en sus salidas cuando el conjunto de valores es aplicado en
las entradas. El problema es determinar los coeficientes , de tal
forma que la respuesta de la entrada-salida es correcta para un gran número de
conjuntos de señales elegidas arbitrariamente. Si una asignación exacta no es
posible, el error promedio debe ser minimizado, por ejemplo, en el sentido de
mínimos cuadrados. Una operación adaptativa significa que existe un mecanismo por
el cual el puede ser ajustado, usualmente iterativamente, para conseguir el valor
correcto.
En el Anexo 6: ADALINE, se detalla la Regla Delta y en el Anexo 7: Perceptrón-
ADALINE, se entrega la información de sus diferencias.
2.3.4 Perceptrón Multicapa24
Las limitaciones del modelo de Perceptrón de una capa, que resultaron en la pérdida
de interés en la investigación en el área de las redes neuronales, hicieron necesario
ir más allá de las redes neuronales de una capa.
Estas redes son una generalización del Perceptrón de una capa visto con
anterioridad, típicamente la red está compuesta de una capa de entrada, una o más
capas ocultas o de cálculo, y una capa de salida, la señal de entrada se propaga
capa por capa hacia adelante.
Estos modelos se han ocupado satisfactoriamente para resolver problemas difíciles y
diversos, entrenándolos de manera supervisada con un algoritmo muy popular
conocido como error de propagación inverso25, el cual está basado en la regla de
aprendizaje de error-corrección.
24
(Graupe, 2007), (Haykin, 2005) & (Isasi, 2004). 25
Su nombre en inglés es Back Propagation (BP), en la bibliografía también se puede encontrar como Retropropagación.
57
Un Perceptrón multicapa tiene tres características distintivas:
El modelo de cada neurona en la red incluye una función de activación no
lineal. El punto más importante a destacar es que la función es continua, una
forma común de no linealidad que satisface los requerimientos es la función
sigmoidal no lineal:
(30)
donde es el campo local inducido de la neurona , e es la salida de la
neurona. La presencia de no linealidad es importante, porque sino la relación
de entrada salida de la red podría reducirse a la de un Perceptrón de una
capa. Inclusive, el uso de funciones derivadas de la biología se incentiva ya
que intenta tomar en cuenta la fase refractaria de las neuronas reales.
Esta red contiene una o más capas ocultas que no son parte de la entrada o
salida de la red. Estas neuronas ocultas permiten a la red aprender tareas
complejas extrayendo progresivamente características más significativas de
los vectores de entrada.
La red exhibe un alto grado de conectividad, determinado por las sinapsis de
la misma. Un cambio en la conectividad de la red requiere un cambio en la
población de las conexiones sinápticas o de los pesos.
Las características mencionadas y la capacidad de aprender a través de
entrenamiento dan cuenta de su gran capacidad de cómputo. Sin embargo, estas
mismas características son las responsables de las deficiencias en el conocimiento
del comportamiento de la red. La presencia de la función no lineal y la alta
conectividad de la red hacen su análisis teórico complicado. El uso de capas ocultas
vuelve el proceso de visualización difícil, por decirlo menos.
El algoritmo de error de propagación inverso se trata de un método de aprendizaje
supervisado, es decir, la modificación de los parámetros de la red se realiza para que
58
la salida de la red sea lo más próxima posible a la salida proporcionada por el
supervisor o salida deseada. Por lo tanto, por cada patrón de entrada se requiere un
patrón de salida deseada. Dado que se busca que la salida de la red sea lo más
cercana a la salida deseada, el aprendizaje de la red se realiza como un problema de
minimización del siguiente nodo:
(31)
siendo el conjunto de parámetros de la red, pesos y umbrales, y una función de
error que evalua la diferencia entre las salidas de la red y las salidas deseadas. En la
mayor parte de los casos el error se define como:
(32)
donde es el número de patrones o muestras y es el error cometido por la red
para el patrón , dado por:
(33)
siendo y los vectores de salidas de
la red y las salidas deseadas para el patrón n, respectivamente.
De este modo, si es un mínimo de la función de error , en dicho punto el error
es próximo a cero, lo cual implica que la salida de la red es próxima a la salida
deseada, alcanzando así la meta de la regla de aprendizaje.
De esta manera el aprendizaje del Perceptrón multicapa es equivalente a encontrar
un mínimo de la función de error. Dado que se habla de función de activación no
lineal hace que la red sea no lineal respecto a sus parámetros ajustables, de esta
manera se entiende que el problema de minimización no es lineal, y en consecuencia
59
se deben usar técnicas no lineales para la optimización. Las técnicas mencionadas
usualmente están basadas en la adaptación de los parámetros siguiendo una cierta
dirección de búsqueda. Al hablar del Perceptrón multicapa esta dirección de
búsqueda usualmente es la dirección negativa al gradiente de la función , pues
conforme al cálculo de varias variables, esta es la dirección en la que la función
decrece. No obstante lo anterior, se han desarrollado métodos de búsqueda aleatoria
para localizar el mínimo de esa función, y métodos basados en técnicas evolutivas,
en las que la búsqueda esta guida por una función de adecuación.
Estrictamente hablando, el aprendizaje de la red debe realizarse para minimizar el
error total, el procedimiento más utilizado, sin embargo, esta basado en métodos de
gradiente estocástico, los cuales consisten en la sucesiva minimización de los
errores de cada patrón, , en lugar de minimizar el error total . De esta manera,
aplicando el método de descenso de gradiante estocástico, cada parámetro de la
red se modifica para cada patrón de entrada de acuerdo a la siguiente ley de
aprendizaje:
(34)
donde es el error del patrón y es la razón o tasa de aprendizaje, parámetro
que influye en la magnitud del desplazamiento del error.
2.3.5 Redes Neuronales de Base Radial26
Estas son redes multicapa con conexiones positivas, de la misma forma que el
Perceptrón Multicapa. Estas redes se caracterizan por tener una sola capa oculta y
cada neurona de esta capa tiene un carácter local, lo que hace que cada neurona
oculta de la red se activa en la región diferente del espacio de patrones de entrada.
“Este carácter local viene dado por el uso de las llamadas funciones de base radial,
26
(Haykin, 2005) & (Isasi, 2004)
60
generalmente la función gausiana, como funciones de activación. Las neuronas de la
capa de salida de las redes de base radial simplemente realizan una combinación
lineal de las actividades de la neuronas ocultas”.
La función de Base Radial fue introducida por primera vez en la solución de los
problemas de interpolación de multivariables reales. El temprano trabajo en esta
materia es estudiado en Michael J. D. Powell (1985). Este es ahora uno de los
principales campos de investigación en análisis numérico.
David Broomhead y David Lowe (1988) fueron los primeros en explotar el uso de la
Función de Base Radial en el diseño de redes neuronales. A parte de ellos,
existieron otros autores que contribuyeron a la teoría, diseño y aplicaciones de las
redes neuronales de Base Radial como son John Moddy y Christian Darken (1989),
Steve Renals (1989) y a Tomaso Poggio y Federico Girosi (1990). En un principio, el
objetivo de estos era construir una red neuronal que requiriera de menor tiempo de
aprendizaje que el que necesitaba el Perceptrón Multicapa, y así tener a disposición
una red que trabajara en tiempo real. Esto se logró al incorporar funciones de
activaciones locales en las neuronas ocultas de la red, lo cual permitía que sólo unas
pocas neuronas ocultas tuvieran que ser procesadas para nuevos patrones de
entrada.
Este tipo de red, al igual que el Perceptrón Multicapa, es un aproximador universal,
en el sentido de que pueden aproximar cualquier función continua sobre un espacio
de .
Las Funciones de Base Radial definen hiperesferas o hiperelipses que dividen el
espacio de entrada. Por lo tanto, cada una de las neuronas de la capa oculta de este
tipo de red construye una aproximación local y no lineal en una región específica de
dicho espacio. La salida de esta red es una combinación lineal de las funciones de
base radial, las aproximaciones que construyen las redes de base radial son
combinaciones lineales de multiples funciones locales y no lineales. Debido a esto,
las redes de base radial aproximan relaciones complejas mediante una colección de
aproximaciones locales menos complejas, dividiendo el problema en varios
61
subproblemas menos complejos. Todo esto hace que este tipo de redes se
diferencien de las aproximaciones globales y basadas en hiperplanos que construye
el Perceptrón Multicapa.
Las redes de base radial están conformadas por tres capas de neuronas (ver Figura
N°18):
Capa de entrada: Está compuesta por un conjunto de neuronas que
reciben las señales del exterior. De aquí estas señales son transmitida a la
capa oculta sin haber sido procesadas.
Única capa oculta: Reciben las señales enviadas por la capa de entrada,
donde se realiza la transformación local y no lineal de estas señales. Aquí
es donde se produce la diferencia entre esta red y el Perceptrón Multicapa,
tanto en la arquitectura como en su comportamiento.
Capa de salida: Acá se realiza una combinación lineal de las activaciones
de las neuronas ocultas, que actúa además como salida de la red.
Figura 18: Red Neuronal de Base Radial. Fuente: “Redes Neuronales Artificiales. Un Enfoque Práctico”.
62
Las redes de Base Radial en la conexión de la capa de entrada a la capa oculta no
tienen asociado ningún peso, en cambio si se encuentra un peso asociado a la
conexión entre la capa oculta y la capa de salida. En tanto a lo que se refiere a los
umbrales de las neuronas, estas sólo se encuentran en las neuronas de salida, que
es tratada como una conexión más de la neurona cuya entrada es constante e igual
a 1 (igual que en el Perceptrón Multicapa).
Para más información ir al Anexo 6: Redes de Base Radial y al Anexo 7: Diferencias
entre Perceptrón Multicapa y las Redes de base Radial.
2.3.6 Redes de Neuronas Recurrente27
“Estas redes se caracterizan porque se crean bucles en las neuronas de la red
mediante el uso de las llamadas conexiones recurrentes, pudiendo aparecer en la
red conexiones de una neurona a ella misma, conexiones entre neuronas de una
misma capa o conexiones de las neuronas de una capa a la capa anterior”.
Al existir conexiones recurrentes en una red de neuronas produce, habitualmente, un
incremento del número de pesos o parámetros ajustables en la red, lo que hace que
aumente la capacidad de representación, ya que en las redes de neuronas artificiales
la información se representa de manera distribuida en los pesos de las conexiones y
no en las neuronas. Esta mayor cantidad de parámetros ajustables, además de la
inserción de estos de forma recurrente, dificulta el aprendizaje de estas redes.
Con la inclusión de las conexiones recurrentes que crean bucles en la red, la
activación de una neurona con conexiones recurrentes no sólo depende de las
activaciones de las neuronas en la capa anterior, sino que depende también del
estado o activaciones de cualquier otra neurona de la red que se conecte a ella, o
incluso de su propia activación. Debido a esto, a las redes de neuronas recurrentes
27
(Isasi, 2004), (Kröse, 1996), (Haykin, 2005) & (Cáceres, 2002).
63
es importante agregar la variable tiempo en la activación o estado de una neurona, la
cual viene dada por la siguiente ecuación:
(35)
donde el índice varía en el conjunto de todas las neuronas conectadas a la neurona
.
La aparición de la variable tiempo en las activaciones, hace que estas redes tengan
un comportamiento dinámico o temporal. Dicho comportamiento temporal se puede
entender de dos formas diferentes, las cuales implican dos maneras distintas de
entender el modo de actuación y aprendizaje de estas redes:
Evolución de las activaciones de la red hasta alcanzar un punto estable.
El modo en que estas redes se desempeñan es el de evolucionar la red, o
sea, la exitación de sus neuronas, desde el estado inicial hasta que las
activaciones de todas las neuronas no se modifiquen más, en el cual se
considera que la red ha alcanzado un estado estable. El estado inicial, por lo
general, es dado por el patrón de entrada y el estado estable representa el
patrón de salida de la red.
Evolución de las activaciones de la red en modo continuo.
En cada instante de tiempo se dispone de la salida de la red, la que depende
de la entrada en el instante inmediatamente anterior. Este tipo de aprendizaje
se puede realizar a través de dos métodos distintos:
o Aprendizaje por épocas: Ocurre en un intervalo de tiempo o época,
donde la red va evolucionando, una vez alcanzado el instante final se
adoptan o modifican los pesos de la red. Al concluir la época, la red se
reinicializa y se entra en un nuevo intervalo de tiempo.
64
o Aprendizaje en tiempo real o continuo: “la ley de aprendizaje para
modificar los pesos de la red se aplica en cada instante de tiempo,
siempre y cuando exista la salida deseada para la red en dicho
instante”.
Dentro de este grupo se pueden encontrar las redes parcialmente recurrentes
y las totalmente recurrentes. Las primeras se caracterizan por tener unas
pocas conexiones recurrentes dentro de la red, mientras que las segundas no
tienen restricciones en la consideración de conexiones recurrentes. Ambos
utilizan algoritmos de aprendizaje supervisados para la modificación de sus
parámetros.
Las redes recurrentes son principalmente usadas para el procesamiento de patrones
dinámicos, aunque también se pueden aplicar para patrones estáticos, o sea,
patrones en los cuales no participa la variable tiempo y en cuyo procesamiento no
importa el orden de presentación de la red.
A. Redes Parcialmente Recurrentes
Estas se caracterizan por ser redes multicapa, las cuales tienen sólo unas pocas
conexiones recurrentes. Estas conexiones permiten recordar el nivel de activación de
ciertas neuronas de la red en un pasado reciente.
En las redes parcialmente recurrentes hay habitualmente un grupo de neuronas
especializadas en la capa de entrada, conocidas como neuronas de contexto o
neuronas de estado. Por consiguiente, en la capa de entrada existen dos tipos de
neuronas, las que actúan como entrada propiamente tal, que reciben las señales del
exterior y las neuronas de contextos. Estas últimas “son las receptoras de las
conexiones recurrentes y funcionan como una memoria de la red donde se
almacenan las activaciones de las neuronas de una cierta capa de la red en el
instante o iteración anterior”.
65
El cálculo de las activaciones de todas las neuronas de las redes parcialmente
recurrente se hace como una red multicapa sin recurrencias, es decir, desde la capa
de entrada pasando por la capa oculta hasta la capa de salida.
En las redes parcialmente recurrentes las conexiones recurrentes son generalmente
conexiones uno a uno, en otras palabras, una neurona “ ” va a una única neurona de
contexto. Si esta conexión contiene un parámetro o peso asociado, generalmente,
este se mantiene constante y no está sometido a aprendizaje. Debido a esto, se
puede utilizar el algoritmo de retropropagación para redes multicapa hacia adelante
como método de aprendizaje.
En el Anexo 10: Redes Recurrentes se darán más detalles sobre el aprendizaje de
este tipo de redes y se mostraran redes parcialmente recurrentes más conocidas,
como son la Red de Jordan y la Red de Elman.
B. Redes Totalmente Recurrentes
Este tipo de redes se les conoce porque en sus neuronas reciben como entradas la
activación del resto de las neuronas de la red, como también su propia activación.
Por lo tanto, si constituye la activación de una neurona de la red en el intervalo
de tiempo , su valor es obtenido por medio de la siguiente ecuación:
(36)
donde representa el peso de la conexión de la neurona a la neurona , es el
conjunto de neuronas de entrada a la red, representa el resto de las neuronas de la
red y es la función de activación. Aunque en el enunciado anterior se dejo en
manifiesto de que todas las neuronas de la red están conectadas entre sí, pueden
existir algunas restricciones para esto.
66
Los parámetros o pesos de las conexiones recurrentes son frecuentemente
sometidos al proceso de adaptación o aprendizaje, lo que conlleva a un aumento
cuantioso del número de parámetros ajustables de la red. Esto trae como
consecuencia dos cosas:
La primera es el aumento en la capacidad de representación de la red, y
La segunda es la existencia de ciclos o conexiones recurrentes en la red, que
mayormente dificulta su aprendizaje.
A diferencia de lo anterior, las redes totalmente recurrentes no pueden emplear el
algoritmo de aprendizaje de retropropagación de forma directa, debido a que los
pesos en estas redes poseen una distribución diferente. Es por ellos que se usan en
estas redes dos tipos de aprendizajes diferentes:
Retropropagación a través del tiempo28.
Aprendizaje recurrente en tiempo real29.
Ambos métodos no son más que modificaciones y extensiones del algoritmo de
retropropagación para redes con conexiones recurrentes, estos son mostrados en el
Anexo 10: Redes Recurrentes.
C. Red de Hopfield
En 1982, John Hopfield (Hopfield, 1982) propone un modelo de neuronas no lineal.
Generalmente, la red de Hopfield es presentada como un modelo de memoria
asociativa de patrones o muestras, en el sentido de que es capaz de recuperar
patrones almacenados a partir de información incompleta sobre los patrones o
incluso a partir de patrones con ruido.
28
En inglés es Back-Propagation Through Time. 29
En inglés es Real-Time Recurrent Learning.
67
La red de Hopfield consiste de un conjunto de neuronas y un correspondiente
conjunto de unidades de retraso, formando un sistema de retroalimentación de
múltiples-ciclos. El número de ciclo de retroalimentación es igual al número de
neuronas. Básicamente, la salida de cada neurona es alimentada de vuelta, a través
de un elemento de unidad de retraso, a cada una de las demás neuronas en la red.
En otras palabras, no hay auto retroalimentación en la red. Los valores de activación
son binarios (ver Figuras N°19 y N°20). Originalmente, Hopfield escogió los valores
de activación de 1 y 0, pero usando valores +1 y -1 presentando algunas ventajas.
Figura 19: Red de Hopfield. Fuente: “Neural Networks. A Comprehensive Foundation”.
Figura 20: Red de Hopfield. Fuente: “Redes neuronales Un Enfoque Práctico”.
68
La matriz de conexiones de la red de Hopfield es una matriz de orden
, donde representa el peso de la conexión de la neurona a la neurona .
Dicha matriz posee las siguientes particularidades:
Es una matriz simétrica, es decir, esto implica que el
peso de la conexión de la neurona a la neurona es igual al peso de la
conexión de la neurona a la neurona .
Los elementos de la diagonal de la matriz son igual a cero, es decir,
debido a que en la red de Hopfield no existen conexiones
de una neurona a ella misma.
El estado del sistema es dado por los valores de activación La entrada de la
red de una neurona en un ciclo es una suma ponderada. En estos
dos últimos se tiene el signo negativo en vez de positivo ( ):
(37)
donde es el estado de la neurona en el instante anterior y es un umbral
fijo aplicado a la neurona .
Una función de umbral simple se aplica a la entrada de red para obtener el nuevo
valor de activación30 en el tiempo :
(38)
donde
30
(Kröse, 1996), (Haykin, 2005) & (Isasi, 2004)
69
En el caso de que el nivel de activación que recibe la neurona, , sea igual a
cero, se considera que el estado de la neurona no cambia con respecto al instante de
tiempo anterior, es decir que .
Para una red Hopfield que tenga neuronas, el estado es dado por la siguiente
ecuación:
(39)
donde significa la matriz traspuesta y el estado constituye una palabra binaria
de bits de información.
Tanto el aprendizaje como la función energía de la red de Hopfield se encuentran en
el Anexo 10: Redes Recurrentes.
D. Máquina de Boltzmann
Esta fue descrita por primera vez por David Ackley, Geoffrey Hilton y Terrence
Sejnowski en 198531, es una red neuronal que puede ser visto como una extensión
de la redes Hopfield para incluir neuronas ocultas, y con un regla de actualización
estocástica en vez de determinista. Los pesos se mantienen simétricos. La operación
de la red está basada en el principio físico de templado32. Proceso a través del cual
un material es calentado y enfriado muy lentamente al punto de congelación. Como
resultado, la red cristalina será altamente ordenada, sin ninguna impureza, de tal
manera que el sistema está en un estado de muy baja energía.
La máquina de Boltzmann divide en dos grupos funcionales a las neuronas: visibles y
ocultas. Las neuronas visibles proveen una interface entre la red y el medio ambiente
en cual estas operan. Durante la fase de entrenamiento de la red, todas las neuronas
visibles son fijadas en estados específicos determinados por el medio ambiente. Las 31
En el paper “A Learning Algorithm for Boltzmann Machines”. 32
En inglés es physics principle of annealing.
70
neuronas ocultas, por otro lado, siempre operan libremente; ellas son usadas para
explicar las limitaciones subyacentes contenidas en los vectores de entrada
medioambiental. Las neuronas ocultas llevan a cabo esta tarea mediante la captura
de las correlaciones estadísticas de orden superior en los vectores de fijación. La red
descrita aquí representa un caso especial de la máquina de Boltzmann, la cual se
puede apreciar mejor en la Figura N° 21. Esta puede ser vista como un
procedimiento de aprendizaje no supervisado para el modelado de una distribución
de probabilidad que es especificado por los patrones de fijación de las neuronas
visibles con probabilidades apropiadas. De este modo, la red puede realizar patrones
de terminación. Específicamente, cuando un vector de información parcialmente
relevante es fijado a un subconjunto de las neuronas visibles, la red realiza una
finalización en las neuronas visibles restantes, siempre que se haya aprendido la
adecuada distribución de entrenamiento.
Figura 21: Maquina de Boltzmann. Fuente: “Neural Networks, A Comprehensive Foundation”.
El principal objetivo del aprendizaje de Boltzmann es para producir una red neuronal
que modele correctamente patrones de entrada de acuerdo a una distribución de
Boltzmann. Aplicando esta forma de aprendizaje, dos supuestos son hecho:
71
Cada vector de entrada medioambiental (patrón) se mantiene el tiempo
suficiente para permitir a la red alcanzar el equilibrio térmico.
No hay estructura en el orden secuencial en que los vectores
medioambientales son fijados en las unidades visibles de la red.
Un particular conjunto de pesos sinápticos se dice, que constituyen un modelo
perfecto de la estructura medioambiental si este lleva a exactamente la misma
distribución de probabilidad de los estados de las unidades visibles (cuando la red
está corriendo libremente) como cuando estas unidades son fijadas por los vectores
de entrada medioambiental. En general, a menos que el número de unidades ocultas
sea exponencialmente grande comparado al número de unidades visibles, es
imposible lograr un modelo perfecto. Si, en cambio, el medio ambiente tiene una
estructura regular, y la red usa sus unidades ocultas para capturar estas
regularidades, se puede lograr una buena combinación para el medio ambiente con
un número manejable de unidades ocultas.
2.3.7 Cognitron33
El Cognitron, fue pensado y diseñado con el propósito principal del reconocimiento
de patrones. Para realizar esto, la red Cognitron emplea neuronas inhibidoras y
excitadoras en sus múltiples capas. Fue desarrollada por Kunihiko Fukushima en
1975, y es una red no supervisada.
El Cognitron consiste básicamente de capas de neuronas excitables e inhibidoras. La
interconexión de una neurona en cualquier capa es sólo para neuronas de la capa
previa que están en la vecindad de la neurona. Este vecindario se denomina como la
región de competición de conexión de la neurona dada. Para un entrenamiento
eficiente, no todas las neuronas son entrenadas. El entrenamiento esta entonces
limitado a sólo un grupo exclusivo de las neuronas más relevantes, concretamente a
neuronas previamente entrenadas para una tarea relacionada.
33
(Graupe, 2007).
72
En tanto que las regiones de conexión llevan a traslapes de neuronas, donde una
neurona dada puede pertenecer a la región de conexión de más de una neurona
superior, competición (para elegir la elite), la que se introduce para superar los
efectos de los traslapes. La competición desconectará las neuronas cuyas
respuestas sean más débiles. La característica anterior provee a la red con
abundantes redundancias, para permitirle funcionar bien en el caso de neuronas
perdidas.
La estructura del Cognitron está basada en una arquitectura multicapa con una
reducción progresiva en el número de regiones competitivas. Alternadamente, grupos
de dos capas, L-I y L-II pueden repetirse veces para formar capas en total
( , , , ,..., etc).
2.3.8 Neocognitron34
Fukushima elaboró una versión más avanzada de su modelo en el año 1983, esta se
denominó Neocognitron. Es de naturaleza jerárquica y apunta a simular la visión
humana. Utiliza un aprendizaje competitivo.
El reconocimiento está arreglado en una estructura jerárquica de grupos de dos
capas, como en el caso del Cognitron.
“Debido a la estructura y la forma de la conexión, las capas de mayor especificidad
poseen menor cantidad de unidades ya que su número decrece al ir aumentando el
tamaño del campo de recepción”.
Estas estructuras permiten al Neocognitron superar los problemas de reconocimiento
donde el Cognitron original fallaba, tales como imágenes mal posicionadas o
distorsiones angulares, caracteres rotados o dígitos en problemas de reconocimiento
de letra manuscrita.
34
(Graupe, 2007), (Inostroza , Canessa, & Holzmann, 1982) & (Mehrotra, Mohan, & Ranka, 2000).
73
Las imágenes de entrada son un arreglo de dos dimensiones, y el resultado final del
reconocimiento de patrones indica una característica de alto nivel o forma que se ha
encontrado en la imagen de entrada, activando el nodo de salida correspondiente. La
red utiliza muchos módulos jerárquicos, cada módulo extrae características desde el
módulo previo. Un Neocognitron con tres o cuatro módulos ha sido capaz de
reconocer satisfactoriamente caracteres manuscritos, con cada nodo de salida
correspondiendo a cada carácter del alfabeto.
Cada módulo consiste de dos capas de nodos. Las dos capas ahora son una (células
simples) capa (Capa S) y un capa de concentración (capa C), comenzando con una
capa S llamada S1 y terminando con una capa C (sea C4). Cada neurona de la capa
S responde a una característica dada de las capas de entrada (incluyendo la entrada
general de la red). Cada uno de los arreglos de la capa C procesa en profundidad
entradas desde, usualmente, un arreglo de capa S.
2.3.9 Red Neuronal de Atención Selectiva35
Propuesta por K. Fukushima en 1990 propone una variación del Neocognitron con
conexiones positivas y negativas. La función de las conexiones positivas es muy
similar a las de un Neocognitron. Las conexiones negativas son una copia completa
de las conexiones positivas, pero conectadas en reversa. El objetivo de esta red
paralela es permitir al sistema identificar los elementos activos de la capa de entrada,
en los cuales la red concluyó que un patrón actualmente detectado estaba presente.
El flujo reverso de la información se origina desde el nodo activo en la última capa de
la parte realimentada positivamente de la red.
A diferencia de un Neocognitron simple, la red de atención selectiva tiene una capa
de entrada activa. Las conexiones reversas pueden apagar algunas de las unidades
en la capa a través de señales inhibitorias. De este modo las señales reversas tienen
el efecto de suprimir esas porciones de la imagen de entrada que no contribuyen a la
35
(Mehrotra, Mohan, & Ranka, 2000).
74
activación del nodo actualmente activo en la última capa. Para cambiar la atención
de la red hacia otro patrón, es necesario suprimir brevemente el nodo activo en la
capa de salida y permitir que otro nodo se active. Este nodo entonces refuerza su
salida a través de señales inhibitorias.
2.3.10 Mapas Auto-Organizados (MAO) y Crecientes36
En esta sección se revisara en profundidad los Mapas Auto-Organizados37 de Teuvo
Kohonen y los algoritmos desarrollados a partir de los MAO, Gas Neural de
Crecimiento38 (GNC) y Crece Cuando se Requiere39 (CCR).
A. Mapas Auto-Organizados de Kohonen
Es una efectiva herramienta de software para la visualización de datos de alta
dimensión. En su forma básica produce un similar gráfico de entrada de datos. Este
convierte las relaciones de la estadística no lineal entre los datos de alta dimensión
en simples relaciones geométricas de sus puntos de imágenes en una visualización
de baja dimensión, usualmente una red de nodos de dos dimensiones. El Mapa Auto-
Organizado (MAO) de ese modo comprime la información mientras preserva la más
importante topología y/o relaciones métricas de los elementos de datos primarios en
la visualización, este también se puede pensar para producir algún tipo de
abstracción. Estos dos aspectos, visualización y abstracción, pueden ser utilizados
en un número de formas en tareas complejas tales como análisis de procesos,
percepción de máquinas, control y comunicación.
36
(Kohonen, 2001), (Marsland, Shapiro, & Nehmzow, 2002), (Holmström & Gällmo, 2002), (Isasi,
2004) & (Bryers & Hunter, 2009). 37
En inglés es Self-Organized Maps (SOM). 38
En inglés es Growing Neural Gas (GNG). 39
En inglés es Grow When Required (GWR).
75
El MAO puede ser descrito formalmente como un mapeo suave no lineal, ordenado,
de múltiples datos de entradas de alta dimensión en los elementos de una matriz
regular de baja dimensión. Este mapeo es implementado de la siguiente forma, que
asemeja al clásico vector de cuantización. En primer lugar se supone por simplicidad
que el conjunto de variables de entradas es definible como un vector real
. Con cada elemento en la matriz Mapa Auto-Organizado
(MAO) se asocia un vector real paramétrico que se
llamara un modelo matriz de peso de conexión. Suponiendo una medida de distancia
general entre y denotado , la imagen de un vector de entrada en la
matriz MAO que es definida como el elemento de la matriz “ ” que es la mejor
combinación con , es decir, que tiene el índice.
(40)
Se destaca que, al seleccionar “una de las columnas de la matriz anterior, la -ésima
por ejemplo, se estará haciendo referencia a la célula j de la capa de competición, y
el vector que se obtiene sería: , que tiene el mismo
número de componentes (la misma dimensión) que el vector de entrada de x”.
Debido a que tienen la misma dimensión, se pueden comparar entre sí, y por ende
se puede definir su distancia como se dijo en el párrafo anterior.
En la Figura N° 22 se ve un arreglo ordenado de nodos de dos dimensiones. En otras
palabras, una red neuronal de dos capas, una primera capa de entrada y una
segunda de competición, cada uno tiene un modelo general asociado con él,
como es mostrado arriba. Los valores iniciales del pueden ser seleccionados al
azar, preferentemente del dominio de las muestras de entrada. Luego se considera
una lista de muestras de entradas , donde es un índice de valor entero. Cabe
mencionar que en este esquema, el y pueden ser vectores, cadena de
símbolos, o incluso ítems más generales. Se compara cada con todos los y
se copia cada en una sublista asociada con ese nodo, el vector modelo que es
76
más similar a relacionado a la medida de distancia general. Cuando todos los
han sido distribuidos en las respectivas sublistas de la manera antes dicha, se
considera el conjunto de vecindad alrededor del modelo . Aquí se compone
de todo los nodos hasta un cierto radio en el cuadriculado del nodo . En la unión de
todas las sublistas en , la próxima tarea es encontrar la muestra “central” ,
definida como la muestra que tiene la más pequeña suma de distancias de todas las
muestras , . Esta muestra es ahora llamada la mediana generalizada en
la unión de las sublistas. Si es restringido para ser una de las muestras , que
se llamará a este mediana de conjunto de generalización; por otro lado, ya que la
puede no cubrir todo el dominio de la entrada, este puede ser posible para
encontrar otro ítem que tiene una aún más pequeña suma de distancias de la
, . Para mayor claridad se denominará la mediana generalizada.
Para mostrar esto más claramente, se describirá un ejemplo de dos dimensiones:
Figura 22: Proceso de lotes donde las muestras de entrada son distribuidas en sub-lista bajo el modelo de la mejor combinación. Fuente: “Self Organizing Maps”.
77
B. Método de Aprendizaje Vector de Cuantización40 (AVC)
Este método describe un aprendizaje supervisado, el AVC está estrictamente
destinado a una clasificación estadística o método de reconocimiento, su único
propósito es definir las regiones de clases en el espacio de datos de entrada. Para
este fin, un subconjunto de códigos similares es ubicado en cada región de clase,
incluso si las distribuciones de clases de las muestras de entrada que se superponen
en los bordes de clases, el vector código de cada clase. En estos algoritmos puede
ser ubicado y destacado para quedarse dentro de cada región de clase para todo los
tiempos. La región de cuantización, como el conjunto de Voronoi en Aprendizaje
Vector de Cuatización (AVC), son definidos por planos medios (hiperplanos) entre
vectores de códigos de vecinos. Una característica adicional en AVC es que por los
bordes de clase uno puede tomar dichos bordes del mosaico de Voronoi que separan
los conjuntos del mismo en diferentes clases. Los bordes de clases de ese modo se
definen por tramos lineales.
Para el algoritmo de Aprendizaje Vector de Cuantización (AVC), existen tres
opciones AVC1, AVC2 y AVC3, todos ellos tienen un rendimiento casi similar de
precisión en la mayoría de las tareas de reconocimiento de patrones estadísticos,
aunque con diferentes formas de trabajo. El AVC1 y AVC3 definen un proceso más
riguroso, a través del cual, los vectores códigos asumen valores estacionarios incluso
después de períodos extendidos de aprendizaje. Para AVC1 la tasa de aprendizaje
puede aproximadamente ser optimizada para una rápida convergencia. En AVC2, las
distancias relativas de los vectores códigos de los bordes de clase son optimizadas
mientras que no hay garantía de los vectores códigos siendo puestos de forma
óptima para describir las formas de las distribuciones de clase. Por lo tanto el AVC2
debería solo ser usado en una referencia diferencial, usando un pequeño valor de
tasa de aprendizaje y un número restringido de pasos de entrenamiento. En el Anexo
12: Mapas Auto-Organizados y Crecientes, se detallará un poco más cada uno de
ellos.
40
En inglés Learning Vector Quantization (LVQ).
78
C. Gas Neural de Crecimiento (GNC)
El algoritmo de Gas Neural de Crecimiento fue creado por Bernd Fritzke en 1995,
este es un algoritmo de agrupamiento41 incremental que no requiere información
sobre un conjunto de datos con antelación, y como tal es un mejoramiento de ambos
algoritmos de agrupamiento como son MAOK42 y K-Medias43. Es capaz de crear una
representación de un conjunto de datos de entrada en el espacio (donde es el
conjunto de números reales) y al igual que sus predecesores puede ser usado para
el vector de cuantización como para la construcción de una representación
topológica de una distribución de conjuntos de datos. Cada nodo en el modelo
consiste de un vector dimensional que representa su posición en el espacio
dimensional , además de una lista de conexiones a otros nodos vecinos.
El modelo mantiene varias constantes y que son
establecidos por el usuario y se ajustan a las particularidades del conjunto de datos.
Las constantes y pueden ser entendidas como modelos de tasas de
aprendizaje y, como tal, son usadas para ajustar los vectores de pesos de los nodos
en el espacio dimensional . Valores típicos para y son 0,05 y 0,0006
respectivamente. La es usada para controlar cuan rápido el modelo es
capaz de adaptarse a los cambios en la distribución del conjunto de datos de entrada
y que típicamente es establecido alrededor de 100. es usado para el control de la
inserción del nuevo nodo. En todas las iteraciones un nuevo nodo es insertado
entre el nodo con el error más grande y su vecino con error más grande. Un valor
típico para este parámetro seria alrededor de 300. Finalmente son usados por
el modelo para controlar las variables de error (error variable), es usado para
establecer la variable de error para un reciente nodo insertado, mientras que es
41
En inglés clustering. 42
Significa Mapa Auto-Organizados de Kohonen y en inglés es KSOM. 43
En inglés K-Means. Este algoritmo permite seleccionar grupos representativos entre los datos.
79
usado para contener el incremento de todas las variables de error en el mapa. El
valor típico para estos parámetros son 0,5 y 0,0005.
A continuación se mostrara el paso a paso del algoritmo Gas Neural de Crecimiento:
1. Crea dos nuevas neuronas con pesos inicializados aleatoriamente, crea un
borde entre ellos y establece su edad en 0.
2. Genera un vector de entrada de la distribución de entrada.
3. Ubica los dos nodos y más cercanos a , con vector de referencia y
respectivamente.
Donde al numero actual de neuronas en el mapa.
, donde
, donde
(41)
Así que el vector peso de , será el nodo más cercano a , mientras el
vector peso de , , será el siguiente más cercano a .
4. Cada nodo mantiene una variable de error que es inicialmente establecido en
0, después el nodo ganador ha sido comprobado en una muestra de datos
en particular, la variable de error de los nodos locales, , es actualizado
como se muestra a continuación:
(42)
5. Mueve y sus vecinos topológicos, es decir, todos los nodos conectados a s
por un borde, hacia :
80
6.
(43)
donde es el conjunto de todos los vecinos de .
7. Incrementa la edad de todos los bordes del nodo a sus vecinos topológicos.
8. Si y son conectados por un borde, entonces se establece la edad de esos
bordes a 0. Si ellos no son conectados entonces se crea un nuevo borde entre
ellos con edad cero.
9. Si no hay ningún borde con una edad mayor que , un sistema
constante de ancho máximo de edad, entonces se eliminan. Si después de
esto hay nodos sin bordes entre ellos, entonces también son eliminados.
10. Si la actual iteración es un múltiplo entero de , y la cuenta máxima de nodos
no ha sido alcanzado, entonces un nuevo nodo es insertado. La inserción de
un nuevo nodo es hecho como se muestra a continuación:
Encontrar el nodo con el más grande error.
Entre los vecinos de , encontrar el nodo con el más grande error.
Insertar el nuevo nodo entre y :
(44)
Crear bordes entre y , y ; entonces se remueven los borde entre y
.
Decrece las variables de error de y y establece el nodo error de
(45)
81
11. Decrece todas las variables de error de todos los nodos por un factor .
(46)
12. Si el criterio de parada no se cumple, entonces repetir desde el paso 2.
El algoritmo Gas Neural de Crecimiento es un modelo de crecimiento dinámico, que
a diferencia de la red Mapa Auto-Organizado de Kohonen (MAOK), ni requiere la
dimensionalidad de la red ni el número de neuronas que se especifiquen de
antemano. Como resultado, este se adapta bien a ambas distribuciones no
estacionarias de aprendizaje dinámico y al proceso de aprendizaje continuo. Este es
todavía construido de vectores pesos individuales al igual que la MAOK, pero hasta
aquí llega la analogía entre estos dos. Hay sólo dos neuronas en el modelo Gas
Neural de Crecimiento (GNC) al empezar, a diferencia de la MAOK que parte con
una matriz . Adicionalmente, el mapa creado en (donde es un entero > 0)
espacio dimensional por el algoritmo GNC siempre será una mejor aproximación de
la real distribución del conjunto de datos, ya que no trata de distorsionar la
distribución de entrada en una cuadricula.
D. Crece Cuando se Requiere (CCR)
La técnica usada para la creación y destrucción de los bordes de redes es el método
de aprendizaje Hebbiano competitivo. Para cada entrada, una conexión de borde es
generada entre el nodo que mejor encaje la unidad y la segunda mejor unidad de
competencia. Estos bordes de conexión tienen una “edad” asociada. Esta
originalmente establecida en cero y es incrementada en cada paso de tiempo para
82
cada borde que está conectado al nodo ganador. La única excepción es el borde que
une a la mejor unidad de encaje y la segunda mejor unidad. Los bordes cuya edad
excedan alguna constante son removidos. Cualquier nodo que no tenga
vecinos, por ejemplo, que no tiene conexiones de bordes, es removido, ya que este
es un nodo muerto.
La nueva parte del algoritmo es la forma en que el proceso de crecimiento se lleva a
cabo. En lugar de agregar un nuevo nodo después de todas las entradas , como en
la red Gas Neural de Crecimiento (GNC), nuevos nodos pueden ser agregados en
cualquier tiempo. Por ejemplo, varios pueden ser agregados después de otra y
entonces no se agregan más para las siguientes 100 iteraciones. Los nuevos nodos
se colocan dependientes en la entrada y del actual nodo ganador, en lugar de
agregarlos donde el error acumulado es más alto, como en el algoritmo GNC de
Fritzke.
Un nuevo nodo es agregado cuando la actividad del mejor nodo combinado (que es
la función de la distancia entre los pesos del nodo y la entrada) no es lo
suficientemente alta. La actividad de los nodos es calculada usando la distancia
Euclidiana entre los pesos para el nodo y la entrada. Es del caso considerar, el
hecho que los nodos creados recientemente pueden, no haber sido entrenados aún,
para coincidir con la salida correctamente deseada, lo que significaría que los nodos
deberían ser entrenados más en lugar de crear un nuevo nodo. Cada nodo es
equipado con una manera de medir la frecuencia, cuan a menudo el nodo ha sido
disparado. Éste podría ser hecho en una variedad de maneras, la más sencilla es
usar un contador simple para cada nodo, el cual es incrementado siempre que el
nodo es el mejor combinado.
Una alternativa al uso del contador simple para grabar cuan a menudo cada nodo ha
disparado, es tener una variable que crece exponencialmente de uno a cero, de
modo que los nuevos nodos tienen un valor de uno y los nodos que han sido
disparados frecuentemente son cercanos a cero. Esto es equivalente a un contador
con un límite superior, pero tiene algunos beneficios. El hecho que los vecinos del
83
nodo ganador son también entrenados puede ser reconocido, ya que sus variables
pueden también decrecer, aunque en menor medida. También, el número de veces
que un nodo ha disparado puede ser muy fácilmente tomado en cuenta en la tasa de
aprendizaje, de manera que los nodos que han sido disparados frecuentemente son
menos entrenados. Esto elimina el problema que las redes que aprenden
continuamente a menudo sufren, los pesos de los nodos bien entrenados continúan
moviéndose levemente, para que la red no converja. Como con la mayoría de las
redes auto organizadas, la configuración de las tasas de aprendizaje son usualmente
basadas en experimentación previa. Finalmente, significa que la red Crece Cuando
se Requiere puede ser usada como un filtro de novedad sin ninguna modificación, si
el nodo que dispara no ha disparado antes, o es disparado muy frecuentemente,
entonces la entrada es novedosa. Esto es lo que se conoce como habituación en los
animales.
Así, cuando una entrada es presentada a la red, la actividad de cada nodo en el
espacio de mapa es calculado y un ganador es elegido. Si este nodo representa la
entrada, entonces la actividad de ese nodo será cercana a uno. En ese caso, el nodo
ganador es entrenado un poco, al igual que sus vecinos. Sin embargo, si la actividad
de la red es por debajo del umbral de inserción , entonces el nodo sólo ha sido
recientemente agregado al mapa y todavía sigue entrando, o hay un desajuste entre
el nodo y la entrada. Si el nodo es nuevo, entonces, el contador de disparo para el
nodo será alto, por lo que el nuevo se entrena un poco y el contador decrece. De otra
forma, un nuevo nodo se necesita para representar la mejor entrada. Éste nodo es
agregado entre el nodo ganador, que causa el problema, y la entrada, con los pesos
del nuevo nodo siendo inicializados para hacer la media aritmética de los pesos para
el nodo ganador y la entrada. Este método de generación de nodo, y en particular el
umbral de inserción , se puede considerar como una generalización ajustable; la
cantidad que puede ser generalizada por la red entre percepciones similares es
controlada por la cantidad de discrepancia entre las percepciones que desencadena
un nuevo nodo.
84
Además, al umbral de inserción descrito previamente, un umbral es también
requerido para decidir en qué nivel de disparo una entrada es considerada
suficientemente entrenada, de modo que una baja actividad significa un desajuste.
En la práctica, el valor de este umbral no parece afectar el comportamiento de la red
de manera significativa. Usando la función de decrecimiento exponencial, el umbral
fue establecido de manera que si un nodo ha disparado cinco veces entonces éste
es considerado para ser entrenado.
El valor del umbral de inserción hace una gran diferencia. Sin embargo, si el valor
está situado muy cercano a uno, entonces, más nodos son producidos y la entrada
es representada muy bien. Con valores más bajos de menos nodos son
agregados.
D.1 Algoritmo Crece Cuando se Requiere
Para entender de mejor manera este algoritmo, se detallarán los pasos a seguir.
Sea el conjunto de nodos de mapa, y es el conjunto de conexiones
entre los nodos en el campo del mapa. Se deja que la distribución de entrada sea
, para las entradas . Definido como el vector de peso del nodo .
Inicialización. Crear dos nodos para el conjunto :
(47)
Con inicializados aleatoriamente de . Definir , el conjunto de conexión,
para ser el conjunto vacío.
(48)
Entonces, cada iteración del algoritmo es la siguiente:
85
1. Generar una muestra de dato para la entrada de la red.
2. Para cada nodo en la red, calcular la distancia de la entrada .
3. Seleccionar el mejor nodo de ajuste ganador, y el segundo mejor, que es el
nodo tal que:
(49)
donde es el vector peso del nodo .
4. Si no hay una conexión entre y , se crea este:
(50)
de otra forma, se fija la edad de la conexión a cero.
5. Calcular la actividad de la mejor unidad de ajuste:
(51)
6. Si la actividad <umbral de actividad y el contador de disparo < umbral de
disparo , entonces un nuevo nodo debería ser agregado entre los dos
mejores nodos de ajustes ( y ).
Agregar el nuevo nodo,
(52)
Crear el nuevo vector de peso, configurando los pesos para ser el
promedio de los pesos para el mejor nodo de ajuste y el vector de
entrada.
86
(53)
Insertar los bordes entre y y entre y
(54)
Remover el enlace entre y
(55)
7. Si el nuevo nodo no es agregado, adaptar las posiciones del nodo ganador y
sus vecinos, , que los nodos a los que está conectado.
(56)
donde 0< < <1 y es el valor del contador de disparo para el nodo .
8. Bordes de edad con un fin en :
(57)
9. Reducir el contador de la frecuencia con el nodo ganador ha disparado de
acuerdo a:
(58)
Y los contadores de sus vecinos
(59)
donde es el tamaño de la variable de disparo para el nodo , la fuerza
inicial, y es la fuerza de estímulo, usualmente 1. y son
constantes que controlan el comportamiento de la curva. El contador de
disparo de la ganadora reduce más rápido que las de sus vecinos.
87
10. Chequear si hay nodos o bordes para eliminar, es decir, si hay nodos que ya
no tienen vecinos, o bordes que son más viejos que la edad permitida, en
cuyo caso, eliminarlos.
11. Si más entradas están disponibles, retornar al paso 1, a menos que algún
criterio de detención se haya alcanzado.
En el Anexo 12: Mapas Auto-Organizados y Crecientes, se encuentra más
información de esta red.
88
PARTE III
2.4 PROYECCIÓN DE DEMANDA
Para la proyección de demanda existe una variada cantidad de metodologías, las
cuales pueden ser usadas individualmente para un proyecto o en conjunto con otras
técnicas, todo esto dependiendo de las variables que se encuentren involucradas en
el proyecto.
Una de las formas de clasificar estas técnicas de proyección es en función a su
carácter, de esta forma se encontran 3 tipos:
Series de tiempo.
Causales.
Subjetivos.
2.4.1 Modelos de Series de Tiempo44
Este tipo de modelos mide los valores de una variable en el tiempo en intervalos
espaciados uniformemente. Todo esto con el fin de determinar un patrón básico en
su comportamiento, y de esta forma poder hacer proyección futura de la variable
deseada.
Dentro de la serie de tiempos se pueden distinguir cuatros componentes básicos que
afectan a su comportamiento:
44
(Sapag, 1989) & (Anderson, Sweeney, & Williams, 2010).
89
A. Tendencia45
Este ve la declinación o el crecimiento a largo plazo del valor promedio de la
variable que se estudia. Esto se puede dar debido a cambios en la población,
características demográficas de la población, tecnología, y/o preferencias del
consumidor.
B. Factores Cíclicos46
Se refiere a la divergencia que existe entre la línea de tendencia proyectada y
el valor real que exhiba la variable. En efecto, las series de tiempo a menudo
muestran una secuencia de alternancia de puntos arriba y debajo de la línea
de tendencia. Esto es debido, entre otras cosas, a la conducta del efecto
combinado de las distintas fuerzas económicas, tecnológicas, políticas,
sociales, culturales y cualquier otra fuerza que sea parte del mercado. En
muchos de los casos, no existen patrones constantes que permitan evitar su
ocurrencia, magnitud y duración.
C. Fluctuaciones Estacionales47
Estos exhiben fluctuaciones que se repiten periódicamente y que normalmente
dependen de factores como el clima y la tradición, entre otros. Algunos
ejemplos de estos son la ropa de temporada, o sea ropa de verano y de
inviernos, pan de pascua (que se acentúa su demanda en épocas navideñas),
entre otros. Cabe destacar que este componente es aplicable para períodos
de horas, días, años, entre otras. Un ejemplo de esto es el volumen de tráfico
diario, donde hay alto nivel vehicular a ciertas horas del día.
45
En inglés Tend. 46
En inglés Cyclical Component. 47
En inglés Seasonal component.
90
D. Variaciones no Sistemáticas48
Este se refiere al componente aleatorio y que puede hacer variar a la línea de
tendencia, factores cíclicos y estacionarios proyectados. Esto ocurre por los
factores de corto plazo, no anticipados, y no recurrentes que afectan a las
series de tiempo.
Existen diversos métodos que permiten estimar el comportamiento de una variable y
que aíslan, en general, el efecto tendencia. Estos modelos son:
I. Promedios Móviles49
Este se usa cuando existe un fuerte efecto estacional. El promedio móvil se
obtiene al promediar los períodos o valores de datos más recientes para
proyectar el próximo período. Su formula matemática es la siguiente:
(60)
El término móvil es usado porque siempre aparece una nueva observación, la
cual queda disponible para la serie de tiempo. Esta remplaza a la más vieja
observación en la ecuación (60) y un nuevo promedio es calculado. Como
resultado, el promedio va a cambiar, o mover, como las nuevas observaciones
lleguen a estar disponibles.
48
En inglés Irregular Component o Catch-all. 49
En inglés Moving Average.
91
II. Afinamiento Exponencial50
Este método es para el pronóstico de corto plazo, un ejemplo de esto es el
pronóstico de ventas futuras; que toma un promedio ponderado de las ventas
reales durante el último período y del pronóstico realizado para ese período.
Esta utiliza un promedio ponderado de los últimos valores de series de
tiempos para la proyección
La ecuación es la siguiente:
(61)
donde representa el pronóstico de la serie de tiempo para el período
, es la constante de afinamiento ( , es la demanda real del
periodo y es el pronóstico de la demanda realizado para el período . “El
valor de se determina por tanteo, donde mientras menor sea , más estable
es el sistema de predicción. El valor de α se calcula de manera tal que se
minimice la medida de error del pronóstico”.
2.4.2 Modelos Causales51
Estos modelos buscan proyectar el mercado sobre la base de antecedentes
cuantitativos históricos. Esta tecnica se basa en que los factores que afectan el
comportamiento histórico de alguna o de todas las variables del mercado estudiado
siguen siendo las mismas.
Dentro de los modelos causales más utilizados se encuentran:
50
En inglés Exponencial Smoothing. 51
(Gujarati, 2004) & (Sapag, 1989).
92
A. Modelo de Regresión
El análisis de regresión trata del estudio de la dependencia de la variable
dependiente, respecto a una o más variables (las variables explicativas), con
el objetivo de estimar y/o predecir la media o valor promedio poblacional de la
primera en términos de los valores conocidos o fijos (muestras repetidas) de
las últimas. En este análisis nos interesa conocer la dependencia estadística
entre variables, en estas relaciones entre variables se trata esencialmente con
variables aleatorias o estocásticas (variables con distribución de probabilidad).
Al hablar de modelos lineales de regresión se debe entender que esta
linealidad está referida a dos conceptos:
Linealidad en las variables, el concepto más natural de linealidad es aquel
en que la esperanza condicional de es una función lineal de , es decir
geométricamente, la curva de regresión en este caso es una línea recta.
Linealidad de los parámetros, este caso se presenta cuando la esperanza
condicional de , es una función lineal de los parámetros, los ;
puede ser lineal en la variable o puede no serlo. Por ejemplo, en este
caso es un modelo de regresión lineal en el
parámetro.
En la Figura N°23 se aprecian distintos modelos de regresión, en los que se puede
apreciar linealidad de los parámetros.
93
Figura 23: Gráficos de Regresiones. Fuente: “Econometría”.
Como se ha señalado anteriormente los modelos de regresión se utilizan para
realizar estimaciones a partir de información ya existente, en el caso de este
documento, series de tiempo. Para la realización de estas estimaciones en dos
variables existen dos métodos que suelen utilizarse, el más común y frecuentemente
usado es la técnica de los mínimos cuadrados ordinarios (MCO) y la segunda
metodología se denomina máxima verosimilitud (MV); se debe mencionar que en el
contexto de la regresión lineal generalmente ambas metodologías proporcionan
resultados similares.
Dado su uso masificado el enfoque estará solamente en el método de mínimos
cuadrados ordinarios, los estimadores del mismo se calculan de la siguiente manera:
(62)
94
Una vez obtenidos estos estimadores, la recta de regresión es fácilmente obtenible.
La precisión de los estimadores MCO está determinada por sus errores estándar, y la
bondad de ajuste general del modelo está determinada por el coeficiente de
determinación , éste señala que proporción de la variación en la variable
dependiente esta explicada por la variable explicativa.
El modelo de dos variables no siempre es adecuado en la práctica, al existir más de
una variable explicativa el modelo deja de tener validez, por esto se hace necesario
ampliar el modelo de regresión lineal simple de manera que pueda considerar más
de dos variables.
Para seguir operando bajo los parámetros de un modelo clásico de regresión lineal
se realizan las siguientes suposiciones:
Valor medio de igual a cero, para cada .
No correlación serial, o tal que
Homoscedasticidad, o
Covarianza entre y cada variable igual a cero, o
No hay sesgo de especificación.
No hay colinealidad exacta entre las variables , o en otras palabras, no hay
relación lineal exacta entre y .
Las ecuaciones normales para los estimadores de MCO de tres variables se
presentan a continuación:
(63)
95
Para la estimación de los modelos de regresión no lineal se utilizan varios
métodos:
Búsqueda directa o método de ensayo y error o de libre derivación. Es un
método que resulta muy atractivo ya que no requiere de métodos de
cálculo, sin embargo no suele utilizarse. Si el modelo tiene muchos
parámetros se vuelve muy engorroso, y no es posible garantizar que con el
conjunto final de los valores de los parámetros que se haya seleccionado,
necesariamente se obtendrá la suma de error de cuadrados mínima
absoluta.
Optimización directa. En este método se diferencia la suma error de
cuadrados con respecto a cada coeficiente o parámetro desconocido, se
iguala la ecuación resultante a cero y se resuelven las ecuaciones
normales obtenidas de manera simultánea. Pero a partir de estas
ecuaciones no se puede resolver explícitamente o analíticamente. Por
consiguiente se recurre a alguna rutina iterativa. Se considera una
desventaja de este método que los valores finales de los parámetros
pueden converger de manera muy lenta.
Método de linealización iterativa. En este método se linealiza la ecuación
no lineal alrededor de algunos valores iniciales de los parámetros. Luego,
la ecuación linealizada se calcula mediante los MCO y los valores elegidos
al principio se ajustan. Tales valores ajustados se emplean para volver a
linealizar el modelo y de nuevo este se calcula mediante MCO reajustando
los valores estimados. Este proceso continúa hasta que no se produzcan
cambios sustanciales en los valores estimados, respecto al último par de
iteraciones. La principal técnica para linealizar una ecuación no lineal es la
expansión de las series de Taylor.
96
B. Encuestas de Intensiones de Compras
Esta metodología empieza con la selección de la adecuada unidad de análisis,
para así poder cuantificar la interacción de compra, luego se hace la correcta
toma de encuesta por muestreo y por último el análisis de los datos obtenidos.
C. Insumo-Producto
Se utiliza para “identificar las relaciones inter-industriales que se producen
entre los sectores de la economía, a través de una matriz que implica suponer
el uso de coeficientes técnicos fijos por parte de las distintas industrias”. “Este
método descompone la demanda entre bienes finales e intermedios y
establece sus relaciones a través de los denominados coeficientes técnicos,
con lo cual permite obtener la demanda de un sector específico”. Todo esto se
hace con el fin de determinar el grado de repercusión que la actividad de un
sector tiene sobre los restantes.
2.4.3 Modelos Subjetivos52
Estos modelos son usados cuando los métodos cuantitativos no cuentan con los
datos históricos suficientes para poder predecir el futuro o porque no son capaces de
explicar por sí solos el comportamiento futuro de algunas de las variables o cuando
el tiempo para elaborar el pronóstico es escaso.
Es por todo lo anterior que estos modelos se basan principalmente en las opiniones
de los expertos. Dentro de las cuales se encontran los siguientes métodos:
52
(Sapag, 1989) & (Anderson, Sweeney, & Williams, 2010).
97
A. Método Delphi
Esta es una de las técnicas más usadas en este tipo de modelos, fue
desarrollada por el grupo de investigación de la Corporación Rand53. Se trata
de un grupo de expertos, quienes participan de varias rondas de preguntas
(cuestionarios), donde todas sus respuestas al final de cada ronda son
retroalimentadas de forma controlada. Con esto se logra obtener “una serie de
información que tratada estadísticamente entrega una convergencia en la
opinión grupal, de la que nace la predicción.”
Para no inhibir a los participantes, el cuestionario se contesta de forma
anónima, donde los participantes están separados físicamente el uno del otro.
Cada vez que se termina una ronda del cuestionario se realiza la
retroalimentación controlada sobre el panel. Esto se realiza hasta que se
llegue a la convergencia de opiniones de todos los expertos. Todo este
procedimiento se realiza con el fin de evitar distorsiones que se producen
cuando hay individuos dominantes, la existencia de comunicaciones
irrelevantes y la presión de parte del grupo para llegar a un consenso forzado,
entre otras cosas.
B. Investigación de Mercado
Esta se utiliza en la recolección de información con el fin de aprobar o
impugnar hipótesis de mercados específicos, lo que permite tomar decisiones
sobre este mercado. Esto se realiza a través de encuestas, experimentos,
mercados pruebas entre otros.
Su principal característica es que este método tiene una flexibilidad en la
selección y diseño de la metodología que se llevará a cabo para resolver el
53
Su nombre en inglés es Rand Corporation.
98
problema en cuestión, “requiriendo una investigación ya sea exploratoria,
descriptiva o explicativa”.
C. Consenso Panel54
Este método de pronóstico se basa en el juicio de un sólo experto o
representante del consenso de un grupo de expertos, lo que lo hace similar al
método Delphi, pero con la diferencia de que aquí todas las identidades de los
emisores de las opiniones son conocidas, otra cosa en común es la falta de
retroalimentación dirigida desde el exterior.
Esta técnica de pronóstico es comúnmente recomendada cuando las
condiciones en el pasado no se mantienen en el futuro.
D. Pronósticos Visionarios
Es cuando se dispone de personal interno de la empresa, los cuales tiene una
experiencia y conocimientos del mercado que le permiten opinar respecto a
estimaciones en la demanda. Un ejemplo de esto son los vendedores que
llevan años conociendo a sus clientes y son capaces de predecir sus
comportamientos.
E. Analogía Histórica
Este supone que el mercado del proyecto que se estudia va a tener un
comportamiento parecido al de otros mercados en el pasado. Este mercado
que es usado como referente, se puede utilizar para un producto distinto, pero
54
En inglés Expert Judgment.
99
con un mercado consumidor parecido o para otra región geográfica o para un
mismo producto pero de otra empresa.
F. Aproximaciones Intuitivas55.
Están basadas en la habilidad de la mente humana para procesar una
variedad de información, que en la mayoría de los casos, es difícil de
cuantificar. Estas técnicas son a menudo usadas en grupos de trabajo, en el
que un comité o grupo trata de desarrollar nuevas ideas o resolver complejos
problemas a través de una serie de sesiones de “tormentas de ideas”. En
estas sesiones, los individuos se liberan de las restricciones habituales del
grupo (presión de los compañeros y la crítica), porque ellos pueden presentar
cualquier idea u opinión sin tener en cuenta su relevancia e, incluso más
importante, sin temor a la crítica.
G. Escritura de Escenario
Este método consiste en desarrollar un escenario conceptual del futuro
basado en un bien definido conjunto de supuestos. Diferentes conjuntos de
supuestos guían a diferentes escenarios. El trabajo de la toma de decisión es
para plantear qué tan probable es cada escenario y luego de eso permite
decidir.
55
En inglés Intuitive Aproaches.
100
CAPÍTULO III
DESARROLLO
Antes de comenzar a explicar en extenso el desarrollo de este estudio, es decir,
indicar los procedimientos realizados, como son la parametrización de variables, la
normalización de ellas, el desarrollo de las redes en base a estas variables, entre
otras; hay que distinguir el contexto o el medio en que se basa este estudio.
Una de las primeras dificultades encontradas, fue decidir que producto o servicio
debería ser proyectado para el desarrollo de este trabajo. Luego de recolectar
información y analizar los datos que se obtuvieron de los distintos productos y
servicios, se optó por basar el estudio en la proyección de la demanda de una
importante empresa aérea, que por razones de confidencialidad no se dará a
conocer su nombre, ni el área que representan los valores utilizados. Esta opción fue
escogida debido a la gran cantidad de información que se logró obtener en la base
de datos, la cual se componía de más de 16 variables con más de 61.000 entradas
para cada una (ver Figura N° 24), como así también, por ser un servicio que en el
mundo trasladó durante el mes de Julio del 2011 aproximadamente 325 billones de
pasajeros en Ingreso por Pasajeros por Kilómetros (IPK56) y, aproximadamente a 385
billones de pasajeros en Asientos Disponibles por Kilómetros (ADK57).
56
En inglés Revenue Passenger Kilometers (RPK), es una medida del volumen de pasajeros llevados por aerolíneas. Un IPK es cuando un pasajero voló un kilometro.
57 En inglés Available Seat Kilometers (ASK), captura la capacidad total de vuelo de pasajeros de una
aerolínea en kilómetros; está se obtiene multiplicando el número total de asientos disponibles para pasajeros programados y el número total de kilómetros de los asientos que fueron usados.
101
Figura 24: Captura de Pantalla de la base de datos. Fuente: “Elaboración propia”.
Una vez escogida está base de datos y antes de parametrizar las variables, se
decide trabajar con un enfoque de datos diarios lo que redujo las entradas de datos
desde 61.000 a 816 que representan la información de cada día. Otra razón de la
disminución de los datos de entrada fue la redundancia de ellos en el mismo día, ya
que éstos se podían repetir. Para lo anterior se utiliza la opción de tablas dinámicas,
la cual redujo de 61.000 a 816 datos de entrada, permitiendo contabilizar de mejor
forma la cantidad de reservas y de pasajeros por día, además de consentir un mejor
manejo y trabajo de los datos (ver Figura N° 25).
Una vez concluida la reducción de todas las variables se entra de lleno al desarrollo
del estudio, que continuación se muestra en detalle.
102
Figura 25: Captura de Pantalla de la Tabla Dinámica. Fuente: “Elaboración propia”.
3.1 PARAMETRIZACIÓN
Las posibles variables con que se pueden trabajar incluyen: El valor del tipo de
cambio, la fecha de viaje, la fecha de reserva58, el número de pasajeros por reservas,
la inflación, los pasajeros que viajan y el desglose de los mismos, pasajeros que
viajan nacionalmente y pasajeros que van al extranjero, de esta misma manera los
pasajeros al extranjero y nacionales se pueden subdividir según los destinos a los
cuales se transportan.
No se han considerado criterios como el precio y las ganancias por viaje dado que
los datos informados no poseen un claro desglose de los costos y pérdidas que
afectaban las ganancias de los respetivos viajes, así mismo se ha ignorado la
inflación ya que esta se presenta mensualmente. No existe una estadística diaria de
la misma que se pueda utilizar al comparar datos día a día.
58
En la empresa usan la palabra en inglés booking.
103
Los parámetros o series de datos con que se trabajarán incluirán datos que se
consideraron importantes al momento de tomar la decisión de viajar, ya sea dentro
del territorio nacional o fuera de este.
La selección de variables se realizará enfocada en la búsqueda de una mejor gestión
de venta del servicio, o si se prefiere la gestión de costos del mismo, es decir el
estudio se enfocará en determinar el número de reservas de pasajes que se
asignarán en determinado día, o periodo de tiempo.
Se reconoce a su vez que se pueden centrar el estudio en otras problemáticas como
por ejemplo: los kilómetros que recorrerán los pasajeros (destino de los viajes), la
asignación de asientos de destinos particulares, entre otras.
Como se mencionó con anterioridad las variables estarán determinadas por el
número de reservas que se realizarán en un periodo de un dia, es por ello que la
totalidad de los datos obtenidos se agrupará en un criterio diario, que concentrará
todos los destinos del día, permitiendo reducir la base de datos desde sobre 60.000
datos de entrada a 816 datos, los que representan cada día en que se realizan
reservas.
Se consideran relevantes:
Fecha de Viaje: Tiene influencia en el destino del viaje y la duración del mismo, por
lo tanto, se incluye entre los factores (parámetros) que se consideraran relevantes al
momento de viajar.
Valor del Dólar (dólar observado diario): El tipo de cambio tiene una alta importancia
al momento de decidir un viaje, un mayor valor del dólar desincentiva al viajero y
afecta la duración del viaje mismo. Un valor bajo del dólar facilita la posibilidad de
viajar y, en conjunto con la fecha de viaje, puede determinar un mayor tiempo de
viaje o incluso la realización del mismo.
104
Reserva y Fecha de Salida: Los datos obtenidos de la base de datos de la empresa
permiten múltiples opciones de trabajo, enfocándose en el número de pasajeros
reservados, o del número de pasajeros que viaja en la fecha determinada, los
pasajeros que se mueven dentro del territorio nacional, o de aquellos que viajan
hacia el extranjero, se presentan como buenas alternativas de análisis para medir la
precisión de las redes neuronales que se someteran a estudio. Las relaciones
causales entre los datos de número de viajes totales y la separación entre viajes
nacionales y/o viajes al extranjero resulta evidente y no requiere de un análisis
profundo, es por ello que se ha decidido no incluir en las pruebas y/o análisis estos
datos, o si prefiere parámetros, al momento de formular las redes neuronales con las
que se trabajara.
Número de Pasajeros: Intuitivamente se puede notar la existencia de una relación
entre el número de pasajeros que viajan y las reservas realizadas en una fecha
determinada, esta relación se analizara en profundidad en la siguiente sección.
Se ha considerado adecuado utilizar los parámetros:
Cantidad de Reservas: Es la cantidad de reservas que se hacen en un día.
Dólar Observado Diario: Corresponde al tipo de cambio establecido por el
Banco Central en función del promedio de transacciones realizadas en el
Mercado Cambiario Formal, durante el día hábil anterior.
N° Pax59 o N° Pasajeros: Cantidad de pasajeros diarios.
Fecha de Reservas: Indica el día, mes y año en que se hizo la reserva.
59
Esta es una abreviatura que se usa en los textos turísticos para referirse al pasajero.
105
3.2 ANÁLISIS DE DATOS
3.2.1 Estudios de Variables sin Tratamiento
Antes de comenzar a trabajar con las variables en la red neuronal propuesta, se han
realizado una serie de estudios para ver sus comportamientos estadísticos,
utilizándose las siguientes pruebas: Existencia o no de Distribución Normal en cada
una de ellas, Distribución de Frecuencias (Tendencia Central y Variabilidad),
Relaciones lineales entre ellas (gráficos de dispersión) y finalmente la Correlación
Bivariada, para lo cual se ha utilizado el programa “IBM SPSS Statistics 19”, que
permite realizar todo estos análisis.
El primer estudio en ejecutarse fue el estudio de la Distribución Normal en las
variables, para realizarlo se ha utilizado la prueba de bondad de ajuste Kolmogorov-
Smirnov, en el cual fueron ingresadas todas las variables (ver Figura N°26), siendo
analizadas de forma independiente. En esta prueba se requiere que la significación
bilateral sea mayor a 0,05 para ser una distribución normal.
Figura 26: Captura de Pantalla de las variables en el programa IBM SPSS Statistics 19. Fuente: “Elaboración propia”.
106
A continuación se mostrarán los resultados de la prueba en la Tabla N°1:
Prueba de Kolmogorov-Smirnov para una muestra
Cantidad de
Reservas
Dólar
Observado N° Pasajeros
Fecha de
Reserva
N 816 816 816 816
Parámetros
normalesa,b
Media 76,90 520,89 174,66 11-abr-2010
Desviación
típica
63,42 39,86 148,06 246
Diferencias más
extremas
Absoluta 0,11 0,09 0,12 0,05
Positiva 0,10 0,09 0,11 0,04
Negativa -0,11 -0,07 -0,12 -0,05
Z de Kolmogorov-Smirnov 3,30 2,61 3,44 1,61
Significación asintótica (bilateral) 0,00 0,00 0,00 0,01
a. La distribución de contraste es la Normal. b. Se han calculado a partir de los datos.
Tabla 1: Prueba de Kolmogorov-Smirnov para variables sin tratamiento. Fuente: “Elaboración propia”.
Como se advierte en los resultados, ninguna de estas variables tiene una
Significación Bilateral mayor a 0,05, por ende, estas variables no siguen una
distribución normal, con lo cual se descarta de forma automática la utilización de la
Correlación Bivariada de Pearson.
La siguiente etapa fue de Estadística Descriptiva, donde se distinguen las
Distribuciones de Frecuencia, encontrándose las medidas de Tendencia Central que
permiten ubicarse dentro de la escala de medición, y las medidas de la Variabilidad
que indican la dispersión de los datos en la escala de medición. Además de las
pruebas señaladas, se utilizó las Estadísticas Descriptivas de Asimetría, Curtosis y
otras. A continuación se muestra la Tabla N°2 con los resultados respectivos a
dichas medidas.
107
Estadísticos
Cantidad de
Reservas
N°
Pasajeros
Fecha de
Reserva
Dólar
Observado
N Válidos 816 816 816 816
Perdidos 1 1 1 1
Media 76,90 174,66 11-abr-2010 520,89
Error típico de la media 2,22 5,18 08 15:15:30,389 1,39
Mediana 65,00 151,00 18-abr-2010 520,04
Moda 40 3a 02-ene-2009
a 494,51
Desviación típica. 63,42 148,06 246 39,86
Varianza 4022,76 21924,17 4,54E14 1589,07
Asimetría 2,11 2,12 -0,10 0,69
Error típico de asimetría 0,08 0,08 0,08 0,08
Curtosis 7,71 7,32 -1,10 -0,040
Error típico de curtosis 0,17 0,17 0,17 0,17
Rango 500 1117 879 00:00:00 183,83
Mínimo 1 1 02-ene-2009 460,04
Máximo 501 1118 31-may-2011 643,87
Suma 62748 142525 425049,97
a. Existen varias modas. Se mostrará el menor de los valores.
Tabla 2: Pruebas Estadísticas para variables sin tratamiento. Fuente: “Elaboración propia”.
Como se observa en la Tabla 2 se obtuvieron las distintas medidas de Tendencia
Central y Variabilidad, que serán interpretadas a continuación:
La mediana de cada variable son las siguientes:
Cantidad de Reservas es 65, quiere decir que la mitad de las reservas
sobrepasan esa Cantidad y la otra mitad es inferior.
N° Pax es 151, al igual que la anterior significa que la mitad de los números de
pasajeros sobrepasa a 151 y la otra mitad está por debajo de está.
Fecha de Reserva es 18 de abril del 2010, indica que una mitad de las fechas
reservadas fueron después de esa fecha y la otra mitad fue antes.
108
Dólar observado es de US$ 520,04 indica que una mitad del dólar observado
fue superior al antes dicho y la otra mitad fue inferior a ésta.
La moda de las variables escogidas fueron las siguientes:
Cantidad de Reserva fue 40, indica que es la Cantidad de reservas que más
frecuentemente se hacen a diario.
N° Pax fue de 3, muestra que frecuentemente esta era la Cantidad de
pasajeros que viajaría.
Fecha de Reserva no es válida para esta variable, debido a que no hay días
repetidos.
Dólar Observado fue de US$ 494,51 indica que fue el promedio de
transacciones más habitual en el mercado cambiario formal.
La media aritmética fue la siguiente:
Cantidad de Reservas, en promedio se realizaron 76,9 reservas de viajes
diariamente.
N° Pax en promedio fue de 174,66 pasajeros diarios.
Dólar observado en promedio fue de US$ 520,89 diario.
La Desviación Estándar para cada variable es la siguiente:
Cantidad de Reservas: 63,425 reservas. Significa que se desvían de 76,9 en
promedio, 63,425 unidades de la escala.
N° Pax: 148,068 pasajeros. Quiere decir que se desvían de 174,66 en
promedio, 148,068 pasajeros.
109
Dólar Observado: US$39,86. Indica, que se desvían de US$520,89 en
promedio, US$39,86.
Figura 27: Gráficos de Asimetría y Curtosis de variables sin tratamiento. Fuente: “Elaboración propia”.
Al revisar los gráficos y los valores entregados por el SPSS (ver Figura N°27), se
pueden concluir los siguientes resultados:
En la asimetría se distingue que de las cuatro variables, tres tienen una asimetría
positiva: Cantidad de Reservas, N° Pax y Dólar Observado; esto quiere decir, que
tienen una mayor Cantidad de valores agrupados en el sector izquierdo del gráfico
(representado por la curva), lo que significa que están por bajo la media. El único que
110
tiene una asimetría negativa es Fecha de Reserva, la cual es ligeramente perceptible
en el gráfico.
Con respecto a la curtosis, al igual que con la asimetría, tres tienen una curtosis
positiva: Cantidad de Reservas, N° Pasajeros (N° Pax) y Dólar Observado; lo que
indica que se concentran varios valores en la región central de la distribución.
También en este caso, Fecha de Reserva tiene un valor negativo, lo que indica que
los valores no se concentran en la región central de la curva.
Una vez conocidos los resultado de la prueba de bondad, de ajuste y de estadística
descriptiva, se pasó al estudio de las relaciones lineales entre las distintas variables,
para lo cual se utilizó el diagrama de dispersión para ver si existía o no una relación
lineal, esto fue realizado para cada una de las parejas de variables posibles, sólo se
presentará el caso que muestra una correlación alta, los demás serám expuestos en
el Anexo 13: Diagramas de Dispersión.
Figura 28: Diagramas de Dispersión para las variables Cantidad de Reservas-N°Pasajeros. Fuente: “Elaboración propia”.
111
En el gráfico de la Figura N° 28, tiene una fuerte correlación (ver su ), donde los
puntos se agrupan muy cerca de la línea de tendencia, además se aprecia que
tiende a tener una correlación positiva, lo cual significa que a mayor cantidad de
reservas habrá mayor cantidad de pasajeros. También se aprecia que los puntos se
concentran en su mayoría entre 0 y 200 reservas y, entre 0 y 400 pasajeros. Tiene
muy pocos valores atípicos, se puede dar como ejemplo donde hay muchos
pasajeros con pocas reservas. Finalmente se puede concluir que estas dos variables
tienen una dependencia lineal.
Una vez concluido que tipo de relación tiene cada variable con las demás, se pasa a
la siguiente etapa del análisis que es el de las Correlaciones Bivariadas. Para el caso
de estas variables se escoge la prueba de Rho de Spearman, utilizada para variables
no normalmente distribuidas.
112
Correlaciones
Cantidad
de reserva
N°
Pasajeros
Fecha de
Reserva
Dólar
Observado
Rho de
Spearman
Cantidad de
Reservas
Coeficiente de
correlación
1,00 0,98** 0,38
** -0,33
**
Significación
(bilateral)
0,00 0,00 0,00
N 816 816 816 816
N° Pasajeros Coeficiente de
correlación
0,98** 1,00 0,33
** -0,28
**
Significación.
(bilateral)
0,00 0,00 0,00
N 816 816 816 816
Fecha de
Reserva
Coeficiente de
correlación
0,38** 0,33
* 1,00 -0,89
**
Significación.
(bilateral)
0,00 0,00 0,00
N 816 816 816 816
Dólar
Observado
Coeficiente de
correlación
-0,33** -0,28
** -0,89
** 1,00
Significación.
(bilateral)
0,00 0,00 0,00
N 816 816 816 816
** La correlación es significativa al nivel 0,01 (bilateral).
Tabla 3: Correlación de Rho de Spearman para variables sin tratamiento. Fuente: “Elaboración propia”.
Como se observa en la tabla de resultados de la Tabla N°3, los coeficientes de
correlación entre las variables que tienen un bajo valor, representan una baja
correlación, lo que demuestra que no existe correlación entre estas variables; en
cambio las variables que tienen coeficientes de correlación altos, son
estadísticamente significativos, con p < 0,01, esto quiere decir, que son altamente
correlacionadas, que para el caso de Cantidad de Reservas-N° Pasajeros están
directamente relacionadas, y para el caso Dólar Observado-Fecha de Reserva están
indirectamente relacionados.
113
3.2.2 Estudio de Variables Normalizadas
Como se explica más adelante, las variables escogidas al momento de ser
trabajadas en la red, fueron normalizadas para evitar distorsiones, es por ello que
nuevamente estas variables son analizadas con el fin de verificar si tuvieron o no
algún cambio con los valores originales.
Se comienza con la bondad de ajuste de Kolmogorov-Smirnov, para ver si siguen o
no una distribución normal. Como se observa en la Tabla N°4, las variables siguen
sin tener una distribución normal, ya que ninguna tiene una Significación Bilateral
mayor a 0,05.
Cantidad
Reservas
Dólar
Observado
N°
Pasajeros
Fecha
Reserva
N 816 816 816 816
Parámetros
normalesa,b
Media 3,93 3,85 4,72 5,88
Desviación
típica
1,07 0,82 1,15 0,90
Diferencias más
extremas
Absoluta 0,11 0,12 0,13 0,16
Positiva 0,07 0,05 0,08 0,16
Negativa -0,11 -0,12 -0,13 -0,13
Z de Kolmogorov-Smirnov 3,34 3,56 3,71 4,61
Significación asintótica (bilateral) 0,00 0,00 0,00 0,00
a. La distribución de contraste es la Normal. b. Se han calculado a partir de los datos.
Tabla 4: Prueba de Kolmogorov-Smirnov para variables Normalizadas. Fuente: “Elaboración propia”.
Se vuelve a ver la estadística descriptiva, para ver los cambios que estos datos
tuvieron al ser normalizadas (ver Tabla N°5).
114
a. Existen varias modas. Se mostrará el menor de los valores.
Tabla 5: Pruebas Estadísticas para variables normalizadas. Fuente: “Elaboración propia”.
La interpretación de las medidas de Tendencia Central y de la Variabilidad de las
variables normalizadas son las siguientes.
La mediana de cada variable a continuación:
Cantidad de Reservas es 4,17 quiere decir que la mitad de las reservas
sobrepasan a esta Cantidad y que la otra mitad es menor a ella. Además, al
desnormalizarla, se ve que esta es la misma que la original o sea 65.
N° Pasajeros (N° Pax) es de 5,02 significa que la mitad de los números de
pasajeros sobrepasa a la cifra anterior y la otra mitad está por debajo de ésta.
Al igual que se observo en el punto anterior, al desnormalizarla queda en 151
como la original.
Cantidad de Reservas Dólar Observado N° Pasajeros Fecha de Reserva
N Válidos 816 816 816 816
Perdidos 0 0 0 0
Media 3,93 3,85 4,72 5,88
Error típico de la media 0,03 0,02 0,04 0,03
Mediana 4,17 4,11 5,01 6,15
Moda 3,68 3,56 1,09 0,00a
Desviación típica 1,07 0,82 1,15 0,90
Varianza 1,16 0,68 1,33 0,82
Asimetría -1,32 -0,99 -1,45 -2,02
Error típico de asimetría 0,08 0,08 0,08 0,08
Curtosis 2,23 1,52 2,64 5,55
Error típico de curtosis 0,17 0,17 0,17 0,17
Rango 6,21 5,21 7,019 6,77
Mínimo 0,00 0,00 0,00 0,00
Máximo 6,21 5,21 7,019 6,77
Suma 3214,73 3146,55 3853,49 4802,25
115
Dólar observado es de 4,11 indica que una mitad del dólar observado fue
superior al antes dicho y la otra mitad fue inferior a ésta. Al desnormalizarla
queda en US$ 520,04.
La moda de las variables escogidas fueron las siguientes:
Cantidad de Reservas fue 3,69, indica que es la Cantidad de reservas que
más frecuentemente se hacen a diario. En su forma original su valor es de 40.
N° Pasajeros fue de 1,1: Muestra que frecuentemente esta era la Cantidad de
pasajeros que viajaría. Que es 3 en su forma original
Fecha de Reserva no es válido para esta variable, debido a que no hay días
repetidos.
Dólar Observado fue de US$ 3,57 indica que fue el promedio de transacciones
más habitual en el mercado cambiario formal. Donde su número original es
US$ 494,51.
La media aritmética fue la siguiente:
Cantidad de Reservas en promedio se realizaron 3,94 reservas de viajes
diarios.
N° Pasajeros en promedio fue de 4,72 pasajeros diarios.
Dólar observado en promedio fue de US$ 3,86 diario.
La Desviación Estándar para cada variable es la siguiente:
Cantidad de Reservas: 1,08 reservas. Significa que se desvían de 3,94, en
promedio, 1,08 unidades de la escala.
N° Pasajeros: 1,16 pasajeros. Quiere decir, que se desvían de 4,72, en
promedio, 1,16 pasajeros.
Dólar Observado: US$0,83. Indica, que se desvían de US$3,86, en promedio,
US$0,83.
116
Figura 29: Gráfico de Asimetría y Curtosis de variables Normalizadas. Fuente: “Elaboración propia”.
A diferencia con los valores no normalizados, se ve una notable diferencia en la
asimetría (Figura N°29).
En la asimetría se ve aquí que todas las variables tienen una concentración de
valores en el lado derecho de la curva y por ende tienen una asimetría negativa, que
es totalmente opuesto al de las variables no normalizadas, esto es debido que al
normalizar los valores se les está ajustando todos ellos con el fin de que estén en
una misma escala, lo que hace que los valores se desplacen en la curva. Esta
asimetría negativa significa que los valores están por sobre la media.
117
Con respecto a la curtosis, esta es muy parecida a los valores no normalizados, con
la salvedad que la Fecha de Reserva ahora también tiene una curtosis positiva.
El próximo paso fue el estudio de la relación lineal entre las variables, que al igual
que en la sección anterior, se hizo con el Diagrama de Dispersión y con el
Coeficiente de Determinación para ver si tenían o no este tipo de relación entre ellas.
Como se observa en el gráfico siguiente, se mantiene la única relación lineal que es
entre Cantidad de Reservas - N° Pasajeros que tiene además un R2 de 0,977, las
demás parejas de variables son todas independientemente lineales y se veran en el
Anexo 13: Diagramas de Dispersión.
Figura 30: Diagramas de Dispersión para variables Cantidad de Reservas-N° Pasajeros. Fuente: “Elaboración propia”.
El gráfico de la Figura N° 30, al igual que en el análisis de las variables sin
normalizar, se observa una correlación fuerte y positiva, donde se aprecian unos
pocos valores atípicos. Como se dijo antes, esta tendencia positiva se ve
claramente, ya que a mayor número de reservas más pasajeros viajan.
118
Finalmente, se realiza nuevamente la prueba de Correlación de Rho de Spearman, la
cual arroja los siguientes resultados:
Correlaciones
Cantidad
de
Reservas
Dólar
Observado
N°
Pasajeros
Fecha de
reserva
Rho de
Spearman
Cantidad de
Reservas
Coeficiente de
correlación
1,00 -0,33** 0,98
** 0,38
**
Significación
(bilateral)
0,00 0,00 0,00
N 816 816 816 816
Dólar
Observado
Coeficiente de
correlación
-0,33** 1,00 -0,28
** -0,89
**
Significación
(bilateral)
0,00 0,00 0,00
N 816 816 816 816
N° Pasajeros Coeficiente de
correlación
0,98** -0,28
** 1,00 0,33
**
Significación
(bilateral)
0,00 0,00 0,00
N 816 816 816 816
Fecha de
Reserva
Coeficiente de
correlación
0,38** -0,89
** 0,33
** 1,00
Significación
(bilateral)
0,00 0,00 0,00
N 816 816 816 816
** La correlación es significativa al nivel 0,01 (bilateral).
Tabla 6: Correlación de Rho de Spearman para variables normalizadas. Fuente: “Elaboración propia”.
Al revisar los resultados se observa claramente que los valores son exactamente los
mismos que con los valores no normalizados, por ende, se mantiene la misma
correlación entre ellos.
Todo esto demuestra que al normalizar las variables no se produjeron distorsiones
que afecten de forma grave a los resultados en la red, y por lo tanto, no hay
problemas en su uso en lugar de los datos con sus valores originales.
119
3.3 SELECCIÓN DE MUESTRA
De manera aleatoria se genera un vector de datos que contiene los valores
numéricos de 1 a 816, esto representa la posición de los datos según su fecha de
ingreso. El vector permitirá crear una matriz de datos donde los valores asociados a
la primera fila corresponderán al primer número aleatorio generado en el vector.
Luego de su creación la matriz se divide en tres subconjuntos, tres submatrices, para
las distintas etapas de creación de la red, es decir, una submatriz de entrenamiento
con 572 datos, una submatriz de validación con 122 datos, y una submatriz de
prueba que también contiene 122 datos.
La muestra que se crea es utilizada a lo largo del desarrollo como una base de
comparación entre los distintos modelos y configuraciones de redes neuronales que
se desarrolla en este estudio.
3.4 MODELOS
Los tres modelos que se utilizan para evaluar la capacidad de las redes neuronales
de proyectar, pronosticar, los valores de reserva de pasajeros o el número de viajes
se construyen a partir de los parámetros seleccionados, desde modelos de una
variable donde se vincula el valor del dólar con el resultado esperado, a modelos
multivariables donde se utilizan todos los parámetros seleccionados para obtener el
pronóstico deseado.
La construcción de los modelos se realiza utilizando las estructuras clásicas de
Perceptrón, Mapa Auto-Organizado de T. Kohonen y el modelo nacido a partir de
este, una red Crece Cuando se Requiere, los valores del número de neuronas y el
número de capas necesario en cada caso se ha determinado según la sugerencia del
120
autor de la red, y luego realizando la sintonía fina a través del método de ensayo
error.
Dada la heterogeneidad de los datos y para un mejor trabajo de los mismos,
previamente se normalizan de manera que las anormalidades estadísticas no
influyan en los resultados del trabajo.
3.5 NORMALIZACIÓN DE VARIABLES
Las variables seleccionadas, como se indicó anteriormente, fueron normalizadas con
el fin de evitar distorsiones en las medidas de distancias; para ello, se procesaron las
variables con la normalización logarítmica, que permite obtener mayores
resoluciones para los componentes del vector. Esta es una transformación no lineal,
y que tiene la siguiente forma:
(64)
donde , , este valor es buscado
en cada una de las columnas (variables) y se escoge el valor mínimo de cada una de
ellas. Luego este valor es utilizado en su correspondiente columna, y se le va
restando este valor a todos los valores de las filas. Un ejemplo, que puede graficar
esto, es el siguiente:
La Columna de Fecha de Reserva tiene el valor mínimo 733775, este valor será
utilizado en cada fila, para el caso de la fila 1, que corresponde al mismo valor
mínimo, la ecuación queda de la siguiente manera:
, para el caso de la fila 2 donde su valor original
es de 733778, el valor es el siguiente: y
así sucesivamente para toda la columna.
121
Como se señala, este proceso fue realizado en cada una de las columnas y fue
escogido en todas ellas la misma normalización logarítmica, para de esta manera,
mantener un mismo estándar en todas (ver Figura N°31).
Figura 31: Captura de Pantalla de variables Normalizadas. Fuente: “Elaboración propia”.
3.6 PRONÓSTICO
3.6.1 Regresión Lineal
Para este método se utilizan dos variables para la proyección de demanda: Cantidad
de Reservas y Número de Pasajeros (N° Pax). Esto es debido a que son las únicas
dos variables que tienen una fuerte correlación entre las variables escogidas para la
Tesis.
Como se sabe, estas variables se dividen en dependientes e independientes, para
este ejemplo la variable dependiente es la Cantidad de Reservas y la independiente
es el Número de Pasajeros.
Al igual que con el análisis de variables, el programa utilizado fue el “IBM SPSS
Statistics 19”, el cual permitió sacar la recta de regresión estimada ( ). A
122
continuación se verán los resultados obtenidos por la regresión lineal del programa
SPSS:
Resumen del modelo
Modelo R R cuadrado
R cuadrado
corregida
Error típico de
la estimación
1 0,97a 0,95 0,95 13,50
a. Variables predictoras: (Constante), N° Pax
Coeficientesa
Modelo
Coeficientes no estandarizados
Coeficientes
tipificados
t Sig. Beta Error típico Beta
1 (Constante) 3,79 0,73 5,18 0,00
N° Pasajeros 0,41 0,00 0,97 130,98 0,00
a. Variable dependiente: Cantidad de Reservas
Tabla 7: Pronóstico con Regresión Lineal. Fuente: “Elaboración propia”.
Como se ve en el recuadro anterior, las constantes son 3,794 y 0,419
respectivamente, con lo cual la recta de regresión estimada queda como sigue:
(65)
La interpretación de esta recta es la siguiente:
El valor , que mide la pendiente de la recta, indica que dentro del intervalo
muestral entre 1 a 1118 pasajeros por día, a medida que se incrementa, en un 1
pasajero, el incremento estimado de la Cantidad de Reservas es alrededor de 0,419
reservas.
El valor , es la intersección de la recta e indica el nivel promedio de la
Cantidad de Reservas cuando el número de pasajeros es cero. Este último caso no
es factible ya que para haber una reserva, a lo menos debe haber un pasajero.
123
Continuando con la interpretación de los resultados obtenidos, el valor de
significa que cerca del 95% de la variación en la Cantidad de Reservas diario está
explicado por el número de pasajeros, además, con este valor que es cercano a 1
(que es el valor máximo de ) nos indica que la recta de regresión muestral se
ajusta muy bien a los datos. El coeficiente de correlación de 0,977 indica que las dos
variables tienen una alta correlación positiva.
Una vez hecha la interpretación de los valores dados, se llevó a cabo la proyección
de la demanda con la ecuación antes dicha. A continuación se presentaran los
primeros 10 datos de entrada como modo de ejemplo de este método en la Tabla
N°8:
Cantidad de Reservas N° Pax
Cantidad de Reservas
9 17 10,909
13 32 17,187
26 63 30,162
21 46 23,047
34 79 36,858
38 94 43,137
28 94 43,137
35 109 49,415
26 69 32,673
46 124 55,693
Tabla 8: Proyección de Regresión Lineal. Fuente: “Elaboración propia”.
El análisis de estos resultados se muestra más adelante, con el fin de poder
comparar en su conjunto a todos los métodos utilizados, lo que permitirá percibir de
forma clara la calidad de cada uno de ellos, o sea, la precisión por medio de los
errores arrojados por los mismos. Por último, estos métodos serán contrastados con
la red propuesta en el trabajo con el fin de demostrar la mejor precisión de este
método con respecto a los tradicionales.
Para ver todos los resultados obtenidos por este método ver el Anexo 14: Métodos
Tradicionales.
124
3.6.2 Promedio Móvil
Para este método sólo se utiliza la variable “Cantidad de Reservas”.
Para la proyección de la demanda en el tiempo “ ” se hizo el promedio de las tres
demandas anteriores ( ).
Como en el método anterior se muestra la Tabla N°9 con los 10 primeros datos de
entrada pronosticados como ejemplo de esta técnica y, al igual que antes, su análisis
queda diferido para más adelante.
Para ver todos los resultados obtenidos por este método ver el Anexo 14: Métodos
Tradicionales.
Cantidad de Reservas
Promedio Móvil
9 13 26 16,00
21 20,00
34 27,00
38 31,00
28 33,33
35 33,67
26 29,67
46 35,67
36 36,00
58 46,67
Tabla 9: Promedio Móvil. Fuente: “Elaboración propia”.
3.6.3 Promedio Móvil Ponderado
En este caso, al igual que en el anterior, se toma como variable la “Cantidad de
Reservas”, empleándose el promedio de las tres demandas anteriores en los tiempos
para pronosticar la demanda en el tiempo “ ”. La diferencia se
125
encuentra en que las demandas anteriores fueron ponderadas con
, las cuales fueron las ponderaciones que entregaron el
menor error.
A continuación los primeros 10 datos de entrada pronosticados por el método (Tabla
N°10).
Cantidad Reservas
Promedio Móvil Ponderado
9 13 26 21,7
21 19,9
34 28
38 33,4
28 27,2
35 30,1
26 25,2
46 37,4
36 34,4
58 47,8
Tabla 10: Promedio Móvil Ponderado. Fuente: “Elaboración propia”.
Para ver todos los resultados obtenidos por este método ver el Anexo 14: Métodos
Tradicionales.
3.6.4 Suavizamiento Exponencial
Como se hizo en los promedios móviles la variable escogida fue solamente la
“Cantidad de Reservas”.
Para pronosticar se utilizó un α=0,1 el cual ponderó a la demanda del período
anterior y la diferencia de ponderó al pronóstico del período anterior.
126
A continuación se presentan los 10 datos de entrada pronosticados por esta técnica
(Tabla N°11).
Cantidad de Reservas
Suavizamiento Exponencial
9 13 9,00
26 9,40
21 11,06
34 12,05
38 14,24
28 16,62
35 17,76
26 19,48
46 20,13
36 22,72
Tabla 11: Suavizamiento Exponencial. Fuente: “Elaboración propia”.
Para ver todos los resultados obtenidos por este método ver el Anexo 14: Métodos
Tradicionales.
3.6.5 Red de Perceptrón Multicapa
Para la realización de esta red se trabaja con las cuatro variables, dividido en dos
grupos. El primer grupo es la variable de entrada, la cual está conformada por:
Fechas de Reserva, Número de Pasajeros y Dólar Observado. Y el segundo grupo la
variable objetivo, la cual está conformado únicamente por la variable Cantidad de
Reservas.
Además, para esta red se decide trabajar con tres tipos de problemas de series de
tiempo no lineales, y en cada una de estas se hacen diferentes configuraciones de
variables de entrada.
127
Los valores presentados en esta red corresponden a una parte de los 122 datos
usados para el testeo de la red. Los restantes 694 datos no son usados debido a que
fueron utilizados para la construcción de la red.
A. Auto-Regresivo No-Lineal con Entrada Externa (ANEE)60
Este predice serie dado los valores del pasado de y otras series .
Para una mejor comprensión de lo dicho anterior se expone la siguiente ecuación:
(66)
Para este tipo de problema se plantearon siete distintas configuraciones de variables
de entrada. A continuación se irá presentando cada una de estas.
1. Variable de Entrada Dólar
A continuación se presentan 10 datos de entrada pronosticados (Tabla N°12).
Demanda Real
Demanda Pronosticada
53 44,14
49 45,01
43 43,61
1 41,15
2 0,15
5 34,69
43 39,02
81 43,16
95 52,17
170 45,12
Tabla 12: Red de Perceptrón Multicapa Auto-regresivo no-lineal con entrada externa
con la variable de entrada Dólar. Fuente: “Elaboración propia”.
60
En inglés Nonlinear Autoregressive with External Inpunt (NARX).
128
2. Variables de entrada: Dólar y Fecha de Reserva.
A continuación se presentan 10 datos de entrada pronosticados (Tabla N°13).
Demanda real
Demanda Pronosticada
53 51,17
49 47,06
43 49,87
1 72,37
2 2,89
5 34,07
43 5,43
81 65,32
95 77,55
170 32,17
Tabla 13: Red de Perceptrón Multicapa Auto-regresivo no-lineal con entrada externa con las variables de entrada Dólar y Fecha de Reserva. Fuente: “Elaboración propia”.
3. Variables de entrada: Dólar y Número de Pasajeros.
A continuación se presentan 10 datos de entrada pronosticados (Tabla N°14).
Demanda Real
Demanda Pronosticada
53 47,69
49 49,74
43 50,46
1 55,66
2 1,53
5 28,45
43 10,71
81 44,51
95 50,62
170 46,01
Tabla 14: Red de Perceptrón Multicapa Auto-regresivo no-lineal con entrada externa con las variables de entrada Dólar y Número de Pasajeros. Fuente: “Elaboración propia”.
129
4. Variables de entradas: Dólar, Número de Pasajeros y Fecha de Reserva.
A continuación se presentan 10 datos de entrada pronosticados (Tabla N°15).
Demanda Real
Demanda Pronosticada
53 64,57
49 67,05
43 67,58
1 66,45
2 1,62
5 33,20
43 26,16
81 50,61
95 60,49
170 29,40
Tabla 15: Red de Perceptrón Multicapa Auto-regresivo no-lineal con entrada externa con las variables de entrada Dólar, Número de Pasajeros y Fecha de Reserva. Fuente: “Elaboración propia”.
5. Variable de Entrada: Fecha de Reserva.
A continuación se presentan10 datos de entrada pronosticados (Tabla N°16).
Demanda Real
Demanda Pronosticada
53 50,65
49 58,02
43 58,58
1 52,76
2 2,90
5 32,62
43 6,35
81 58,86
95 107,70
170 42,40
410 414,18
Tabla 16: Red de Perceptrón Multicapa Auto-regresivo no-lineal con entrada externa con
las variables de entrada Fecha de Reserva. Fuente: “Elaboración propia”.
130
6. Variable de entrada: Número de Pasajeros.
A continuación se presentan 10 datos de entrada pronosticados (Tabla N°17).
Demanda Real
Demanda Pronosticada
53 33,47
49 39,41
43 43,88
1 70,11
2 1,07
5 35,10
43 39,94
81 36,23
95 57,38
170 34,16
410 56,31
Tabla 17: Red de Perceptrón Multicapa Auto-regresivo no-lineal con entrada externa con las variables de entrada Número de Pasajeros. Fuente: “Elaboración propia”.
7. Variables de entrada: Número de Pasajeros y Fecha de Reserva.
A continuación se presentan 10 datos de entrada pronosticados (Tabla N°18).
Demanda Real
Demanda Pronosticada
53 35,15
49 44,73
43 52,31
1 77,54
2 1,44
5 11,14
43 4,51
81 70,29
95 65,41
170 31,77
Tabla 18: Red de Perceptrón Multicapa Auto-regresivo no-lineal con entrada externa con las variables de entrada Número de Pasajeros y Fecha de Reserva. Fuente: “Elaboración propia”.
131
En el Anexo 15: Perceptrón Final, se pueden observar los resultados completos de
esta configuración.
B. Auto-Regresivo No-Lineal (AN)61.
Predice la serie dado los valores del pasado de . La ecuación es la
siguiente:
(67)
Para este tipo de problema se planteo una sola configuración con la variable objetivo
como la unica entrada a la red. A continuación se presentan 10 datos de entrada
pronosticados (Tabla N°19).
Demanda real
Demanda Pronosticada
53 41,95
49 46,90
43 46,77
1 45,55
2 1,76
5 35,36
43 27,76
81 46,42
95 56,92
170 57,77
Tabla 19: Red de Perceptrón Multicapa Auto-regresivo no-lineal. Fuente: “Elaboración propia”.
En el Anexo 15: Perceptrón Final, se pueden observar los resultados completos de
esta configuración.
61
En inglés Nonlinear Autoregressive (NAR).
132
C. Entrada-Salida No-Lineal62 (ESN).
Predice la serie dado los valores del pasado de .
(68)
Al igual que para el primer tipo de problema expuesto con anterioridad, se plantean
siete distintas configuraciones de variables de entrada. A continuación se irá
presentando cada una de estas.
1. Variable de entrada: Dólar.
A continuación se presentan 10 datos de entrada pronosticados (Tabla N°20).
Demanda real
Demanda Pronosticada
39 54,01
50 54,10
49 54,01
43 54,01
1 11,33
14 54,01
5 34,88
40 44,31
57 54,06
95 54,74
Tabla 20: Red de Perceptrón Multicapa Entrada-Salida No-Lineal para la variable de entrada Dólar. Fuente:
“Elaboración propia”.
62
En inglés Nonlinear Input-Output (NIO).
133
2. Variables de entrada: Dólar y Fecha de Reserva.
A continuación se presentan 10 datos de entrada pronosticados (Tabla N°21).
Demanda Real
Demanda Pronosticada
39 41,30
50 42,55
49 43,32
43 39,42
1 31,72
14 53,15
5 37,05
40 41,13
57 52,69
95 51,85
Tabla 21: Red de Perceptrón Multicapa Entrada-Salida No-Lineal para la variable de entrada Dólar y Fecha de Reserva. Fuente: “Elaboración propia”.
3. Variables de entradas: Dólar y Número de Pasajeros.
A continuación se presentan 10 datos de entrada pronosticados (Tabla N°22).
Demanda Real
Demanda Pronosticada
39 40,48
50 48,17
49 45,77
43 26,17
1 0,78
14 13,42
5 4,68
40 38,08
57 63,94
95 93,99
Tabla 22: Red de Perceptrón Multicapa Entrada-Salida No-Lineal para la variable de entrada Dólar y Número de Pasajeros. Fuente: “Elaboración propia”.
134
4. Variables de entrada: Dólar, Número de Pasajeros y Fecha de Reserva.
A continuación se presentan 10 datos de entrada pronosticados (Tabla N°23).
Demanda Real
Demanda Pronosticada
39 42,69
50 49,80
49 46,46
43 26,50
1 1,01
14 14,52
5 4,52
40 40,22
57 62,85
95 102,11
Tabla 23: Red de Perceptrón Multicapa Entrada-Salida No-Lineal para la variable de entrada Dólar, Fecha de Reserva y Número de Pasajeros. Fuente: “Elaboración propia”.
5. Variable de entrada: Fecha de Reserva.
A continuación se presentan 10 datos de entrada pronosticados (Tabla N°24).
Demanda real
Demanda Pronosticada
39 31,03
50 25,21
49 24,85
43 21,58
1 25,03
14 29,02
5 30,04
40 39,85
57 73,97
95 75,05
Tabla 24: Red de Perceptrón Multicapa Entrada-Salida No-Lineal para la variable de entrada Fecha de Reservas. Fuente: “Elaboración propia”.
135
6. Variable de entrada: Número de Pasajeros.
A continuación se presentan 10 datos de entrada pronosticados (Tabla N°25).
Demanda real
Demanda Pronosticada
39 45,29
50 53,32
49 49,72
43 28,85
1 0,93
14 14,63
5 5,35
40 44,29
57 69,54
95 97,73
Tabla 25: Red de Perceptrón Multicapa Entrada-Salida No-Lineal para la variable de entrada Número de Pasajeros. Fuente: “Elaboración propia”.
7. Variables de entrada: Número de Pasajeros y Fecha de Reserva.
A continuación se presentan 10 datos de entrada pronosticados (Tabla N°26).
Demanda real
Demanda Pronosticada
39 41,53
50 49,85
49 46,20
43 25,42
1 0,90
14 11,82
5 4,98
40 41,35
57 62,32
95 92,66
Tabla 26: Red de Perceptrón Multicapa Entrada-Salida No-Lineal para la variable de entrada Número de Pasajeros y Fecha de Reservas. Fuente: “Elaboración propia”.
136
En el Anexo 15: Perceptrón Final, se pueden observar los resultados completos de
esta configuración.
3.6.6 Red Crece Cuando se Requiere
Para la realización de esta red, al igual que con la anterior, se dividido en dos grupos
las variables. El primer grupo es la variable de entrada, la cual está conformada por:
Fechas de Reserva, Número de pasajeros y Dólar Observado. Y el segundo grupo la
variable objetivo, la cual esta conformado únicamente por la variable Cantidad de
Reservas.
A diferencia con el Perceptrón Multicapa, la red Crece Cuando se Requiere sólo se le
configuró cuatro distintos conjuntos de variables de entrada, para la resolución del
problema. La variable objetivo, en cambio fue utilizada en otra parte de la
conformación de la red, como será explicado más adelante.
Otra diferencia y que le es propia a esta red, es que con cada resolución del
problema la red da distintas configuraciones en su arquitectura, lo que hace que cada
una de las configuraciones de variables que se muestran como resultado de distintas
cantidades de neuronas en la red.
Por último cabe decir que para la salida de esta red se utilizo un Perceptrón
Muticapa, esto porque la red Crece Cuando se Requiere solo brinda como salida
categorías, que se forman de los distintos patrones encontrados por la red, y por
ende, para sacar un valor especifico de estas categoría se le añadió a la red el
perceptrón multicapa. El cual fue hecho con dos de los tres tipos de problemas
explicado antes, los cuales fueron Entrada-Salida No-Lineal y Auto-Regresivo No-
Lineal con entrada externa. Es en esta parte de la red que la variable objetivo es
utilizada para la validación y obtención del resultado deseado.
A continuación se mostraran los resultados obtenidos por la red.
137
A. Crece Cuando se Requiere y Perceptrón Multicapa con Entrada-Salida No-
Lineal.
1. Variables de entrada: Fecha de Reserva, Dólar y Número de Pasajeros.
A continuación se presentaran las primeras 10 demandas pronosticadas por la
red (Tabla N°27).
Demanda Real
Demanda Pronosticada
39 40,89
50 49,00
49 46,25
43 26,82
1 0,85
14 13,37
5 4,92
40 41,10
57 63,76
95 94,65
Tabla 27: Red Crece Cuando Se Requiere y Perceptrón Multicapa con Entrada-Salida No-lineal para las variables de entrada: Fecha de Reserva, Dólar y Número de Pasajeros. Fuente: “Elaboración propia”.
2. Variables de Entrada: Fecha de Reserva y Dólar.
A continuación se mostraran los primeros 10 datos de entrada pronosticados
(Tabla N°28).
138
Demanda Real
Demanda Pronosticada
39 51,26
50 50,86
49 50,67
43 50,67
1 29,60
14 50,67
5 26,02
40 50,88
57 43,61
95 53,12
Tabla 28: Red Crece Cuando Se Requiere y Perceptrón Multicapa con Entrada-Salida No-lineal para las variables de entrada: Fecha de Reserva y Dólar. Fuente: “Elaboración propia”.
3. Variables de Entrada: Dólar y Número de Pasajeros.
A continuación se mostraran los primeros 10 datos de entrada pronosticados
(Tabla N°29).
Demanda Real
Demanda Pronosticada
39 41,85
50 49,42
49 46,48
43 30,24
1 0,67
14 13,38
5 4,54
40 41,63
57 64,42
95 92,10
Tabla 29: Red Crece Cuando Se Requiere y Perceptrón Multicapa con Entrada-Salida No-lineal para las variables de entrada: Dólar y Número de Pasajeros. Fuente: “Elaboración propia”.
139
4. Variables de Entrada: Fecha de Reserva y Número de pasajeros.
A continuación se mostraran los primeros 10 datos de entrada pronosticados
(Tabla N°30).
Demanda Real
Demanda Pronosticada
39 42,32
50 48,15
49 45,26
43 27,57
1 0,73
14 14,29
5 6,12
40 39,89
57 62,02
95 92,23
Tabla 30: Red Crece Cuando Se Requiere y Perceptrón Multicapa con Entrada-Salida No-lineal para las variables de entrada: Fecha de Reserva y Número de Pasajeros. Fuente: “Elaboración propia”.
En el Anexo 16: GWR Final, se pueden observar los resultados completos de esta
configuración.
B. Crece Cuando se Requiere y Perceptrón Multicapa con Auto-Regresivo No-
Lineal con entrada externa.
1. Variables de Entrada: Fecha de reserva, Dólar y Número de Pasajeros.
A continuación se mostraran los primeros 10 datos de entrada pronosticados
(Tabla N°31).
140
Demanda Real
Demanda Pronosticada
53 47,03
49 51,69
43 52,45
1 58,07
2 1,36
5 19,43
43 39,07
81 47,51
95 61,43
170 30,30
Tabla 31: Red Crece Cuando Se Requiere y Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para las variables de entrada: Fecha de Reserva, Dólar y Número de Pasajeros. Fuente:
“Elaboración propia”.
2. Variables de Entrada: Dólar y Número de Pasajeros.
A continuación se mostraran los primeros 10 datos de entrada pronosticados
(Tabla N°32).
Demanda Real
Demanda Pronosticada
53 40,27
49 43,14
43 43,65
1 46,27
2 3,89
5 32,69
43 23,54
81 50,44
95 42,86
170 47,72
Tabla 32: Red Crece Cuando Se Requiere y Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para las variables de entrada: Dólar y Número de Pasajeros. Fuente: “Elaboración
propia”.
141
3. Variables de Entrada: Fecha de Reserva y Dólar.
A continuación se mostraran los primeros 10 datos de entrada pronosticados
(Tabla N°33).
Demanda Real
Demanda Pronosticada
53 75,64
49 66,84
43 49,86
1 73,39
2 4,40
5 17,24
43 25,76
81 82,32
95 80,08
170 36,33
Tabla 33: Red Crece Cuando Se Requiere y Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para las variables de entrada: Fecha de Reserva y Dólar. Fuente: “Elaboración propia”.
4. Variables de Entrada: Fecha de Reserva y Número de Pasajeros.
A continuación se mostraran los primeros 10 datos de entrada pronosticados
(Tabla N°34).
Demanda Real
Demanda Pronosticada
53 49,90
49 55,18
43 58,36
1 95,05
2 1,30
5 16,55
43 3,24
81 59,29
95 62,87
170 29,86
Tabla 34: Red Crece Cuando Se Requiere y Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para las variables de entrada: Fecha de Reserva y Número de Pasajeros. Fuente:
“Elaboración propia”.
142
En el Anexo 16: GWR Final, se pueden observar los resultados completos de esta
configuración.
3.6.7 Mapas Auto-Organizados
Al igual que con las dos redes anteriores, las variables están divididas de la misma
forma y en los dos mismos grupos antes mencionados. También cabe destacar que
se realizo la misma cantidad de conjuntos de variables que se desarrollo en la red
Crece Cuando se Requiere, que era de cuatro combinaciones de variables.
Finalmente, decir que la red para su salida también utilizo un Perceptrón Muticapa,
ya que al igual que Crece Cuando se Requiere realizan categorías de los patrones
encontrados por los datos de entrada. Esta, al igual que en el caso anterior, utilizó los
tipos de problemas Entrada-Salida No-Lineal y Auto-Regresivo No-Lineal con entrada
externa.
A continuación se mostraran los resultados obtenidos por la red.
A. Mapa Auto-Organizado y Perceptrón Multicapa con Entrada-Salida No-
Lineal.
1. Variables de Entrada: Fecha de Reserva, Dólar y Número de Pasajeros.
A continuación se mostraran los primeros 10 datos de entrada pronosticados
(Tabla N°35).
143
Demanda Real
Demanda Pronosticada
39 39,16
50 46,80
49 43,54
43 26,33
1 0,78
14 13,99
5 4,90
40 41,32
57 61,65
95 94,74
Tabla 35: Mapa Auto-Organizado y Perceptrón Multicapa con Entrada-Salida No-Lineal para las variables de entrada: Fecha de Reserva, Dólar y Número de Pasajeros. Fuente: “Elaboración propia”.
2. Variables de Entrada: Fecha de Reserva y Dólar.
A continuación se mostraran los primeros 10 datos de entrada pronosticados
(Tabla N°36).
Demanda
Real
Demanda
Pronosticada
39 51,20
50 46,36
49 42,45
43 30,39
1 5,68
14 36,97
5 35,65
40 51,58
57 57,66
95 55,63
Tabla 36: Mapa Auto-Organizado y Perceptrón Multicapa con Entrada-Salida No-Lineal para las variables de entrada: Fecha de Reserva y Dólar. Fuente: “Elaboración propia”.
3. Variables de Entrada: Dólar y Número de Pasajeros.
A continuación se mostraran los primeros 10 datos de entrada pronosticados
(Tabla N°37).
144
Demanda Real
Demanda Pronosticada
39 41,27
50 50,53
49 46,89
43 25,49
1 0,98
14 14,20
5 4,97
40 40,01
57 62,53
95 94,90
Tabla 37: Mapa Auto-Organizado y Perceptrón Multicapa con Entrada-Salida No-Lineal para las variables de entrada: Dólar y Número de Pasajeros. Fuente: “Elaboración propia”.
4. Variables de Entrada: Fecha de Reserva y Número de pasajeros.
A continuación se mostraran los primeros 10 datos de entrada pronosticados
(Tabla N°38).
Demanda Real
Demanda Pronosticada
39 40,31
50 48,88
49 44,98
43 27,62
1 0,80
14 12,67
5 4,66
40 40,27
57 61,14
95 94,56
Tabla 38: Mapa Auto-Organizado y Perceptrón Multicapa con Entrada-Salida No-Lineal para las variables de entrada: Fecha de Reserva y Número de Pasajeros. Fuente: “Elaboración propia”.
En el Anexo 17: SOM Final, se pueden observar los resultados completos de esta
configuración.
145
B. Mapa Auto-Organizado y Perceptrón Multicapa con Auto-Regresivo No-
Lineal con entrada externa.
1. Variables de Entrada: Fecha de reserva, Dólar y Número de Pasajeros.
A continuación se mostraran los primeros 10 datos de entrada pronosticados
(Tabla N°39)
Demanda Real
Demanda Pronosticada
53 41,19
49 41,55
43 42,34
1 48,36
2 1,93
5 15,03
43 9,51
81 46,06
95 50,20
170 29,98
Tabla 39: Mapa Auto-Organizado y Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para las variables de entrada: Fecha de Reserva, Dólar y Número de Pasajeros. Fuente:
“Elaboración propia”.
2. Variables de Entrada: Dólar y Número de Pasajeros.
A continuación se mostraran los primeros 10 datos de entrada pronosticados
(Tabla N°40).
146
Cantidad de Reservas
Dólar, Pax
53 42,54
49 51,70
43 50,80
1 54,06
2 2,69
5 60,72
43 38,61
81 44,69
95 47,27
170 43,07
Tabla 40: Mapa Auto-Organizado y Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para las variables de entrada: Dólar y Número de Pasajeros. Fuente: “Elaboración propia”.
3. Variables de Entrada: Fecha de Reserva y Dólar.
A continuación se mostraran los primeros 10 datos de entrada pronosticados
(Tabla N°41).
Demanda Real
Demanda Pronosticada
53 43,77
49 42,00
43 41,91
1 41,80
2 1,63
5 57,22
43 41,87
81 41,80
95 41,94
170 41,61
Tabla 41: Mapa Auto-Organizado y Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para las variables de entrada: Fecha de Reserva y Dólar. Fuente: “Elaboración propia”.
147
4. Variables de Entrada: Fecha de Reserva y Número de Pasajeros.
A continuación se mostraran los primeros 10 datos de entrada pronosticados
(Tabla N°42).
Demanda Real
Demanda Pronosticada
53 57,45
49 50,87
43 54,52
1 60,30
2 1,25
5 20,47
43 6,95
81 54,48
95 43,92
170 22,50
Tabla 42: Mapa Auto-Organizado y Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para las variables de entrada: Fecha de Reserva y Número de Pasajeros. Fuente: “Elaboración
propia”.
En el Anexo 17: SOM Final, se pueden observar los resultados completos de esta
configuración.
3.7 ANÁLISIS DE RESULTADOS
Dado que las técnicas tradicionales se basan en la medición del error para realizar la
selección del mejor método de pronóstico, se realizará un análisis de similares
características para comparar los resultados de los metodos tradicionales con los
resultados obtenidos del modelo de red neuronal propuesto.
Los resultados de estos análisis se presentarán en una serie de tablas y gráficos en
los que se presentan los mejores resultados del conjunto de datos para cada
arquitectura de red utilizada.
El procedimiento para el cálculo del error es el siguiente:
148
1. Se restó la demanda proyectada con la real.
(69)
2. El error fue llevado a valor absoluto, .
3. Se sumó todos los errores arrojado por el modelo.
(70)
4. Se promedió el Error Total con la cantidad de entradas.
(71)
Donde x es el número total de pronósticos realizados en el método escogido.
5. Se sumó todas las demandas reales.
(72)
6. Se promedió la Demanda Total con la cantidad de entradas.
(73)
7. Se sacó el porcentaje de error de la proyección con respecto al promedio de la
demanda real.
(74)
3.7.1 Porcentaje de Errores de los Métodos Tradicionales
A continuación se presentan todos los errores de las técnicas habituales, donde la
Tabla N°43 que se exhibirá contendrá a las primeras 5 entradas, las últimas 5
entradas, el promedio del error y el porcentaje de error de cada método. En el Anexo
149
14: Métodos Tradicionales, se encuentran todos los errores arrojados por estas
técnicas.
Cantidad de reservas
Errores Absolutos
Promedio Móvil
Promedio Móvil
Ponderado
Suavizamiento Exponencial
Regresión Lineal
9 1,91
13 4,00 4,19
26 16,60 4,16
21 5,00 0,70 9,94 2,05
34 14,00 14,10 21,95 2,86
38 11,00 10,00 23,75 5,14
28 3,00 5,40 11,38 15,14
35 1,67 7,80 17,24 14,41
158 3,67 17,70 41,39 14,41
33 124,33 108,60 87,75 1,58
46 69,33 8,70 65,97 1,61
195 116,00 156,20 89,62 1,32
159 67,67 13,30 44,66 14,72
Promedio 76,90 49,01 43,06 40,59 7,66
Porcentaje de Error
63,74% 55,99% 52,78% 9,97%
Tabla 43: Porcentaje de error de las proyecciones con Métodos Tradicionales. Fuente: “Elaboración propia”.
Para analizar de mejor forma los resultados de la Tabla N°43, se usarán como
apoyos los gráficos de la Figura N°32 a la Figura N°35.
150
Figura 32: Gráficos de contraste la demanda real con la demanda proyectada por Promedio Móvil. Fuente: “Elaboración propia”.
Como se advierte en la Tabla N° 43 el porcentaje de error del método Promedio
Móvil es muy alto (de un 63,74%), esto debido a que esta técnica, como se menciona
anteriormente, es un promedio de los períodos anteriores, que en este caso son de
tres períodos para proyectar el cuarto, lo cual produce que se acoten los valores que
se puedan proyectar y, por ende, lo hace ser poco sensible e incapaz de proyectar
valores muy altos. Como se puede apreciar en la Figura N° 32 queda demostrado
que en los períodos donde hubo gran demanda, la técnica pronosticó valores muy
bajos, y que en los períodos donde la demanda no fue tan alta el método predijo con
una mayor exactitud.
Al igual que con el anterior método, el Promedio Móvil Ponderado produce un alto
porcentaje de error de 55,99% (ver Tabla N°43), este valor mejora con respecto al
método anterior, debido a que esta técnica le da ponderaciones a los períodos
anteriores, o sea, jerarquiza la importancia de ellos en la proyección, lo que hace que
tenga un porcentaje de error menor que el primero. Se puede apreciar en la Figura
N° 33 que los valores proyectados por esta técnicas siguen un patrón muy parecido
al real, con una diferencia entre ellas baja con respecto a la técnica antes aplicada, lo
que finalmente hace que se produzca una mejoría en lo pronosticado.
´
151
Figura 33: Gráficos de contraste la demanda real con la demanda proyectada por Promedio Móvil
Ponderado. Fuente: “Elaboración propia”.
Figura 34: Gráficos de contraste la demanda real con la demanda proyectada por Suavizamiento Exponencial. Fuente: “Elaboración propia”.
Esta técnica, como queda demostrado en la Tabla N° 43, tiene un alto porcentaje de
error (52,78%), lo cual hace que tenga poca exactitud al igual que las otras técnicas
antes señaladas; esto último también se debe a que ocupa muy pocos valores de
entrada, lo que produce que no sea capaz de predecir valores que sean muy altos o
bajos. Con respecto a lo que proyecta, se observa en la Figura N°34 que esta técnica
´
152
no se logra a justar a los patrones que sigue la demanda real, siendo en este caso la
que más falla por cada día proyectado.
Figura 35: Gráficos de contraste la demanda real con la demanda proyectada por Regresión Lineal. Fuente: “Elaboración propia”.
Finalmente se deja a la Regresión Lineal, ya que esta muestra tanto en el porcentaje
de error como en los días proyectados los mejores resultados entre los métodos
tradicionales. Primero, como se puede apreciar en la Tabla N° 43, el porcentaje de
error fue de 9,97%, un valor muy bajo comparado con las demás técnicas. Esto se
debe a que esta técnica, a diferencia de las demás, ocupa todas las entradas
disponibles, lo cual hace que pueda pronosticar valores que salen de lo normal
(atípicos). Esto se aprecia en la Figura N° 35, donde la demanda real casi no se ve
debido a la demanda proyectada, lo que demuestra su mayor precisión.
153
3.7.2 Porcentaje de Error de las Redes Seleccionadas
En las siguientes tablas se exponen los errores de las distintas redes seleccionadas, con sus diferentes variantes. Para
ello se muestran las primeras 5 entradas y últimas 5 entradas. Al igual que en el caso anterior se muestran también los
promedio de error y los porcentajes de error de cada una de las redes. En el Anexo 15: Perceptrón Final, Anexo 16: GWR
Final, Anexo 17: SOM Final, Anexo 18: Iteraciones y Anexo 19: Análisis de la primera muestra de redes se encuentran
todos los errores arrojados por estas herramientas.
I. Perceptrón Multicapa con Entrada-Salida No-Lineal.
Dda. Real Error Absoluto
Dólar Número
Pasajeros Fecha
(Dólar, Fecha)
(Fecha, N. Pasajeros)
(Dólar, N. Pasajeros)
(Dólar, N. Pasajeros, Fecha)
39 15,01 6,29 7,97 2,3 2,53 1,48 3,69
50 4,1 3,32 24,79 7,45 0,15 1,83 0,2
49 5,01 0,72 24,15 5,68 2,8 3,23 2,54
43 11,01 14,15 21,42 3,58 17,58 16,83 16,5
1 10,33 0,07 24,03 30,72 0,1 0,22 0,01
131 22,24 5,74 38,71 9,18 11,17 2,11 10,71
98 13,51 12,23 4,96 32,17 7,66 6,71 8,36
92 19,52 14,01 1,54 40,8 10,86 9,03 9,21
192 100,51 15,5 96,07 74,8 14,74 11,88 12,48
73 46,62 0,93 23,31 36,08 1,13 1,85 2,3
Promedio 67,4 26,2 5,24 31,59 22,11 4,99 4,99 5,05
Porcentaje de error 38,87% 7,77% 46,87% 32,80% 7,40% 7,40% 7,49% Tabla 44: Porcentaje de error de las proyecciones con Perceptrón Multicapa con entrada-salida no-lineal. Fuente: “Elaboración propia”.
154
A continuación se analiza el mejor caso de esta configuración de red, los demás
casos estarán en el Anexo 19.
Como se ve en Gráfico N°36, la curva de la demanda proyectada, junto a la curva de
demanda real son casi la misma y esto se ve reflejado en el porcentaje de error
calculado que fue de 7,40% (Tabla N°44), que es el mejor resultado obtenido en esta
configuración de la red. Esto se ve explicado por la presencia de la variable de
entrada Número de Pasajeros, (que ya ha sido explicado antes), y por la ayuda de la
variable Fecha de Reserva, que permite obtener un 0,37% menos de lo que se
proyecto con la variable Número de Pasajeros.
Figura 36: Gráfico Demanda Real V/S Perceptrón Multicapa con Entrada-Salida no-lineal, con variables de entrada Número de Pasajeros y Fecha de Reservas. Fuente: “Elaboración propia”.
La participación de las variables no lineales, junto a la variable lineal, permite mejorar
la precisión de la red, lo cual queda demostrado en este caso y en dos más. Cabe
mencionar que para obtener este resultado se hicieron 2311 iteraciones,
obteniéndose así los siguientes resultados en la Tabla N°45:
2311 Iteraciones
Coeficiente de Correlación
Porcentaje de Error
Promedio 0,99 0,08
Mínimo 0,97 0,07
Máximo 0,99 0,13
Tabla 45: Porcentaje de Error y Coeficiente de Correlación para Perceptrón Multicapa con Entrada-Salida No-Lineal para las variables: Número de Pasajeros y Fecha de Reserva. Fuente: “Elaboración propia”.
155
II. Perceptrón Multicapa con Auto-Regresivo No-Lineal
Error Absoluto
Dda. real Cantidad de Reservas
53 11,05
49 2,1
43 3,77
1 44,55
2 0,24
232 179,35
20 5,76
80 33,81
126 9,84
155 38,41
Promedio 73,35 33,59
Porcentaje de error 45,80%
Tabla 46: Porcentaje de error de las proyecciones con Perceptrón Multicapa con Auto-Regresivo No-Lineal. Fuente: “Elaboración propia”.
Con el fin de realizar un mejor análisis de los resultados de la Tabla N°46, se usará
como apoyo el gráfico de la Figura N°37.
Figura 37: Gráfico Demanda Real V/S Perceptrón Multicapa con Auto-Regresivo No-Lineal. Fuente: “Elaboración propia”.
156
A diferencia del caso anterior del Perceptrón Multicapa, acá se utiliza únicamente la
variable objetivo Cantidad de Reservas para hacer la proyección, como se indica en
el punto anterior de resultados. Como se aprecia en el Gráfico N°37 la curva de
proyección trata de asemejarse a la curva de la demanda real, pero esta no logra
tener la capacidad ni la suficiente sensibilidad para poder proyectar valores que se
escapen de su lógica, como son los valores muy altos. Esto provoca que genere un
porcentaje de error del 45,80% (Tabla N°46). Viendo los casos parecidos a este en
los métodos tradicionales que ocupan la misma variable Cantidad de Reservas para
proyectar, se ve que se mejora con creces los resultados obtenidos por ellos con una
diferencia a favor de un 6,98% menos de error frente a la mejor pronosticada, que
fue Suavizamiento Exponencial, con un 52,78% de error. De todas maneras, los
resultados obtenidos por ambos métodos son malos y poco recomendables para su
uso. Por último mencionar que para obtener este resultado se hicieron 2633
iteraciones, obteniéndose así los siguientes resultados que se presentan en la Tabla
N°47.
157
2633 Iteraciones
Coeficiente de Correlación
Porcentaje de Error
Promedio 0,50 0,50
Mínimo 0,16 0,45
Máximo 0,60 0,63
Tabla 47: Porcentaje de Error y Coeficiente de Correlación para Perceptrón Multicapa con Auto-Regresivo No-Lineal para la variable Objetivo Cantidad de Reservas. Fuente: “Elaboración propia”.
III. Perceptrón Multicapa Auto-Regresivo No-Lineal con Entrada Externa.
Dda. Real Error Absoluto
Dólar Número
Pasajeros Fecha
(Dólar, Fecha)
(Dólar, N. Pasajeros, Fecha)
(Fecha, N. Pasajeros)
(Dólar, N. Pasajeros)
53 8,86 19,53 2,35 1,83 11,57 17,85 5,31
49 3,99 9,59 9,02 1,94 18,05 4,27 0,74
43 0,61 0,88 15,58 6,87 24,58 9,31 7,46
1 40,15 69,11 51,76 71,37 65,45 76,54 54,66
2 1,85 0,93 0,9 0,89 0,38 0,56 0,47
101 21,72 24,64 7,7 2,81 9,1 8,2 7,53
102 0,89 1,03 40,05 0,04 3,58 1,18 4,53
20 50,89 56,67 50,57 47,72 58,8 68,75 59,82
149 13,15 14,47 13,42 5,25 20,22 5,4 19,04
63 4,78 9,78 9,49 0,41 3,94 4,94 14,4
Promedio 73,35 34,18 32,48 32,08 32,48 29,82 29,93 32,76
Porcentaje de error
46,59% 44,28% 43,74% 44,28% 40,66% 40,81% 44,67%
Tabla 48: Porcentaje de error de las proyecciones con Perceptrón Multicapa con Auto-Regresivo No-Lineal con entrada externa. Fuente: “Elaboración propia”.
158
Al igual que en el caso anterior, se analiza el mejor resultado de esta configuración, y
los demás análisis se encuentran en anexo correspondiente a la misma.
Al ver la Figura N° 38, se puede apreciar que los valores proyectados no coinciden
con los valores reales, este error puede ser provocado por el uso adicional de la
variable objetivo para el pronóstico de la demanda. Esto debido, como se vio antes, a
que el uso de las tres variables entrada producía un muy bajo porcentaje de error,
pero que al combinarla con la variable objetivo Cantidad de Reserva, en vez de
mejorar sus resultados los empeora, obteniéndose un 40,66% (Tabla N°48) en el
porcentaje de error. Este hecho se va a apreciar en los restantes casos para este tipo
de problema de Perceptrón Multicapa. Para concluir de forma definitiva se espera a
ver los resultados de los demás casos y de las demás muestras, que se verán al
finalizar este capitulo. Para terminar con este caso, cabe mencionar que para obtener
este resultado se hicieron 1384 iteraciones, obteniéndose así los siguientes
resultados que se exponen en la Tabla N°49:
1384 Iteraciones
Coeficiente de Correlación
Porcentaje de Error
Promedio 0,52 0,49
Mínimo 0,30 0,40
Máximo 0,63 0,63
Tabla 49: Porcentaje de Error y Coeficiente de Correlación para Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para las variables: Dólar, Número de Pasajeros y Fecha de Reserva.
Fuente: “Elaboración propia”.
159
Figura 38: Gráfico Demanda Real V/S Perceptrón Multicapa con Auto-Regresivo No-Lineal con entrada externa, con variables de entrada Dólar, Fecha de Reservas y Número de Pasajeros. Fuente: “Elaboración
propia”.
IV. Red Crece Cuando se Requiere y Perceptrón Multicapa con Entrada-Salida
No-Lineal
Dda. Real Error Absoluto
(Dólar, Fecha)
(Fecha, N. Pasajeros)
(Dólar, N. Pasajeros)
(Dólar, N. Pasajeros, Fecha)
39 12,26 3,32 2,85 1,89
50 0,86 1,85 0,58 1
49 1,67 3,74 2,52 2,75
43 7,67 15,43 12,76 16,18
1 28,6 0,27 0,33 0,15
131 37,09 7,12 1,51 7,96
98 12,03 5,23 3,77 6,91
92 27,92 12,89 13,81 10,49
192 105,58 22,86 20,79 23,12
73 36,99 0,57 1,19 0,89
Promedio 67,4 23,83 4,98 4,79 4,95
Porcentaje de error
35,36% 7,40% 7,11% 7,35%
Tabla 50: Porcentaje de error de las proyecciones con Crece Cuando se Requiere y Perceptrón Multicapa con Entrada-Salida No-Lineal. Fuente: “Elaboración propia”.
160
A continuación se revisa el mejor resultado obtenido por esta red, los demás
resultados son vistos en el Anexo 19.
Figura 39: Gráfico Demanda Real V/S Crece Cuando se Requiere y Perceptrón Multicapa con Entrada-Salida No-Lineal, con variables de entrada Dólar Observado y Número de Pasajeros. Fuente: “Elaboración
propia”.
En la Tabla N°50 se aprecia que el valor del porcentaje de error es de 7,11%, lo que
queda reflejado en la Figura N°39, donde se aprecia como la red tiene la habilidad de
proyectar los valores deseados con muy poco error con respecto a los valores dados
por la demanda real, generando así una curva de proyección similar (casi igual) a la
curva de demanda real. Con respecto a los métodos tradicionales, este caso supera
sin problemas al mejor resultado dado por alguno de ellos, teniendo una diferencia
de un 2,86% menos que la técnica tradicional. Por último, cabe destacar que para
obtener este resultado se hicieron 1219 iteraciones, obteniéndose así los siguientes
resultados que se presentan en la Tabla N°51:
1219 Iteraciones
Coeficiente de Correlación
Porcentaje de Error
Promedio 0,99 0,16
Mínimo 0,45 0,07
Máximo 0,99 100,38
Tabla 51: Porcentaje de Error y Coeficiente de Correlación para Crece Cuando se Requiere con Perceptrón Multicapa con Entrada-Salida No-Lineal para la variable: Número de Pasajeros y Dólar. Fuente:
“Elaboración propia”.
161
V. Red Crece Cuando se Requiere y Perceptrón Multicapa con Auto-Regresivo
No-Lineal con Entrada Externa.
Dda. Real Error Absoluto
(Dólar, Fecha)
(Fecha, N. Pasajeros)
(Dólar, N. Pasajeros)
(Dólar, N. Pasajeros, Fecha)
53 22,64 3,1 12,73 5,97
49 17,84 6,18 5,86 2,69
43 6,86 15,36 0,65 9,45
1 72,39 94,05 45,27 57,07
2 2,4 0,7 1,89 0,64
101 5,05 2,39 20,03 4,93
102 93,71 7,46 6,15 8,33
20 56,24 64,32 65,47 70,35
149 22,3 6,49 25,57 13,37
63 9,13 9,36 6,38 1,25
Promedio 73,35 32,1 30,32 31,75 29,92
Porcentaje de error
43,76% 41,34% 43,28% 40,79%
Tabla 52: Porcentaje de error de las proyecciones con Crece Cuando se Requiere y Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa. Fuente: “Elaboración propia”.
Como en los demás casos se analizan la configuración que obtuvo los mejores
resultados, las restantes configuraciones se ven en el Anexo 19.
162
Figura 40: Gráfico Demanda Real V/S Crece Cuando se Requiere y Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa, con variables de entrada Dólar Observado, Número de
Pasajeros y Fecha de Reservas. Fuente: “Elaboración propia”.
En la Tabla N°52 se aprecia que el porcentaje de error arrojado por la red es de
40,79%, este valor demuestra la baja capacidad que tiene la red para predecir el
comportamiento que tendrá la demanda real, produciendo por ende, valores de
errores altos, esta poca asertividad de la red es percibida en la Figura N°40, donde
se observa como la red no es capaz de proyectar correctamente la demanda, con lo
cual se obtiene una curva de proyección muy distinta y nada sincronizada con la de
demanda real. Este mal resultado es provocado por la participación de la variable
objetivo, ya que como se ha visto y dicho antes, la participación de esta variable ha
provocado que la proyección por parte de la red sea bastante mala. Finalmente, cabe
destacar que para obtener este resultado se hicieron 2349 iteraciones, obteniéndose
así los siguientes resultados se muestran en la Tabla N°53:
163
2349 Iteraciones
Coeficiente de Correlación
Porcentaje de Error
Promedio 0,52 0,50
Mínimo 0,14 0,40
Máximo 0,63 29,68
Tabla 53: Porcentaje de Error y Coeficiente de Correlación para Crece Cuando se Requiere con Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para las variables: Número de
Pasajeros, Dólar y Fecha de Reserva. Fuente: “Elaboración propia”.
VI. Mapa Auto-Organizado y Perceptrón Multicapa con Entrada-Salida No-
Lineal
Dda. Real Error Absoluto
(Dólar, Fecha)
(Fecha, N. Pasajeros)
(Dólar, N. Pasajeros)
(Dólar, N. Pasajeros, Fecha)
53 12,2 1,31 2,27 0,16
49 3,64 1,12 0,53 3,2
43 6,55 4,02 2,11 5,46
1 12,61 15,38 17,51 16,67
2 4,68 0,2 0,02 0,22
101 16,46 3,24 0,42 2,21
102 21,56 4,08 10,21 1,2
20 27,58 9,35 10,17 7,69
149 61,33 23,71 22,04 12
63 39,28 7,86 1,28 4,54
Promedio 73,35 23,79 5,11 5,02 4,98
Porcentaje de error
35,30% 7,59% 7,44% 7,40%
Tabla 54: Porcentaje de error de las proyecciones con Mapa Auto-Organizado y Perceptrón Multicapa con Entrada-Salida No-Lineal. Fuente: “Elaboración propia”.
164
A continuación se analiza la configuración con el mejor resultado obtenido para esta
red, los demás casos se ven en el Anexo 19.
Figura 41: Gráfico Demanda Real V/S Mapa Auto-Organizado y Perceptrón Multicapa con Entrada-Salida No-Lineal, con variables de entrada Dólar Observado, Número de Pasajeros y Fecha de Reservas. Fuente:
“Elaboración propia”.
Como se aprecia en la Figura N°41, los valores proyectados por la red se asemejan
mucho a los valores de la demanda real, obteniéndose así un porcentaje de error del
7,40% (Tabla N°54) , esto demuestra que la red tiene una buena precisión a la hora
de proyectar. Al igual que las demás redes, esta supera con crece a los métodos
tradicionales, consiguiendo un porcentaje de error menor al de ellos, por ejemplo con
respecto a la regresion lineal esta es menor en un 2,57%. Finalmente, cabe
mencionar que para obtener este resultado se hicieron 1487 iteraciones,
obteniéndose así los siguientes resultados se presentan en la Tabla N°55:
1487 Iteraciones
Coeficiente de Correlación
Porcentaje de Error
Promedio 0,99 0,08
Mínimo 0,94 0,07
Máximo 0,99 0,12
Tabla 55: Porcentaje de Error y Coeficiente de Correlación para Mapa Auto-Organizados con Perceptrón Multicapa con Entrada-Salida No-Lineal para las variables: Número de Pasajeros, Dólar y Fecha de
Reserva. Fuente: “Elaboración propia”.
165
VII. Mapa Auto-Organizado y Perceptrón Multicapa con Auto-Regresivo No-
Lineal con Entrada Externa.
Dda. Real Error Absoluto
(Dólar, Fecha)
(Fecha, N. Pasajeros)
(Dólar, N. Pasajeros)
(Dólar, N. Pasajeros, Fecha)
53 9,23 4,45 12,73 10,46
49 7 1,87 5,86 2,7
43 1,09 11,52 0,65 7,8
1 40,8 59,3 45,27 53,06
2 0,37 0,75 1,89 0,69
101 13,42 31,81 20,03 9,49
102 35,5 39,79 6,15 3,34
20 50,53 60,57 65,47 63,08
149 19,9 14,95 25,57 22,1
63 3,17 11,78 6,38 2,08
Promedio 73,35 32,46 30,54 31,75 32,31
Porcentaje de error
44,25% 41,64% 43,28% 44,05%
Tabla 56: Porcentaje de error de las proyecciones con Mapa Auto-Organizado y Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa. Fuente: “Elaboración propia”.
A continuación se analiza el caso que obtuvo los mejores resultados dentro de este
tipo de red, los demás casos se analizan en el Anexo 19.
166
Figura 42: Gráfico Demanda Real V/S Mapa Auto-Organizado y Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa, con variables de entrada Número de Pasajeros y Fecha de Reservas.
Fuente: “Elaboración propia”.
En este último caso de Mapas Auto-Organizados, se observa en la Figura N°42 la
poca capacidad que tiene la red para pronosticar los valores deseados, ya que no es
capaz de producir los mismos valores o semejantes que los observados de la
demanda real, produciendo así que la curva proyectada no vaya a la par con la curva
de demanda real, y además al observar el Gráfico se nota la nula capacidad de la red
de pronosticar los valores atipicos (excepto en un caso). Todo esto traer consigo que
la red produzca errores elevados, y que por lo tanto, se genere un porcentaje de
error de la red de un 41,64% (Tabla N°56). Este problema de mala proyección, como
se dijo en todo este segmento, es debido a la participación de la variable objetivo
para la obtención de los resultados, donde en ningún caso en el cual participó arrojó
valores que fueran los deseados. Finalmente, cabe mencionar que para obtener este
resultado se hicieron 1324 iteraciones, obteniéndose así los siguientes resultados se
muestran en la Tabla N°57:
167
1324 Iteraciones
Coeficiente de Correlación
Porcentaje de Error
Promedio 0,52 0,58
Mínimo -0,07 0,41
Máximo 0,66 188,06
Tabla 57: Porcentaje de Error y Coeficiente de Correlación para Mapa Auto-Organizados con Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para las variables: Número de Pasajeros y
Fecha de Reserva. Fuente: “Elaboración propia”.
Después de haber visto y analizado cada una de las distintas configuraciones de
redes (las cuales usaron la misma muestra de datos), se verá cual fue la red que
obtuvo los mejores resultados. Para ello, se presentará la Tabla N°58 la cual tiene los
porcentajes de error obtenidos por las redes con una configuración de tipo de
problema Entrada-Salida No-Lineal (ESN) y la Tabla N°59 con los porcentajes de
error para el tipo de problema Auto-Regresivo No-Lineal con Entrada Externa (ANEE)
(Anexo 20: Comparación).
ESN63
Porcentaje de Error
Redes64
Fecha,
Dólar, N.
Pasajeros
Fecha,
Dólar
Dólar, N.
Pasajeros
Fecha, N.
Pasajeros
Fecha Número
Pasajeros
Dólar
Crece
Cuando se
Requiere
7,35% 35,36% 7,11% 7,40%
Mapa Auto-
Organizado
7,40% 35,30% 7,44% 7,59%
Perceptrón
Multicapa
7,49% 32,80% 7,40% 7,40% 46,87% 7,77% 38,87%
Mínimo 7,35% 32,80% 7,11% 7,40% 46,87% 7,77% 38,87%
Ganador CCR PM CCR CCR PM PM PM
Tabla 58: Resumen de los Porcentaje de Error de las Redes Neuronales con el tipo de problema Entrada-Salida No-Lineal (ESN) para la primera muestra utilizada. Fuente: “Elaboración propia”.
63
Tipos de Problemas: Entrada-Salida No-Lineal (ESN). 64
Crece Cuando se Requiere (CCR), Perceptrón Multicapa (PM), Mapa Auto-Organizado (MAO), Pasajeros (PAX).
168
ANEE65
Porcentaje de Error
Redes66
Fecha,
Dólar, N.
Pasajeros
Fecha,
Dólar
Dólar, N.
Pasajeros
Fecha, N.
Pasajeros
Fecha Número
Pasajeros
Dólar
Crece
Cuando se
Requiere
40,79% 43,76% 43,28% 41,34%
Mapa Auto-
Organizado
42,88% 44,25% 44,05% 41,64%
Perceptrón
Multicapa
40,66% 44,28% 44,67% 40,81% 43,74% 44,28% 46,59%
Mínimo 40,66% 43,76% 43,28% 40,81% 43,74% 44,28% 46,59%
Ganador PM CCR CCR PM PM PM PM
Tabla 59: Resumen de los Porcentaje de Error de las Redes Neuronales con el tipo de problema Auto-Regresivo No-Lineal con Entrada Externa (ANEE) para la primera muestra utilizada. Fuente: “Elaboración
propia”.
Como se puede apreciar en las tablas, la red Crece Cuando se Requiere obtuvo
cinco triunfos de las ocho categorías (las distintas configuraciones de variables de
entrada), donde competía junto al Mapa Auto-Organizado y Perceptrón Multicapa. Se
destaca en estos resultados el porcentaje de error de 7,11%, siendo el más bajo
encontrado en todas las configuraciones de redes, y el cual supera por un buen
margen al mejor resultado obtenido por un método tradicional. También al ver la
Tabla N°58 en la configuración Fecha de Reserva-Número de Pasajeros, se podría
pensar que la Crece Cuando se Requiere (CCR) y el Perceptrón Multicapa dan un
mismo porcentaje de error, pero esta realmente tiene una diferencia a favor a la CCR
de 0,00165% (el cual no se aprecia en la tabla por el número de decimales
mostrados). También se aprecia la gran diferencia de porcentajes de error descrita
con anterioridad en los caso a caso, producido por las redes configuradas con el
Perceptrón Multicapa con Entrada-Salida No-Lineal (ESN) y las redes configuradas
con el Perceptrón Multicapa Auto-Regresivo No-Lineal con Entrada Externa (ANEE).
65
Tipos de Problemas: Auto-Regresivo No-Lineal con Entrada 66
Crece Cuando se Requiere (CCR), Perceptrón Multicapa (PM), Mapa Auto-Organizado (MAO), Pasajeros (PAX).
169
Otro punto que se aprecia y que fue mencionado en algunos de los ejemplos que se
analizaron con anterioridad, es que la participación de la variable entrada linealmente
dependiente (Número de Pasajeros), junto con las variables de entrada linealmente
independientes (Dólar Observado y Fecha de Reserva), permite mejorar los
resultados que se obtuvieron cuando sólo participaba Número de Pasajeros como
variable de entrada, mostrando así que la libertad de esta herramienta en el uso de
variables, permite que el uso de las variables linealmente independiente sea
indispensable para la mejora y modelamiento de los problemas.
3.8 MÚLTIPLES MUESTRAS
Finalmente, para demostrar que lo expuesto con anterioridad no es sólo una
ocurrencia particular, se generarán muestras adicionales con las que se alimentarán
los modelos y configuraciones de redes neuronales.
Para determinar el número de muestras que se debe generar se utilizará la ecuación
del tamaño de una muestra normal:
(75)
donde es el total de población (que para este caso son ), es (cuando
la seguridad es de ), es la proporción esperada (que para este caso se utilizo
, o sea, ), es (que para este caso es ) y por último
que es la precisión (que para este caso se utilizo un ).
Con lo cual se consigue lo siguiente:
(76)
170
De la ecuación anterior se puede concluir que un tamaño de 163 muestras es
apropiado para satisfacer el nivel de confianza solicitado.
Se utiliza el software Matlab para conseguir de forma aleatoria las distintas
combinaciones de datos a utilizar para las instancias de entrenamiento, validación y
testeo de la red; en la cual, de la población total de datos (816 datos), el 70% de
ellos, o sea, 572 datos son utilizados para el entrenamiento de la red, el 15% (122
datos) son utilizados para la validación y el otro 15% es utilizado en el testeo de la
red.
A continuación, en las Tablas N°60, N°61, N°62 y N°63 se presenta el resumen final
de resultados para las 163 muestras mencionadas recientemente, en la cual se
aprecian los Porcentajes de Error Mínimos obtenidos por las redes en todas sus
muestras y el promedio del porcentaje de error obtenido al promediar todos los
mínimos conseguidos en las muestras; todo es para las distintas configuraciones de
tipo de error, o sea, para Entrada-Salida No-Lineal (ESN) y para Auto-Regresivo No-
Lineal con Entrada Externa (ANEE). Para ver los resultados completos de estas 163
muestras ver el Anexo 21: Resultados Finales 163 Muestras y Anexos 22:
Resultados Mínimos Desglosados 163 Muestras.
ESN67
Porcentaje de Error (Mínimos)
Mínimo en las redes
68
Fecha, Dólar, Pasajeros
Dólar, Pasajeros
Fecha, Pasajeros
Dólar, Fecha
Fecha Dólar Pasajeros
CCR 6,45% 6,36% 6,45% 32,98%
MAO 6,43% 6,18% 6,42% 36,76%
PM 6,52% 6,25% 6,45% 33,98% 45,73% 37,16% 6,60%
Mínimo 6,43% 6,18% 6,42% 32,98% 45,73% 37,16% 6,60%
Ganador MAO MAO MAO CCR PM PM PM
Tabla 60: Resumen de los resultados finales de Porcentaje de Error de las Redes Neuronales para las 163 muestras. Mejor Mínimo para tipo de problema Entrada-Salida No-Lineal (ESN). Fuente: “Elaboración
propia”.
67
Tipo de Problema: Entrada-Salida No-Lineal (ESN). 68
Crece Cuando se Requiere (CCR), Perceptrón Multicapa (PM), Mapa Auto-Organizado (MAO).
171
ESN68
Porcentaje de Error (Promedios)
Promedio en las
redes69
Fecha, Dólar, Pasajeros
Dólar, Pasajeros
Fecha, Pasajeros
Dólar, Fecha
Fecha Dólar Pasajeros
CCR 8,47% 8,62% 8,43% 46,32%
MAO 8,33% 8,56% 8,11% 47,57%
PM 8,34% 8,53% 8,23% 48,47% 52,79% 48,72% 8,77%
Mínimo 8,33% 8,53% 8,11% 46,32% 52,79% 48,72% 8,77%
Ganador MAO PM MAO CCR PM PM PM
Tabla 61: Resumen de los resultados finales de Porcentaje de Error de las Redes Neuronales para las 163 muestras. Mejor Promedio para tipo de problema Entrada-Salida No-Lineal (ESN). Fuente: “Elaboración
propia”.
ANEE69
Porcentaje de Error (Mínimos)
Mínimo en las
redes70
Fecha, Dólar, Pasajeros
Dólar, Pasajeros
Fecha, Pasajeros
Dólar, Fecha
Fecha Dólar Pasajeros
CCR 35,99% 37,53% 34,68% 33,17%
MAO 34,84% 36,96% 34,31% 37,49%
PM 35,27% 34,21% 31,93% 33,43% 35,22% 36,25% 35,02%
Mínimo 34,84% 34,21% 31,93% 33,17% 35,22% 36,25% 35,02%
Ganador MAO PM PM CCR PM PM PM
Tabla 62: Resumen de los resultados finales de Porcentaje de Error de las Redes Neuronales para las 163
muestras. Mejor Mínimo para tipo de problema Auto-Regresivo No-Lineal con Entrada Externa (ANEE). Fuente: “Elaboración propia”.
69
Tipo de Problema: Entrada-Salida No-Lineal (ESN), Auto-Regresivo No-Lineal con Entrada Externa (ANEE). 70
Crece Cuando se Requiere (CCR), Perceptrón Multicapa (PM), Mapa Auto-Organizado (MAO).
172
ANEE71
Porcentaje de Error
Promedio de las redes
72
Fecha, Dólar, Pasajero
Dólar, Pasajero
Fecha, Pasajero
Dólar, Fecha
Fecha Dólar Pasajeros
CCR 45,63% 46,66% 45,08% 44,97%
MAO 45,10% 45,56% 43,97% 46,01%
PM 44,47% 44,91% 43,93% 45,06% 44,23% 45,48% 45,34%
Mínimo 44,47% 44,91% 43,93% 44,97% 44,23% 45,48% 45,34%
Ganador PM PM PM CCR PM PM PM
Tabla 63: Resumen de los resultados finales de Porcentaje de Error de las Redes Neuronales para las 163 muestras. Mejor promedio para tipo de problema Auto-Regresivo No-Lineal con Entrada Externa. Fuente:
“Elaboración propia”.
Como se aprecia en las tablas, los resultados muestran la tendencia antes vista en la
primera muestra, donde las redes que están configuradas con el Perceptrón
Multicapa con Auto-Regresivo No-Lineal con Entrada Externa dan resultado de mala
calidad, lo que demuestra que no son capaces de seguir las variaciones de la
demanda real, de todas formas tanto los resultados obtenidos en los mínimos como
en los promedios son mejores que los encontrados por los métodos tradicionales
(con excepción de Regresión Lineal). Siguiendo con el mismo punto, pero con las
configuraciones de red que tienen al Perceptrón Multicapa con Entrada-Salida No-
Lineal, la tendencia a obtener resultados de alta calidad, y por ende, de alta
precisión, consiguiendose además valores mejores que los que se obtuvieron con la
primera muestra, donde, por ejemplo el mejor valor mínimo fue de 6,11%, o sea, un
3,86% menor que la Regresión Lineal. Esto demuestra las capacidades que tienen la
redes en aprender sobre el problema y poder, por ende, dar resultados más exactos
y parecidos a los que se desean.
Con respecto a que red fue mejor, después de ver los resultados de las 163
muestras, Crece Cuando se Requiere (CCR) ganó en total (Mínimo + promedio)
cuatro veces, Mapa Auto-Organizados ganó en total seis veces y Perceptrón
Multicapa gana seis veces también. Esto muestra una diferencia con respecto a la
71
Tipo de Problema: Auto-Regresivo No-Lineal con Entrada Externa (ANEE). 72
Crece Cuando se Requiere (CCR), Perceptrón Multicapa (PM), Mapa Auto-Organizado (MAO).
173
primera muestra donde ganó Crece Cuando se Requiere, de todas formas sea quien
gane entre estas redes las diferencias son mínimas de menos de 0,2% entre sus
mínimos, lo cual demuestra lo competitivo que están entre ellas y la muy buena
representación que ellas logran de su entorno superando por amplio margen a los
métodos tradicionales.
De todas formas aún cuando Crece Cuando se Requiere no haya ganado en la
segunda fase de la demostración de precisión de las redes, esta es una red que
permite tener mejores rendimientos en aspectos donde Perceptrón Multicapa y Mapa
Auto-Organizado (MAO) no son capaces de hacerlo, esto es que con respecto a la
primera, esta no es capaz de generar en su Arquitectutra categorías en base a los
parámetros dados que permitan obtener más información y una mejor interpretación
del comportamiento del medio ambiente (problema que se busca solucionar), y con
respecto a Mapa Auto-Organizado donde ambas son parecidas, ya que en esta
última su arquitectura, aún cuando es dinamica, no es capaz de crear o destruir
borde y neuronas, lo que hace que sea menos eficiente y que al ver la arquitectura
de la red se encuentren neuronas sin participación (sin categorías) y que puedan
producir error al ser interpretadas por el usuario. Es por esto que no solamente se
tomará el resultado arrojado por la red sino que también las caracteristicas propias
de ella para su eleccíon. Debido a esto que se elije Crece Cuando se Requiere
(CCR), aún cuando no haya ganado en la mayoria de los casos, donde la diferencia
con las demás redes, como ya se dijo, es de 0,2%.
Finalmente para este caso, las tres redes confirmaron de manera concluyente lo
expuesto al principio de este trabajo, existen herramientas superiores a los métodos
clásicos, con una asertividad mucho mayor a las antes expuestas, y por
consiguiente, un menor grado de error, que se puede traducir para una empresa por
ejemplo en una baja de sus costos.
174
CAPÍTULO IV
CONCLUSIONES
4.1 CONCLUSIONES
Al finalizar esta Tesis, se puede apreciar la existencia de distintos factores a tener en
consideración en la elección y elaboración de la red, observándose también mayor
precisión de este método con respecto a los métodos tradicionales, entre otras
cosas.
Uno de los primeros problemas en el trabajo con redes neuronales es la elección de
ésta, ya que existe una gran variedad, es por ello que al trabajar con este método se
hace importante conocer cada una de ellas, y saber así para donde va enfocada
cada red y que tipos de problemas resuelven; esto último, debido a que una mala
elección de red puede llevar a una mala resolución del problema. Por lo anterior, es
que se debe tener amplios conocimientos de redes neuronales, para lo cual es
necesario contar con una gran cantidad de información y estudios. Al respecto, y
dado que en Chile no existe una amplia gama de información, contenida en análisis,
investigaciones, articulos, libros, entre otras, es necesario obtener antecedentes de
fuentes extranjeras, a traves de medios digitales, o la adquisición de textos en el
extranjero o en tiendas especializadas.
Después de la elección de la red, el siguiente punto es el modelamiento de la misma,
para lo que se debe estar al tanto de cuáles son las variables que están afectando al
problema. Esto es similar a lo que se hace en regresión lineal (la elección de
variables), pero difiere en que las variables utilizables en la regresión lineal deben
tener relación lineal entre la variable dependiente e independiente, mientras que la
red no se acota a este hecho, lo que permite tener una mayor flexibilidad y
posibilidad de uso de variables. Esta libertad de uso de variables permite al usuario
de la red tener menos restricción, pero una mayor dificultad en encontrar la forma de
resolver el problema, ya que con una mayor cantidad de variables, es más difícil
175
resolver la red (que converja), lo que se traduce en una gran desventaja al
compararlo con los métodos tradicionales, que son más mecánicos en su
implementación. Esta dificultad, por lo tanto, hace que las personas inexpertas en
este tema vean a las redes neuronales con resquemor, lo que finalmente repercute
en el poco uso y conocimiento de ellas, como sucede en el caso de Chile, donde son
pocas las personas que las conocen y donde no se tiene tanta bibliografía como se
quisiera.
Otro problema relacionado con el modelamiento tiene que ver en como son
presentadas la variables en la red. En el caso de los métodos tradicionales, las
variables son introducidas en su forma original y, a lo más, se les cambia la unidad a
otra más apropiada, pero en el caso de las redes neuronales, como el caso de esta
Tesis, las variables deben ser normalizadas antes de introducirlas, dado que al tener
valores distintos, por ejemplo variables que están en los cientos y otras en los miles,
pueden provocar distorsión, ya que las últimas tendrían una mayor preeminencia que
las otras. Conocer lo anterior es de suma importancia, así como tener conocimiento
de cuales son los métodos de normalización y cómo realizarlos de forma correcta, ya
que, de no considerar esto, se puede llegar a pensar que las variables están mal o
que el programa no responde, entre otras y, por consiguiente, generar una pérdida
de tiempo en la resolución del problema o a dar con una mala solución.
En el caso de la red aplicada Crece Cuando se Requiere (CCR), su elección fue
hecha por su dinamismo, permitiendo agregar o quitar neuronas, dependiendo de si
éstas se requieren o no, con lo cual se logra que la red sea más eficiente, ya que por
ejemplo, al contar ellas con neuronas que no se están utilizando, la red se hace más
“pesada” y por ende más lenta en la realización de los cálculos. Lo anterior, deja de
manifiesto que la arquitectura de la red fue la más adecuada para el problema y
única para éste, lo que difiere de otras redes que no cambian su arquitectura y que
son estáticas en este sentido. Esto último tiene relación con la cantidad de neuronas,
ya que la forma de la grilla varía en todas las redes. Es esta particularidad de la red,
que contrastada a otras analizadas en este estudio, la hizo ser elegida por sobre las
demás. Es dable destacar que la Crece Cuando se Requiere (CCR), en comparación
176
con las demás redes, es relativamente nueva, lo que hace que se tenga poca
información de ella y por ende, es más difícil de trabajar, en comparación con el resto
de las redes que ya llevan más de 30 años. Esta desventaja (debilidad) es superada
por la particularidad de la misma, lo que le da una mayor ventaja por sobre las
demás.
Como se expresa al inicio, el objetivo de este estudio es demostrar que las redes
neuronales son más precisas que los métodos tradicionales, lo que queda expuesto
en los resultados del porcentaje de error analizados, que demuestran que dichos
métodos producen un mayor error que el de la red propuesta, dado que no procesan
la información dada por las variables de una forma muy profunda, como el caso de
los métodos de tiempo, que aún cuando buscan patrones, no son capaces de
proyectar de una manera precisa, debido a la poca información que se le introduce
para dicha proyección, y en el caso de los modelos causales, como se dijo antes,
tiene una limitante de variables que le impiden conocer la existencia de otras
variables que afectan al problema, además de quedar restringido a un sistema
mecanizado. En cambio las redes neuronales requieren tener el conocimiento de una
gran cantidad de variables que afectan al problema y mediante un proceso de
aprendizaje esta va analizando la situación de cada entrada (que contiene varias
variables), reconociendo patrones, los cuales agrupa en ciertos sectores de la red
(vecindades), con lo cual las aprende y las utiliza para proyectar más adelante
(mapas auto-organizados), esto le da a la red una característica superior al de los
métodos tradicionales, ya que busca primero imitar al mecanismo que tiene el ser
humano en el sistema nervioso y luego con esto resolver el problema.
Cabe destacar, que el método de redes neuronales será superior a los métodos
tradicionales siempre y cuando la red que se utilice sea la adecuada para el
problema y se haga una buena modelación, lo que conllevará a resultados óptimos y
superiores a los métodos ya conocidos.
Además, es del caso mencionar, que no siempre las redes son la mejor solución,
debido a que, como se ha manifestado, poseen un alto grado de complejidad, por
177
ende, éstas deben ser utilizadas en problemas donde la red sea un real aporte, como
el caso presentado.
Finalmente, se debe señalar que el estudio de los datos puede dar pie a otros
trabajos científicos que se enfoquen en otras áreas del transporte, se pueden
mencionar entre estas las distancias de viaje, los comportamiento de los viajeros,
transporte de carga, entre otras.
4.2 DISCUSIONES
Como se ve en este estudio, la red propuesta fue capaz de proyectar la demanda de
un servicio, no siendo lo único que este tipo de red ni otras pueden realizar. Además,
las redes pueden ser mejoradas al ser combinadas con otros métodos como lo son la
Inteligencia Artificial, algoritmos genéticos, sistemas borrosos, técnicas estadísticas,
entre otros. Lo anterior se irá explicando a continuación con mayor detalle.
Lo primero que es posible señalar es que las redes neuronales son capaces de
resolver un variado tipo de casos, ya que estas no se estructuran sólo para satisfacer
un tipo de problema. Obviamente hay redes que se especializan o son únicas para
algunos tipos de casos, un ejemplo de esto son las redes Auto-Organizadas que
buscan patrones, que pueden solucionar desde proyección de demanda hasta
reconocimiento de objeto y, un sinnúmero de casos más. En este contexto, dentro de
las posibles utilidades o aplicaciones de redes se pueden encontrar:
A. Medicina y Biología
Predicción de accidentes de anestesia, de mortandad de pacientes, del
riesgo de intoxicación por digoxina, de la respuesta emética, del nivel
178
deciclosporina, de enfermedades degenerativas cardiacas. Detección de
arritmia, de cardiopatías, de tumores cancerígenos.
Caracterización de la dinámica en la variabilidad cardiaca, comprensión de
señales electrocardiográficas, analizadores del habla para ayudar en la
audición de sordos profundos, obtención de modelos de la retina.
B. Procesado por la Señal
Reconocimientos de caracteres impresos, del habla, de caracteres
manuscritos (con esta solución se puede agilizar el traspaso de
información de los documentos que están en papel a digital y con ello
poder realizar de forma más expedita el proceso al cual se le aplicó esta
solución, de patrones en imágenes).
Sonar, radar, anulación de ruido y vibraciones, exploración activa y puntos
clave en agrupamiento para el reconocimiento de objetos, ecualización de
canales de comunicación, ecualizadores lineales y canceladores de ecos
(telecomunicaciones).
C. Economía
Aprobación de préstamos, esto permite evaluar el riesgo de prestar dinero
a los clientes, determinación de la posibilidad de quiebra de un banco.
Análisis de Mercado, permite enfrentar al mercado con la mejor estrategia
posible, buscando patrones en los datos históricos del mercado en
cuestión, fraudes con tarjetas de crédito, la red busca patrones en los
engaños utilizados por los delincuentes. Predicción en el mercado bursátil
usando redes neuronales, clasificacion de tendencias a corto y mediano
plazo en bolsa de valores.
Cambio de moneda. Pronóstico del gasto eléctrico de empresas y centrales
179
D. Medio Ambiente
Predicción de irradiación solar, de niveles tóxicos de ozono en zonas
rurales y urbanas, de variaciones globales de temperatura.
E. Manufacturación
Control de calidad, donde se puede buscar patrones de anomalías o
errores en los productos, control de procesos, en el cual la red neuronal
busca mejorar la eficiencia de los procesos, sean estos en el rendimiento
de la fábrica, la calidad de los productos, entre otras.
Robots automatizados y sistemas de control (visión artificial y sensores de
presión, temperatura, gas, entre otras), hornos de fundición, la red ubica de
forma precisa el electrodo de un horno de arco de voltaje.
F. Militares
Combates aéreos, aquí la red proporciona ayuda en el pilotaje del avión en
situaciones de riesgos proporcionadas por el enemigo. Creación de armas
inteligentes, guiado automático de misiles. Optimización del uso de
recursos escasos.
G. Automoción
Mejora de las emisiones de gases de los autos, detección en la avería en
el encendido del auto.
Gestión de tráfico, conducir camiones en marcha atrás, debido a la
dificultad que se tiene en un camión con remolque, la red es capaz de
mover al camión de cualquier posición sin tener ningún problema.
180
H. Empresa
Prospección petrolífera, evaluación de probabilidad de formaciones
geológicas. Explotación de bases de datos.
Optimización de plazas y horarios en líneas de vuelo, optimización del flujo
del tránsito controlando convenientemente la temporización de los
semáforos.
I. Videos Juegos
Neuralbot, aquí la red se complementa con algoritmo genético en la
simulación de un jugador humano en el videojuego Quake II. Black and
White (estrategia).
J. Policial
Lucha contra el tráfico de drogas, detección de bombas en los aeropuertos,
aquí las redes analizan el aire en busca de elementos químicos explosivos.
Erradicación de la corrupción entre los funcionarios policiales.
K. Física
Detección de sucesos en aceleradores de partículas (CERN), análisis de
espectros PIXE (proton induced X-ray emissions) obtenida de muestras
orgánicas.
El otro punto que se discute, la solución que dan las redes neuronales puede ser
mejorada al combinarla con otras herramientas existentes que tienen otros enfoques
que permiten complementarlas. Entre las técnicas que se pueden complementar a
las redes neuronales están las siguientes:
181
1. Inteligencia Artificial: Tiene un enfoque Top-down, que es contrario al de las
redes neuronales. El enfoque Top-down es una perspectiva simbólica, en la
cual se busca recrear la forma en que la mente humana razona, o sea, como
se enfrenta a los problemas y los resuelve y, de ahí, crear programas que lo
emulen; en cambio, las redes neuronales tienen un enfoque Bottom-up, que
es una perspectiva sub-simbólica, la cual busca recrear los mecanismos
físicos del sistema nervioso, con el fin de crear programas capaces de
resolver casos, al igual como lo haría el sistema nervioso humano. Como se
advierte, ambas técnicas buscan resolver los problemas desde distintos
puntos de vista, y al combinarlas recrean de mayor forma la manera de
procesar la información del ser humano y por ende, logran una mejor
resolución.
2. Lógica Difusa: Esta técnica es similar a la inteligencia artificial, ya que busca
imitar la manera en que el cerebro razona y trabaja con información indefinida
(imprecisa), que se combina con un conjunto de reglas dada por expertos con
el fin de resolver el problema. La lógica difusa se puede combinar con las
redes neuronales, utilizando los métodos de aprendizajes de estos últimos, y
de esta forma, juntar y complementar las habilidades de ambas técnicas.
3. Algoritmos Genéticos: Basados en la naturaleza, en el aspecto de como ésta
ha ido evolucionando en los seres vivos, con el fin de que ellos puedan
adaptarse a los distintos ambientes a los que se enfrenten. Esta técnica se
puede combinar con las redes neuronales, haciendo que el algoritmo genético
logre hacer evolucionar los pesos de la red, su arquitectura, minimizar
funciones y evitar mínimos locales, entre otros aspectos.
4. Técnicas Estadísticas: Pueden complementar a la redes en el estudio de las
variables de entrada, con lo cual se puede mejorar el inicio de los pesos en la
red y, mejorar salidas, entre otras cosas.
182
Hay que aclarar que las cuatro técnicas mencionadas anteriormente no son las
únicas con las que se pueden combinar las redes neuronales, también existen otras
técnicas que ayudan a mejorar los resultados de las redes, sin embargo, estas
cuentan con respaldo bibliográfico.
Por último, cabe mencionar que esta complementación puede realizarse de forma
simultánea entre varias técnicas, lo que permite resolver el problema desde distintos
enfoques, con lo cual se puede lograr abarcar de mejor manera cada caso en
particular.
183
BIBLIOGRAFÍA
1. Anderson, David; Sweeney, Dennis; Williams Thomas (2010).” Statistics for
business and economics”. Onceava Edición. Thomson South-Western. Estados
Unidos de América. 1054 pp.
2. Arbib, Michael (2003). “The Handbook of Brain Theory and Neural Networks”.
Segunda Edición. Massachusetts Institute of Technology. Madison, Wisconsin,
Estados Unidos de América. 1344 pp.
3. Butz, Martin; Sigaud, Olivier; Pezzulo, Giovanni; Baldassarre, Gianluca (2007).
“Anticipatory Behavior in Adaptive Learning Systems”. Springer. Alemania. 379
pp.
4. Bryers, James; Hunter, Gordon (2009). “Discovering Time-Series Building
Blocks Using an Artificial Intelligence Framework”. Master of Science by
research. Faculty of Computing, Information Systems and Mathematics.
Kingston University. Kingston. Londres. Reino Unido. Marzo. 92 pp.
5. Caceres Bascuñan, Francisco (2002). ”Bases Biológicas y Teóricas de las
Redes Neuronales Artificiales”. Facultad de Ingeniería. Santiago. Chile. 129 pp.
6. Devore, Jay (2005). “Probabilidad y Estadística: para Ingeniería y Ciencias”.
Sexta Edición. Thomson. México. 794 pp.
7. Elsevier Science (2002). “A self-organising network that grows when required”.
Marsland, Stephen; Shapiro, Jonathan; Nehmzow, Ulrich. 18 pp.
8. Fundación Andaluza Beturia para la Investigación en salud (2007). “Cómo
realizar paso a paso un contraste de hipótesis con SPSS para Windows”.
Aguayo Canela, Mariano; Lora Monge, E. Sevilla. España. 15 pp.
9. Graupe, Daniel (2007). “Principles of Artificial Neural Networks”. Segunda
Edición. World Scientific. Singapur. 303 pp.
184
10. González Galán, María; González Galán, Ana; Pérez Morales, Germán.
“Correlación”. Departamento de Economía General y Estadística. 8 pp.
11. Gujarati, Damodar (2004). “Econometría”. Cuarta Edición. McGraw-Hill. México.
972 pp.
12. Haines, Duane (2003). “Principios de Neurociencia”. Segunda Edición. Elsevier
Science. Madrid. España. 606 pp.
13. Haykin, Simon (2005). “Neural Networks. A Comprehensive Foundation”.
Segunda Edición. Pearson Prentice Hall. India. 823 pp.
14. Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2008). “The Elements of
Stadistical Learning”. Segunda Edición. Springer. Estados Unidos de América.
15. Helsinki University of Technology (2003). “Self-organizing map in Matlab: the
SOM Toolbox”. Vesanto, Juha; Himberg, Johan; Alhoniemi, Esa; Parhankangas
Juha. Espoo. Finlandia. 6 pp.
16. Hernández Sampieri, Roberto (1997). “Metodología de la Investigación”.
McGraw-Hill. México. 411 pp.
17. Holmström, Jim; Gällmo, Olle (2002). “Growing Neural Gas: Experiments with
GNG, GNG with Utility and Supervised GNG”. Department of Information
Technology Computer Systems. Uppsala University. Uppsala. Suecia. Agosto.
38 pp.
18. Inostroza, Oscar; Canessa, Glen; Hozlmann, Carlos (1982). “Memorias
Asociativas”. Ingeniería Civil Eléctrica. Facultad de Ciencias Físicas y
Matemáticas. Universidad de Chile. Santiago. Chile. 283 pp.
19. Isasi Viñuela, Pedro; Galván León, Inés (2004). “Redes Neuronales Artificiales.
Un enfoque práctico”. Xxx Edición. Pearson Prentice Hall. Madrid. España. 248
pp.
185
20. Kandel, Eric (2001). “Principios de Neurociencia”. Cuarta Edición. McGraw-Hill.
España. 1400 pp.
21. Kohonen, Teuvo (2001). “Self-Organizing Maps”. Tercera Edición. Springer-
Verlag. Alemania. 501 pp.
22. Kröse, Ben; Van der Smagt, Patrick (1996). “An Itroduction to Neural Networks”.
Octava Edición. The University of Amsterdam. Países Bajos. 135 pp.
23. Marsland, Stephen (2009). “Machine Learning: An Algorithmic Perspective”.
Primera Edición. Chapman & Hall/CRC. Estados Unidos de América. 390 pp.
24. Martin del Brio, Bonifacio; Sanz Molina, Alfredo (2007). “Redes Neuronales y
Sistemas Borrosos”. Tercera Edición. Alfaomega. México D.F. México. 404 pp.
25. Mehrotra, Kishan; Mohan, Chilukuri; Ranka, Sanjay (1996). “Elements of
Artificial Neural Networks”. The MIT Press. 344 pp.
26. Pyle, Dorian (1999). “Data Preparation for Data Mining”. Morgan Kaufmann
Publishers. San Francisco. Estados Unidos de América. 466 pp.
27. Rains, Dennis (2007). “Principios de Neuropsicología Humana”. Primera
Edición. McGraw-Hill Interamericana. México. 533 pp.
28. Sapag Chaín, Nassir (1989). “Preparación y Evaluación de Proyectos”. Segunda
Edición. McGraw-Hill. Mexico. 390 pp.
29. Squire, Larry; Berg, Darwing; Bloom, Floyd; du Lac, Sascha; Ghosh, Anirvan;
Spitzer, Nicholas (2008). “Fundamental Neuroscience”. Tercera Edición.
Elsevier. Canada. 1256 pp.
30. SPSS Inc. (2005). “Manual del usuario de SPSS Base 14.0”. Chicago. Estados
Unidos de América. 794 pp.
31. SPSS Inc. (2006). “Guía Breve de SPSS 15.0”. Chicago. Estados Unidos de
América. 177 pp.
186
32. The MathWorks (2001). “Matlab: Getting Started with MATLAB”. Quinta Edición.
Estados Unidos de América. 136 pp.
33. The MathWorks (2001). “Matlab: Using MATLAB”. Sexta Edición. Estados
Unidos de América. 904 pp.
34. Townsend, James; Kadlec, Helena (1990). “Mathematics and Science”. World
Scientific Publishing Co. Pte. Ltd. Singapur. 28 pp.
35. Universidad Católica Silva Henríquez (UCSH) (2009). “La Compresión del
Cerebro: El nacimiento de una ciencia del aprendizaje”. Primera Edición.
Ediciones UCSH. Santiago. Chile. 424 pp.
36. Universidad Tecnológica Nacional (2001). “Redes Neuronales: Conceptos
Básicos y Aplicaciones”. Matich, Damián. Rosario. Argentina. 55 pp.
PÁGINAS WEB
1. Banco Central de Chile, Base de Datos Estadísticos.
http://si3.bcentral.cl/Siete/secure/cuadros/home.aspx
2. Biblioteca EPM (2005).
http://www2.epm.com.co/bibliotecaepm/biblioteca_virtual/Portalredesneuronales
-Aplicaciones.htm
3. Carnegie Mellon University. http://www.cmu.edu/index.shtml
4. Helsinki University of Technology, Laboratory of Computer and Information
Science (2005). http://www.cis.hut.fi/somtoolbox/documentation/index.shtml
5. Portales Médicos (2008).
http://www.portalesmedicos.com/publicaciones/articles/1314/1/Test-no-
parametricos-para-datos-biosanitarios-con-SPSS.html
6. Stephen Marsland. http://www-ist.massey.ac.nz/smarsland/gwr.html
187
7. Stanford University. http://www.stanford.edu/
8. The MathWorks, Inc (2011). http://www.mathworks.com/help/
9. The International Air Transport Association.
http://www.iata.org/Pages/default.aspx
10. Wikipedia (2011). http://es.wikipedia.org/wiki/Enc%C3%A9falo
11. Fisterra.
http://www.fisterra.com/mbe/investiga/9muestras/9muestras2.asp#parametros
ÍNDICE
PAG N°
ANEXO N°1 ESTRUCTURA DEL SISTEMA NERVIOSO
CENTRAL
1
Generalidades 1
ANEXO N°2 NEUROTRANSMISORES 3
ANEXO N°3 SINAPSIS 4
ANEXO N°4 MODELO MCCULLOCH-PITTS 5
1 Función Lógica NOT 5
2 Función Lógica AND 6
3 Función Lógica OR 7
ANEXO N°5 PERCEPTRÓN 9
A Regla de aprendizaje del Perceptrón 9
ANEXO N°6 ADALINE 10
A Regla Delta 10
ANEXO N°7 PERCEPTRÓN-ADALINE 13
ANEXO N°8 REDES DE BASE RADIAL 14
A Activación de las neuronas de la red de base radial 14
B Aprendizaje en las redes de base radial 16
ANEXO N°9 DIFERENCIAS ENTRE LA PERCEPTRÓN
MULTICAPA Y LAS
REDES DE BASE RADIAL
23
ANEXO N°10 REDES RECURRENTES 25
A Generalización de la Regla Delta en redes
recurrentes
25
B Ejemplo de Redes Parcialmente Recurrentes 26
C Mecanismo de aprendizaje de las Redes de Jordan,
Elman o cualquier otra red parcialmente recurrente.
29
D Retropropagación a través del tiempo 30
E Aprendizaje recurrente en tiempo real 34
F Red de Hopfield 37
ANEXO N° 11 COGNITRÓN 39
A Funcionamiento del Cognitrón 39
ANEXO N°12 MAPAS AUTO-ORGANIZADOS Y CRECIENTES 42
A Mapas Auto-Organizados de Kohonen 42
B Método de Aprendizaje Vector de Cuantización 48
C Teoría del MAO Básica 55
D Crece Cuando se Requiere 58
ANEXO N°13 DIAGRAMAS DE DISPERCIÓN 65
A Variables sin Tratamiento 65
B Variables Normalizadas 69
ANEXO N°14 MÉTODOS TRADICIONALES 73
ANEXO N°15 PERCEPTRÓN FINAL 73
ANEXO N°16 CRECE CUANDO SE REQUIERE FINAL 73
ANEXO N°17 MAPAS AUTO-ORGANIZADOS FINAL 74
ANEXO N°18 RECUENTO DE ITERACIONES 74
ANEXO N°19 ANALISÍS DE LA PRIMERA MUESTRA USADA
PARA LAS REDES NEURONALES ARTIFICIALES
75
1 Perceptrón Multicapa con Entrada-Salida No-Lineal 75
2 Perceptrón Multicapa con Auto-Regresivo No-Lineal
con Entrada Externa
82
3 Crece Cuando se Requiere y Perceptrón Multicapa
con Entrada-Salida No-Lineal
88
4 Crece Cuando se Requiere y Perceptrón Multicapa
con Auto-Regresivo No-Lineal con Entrada Externa
91
5 Mapa Auto-Organizado y Perceptrón Multicapa con
Entrada-Salida No-Lineal
95
6 Mapa Auto-Organizado y Perceptrón Multicapa con
Auto-Regresivo No-Lineal con Entrada Externa
96
ANEXO N°20 COMPARACIÓN DE RESULTADOS 102
ANEXO N°21 RESULTADOS FINALES DE LAS MUESTRAS 102
ANEXO N°22 RESULTADOS FINALES DE LAS MUESTRAS 102
ÍNDICE DE TABLA
PAG N°
Tabla A4-1 Función AND con sus distintas entradas. 6
Tabla A4-2 Función lógica AND y sus distintas salidas. 7
Tabla A4-3 Función lógica OR. 8
Tabla A4-4 Neurona de McCulloch-Pitts. 8
Tabla A19-1 Porcentaje de Error y Coeficiente de Correlación para
Perceptrón Multicapa con Entrada-Salida No-Lineal
para la variable Dólar.
76
Tabla A19-2 Porcentaje de Error y Coeficiente de Correlación para
Perceptrón Multicapa con Entrada-Salida No-Lineal
para la variable Número de Pasajeros normalizadas.
76
Tabla A19-3 Porcentaje de Error y Coeficiente de Correlación para
Perceptrón Multicapa con Entrada-Salida No-Lineal
para la variable Fecha de Reserva.
78
Tabla A19-4 Porcentaje de Error y Coeficiente de Correlación para
Perceptrón Multicapa con Entrada-Salida No-Lineal
para las variables: Dólar y Fecha de Reserva.
79
Tabla A19-5 Porcentaje de Error y Coeficiente de Correlación para
Perceptrón Multicapa con Entrada-Salida No-Lineal
para las variables: Número de Pasajeros, Dólar y
Fecha de Reserva.
80
Tabla A19-6 Porcentaje de Error y Coeficiente de Correlación para
Perceptrón Multicapa con Entrada-Salida No-Lineal
para las variables: Número de Pasajeros y Dólar.
81
Tabla A19-7 Porcentaje de Error y Coeficiente de Correlación para
Perceptrón Multicapa con Auto-Regresivo No-Lineal
con Entrada Externa para la variable Dólar.
83
Tabla A19-8 Porcentaje de Error y Coeficiente de Correlación para
Perceptrón Multicapa con Auto-Regresivo No-Lineal
con Entrada Externa para las variables: Dólar y
Fecha de Reserva.
84
Tabla A19-9 Porcentaje de Error y Coeficiente de Correlación para
Perceptrón Multicapa con Auto-Regresivo No-Lineal
con Entrada Externa para las variables: Dólar y
Número de Pasajeros.
85
Tabla A19-10 Porcentaje de Error y Coeficiente de Correlación para
Perceptrón Multicapa con Auto-Regresivo No-Lineal
con Entrada Externa para la variable: Fecha de
Reserva.
86
Tabla A19-11 Porcentaje de Error y Coeficiente de Correlación para
Perceptrón Multicapa con Auto-Regresivo No-Lineal
con Entrada Externa para la variable: Número de
Pasajeros.
86
Tabla A19-12 Porcentaje de Error y Coeficiente de Correlación para 88
Perceptrón Multicapa con Auto-Regresivo No-Lineal
con Entrada Externa para la variable: Número de
Pasajeros y Fecha de Reserva.
Tabla A19-13 Porcentaje de Error y Coeficiente de Correlación para
Crece Cuando se Requiere con Perceptrón Multicapa
con Entrada-Salida No-Lineal para la variable:
Número de Pasajeros, Dólar y Fecha de Reserva.
89
Tabla A19-14 Porcentaje de Error y Coeficiente de Correlación para
Crece Cuando se Requiere con Perceptrón Multicapa
con Entrada-Salida No-Lineal para la variable: Dólar y
Fecha de Reserva.
90
Tabla A19-15 Porcentaje de Error y Coeficiente de Correlación para
Crece Cuando se Requiere con Perceptrón Multicapa
con Entrada-Salida No-Lineal para las variables:
Número de Pasajeros y Fecha de Reserva.
90
Tabla A19-16 Porcentaje de Error y Coeficiente de Correlación para
Crece Cuando se Requiere con Perceptrón Multicapa
con Auto-Regresivo No-Lineal con Entrada Externa
para las variables: Dólar y Fecha de Reserva.
92
Tabla A19-17 Porcentaje de Error y Coeficiente de Correlación para
Crece Cuando se Requiere con Perceptrón Multicapa
con Auto-Regresivo No-Lineal con Entrada Externa
para las variables: Número de Pasajeros y Dólar.
94
Tabla A19-18 Porcentaje de Error y Coeficiente de Correlación para
Crece Cuando se Requiere con Perceptrón Multicapa
con Auto-Regresivo No-Lineal con Entrada Externa
para las variables: Número de Pasajeros y Fecha de
Reserva.
95
Tabla A19-19 Porcentaje de Error y Coeficiente de Correlación para
Mapa Auto-Organizados con Perceptrón Multicapa
con Entrada-Salida No-Lineal para las variables:
Dólar y Fecha de Reserva.
96
Tabla A19-20 Porcentaje de Error y Coeficiente de Correlación para
Mapa Auto-Organizados con Perceptrón Multicapa
con Entrada-Salida No-Lineal para las variables:
Número de Pasajeros y Dólar.
97
Tabla A19-21 Porcentaje de Error y Coeficiente de Correlación para
Mapa Auto-Organizados con Perceptrón Multicapa
con Entrada-Salida No-Lineal para las variables:
Número de Pasajeros y Fecha de Reserva.
98
Tabla A19-22 Porcentaje de Error y Coeficiente de Correlación para
Mapa Auto-Organizados con Perceptrón Multicapa
con Auto-Regresivo No-Lineal con Entrada Externa
para las variables: Número de Pasajeros, Dólar y
Fecha de Reserva.
99
Tabla A19-23 Porcentaje de Error y Coeficiente de Correlación para 100
Mapa Auto-Organizados con Perceptrón Multicapa
con Auto-Regresivo No-Lineal con Entrada Externa
para las variables:, Dólar y Fecha de Reserva.
Tabla A19-24 Porcentaje de Error y Coeficiente de Correlación para
Mapa Auto-Organizados con Perceptrón Multicapa
con Auto-Regresivo No-Lineal con Entrada Externa
para las variables: Número de Pasajeros y Dólar.
101
ÍNDICE DE FIGURAS
PAG N°
Figura A1-1 Encéfalo. 1
Figura A3-1 Diagrama de una Sinapsis Nerviosa. 4
Figura A4-1 Función Lógica NOT. 5
Figura A4-2 Función Lógica AND. 6
Figura A4-3 Función Lógica OR. 7
Figura A10-1 Red de Jordan. 26
Figura A10-2 Retropropagación a través del Tiempo. 30
Figura A10-3 Retropropagación a través del Tiempo. 31
Figura A10-4 Aprendizaje Recurrente en tiempo real. 34
Figura A11-1 Esquema de red Cognitron, una región de
competición con dos neuronas en cada capa.
41
Figura A12-1 Función del Sombrero Mexicano. 43
Figura A12-2 Modelo simplificado de una red neuronal distribuida. 43
Figura A12-3 Demostración de la función GTT. 45
Figura A12-4 Redes A de tres diferentes dimensionalidades. 59
Figura A13-1 Diagramas de dispersión para las variables Cantidad
de Reservas-Dólar Observado.
66
Figura A13-2 Diagramas de dispersión para las variables Número
de Pasajeros-Dólar Observado.
66
Figura A13-3 Diagramas de dispersión para las variables Cantidad
de Reservas-Fecha de Reserva.
67
Figura A13-4 Diagramas de dispersión para las variables Número
de Pasajeros-Fecha de Reserva.
68
Figura A13-5 Diagramas de dispersión para las variables
normalizadas Cantidad de Reservas-Fecha de
Reserva.
69
Figura A13-6 Diagramas de dispersión para las variables
normalizadas Cantidad de Reservas-Dólar
Observado.
70
Figura A13-7 Diagramas de dispersión para las variables
normalizadas Número de Pasajeros-Dólar
Observado.
71
Figura A13-8 Diagramas de dispersión para las variables
normalizadas Número de Pasajeros-Fecha de
Reserva.
71
Figura A19-1 Gráfico Demanda Real V/S Perceptrón Multicapa con
Entrada-Salida no-lineal, con variable de entrada
Dólar.
75
Figura A19-2 Gráfico Demanda Real V/S Perceptrón Multicapa con
Entrada-Salida no-lineal, con variable de entrada
Número de Pasajeros.
77
Figura A19-3 Gráfico Demanda Real V/S Perceptrón Multicapa con 77
Entrada-Salida no-lineal, con variable de entrada
Fecha de Reserva.
Figura A19-4 Gráfico Demanda Real V/S Perceptrón Multicapa con
Entrada-Salida no-lineal, con variables de entrada
Fecha de Reserva y Dólar.
78
Figura A19-5 Gráfico Demanda Real V/S Perceptrón Multicapa con
Entrada-Salida no-lineal, con variables de entrada
Número de Pasajeros, Fecha de Reserva y Dólar.
79
Figura A19-6 Gráfico Demanda Real V/S Perceptrón Multicapa con
Entrada-Salida no-lineal, con variables de entrada
Número de Pasajeros y Dólar.
81
Figura A19-7 Gráfico Demanda Real V/S Perceptrón Multicapa con
Auto-Regresivo No-Lineal con entrada externa, con
variable de entrada Dólar.
82
Figura A19-8 Gráfico Demanda Real V/S Perceptrón Multicapa con
Auto-Regresivo No-Lineal con entrada externa, con
variables de entrada Dólar y Fecha de Reservas.
83
Figura A19-9 Gráfico Demanda Real V/S Perceptrón Multicapa con
Auto-Regresivo No-Lineal con entrada externa, con
variables de entrada Dólar y Número de Pasajeros.
84
Figura A19-10 Gráfico Demanda Real V/S Perceptrón Multicapa con
Auto-Regresivo No-Lineal con entrada externa, con
variable de entrada Fecha de Reservas.
85
Figura A19-11 Gráfico Demanda Real V/S Perceptrón Multicapa con
Auto-Regresivo No-Lineal con entrada externa, con
variable de entrada Número de Pasajeros.
87
Figura A19-12 Gráfico Demanda Real V/S Perceptrón Multicapa con
Auto-Regresivo No-Lineal con entrada externa, con
variables de entrada Número de Pasajeros y Fecha
de Reservas.
87
Figura A19-13 Gráfico Demanda Real V/S Crece Cuando se
Requiere y Perceptrón Multicapa con Entrada-Salida
No-Lineal, con variables de entrada Dólar Observado,
Número de Pasajeros y Fecha de Reservas.
88
Figura A19-14 Gráfico Demanda Real V/S Crece Cuando se
Requiere y Perceptrón Multicapa con Entrada-Salida
No-Lineal, con variables de entrada Fecha de
Reservas y Dólar Observado.
89
Figura A19-15 Gráfico Demanda Real V/S Crece Cuando se
Requiere y Perceptrón Multicapa con Entrada-Salida
No-Lineal, con variables de entrada Número de
Pasajeros y Fecha de Reservas.
91
Figura A19-16 Gráfico Demanda Real V/S Crece Cuando se
Requiere y Perceptrón Multicapa con Auto-Regresivo
No-Lineal con Entrada Externa, con variables de
entrada Dólar Observado y Fecha de Reservas.
91
Figura A19-17 Gráfico Demanda Real V/S Crece Cuando se
Requiere y Perceptrón Multicapa con Auto-Regresivo
No-Lineal con Entrada Externa, con variables de
entrada Dólar Observado y Número de Pasajeros.
93
Figura A19-18 Gráfico Demanda Real V/S Crece Cuando se
Requiere y Perceptrón Multicapa con Auto-Regresivo
No-Lineal con Entrada Externa, con variables de
entrada Número de Pasajeros y Fecha de Reservas.
94
Figura A19-19 Gráfico Demanda Real V/S Mapa Auto-Organizado y
Perceptrón Multicapa con Entrada-Salida No-Lineal,
con variables de entrada Dólar Observado y Fecha
de Reservas.
95
Figura A19-20 Gráfico Demanda Real V/S Mapa Auto-Organizado y
Perceptrón Multicapa con Entrada-Salida No-Lineal,
con variables de entrada Dólar Observado y Número
de Pasajeros.
96
Figura A19-21 Gráfico Demanda Real V/S Mapa Auto-Organizado y
Perceptrón Multicapa con Entrada-Salida No-Lineal,
con variables de entrada Número de Pasajeros y
Fecha de Reservas.
97
Figura A19-22 Gráfico Demanda Real V/S Mapa Auto-Organizado y
Perceptrón Multicapa con Auto-Regresivo No-Lineal
con Entrada Externa, con variables de entrada Dólar
99
Observado, Número de Pasajeros y Fecha de
Reservas.
Figura A19-23 Gráfico Demanda Real V/S Mapa Auto-Organizado y
Perceptrón Multicapa con Auto-Regresivo No-Lineal
con Entrada Externa, con variables de entrada Dólar
Observado y Fecha de Reservas.
100
Figura A19-24 Gráfico Demanda Real V/S Mapa Auto-Organizado y
Perceptrón Multicapa con Auto-Regresivo No-Lineal
con Entrada Externa, con variables de entrada Dólar
Observado y Número de Pasajeros.
101
1
ANEXOS
ANEXO N°1
ESTRUCTURA DEL SISTEMA NERVIOSO CENTRAL1
Generalidades
El sistema nervioso humano está conformado por tres sistemas: El sistema nervioso
central (en adelante SNC), el sistema nervioso periférico (en adelante SNP) y el
sistema nervioso autónomo o vegetativo (en adelante SNA), para este documento el
objeto de nuestro estudio será el SNC.
Para ir explicando de mejor manera de que se trata el sistema nervioso central y sus
componentes vamos a ir de lo macro a lo micro, o sea, desde sus estructura más
grandes hasta la más pequeña como es la neurona.
Las estructuras que integra el SNC son el encéfalo y la medula espinal, ambos
componentes se encuentran resguardados por el cráneo y la columna vertebral
respectivamente.
Figura A1-1: Encéfalo. Fuente: “Wikipedia”.
1 (Haines, 2003)
&
(Rains, 2007)
2
Luego de esto podemos dividir el sistema nervioso central en 6 regiones básicas que
son: Médula espinal, bulbo raquídeo, protuberancia y cerebelo, mesencéfalo, tálamo
y hemisferios cerebrales.
Luego de la división regional, el SNC está constituido de Sistemas Funcionales; los
cuales son conjuntos de neuronas conectadas para transmitir un determinado bloque
de información o para realizar una tarea concreta. Estos sistemas no son de una sola
región en particular, sino que pueden atravesar a más de una región, como por
ejemplo cuando tocamos una hoja de algún libro, en el cual se cruzan todas las
regiones del sistema nervioso comprendido entre los dedos y la corteza
somatosensorial.
La clasificación básica de las células del SNC las separa en células gliales (o glías2)
y neuronas, el número de células es de alrededor de 100.000 millones, las neuronas
son de nuestro interés y se verán en el siguiente punto. Del número antes dicho,
“pocas son de neuronas sensoriales primarias, el primer vinculo en la cadena
aferente entre los receptores sensoriales (las primera neuronas en registrar la
presencia de estímulos) y el cerebro”, esto es, debido, a que estas neuronas están
ubicadas mayoritariamente en el ganglio, que no es parte del sistema nervioso
central. De las cerca de 3 millones de neuronas motoras, las que se desprenden de
la médula espinal para activar los músculos esqueléticos, las demás células que
conforman el SNC se dividen en células sensoriales y neuronas motoras. Una
estimación ubica el 99,98% de las neuronas del SNC de los mamíferos como
interneuronas, células nerviosas que no reciben estímulos directos del ambiente o
que provocan de modo directo la contracción muscular. Son estas neuronas las que
proveen las bases para el proceso que hace posible el comportamiento complejo.
2 Las glías cumplen la función de soporte estructural de las neuronas además de preocuparse de crear el medio
apropiado para el desarrollo de las labores que desarrollan la célula nerviosa.
3
ANEXO N°2
NEUROTRANSMISORES3
“Los neurotransmisores son un medio para el intercambio de información entre
células nerviosas, así como entre células nerviosas y células efectoras”.
“Los neurotransmisores pueden ser aminas biógenas (por ejemplo acetilcolina,
dopamina, noradrenalina), aminoácidos (por ejemplo acido glutámico, GABA),
nucleótidos (por ejemplo adenosina), neuropéptidos (por ejemplo sustancia P,
colecistocinina, somatostatina) o inclusos gases (por ejemplo óxido nítrico, monóxido
de carbono). Muchos de estos neurotransmisores se almacenan en las vesículas
presinápticas y son liberados de ellas en la terminal axónica, pero en otros casos,
como el óxido nítrico, la liberación se produce sin que intervengan vesículas”.
3 (Haines, 2003)
4
ANEXO N°3
SINAPSIS4
“Las sinapsis excitadoras normalmente se asocian con un incremento del Na+ o de
una combinación de iones, cuyo flujo neto de corriente en el canal es de entrada, lo
que descarga la capacitancia de membrana y produce la despolarización. Esto hace
que la membrana se acerque al umbral para los potenciales de acción en la zona de
disparo”.
“En la sinapsis inhibidoras, los cambios en la permeabilidad iónicas son distintos y
conlleva una corriente neta de salida. Esto puede producir una hiperpolarización, que
hace que el potencial de la zona de disparo se aleje del umbral”.
Figura A3-1: Diagrama de una Sinapsis Nerviosa.
4 (Haines, 2003)
5
ANEXO N°4
MODELO MCCULLOCH-PITTS5
1. Función Lógica NOT
“Es una neurona con una entrada y una salida. El único peso que posee tiene valor -
1, y su umbral valor -1”.
Figura A4-1: Función Lógica NOT. Fuente: “Redes Neuronales Artificiales. Un enfoque práctico”.
“Si la entrada de la neurona es cero, la salida será ; como es mayor que el
umbral, que es -1, la salida será 1. Para una entrada de uno la salida será:
, que al no ser mayor que el umbral -1 producirá una salida de 0. Este es el
comportamiento de una función lógica NOT”.
5(Isasi, 2004)
/-1
6
2. Función Lógica AND
En esta función la neurona tiene dos entradas y una salida. El valor del umbral es 1,
y el de las dos conexiones también 1.
Figura A4-2. Función Lógica AND. Fuente: “Redes Neuronales Artificiales. Un enfoque practico”.
Tabla con las distintas entradas de la función AND.
X1 X2 y
0 0 0
0 1 0
1 0 0
1 1 1
Tabla A4-1: Función AND con sus distintas entradas. Fuente: “Redes Neuronales Artificiales. Un enfoque practico”.
/1
7
Tabla con la salida de la neurona para cada una de las entradas.
X1 X2 y
0 0 0 0
0 1 1 0
1 0 1 0
1 1 2 1
Tabla A4-2: Función lógica AND y sus distintas salidas. Fuente: “Redes Neuronales Artificiales. Un
enfoque practico”.
Como se ve en la tabla, en la última fila se ve que la sumatoria pasa el umbral de 1 y,
por lo tanto, tendrá una salida de 1.
3. Función Lógica OR
“La neurona que representa la función OR es igual que la de la función lógica AND,
cambiando el valor del umbral, que en este caso será cero”.
Figura A2-3. Función Lógica OR. Fuente: “Redes Neuronales Artificiales. Un enfoque práctico”.
/0
8
La tabla de la función OR es:
X1 X2 Y
0 0 0
0 1 1
1 0 1
1 1 1
Tabla A4-3. Función lógica OR. . Fuente: “Redes Neuronales Artificiales. Un enfoque practico”.
Mientras que la tabla de la neurona de McCulloch-Pitts anterior es:
X1 X2 y
0 0 0 0
0 1 1 1
1 0 1 1
1 1 2 1
Tabla A4-4. Neurona de McCulloch-Pitts. . Fuente: “Redes Neuronales Artificiales. Un enfoque practico”.
En este caso el único que no supera el umbral es el de la primera fila, el cual tendrá
una salida que da cero.
9
ANEXO N°5
PERCEPTRÓN6
A. Regla de aprendizaje del Perceptrón
Suponga que sean preparadas un conjunto de muestras de aprendizaje consistente
de un vector de entrada y una salida deseada Para una tarea de clasificación
la es usualmente +1 o -1. La regla de aprendizaje del Perceptrón es muy simple
y se puede describir de la siguiente forma:
1. Empezar con valores aleatorios para los pesos y el umbral.
2. Seleccionar un vector de entrada del conjunto de muestra de entrenamiento.
3. Si , la red da una salida incorrecta. Modificar de acuerdo con:
4. Si no se ha cumplido el criterio de finalización, volver a 2.
“En el paso tres se aprecia que si la salida de la red para un patrón es , pero
su clase es , entonces el incremento es negativo, ,
mientras que si ocurre lo contrario, es positivo, como se describió anteriormente”.
“Puesto que el umbral es equivalente a un peso adicional, al que se denota por
, cuya entrada es siempre 1 , la ecuación anterior se puede extender para
el umbral de la siguiente forma”.
(1)
{
(2)
6 (Isasi, 2004) & (Kröse, 1996)
10
ANEXO N°6
ADALINE7
A. Regla Delta
La diferencia de esta regla de aprendizaje con respecto a la del Perceptrón “es la
manera de utilizar la salida, una diferencia fundamental entre ambos sistemas. El
Perceptrón utiliza la salida de la función umbral para el aprendizaje; sin embargo, la
regla Delta, utiliza directamente la salida de la red, sin pasarla por ninguna función
umbral”.
Suponer que se quiere entrenar una red tal que un hiperplano es ajustado tanto
como se puede a un conjunto de muestras de entrenamiento consistente de valores
de entrada y valores de salidas deseados (u objetivo) . Para toda muestra de
entrada dada, la salida de la red difiere de la del valor objetivo por ,
donde es la real salida para este patrón. La regla delta ahora utiliza una función
costo o función error basado en estas diferencias para ajustar los pesos.
La función error, como lo indica el nombre de mínimos cuadrados, es la suma de los
errores al cuadrado. Eso es, el error total definido como:
∑
∑
(3)
donde el índice de rango el conjunto de patrones de entrada y representan el
error en el patrón . “La regla intentará minimizar este valor para todo los elementos
del conjunto de patrones de aprendizaje. La manera de minimizar este error es
recurrir a un proceso iterativo en el que se van presentando los patrones uno a uno, y
7 (Kröse, 1996) (Isasi, 2004)
11
modificando los parámetros de la red (pesos de las conexiones), mediante la regla
del descenso del gradiente”.
La idea es hacer un cambio en cada peso proporcional a la derivada del error,
medida en el patrón actual, respecto a cada peso:
(4)
donde es una constante de proporcionalidad.
Aplicando la regla de la cadena a la expresión anterior queda como sigue:
(5)
Como son unidades lineales, sin función de activación en la capa de salida, se
plasma lo siguiente:
(6)
Que al sustituir, queda como continúa:
(7)
12
Con esta última ecuación se ve la diferencia que tiene la regla Delta con la regla de
aprendizaje del Perceptrón ( ), en el cual se ve “que la diferencia es
precisamente la introducción de la diferencia entre la salida deseada y la obtenida en
la regla de aprendizaje. Si la salida del ADALINE fuese binaria, el conjunto de
patrones estaría constituido por ⃗⃗ ⃗ ⃗⃗ ⃗⃗ ⃗ , es decir ϵ 0, 1, .
Si se incluye la salida del ADALINE el acoplador bipolar comentado con anterioridad
para “binarizar” la salida, la regla Delta (ecuación anterior) quedaría así”:
{
(8)
“que para un se convierte en la regla del Perceptrón. Así pues, la regla Delta
es una extensión de la regla del Perceptrón a valores de salida reales”.
El procedimiento de la regla Delta es el siguiente:
1. Inicializar los pesos de forma aleatoria.
2. Introducir un patrón de entrada.
3. Calcular la salida de la red, compararla con la deseada y obtener la diferencia:
.
4. Para todos los pesos, multiplicar dicha diferencia por la entrada
correspondiente, y ponderarla por una tasa de aprendizaje .
5. Modificar el peso restando del valor antiguo la cantidad obtenida en 4.
6. Si no se ha cumplido el criterio de convergencia, regresar al punto 2; si se han
acabado todo los patrones, empezar de nuevo a introducir patrones.
13
ANEXO N°7
PERCEPTRÓN-ADALINE8
Se puede enumerar las siguientes diferencias entre los dos modelos:
1. En el Perceptrón la salida es binaria, en el ADALINE es real.
2. En el Perceptrón la diferencia entre entrada y salida es 0 si ambas pertenecen
a la misma categoría si por el contrario pertenece a categorías
diferentes. En el ADALINE se calcula la diferencia real entre entradas y
salidas.
3. En el ADALINE existe una medida de cuanto se ha equivocado la red; en el
Perceptrón sólo se determina si se ha equivocado o no.
4. En el ADALINE hay una razón de aprendizaje ( ) para regular cuanto va a
afectar cada equivocación a la modificación de los pesos. Es siempre un valor
entre 0 y 1 para ponderar el aprendizaje.
8 (Isasi, 2004)
14
ANEXO N°8
REDES DE BASE RADIAL9
A. Activación de las neuronas de la red de base radial
“Dada una red de neuronas de base radial con neuronas en la capa de entrada,
neuronas en la capa oculta y neuronas en la capa de salida, las activaciones de las
neuronas de salida para el patrón de entrada , ,
denotadas como , vienen dadas por la siguiente expresión”:
∑
(9)
“Donde representa el peso de la conexión de la neurona oculta a la neurona de
salida , es el umbral de la neurona de salida y son las activaciones de
las neuronas ocultas para el patrón de entrada . En la ecuación anterior se ve
que se utiliza la función activación identidad en las neuronas de salida, realizando
una transformación lineal de las activaciones de todas las neuronas ocultas”.
“Las funciones , también conocidas como funciones de base radial, determinan las
activaciones de las neuronas ocultas de la red en función del vector de entrada a la
red y vienen dadas por la siguiente expresión”:
(‖ ‖
)
(10)
9 (Isasi, 2004)
15
“donde es una función de base radial; son vectores que
representan los centros de la función de la base radial; son números reales que
representan la desviación, anchura o dilatación de la función de base radial; y ‖ ‖
es la distancia euclídea del vector de entrada al centro , definida como”:
‖ ‖ (∑
)
(11)
“Por tanto, la activación de una neurona oculta en las redes de base radial depende
de la distancia del patrón de entrada al centro de la función de base radial.
Estas funciones bases poseen un carácter local, pues son funciones que alcanzan
un nivel cercano al máximo de su recorrido cuando el patrón se aleja del centro, el
valor de función va teniendo al valor mínimo de su recorrido”.
La función de base radial puede tomar diferentes formas entre las cuales se
encuentra:
Función Gaussiana:
(
)
(12)
Función Inversa Cuadrática:
(13)
Función Inversa Multicuadratica:
√
(14)
16
La más usada de estas en la Función Gaussiana, por lo que la activación de las
neuronas ocultas es la siguiente:
‖ ‖
(15)
Las salidas de estas redes sonuna combinación lineal de gaussianas, donde cada
neurona se activa para una especifica región del espacio determinada por los
patrones de entrada (Isasi, 2004).
B. Aprendizaje en las redes de base radial
“El proceso de aprendizaje implica la determinación de todos los parámetros que
intervienen en la red. Estos son: los centros y las desviaciones de las neuronas
ocultas y los pesos de la capa oculta de salida, así como los umbrales de las
neuronas de salida”.
Tanto los centros como las desviaciones de la capa oculta tienen un aprendizaje
diferente que el de los umbrales y pesos, esto porque “las capa de neuronas en una
red de base radial realizan tareas diferentes. El aprendizaje de los centros y
desviaciones debe estar guiado por una optimización en el espacio de patrones de
entrada, pues cada una de las neuronas ocultas en la red de base radial va a
representar una zona diferente del espacio de entrada. Sin embargo, para los
parámetros de la capa de salida la optimización se debe realizar en base a las
salidas que se desea obtener o salidas deseadas, ya que las redes de base radial se
utilizan para aproximar relaciones entre el conjunto de variables de entrada y salida
que definen el problema. Para lograr todo esto se emplea el Método de aprendizaje
Hibrido, el cual está compuesto de dos fases”:
17
Fase no supervisada: Determinación de los centros y amplitudes de las
neuronas de la capa oculta.
Fase supervisada: Determinación de pesos y umbrales de la capa de salida.
“Otro método que existe para este tipo de redes es el método de aprendizaje
totalmente supervisado, que a diferencia del método anterior, este no conserva, en
principio, las propiedades o características locales de las redes de base radial. En
este caso, todos los parámetros de la red de base radial: centros, amplitudes, pesos
y umbrales se determinan de manera completamente supervisadas y con el objetivo
de minimizar el error cuadrático medio, es decir, las diferencias entre las salidas de la
red y las salidas esperadas”.
∑
∑
(16)
“Al utilizar este método, en ningún momento el proceso de aprendizaje se guía para
que las amplitudes alcancen valores tales que el solapamiento de las activaciones de
las neuronas ocultas sea la más suave posible, sino que se determinan para
minimizar el error cometido por la red en la capa de salida. Por tanto, no es posible
esperar que la red siga conservando sus características locales”.
Cabe decir que estos dos métodos de aprendizaje antes dichos pueden ser
combinados, “con el objeto de mejorar la precisión de la red en la resolución de
problemas. Esta combinación consiste, básicamente en inicializar los centros y
desviaciones de las funciones de base radial utilizando el método hibrido, para,
posteriormente, adaptarlos de manera supervisada utilizando el metido totalmente
supervisado”.
18
A continuación se darán los pasos a seguir de cada uno de los métodos de
aprendizaje y del método combinado (más detallado estos procedimientos en:
I. Método Hibrido
“Dado el conjunto de patrones de entrada y sus salidas
deseadas, el método de aprendizaje hibrido para las redes de neuronas de base
radial se puede resumir en los siguientes pasos”10:
Se aplica el algoritmo de K-medias sobre el conjunto de patrones de entrada
para el cálculo de los centros de las funciones de base
radial, siendo K el número de neuronas ocultas de la red.
Se calculan las amplitudes o desviaciones de las funciones de base radial
utilizando algunas de las expresiones dadas por las ecuaciones:
∑‖ ‖
(17)
(Medida uniforme de las distancias euclídeas del centro a los centros
más cercanos)
√‖ ‖‖ ‖
(18)
Siendo y los dos centros más cercanos al centro .
Se determinan los pesos y umbrales de la capa de salida siguiendo el
siguiente proceso iterativo:
1. Se inicializan aleatoriamente los pesos y umbrales de la capa de salida.
2. Se toma un patrón del conjunto de patrones disponibles y se
calcula la salida de la red, , para el patrón de entrada .
3. Se evalúa el error cometido por la red para dicho patrón, con la
ecuación:
10
(Isasi, 2004)
19
∑
(19)
Siendo y los vectores
de salida de la red y salida deseada para el patrón de entrada ,
respectivamente.
4. Se modifican los parámetros de la red utilizando las leyes de aprendizaje
dadas por las ecuaciones:
(20)
Para y para .
5. Se repiten los pasos 2, 3 y 4 para todos los patrones de entrenamiento.
6. Se repiten los pasos 2, 3, 4 y 5 hasta conseguir la convergencia, es decir,
hasta que la suma de los errores para todos los patrones (
)
se estabilice.
II. Método de aprendizaje totalmente supervisado
“Dado el conjunto de patrones de entrada y sus salidas
deseadas, el método de aprendizaje totalmente supervisado para las redes de
neuronas de base radial se puede resumir en los siguientes pasos”:
1. Se inicializan todos los parámetros de la red. En el caso de las amplitudes,
pesos y umbrales, esta inicialización suele hacerse de manera aleatoria con
valores cercanos a cero. Para los centros es, generalmente, preferible
20
inicializarlos aleatoriamente a patrones de entrada o la salida de un algoritmo
de clasificación aplicado en el espacio de entrada.
2. Se toma un patrón del conjunto de patrones disponibles y se
calcula la salida de la red, , para el patrón de entrada .
3. Se evalúa el error cometido por la red para dicho patrón.
∑
(21)
4. Se modifican los pesos, umbrales, centros y amplitudes de la red utilizando las
ecuaciones
(∑( )
) ( )
(22)
Para j=1, 2, …, p y para i=1, …, m
(∑( )
) ‖ ‖
(23)
Para i=1, …,m.
5. Se repiten los pasos 2, 3 y 4 para todos los patrones de entrenamiento.
6. Se repiten los pasos 2, 3, 4, 5 hasta conseguir la convergencia, es decir, hasta
que la suma de los errores para todos los patrones
se
estabilice, momento en el que se alcanza un mínimo dicha función.
21
III. Método combinado: Hibrido-Totalmente Supervisado
1. Se calculan los centros de las funciones de base radial aplicando el algoritmo
de K-medias sobre el conjunto de patrones de entrada .
2. Se calculan las amplitudes o desviaciones de las funciones de base radial
utilizando alguna de las expresiones dadas por las ecuaciones:
∑‖ ‖
(24)
o
√‖ ‖‖ ‖
(25)
3. Se aplica el algoritmo de los mínimos cuadrados para el cálculo de los pesos
y umbrales de la red, ecuaciones:
(26)
4. Se toma un patrón del conjunto de patrones disponibles y se
calcula la salida de la red, , para el patrón de entrada .
5. Se evalúa el error cometido por la red para dicho patrón.
6. Se modifican los pesos, umbrales, centros y amplitudes de la red utilizando las
ecuaciones.
∑
(27)
22
(∑( )
) ( )
(28)
Para y para
(∑( )
) ‖ ‖
(29)
Para
En este punto es necesario prestar especial atención a las razones o tasas de
aprendizajes de los centros y amplitudes, y . Al aplicar las leyes dadas
por las ecuaciones (las dos últimas), los centros y desviaciones no deben
sufrir cambios bruscos respecto a los valores obtenidos en los pasos 1 y 2,
pues, en ese caso, la información obtenida en la fase no supervisada se
perdería.
7. Se repiten los pasos 4, 5 y 6 para todos los patrones de entrenamiento.
8. Se repiten los pasos 4, 5, 6 y 7 hasta conseguir la convergencia, es decir,
hasta que la suma de los errores para todos los patrones
se
estabilice, momento en el que se alcanza un mínimo de dicha función.
23
ANEXO N°9
DIFERENCIAS ENTRE LA PERCEPTRÓN MULTICAPA Y LAS
REDES DE BASE RADIAL11
Las diferencias que se encuentra entre estas dos redes es el número de capas
ocultas, en el caso de las redes de base radial solo tienen una capa, mientras que el
Perceptrón multicapa tiene tantas capas ocultas se deseen, la distribución de los
pesos en las redes de base radial las conexiones de la capa de entrada a la oculta
no llevan pesos asociados y, por ejemplo también la linealidad en la capa de salida,
la cual no es imprescindible para el caso del Perceptrón multicapa.
Pero la mayor diferencia entre estas dos redes es en la función de activación de las
neuronas ocultas en la red, lo que hace que cada una de las arquitecturas de estas
redes, tengan sus propias características, a continuación se explicara cada una de
ellas:
El Perceptrón Multicapa construye aproximaciones globales
“Debido al uso de funciones de activación sigmoidal, el Perceptrón multicapa
construye relaciones globales entre los datos de entrada y salida disponibles.
Esto hace que el aprendizaje de la red sea lento, pues el cambio en un solo
peso de la red provoca cambios en la salida para todos los patrones de
entrada presentados anteriormente, reduciéndose así el efecto de previos
ciclos de aprendizaje y retrasando la convergencia del algoritmo de
aprendizaje”.
Las redes de base radial construye aproximaciones locales
“Cada neurona oculta de la red de base radial se especializa en una
determinada región del espacio de entrada y construyen una aproximación
11
(Isasi, 2004)
24
local en dicha región. Por tanto, la relación que definen las redes de base
radial entre los datos de entrada y salida es una suma de funciones no
lineales y locales para diferentes regiones del espacio de entrada. A diferencia
de cuando se construyen aproximaciones globales, la construcción de
aproximaciones locales permite que el aprendizaje sea más rápido, ya que el
cambio en un solo peso de red afecta únicamente a la neurona oculta
asociada a dicho peso y, por tanto, a un determinado grupo de patrones de
entrada, los pertenecientes a la clase que representa la neurona oculta en
cuestión”.
“Debido al carácter local, el aprendizaje de estas redes es, generalmente,
menos sensible al orden de presentación de los patrones que en el caso del
Perceptrón multicapa”.
“En muchos casos, sin embargo, ocurre que para poder construir una
aproximación mediante la suma de aproximaciones locales se requiere un alto
número de neuronas ocultas, lo cual podría influir negativamente en la
capacidad de generalización de las redes de base radial”.
“Finalmente, debe señalarse que el número de neuronas ocultas de la red
puede aumentar exponencialmente con la dimensión del espacio de entrada.
Por tanto, para aplicaciones que requieren un alto número de variables de
entrada, las redes de base radial podrían no ser las más adecuadas”.
25
ANEXO N°10
REDES RECURRENTES12
A. Generalización de la Regla Delta en redes recurrentes
La regla de aprendizaje de retropropagación, puede ser fácilmente usado para los
patrones de entrenamiento en redes recurrente. Primero describiremos las redes
donde algunos de los valores de activación de las neuronas ocultas son
realimentadas a un conjunto extra de neuronas de entrada (la red de Elman), o
donde los valores de salida son realimentados en las neuronas ocultas (la red de
Jordan).
Antes consideremos este caso general: Una típica aplicación de esta red es la
siguiente, suponga que tenemos que construir una red que debe generar un
comando de control que dependa de una entrada externa, que es una serie de
tiempo Con una red alimentada hacia adelante hay dos
posibles aproximaciones:
a. Crear entradas que constituyen los últimos valores del vector
de entrada. Así es que una “ventana de tiempo” del vector de entrada es
entrada de la red.
b. Crear entradas además solo entradas , también la entrada de
sus primera, segunda, entre otras, derivadas. Naturalmente, el cálculo de
estas derivadas no es una tarea trivial para las derivadas de orden superior.
La desventaja es, por supuesto, la dimensionalidad de entrada de la red alimentada
hacia adelante es multiplicada con n, que conduce a una red muy grande, que es
lenta y difícil para entrenar. Las redes de Jordan y Elman proveen una solución para
este problema. Debido a las conexiones recurrentes, un grupo de entradas no
necesita ser entradas nuevamente; en vez, la red se supone que aprende de la
influencia de los pasos de tiempo anteriores de sí mismo.
12
(Kröse, 1996), (Isasi, 2004) & (Haykin, 2005).
26
B. Ejemplo de Redes Parcialmente Recurrentes
1. Red de Jordan
Fue uno de las primeras redes neurales recurrentes y fue propuesto por Michael
Jordan en 198613.
Figura A10-1: Red de Jordan. Fuente: “Mathematics An Introduction To Neural Networks”.
En la red de Jordan, los valores de activación de las neuronas de salida son
realimentadas en la capa de entrada a través de un conjunto extra de neuronas de
entrada llamadas neuronas de estado o neuronas de contexto. Hay tantas neuronas
de estado como neuronas de salida en la red. Las conexiones entre las neuronas de
salida y las neuronas de estado tienen un peso de fijo ( ) de +1 (en (Isasi, 2004), en
cambio, dice un valor constante positivo y menor que 1); el aprendizaje se lleva a
13
En los libros de Jordan 1986a y 1986b.
27
cabo en las conexiones entre las neuronas de entrada y las neuronas ocultas como
también con las neuronas ocultas y las neuronas de salida. Además todas las reglas
de aprendizaje derivadas del Perceptrón Multicapa pueden ser usadas para el
entrenamiento de esta red.
Como se ve en la Figura N°14, cada neurona de contexto se conecta con una
neurona de salida y consigo misma, lo cual hace que la activación de las neuronas
de contexto (también llamada neuronas de estado) en la iteración o instante de
tiempo , denotada como viene dada por la siguiente ecuación(Isasi, 2004):
(30)
donde es el vector salida de la red en el
instante de tiempo y es el número de salidas de la red
Las demás activaciones de la red se computan como en una red multicapa con
conexiones positivas; para ello se considera como entrada total a la red en la
iteración el vector que es el resultado del encadenamiento de las activaciones
de las neuronas de entrada y las neuronas de estado:
(31)
donde representan las señales que la red recibe del exterior.
Cabe decir que las neuronas ocultas de la red como las neuronas de salida tienen la
función de activación sigmoidal.
Hay que destacar que las neuronas de estado tienen funciones de activación lineal,
lo que permite a las neuronas de estado (o de contexto) que sus activaciones se
puedan desenvolver en el tiempo de la siguiente manera:
(32)
28
obteniéndose, entonces, la siguiente expresión:
∑
(33)
Cabe decir, que la red de Jordan obtiene una cierta inercia a las neuronas de estado,
gracias al parámetro que se encuentra en su arquitectura. Como se ve en la
ecuación (32) las neuronas de estado “acumulan las salidas de la red en todos los
instantes anteriores de tiempo y el valor del parámetro determina la sensibilidad de
las neuronas de estado para retener dicha información”. Con esto, queda definido
que los valores cercanos a 1 permiten memorizar estados muy lejanos al del tiempo
actual, y a medida que se aproxima el valor de a 0, estos estados tienen una menor
representación en la activación actual de las neuronas de estado.
2. Red de Elman
Esta red fue introducida por Jeff Elman en 1990. En esta red un conjunto de
neuronas de contexto son introducidas, que son neuronas extras de entrada cuyos
valores de activación son realimentados de la neurona oculta. Además la red es muy
similar a la Red de Jordan, excepto que las neuronas ocultas en vez de las neuronas
de salida son realimentadas y las neuronas extras de entrada no tienen auto-
conexiones (Kröse, 1996) (Haykin, 2005). “Existen en esta red tantas neuronas de
contexto como neuronas ocultas tenga. De este modo, la activación de las neuronas
de contexto viene dada por”:
(34)
Donde es el número de neuronas ocultas de la red y son las activaciones
de dichas neuronas en el instante .
29
Con lo que respecta a las restantes activaciones de la red, estas se calculan como
una red multicapa con conexiones hacia adelante, en la que se considera como
entrada total a la red el vector dado por la ecuación:
(35)
“Para la Red de Elman las conexiones recurrentes hacen que las neuronas ocultas
contengan información sobre las señales de entrada que proceden del exterior en el
instante inmediatamente anterior”.
C. Mecanismo de aprendizaje de las Redes de Jordan, Elman o cualquier
otra red parcialmente recurrente.
1. Se inicializan las neuronas de contextos de la red parcialmente recurrente en
el instante de tiempo .
2. Se presenta a la red en el instante de tiempo el patrón de entrada
procedente del exterior, , que junto con la activación de
las neuronas de contextos en ese instante, forman el vector de entrada
total a la red, .
(36)
3. El vector se propaga hacia la salida de la red, obteniendo así la salida de
la red en dicho instante de tiempo.
4. Se aplica la regla delta generalización para modificar los pesos de la red.
5. Se incrementa la variable tiempo en una unidad y se vuelve al paso 2.
30
D. Retropropagación a través del tiempo
Como se dijo antes, este algoritmo es una extensión del algoritmo estándar de
retropropagación. Este algoritmo “se basa en la idea de que para cada red recurrente
es posible construir una red multicapa con conexiones hacia adelante y con idéntico
comportamiento; basta desarrollar en el tiempo la red recurrente”.
A continuación se da un ejemplo, para ilustrar todo esto.
“Se trata de una red simple, con dos neuronas totalmente conectadas, y la activación
de cada una de las neuronas viene dada por”:
Figura A10-2: Retropropagación a través del Tiempo. Fuente: “Neural Networks. A Comprehensive Foundation”.
(37)
Desarrollando dichas activaciones en el tiempo se obtiene que:
…
(38)
31
“Por tanto, las activaciones hasta el instante de tiempo de la red recurrente que se
muestra en la figura anterior son equivalente a las activaciones de las neuronas de la
red multicapa con conexiones hacia adelante que se muestras en la siguiente figura.
De este modo, la red recurrente se puede representar mediante una red con
conexiones hacia adelante, la cual se obtiene añadiendo una nueva capa por cada
unidad de tiempo”.
Figura A10-3: Retropropagación a través del Tiempo. Fuente: “Neural Networks. A Comprehensive Foundation”.
Para la aplicación del algoritmo de retropropagación a través del tiempo, la red
recurrente es particionada en época o intervalo independiente, con cada época
representando un patrón temporal de interés. Dado donde es el comienzo
del tiempo de una época y denota su final de tiempo, se define el error cometido
por la red en dicho intervalo como:
∑ ∑
(39)
“donde es el conjunto de índices que representan las neuronas de salida de la red,
es decir, neuronas para las cuales se dispone de una salida deseada; y es el
32
error que comete la red en el instante , medido como la diferencia entre la salida de
la red y la salida deseada. Los pesos de la red totalmente recurrente se van a
modificar siguiendo la dirección negativa del gradiente del error dado por la ecuación
anterior, por lo que el cambio del peso de la neurona a la neurona viene dada
por”:
(40)
“El aprendizaje de la red recurrente mediante el algoritmo de retropropagación a
través del tiempo implica el cálculo de la derivada de respecto de las
conexiones de la red. Para ello se aplica el algoritmo de retropropagación a través
del tiempo se presenta a continuación:
1. Dado un tiempo inicial , la red totalmente recurrente se desarrolla en el
intervalo , obteniendo una red multicapa con conexiones hacia
adelante.
2. Se calculan y almacenan las activaciones de todas las neuronas de la red
multicapa.
Se denota como ) la activación de la neurona de la capa
en la red multicapa, donde es la función de activación y es el
nivel total de activación que recibe la neurona .
3. La aplicación del algoritmo de retropropagación a la red multicapa equivalente
implica el cálculo de los valores para cada una de las capas de la red
multicapa, empezando por la última capa, capa , hasta llegar a la primera
capa oculta, capa .
Denotado por el valor asociado a la neurona de la capa para todo
y teniendo en cuenta el mecanismo para calcular dichos valores cuando
se utiliza el algoritmo de retropropagación, se obtiene que:
33
{ ( )
( )( )
(41)
Donde es la derivada de la función de activación respecto a su
argumento.
Aplicando dicha ecuación, se obtiene . Por tanto,
es necesario calcular tantos valores como el número de instantes de tiempo
que contiene el intervalo o época
4. Una vez que se obtiene el valor de la capa , el cambio o ajuste para el
peso viene dado por la siguiente expresión:
∑
(42)
Donde es la razón de aprendizaje y es la entrada a la neurona.
5. Con los nuevos pesos, se repite e proceso para el instante de tiempo ,
preparando la red para una nueva época.
“El algoritmo de retropropagación a través del tiempo no es precisamente un método
adecuado para aplicaciones en tiempo real, es decir, para aplicaciones que requieren
una adaptación continua de la red recurrente. Este algoritmo involucra un coste
computacional para el cálculo de los valores que podría ser elevado, así como la
necesidad de almacenar en memoria el estado de la red desarrollada en el tiempo”.
34
E. Aprendizaje recurrente en tiempo real
El algoritmo deriva su nombre del hecho que los ajustes son hechos a los pesos
sinápticos de una red totalmente recurrentes en tiempo real, que es, mientras la red
continua realizando su función de procesamiento de señal.
“La red recurrente en tiempo real está compuesta por neuronas y neuronas de
entrada que reciben las señales del exterior. De las neuronas, algunas se
consideran neuronas de salidas, es decir, neuronas para las que se dispone de una
salida deseada. Se trata de una red con conexiones recurrentes, pues las
neuronas se conectan con todas las demás e incluso con ellas mismas; y
conexiones hacia adelante, pues cada neurona de entrada se conecta con el resto de
las neuronas de la red. Por tanto, la matriz de pesos de la red, ( ), es una
matriz de orden , donde representa la conexión de la neurona a la
neurona , para y para ”.
Figura A10-4: Aprendizaje Recurrente en tiempo real. Fuente: “Neural Networks. A Comprehensive Foundation”.
“Sea el conjunto de índices que representan las neuronas de entrada y sea el
conjunto de índices para el resto de las neuronas de la red. Según la red definida
35
anteriormente, el cardinal de es y el cardinal de es . Sea el
vector formado por las activaciones de las neuronas de la red en el instante de
tiempo . Se define entonces el vector como la concatenación de dichos
vectores, de manera que la coordenada de dicho vector viene dada por”:
{
(43)
Las activaciones de las neuronas de la red, vienen dadas por:
( ) (44)
“siendo la función de activación y el nivel total de activación que recibe la
neurona , es decir, la suma de los productos de las entradas a la neurona por sus
correspondiente conexiones”:
∑
(45)
“La aplicación del algoritmo de aprendizaje recurrente en tiempo real a la red definida
anteriormente consiste en ajustar los pesos de la red siguiendo la dirección negativa
del gradiente del error computado en las neuronas que actúan como salida de la red.
Debido a que la activación de una neurona de salida en un instante depende de las
activaciones de todas las neuronas de la red en el instante anterior (las dos
ecuaciones anteriores), incluida ella misma, en el cálculo de la derivada de la
neurona de salida con respecto a un peso de la red interviene también la derivada
del resto de las activaciones en el instante anterior respecto a dicho peso, es por
todo esto que el algoritmo visto en las redes Perceptrón Multicapa (algoritmo de
retropropagación) no se puede aplicar directamente a estas redes”.
36
Para conseguir el algoritmo de aprendizaje de redes recurrente en tiempo en real que
se aplica a estas redes, se desarrolla una serie de operaciones de las cuales solo se
mostrara el resultado de la operación final, es decir, el algoritmo definitivo14:
( )∑
(46)
“Y la derivada del error viene dada por”:
∑
(47)
“donde es la salida en el instante de tiempo del sistema dinámico definido
por la ecuación anterior, con valores o condiciones iniciales ”.
“Mediante este algoritmo de aprendizaje, los pesos se adaptan en cada instante de
tiempo utilizando las salidas del sistema dinámico dado anteriormente, ,
variables que serán utilizadas en el siguiente instante de tiempo . A diferencia
del algoritmo de retropropagación a través del tiempo, el algoritmo de aprendizaje
recurrente puede aplicarse en un tiempo real, pues no necesita almacenar en
memoria el estado de la red durante un intervalo de tiempo, lo cual lo hace más
eficiente”.
14
El detalle de la operación se puede encontrar en (Isasi, 2004)
37
F. Red de Hopfield
I. Aprendizaje y mecanismo de actuación de la red de Hopfield
La red de Hopfield cuenta con dos fases de operación, las cuales son:
Fase de Almacenamiento: Donde se van a determinar los valores que deben
tomar los pesos de la red para almacenar un conjunto de patrones, para esto
se usa la regla Hebb.
Fase de recuperación: describe el mecanismo para recuperar la información
almacenada a partir de información incompleta.
II. Función Energía en la Red de Hopfield
La función energía permite entender y describir el comportamiento y funcionamiento
de la red.
“Dado una red de Hopfield con neuronas y con conexiones , siendo
una matriz simétrica y con ceros en la diagonal, la función energía asociada a dicha
red viene dada por la siguiente ecuación”, en el primero sale la ecuación con signo
positivo
∑∑ ∑
(48)
La energía expresada en la ecuación anterior está limitada desde abajo, desde el
son limitados desde abajo y el y son constante. En segundo lugar es
siempre negativo (cuando cambia según las dos primeras ecuaciones nombradas
en Hopfield), por lo que la función es monótona decreciente respecto a los estado
de la red (ver ecuación de abajo). “De este modo, el punto estable de la red de
Hopfield se corresponde con un mínimo local de la función energía. De hecho, la
manera de modificar los estados de la red en la fase de recuperación (dos primeras
ecuaciones) no es más que el resultado de aplicar el método de descenso del
38
gradiente para encontrar un mínimo local de la función energía dada por la ecuación
anterior”.
(∑
)
(49)
Al igual que con la ecuación anterior a esta en el libro sale con signo negativo .
“Debido a que un mínimo local de la función energía se corresponde con un punto
estable de la red de Hopfield, todo problema de optimización que pueda escribirse en
términos de la función energía puede ser, en principio, resuelto con la red de Hopfield
asociada a dicha función”.
39
ANEXO N° 11
COGNITRÓN15
A. Funcionamiento del Cognitrón
1. Neuronas excitables
La salida de una neurona está dada por:
Sean la salida de una neurona excitatoria en la capa previa y sea la salida de
una neurona inhibidora de la capa previa. Definimos la salida de componentes de la
neurona excitatoria -esima como:
∑
∑
(50)
donde y son los pesos respectivos, los que son ajustados cuando la neurona
correspondiente es más activa que sus vecinos. La salida total de la neurona anterior
está dado por:
(51)
donde
{
(52)
de ahí que, para un pequeño
15
(Graupe, 2007)
40
(53)
Sin embargo, para y muy grandes, se tiene
(54)
Incluso más, si ambos y se incrementan linealmente con algún concreto:
(55)
Siendo y constantes, entonces:
[ (
)]
(56)
Que tiene la forma de la ley de Weber-Fechner que aproxima la respuesta de
neuronas sensoriales biológicas.
2. Neuronas inhibidoras
La salida de una neurona inhibidora está dada por:
∑
donde
∑
(57)
Siendo la salida de una célula excitable. Los pesos son previamente elegidos y
no se modifican durante el entrenamiento de la red.
41
3. Entrenamiento del Cognitrón
Los pesos de la neurona excitatoria en una estructura de Cognitrón de dos capas
son iterados por como se ve en la siguiente ecuación:
(58)
Lo anterior es cierto sólo si la neurona es la célula ganadora de la región, donde
es el peso de la entrada excitatoria a la menciona neurona excitatoria, y es el
peso de la neurona inhibitoria de esta capa, y donde representa el coeficiente de la
tasa de aprendizaje –previamente definida-.
A continuación se presenta la Figura N°A11-1, en la cual se muestra el esquema de
red Cognitrón.
Figura A11-1: Esquema de red Cognitron, una región de competición con dos neuronas en cada capa. Fuente: “Principles of Artificial Neural Networks”.
inhibitoria inhibitoria
Excitatoria (j)
excitatoria(k)
excitatoria(h)
Excitatoria (i)
j
k
i
h
LI
LI
yj
aji
cj
ck
aki
v
bi
yi
gi
gh
yh
𝜆
𝜆
𝜙𝑖
𝜙ℎ
Capa I [L1] Capa II [L2]
42
ANEXO N° 12
MAPAS AUTO-ORGANIZADOS Y CRECIENTES16
A. Mapas Auto-Organizados de Kohonen
1. Mecanismo de control lateral
Un gran número de científicos tiene el convencimiento que los mejores resultados de
las auto-organizadas son obtenidas sí los dos siguientes procesos parciales son
implementados en sus formas puras:
1. Decodificado de , denotado por (“ganador”) que tiene la mejor
combinación con .
2. La mejora de adaptación de la combinación en el vecindario del centro de las
neuronas alrededor del “ganador”.
La operación anterior es conocida como la función ganador toma todo17 (GTT).
Tradicionalmente, la función GTT ha sido implementada en redes neuronales por
circuitos laterales-retroalimentados. El siguiente tipo de control del vecindario, sin
embargo, como se presenta en Kohonen, representa una nueva dirección en el
modelamiento neuronal: El “ganador” modula la sinapsis plástica directamente en la
dirección lateral. Por consiguiente, para el modelamiento del proceso fisiológico de la
MAO necesitamos definir dos separadas interacciones de núcleos18:
La activación del núcleo, usualmente llamado función del “Sombrero
Mexicano” y que se muestra en la Figura N°A12-1.
16
(Kohonen, 2001) (Marsland, Shapiro, & Nehmzow, 2002) 17
En inglés Winner Takes All (WTA). 18
En inglés Kernels.
43
La plasticidad del control del núcleo el cual define como la actividad local
determina la tasa de aprendizaje en su vecindario.
Figura A12-1: Función del Sombrero Mexicano. Fuente: “Self Organizing Maps”.
2. Función GTT, basada en control de actividad lateral
Considere la Figura N°A12-2 siguiente, donde la red neuronal tiene dos capas y en
donde cada neurona principal recibe entradas de alguna fuente externa, y las
neuronas son interconectados por la abundante retroalimentación lateral.
Figura A12-2: Modelo simplificado de una red neuronal distribuida. Fuente: “Self Organizing Maps”.
44
La actividad de salida (picos de frecuencia) de cada neurona en la red es descrita
por la ley de la forma general:
(59)
donde , es el efecto combinado de todas las entradas, por ejemplo, entradas
aferentes así como retroalimentaciones laterales, en la neurona incrustado en la
capa de la red. describe todas los efectos de pérdidas o escapes que se
oponen a . Este es una forma abreviada de escribir: Desde , sólo se mantiene
cuando , o cuando y , mientras que lo contrario es
.
Para la neurona principal la entrada consiste de dos partes e
,
respectivamente:
, donde el superíndice significa entrada “externa” o
aferente, y la retroalimentación lateral, respectivamente. En el caso más simple
estos términos se leen:
∑
∑
(60)
Aquí supone el vector de datos de entrada aferente, mientras
que es redefinido para ser el correspondiente vector de
pesos sinápticos de la neurona . El describe la eficaz fuerza de las
conexiones laterales de las neuronas. Para simplificar, este supone que es
independiente de , y , son mutuamente iguales.
Todo esto se parte con no negativos arbitrarios, con diferentes valores iniciales
y con , la salida de la neurona para la que es el máximo (“ganador”)
puede ser mostrada para converger a un valor alto asintótico, mientras que el otro
, tiende a cero. Esta convergencia es muy robusta.
45
El circuito GTT puede operar en ciclos, donde cada ciclo puede ser pensado para
corresponder a una fase discreta de tiempo del algoritmo MAO. Normalmente, la
entrada sería cargada en cada nuevo ciclo; sin embargo, si la entrada es fijada por
un largo tiempo, el próximo ciclo selecciona al “subcampeón”, después que el
ganador es elegido de nuevo, entre otras.
Este ejemplo de ciclo de operación de la GTT es ilustrado en la Figura N°A12-3
siguiente:
Figura A12-3: Demostración de la función GTT. Fuente: “Self Organizing Maps”.
Las primeras entradas fueron aplicadas en el tiempo cero. Las nuevas entradas
fueron aplicadas como indica las flechas punteadas. La red consiste de 20 neuronas,
y las entradas
fueron seleccionadas como números al azar del intervalo
(0,1). Los eran iguales a 0,5 y el , , igual a -2,0, respectivamente. La
función pérdida tenía la forma
; otra simple ley que puede ser usada.
Los parámetros de retroalimentación fueron . La operación de la
red es la siguiente: El primer “ganador” es la neurona que recibe la mayor entrada; su
46
primera respuesta se estabilizara a un valor alto, mientras las otras salidas tienden a
cero. Cuando la actividad del “ganador” es temporalmente deprimida por la dinámica
de la retroalimentación, las otras neuronas continúan compitiendo.
Hay que destacar que cuando se está compitiendo ”todas las neuronas trataran de
impedir que las demás tengan un valor de activación alto, gracias a las conexiones
inhibitorias con todas sus vecinas; a la vez que intentaran tener ellas mismas un
valor de activación alto, gracias a las conexiones reflexivas excitatorias”. Todo esto
ocurre en la segunda capa que es la de competición.
El algoritmo que describe el funcionamiento de la red es el siguiente:
1. Se recibe el estímulo en la capa de entrada.
2. Se propaga la señala hasta la capa de competición y se calcula el valor de
excitación para cada neurona de la capa de competición.
3. Se inhiben las conexiones entre la capa de entrada y la capa de competición.
Se propaga la señal por la capa de competición, calculándose los nuevos
valores de excitación de las neuronas. Cuando sólo haya una neurona
(neurona ganadora) con un valor de salida mayor que cero, ir a paso 5.
4. Ir a paso 3.
5. Restablecer las conexiones entre las capas de entrada y competición. Calcular
los nuevos valores para los pesos de las conexiones entre las capa de entrada
y la neurona ganadora en el paso 3.
3. Selección Automática de dimensiones características
En los procesos de auto-organización existen dos tendencias opositoras. La primera
es que el conjunto de los vectores de pesos tiende a describir la función densidad de
los vectores de entrada. Y la segunda, es que las interacciones locales entre las
unidades de procesamiento tienden a preservar la continuidad en la doble secuencia
de vectores de pesos (dos dimensiones). El resultado de estas fuerzas opositoras es
que la distribución del vector referencia, tiende a aproximarse a una hipersuperficie
47
suavizada. También busca una óptima orientación y una forma en el espacio de
patrones que mejor imite la estructura general de la densidad del vector de entrada
(Kohonen, 2001).
Un detalle muy importante sobre la distribución del vector de referencia es que este
automáticamente tiende a encontrar esas dos dimensiones del espacio de patrones,
donde los vectores de entrada tienen una alta varianza y que, en consecuencia,
debería ser descrita en el mapa.
Para expresar de mejor forma de que se trata todo esto, se dará un ejemplo.
Primero, supongamos que el sistema consiste de sólo cinco neuronas conectadas
como un arreglo lineal abierto-cerrado. Sus vectores de referencia
y los componentes de los vectores de entrada . La varianza
de y son ahora seleccionados diferentemente, siempre y cuando una de las
varianzas sea significativamente alta, los vectores pesos forman una casi línea recta
que está alineada en la dirección de la mayor varianza.
Por otro lado, si la varianza es casi igual, o si el largo del arreglo es mucho mayor
que el rango de interacción lateral, la forma recta de la distribución es cambiado en
una “curva peano”. La transición de línea recta a línea curva es bastante fuerte. Aquí
las varianzas son arregladas pero el largo del arreglo es variado.
Otra cosa a tener en cuenta que puede suceder cuando los vectores de entrada
tienen una alta dimensionalidad es la topología de la red. Siempre y cuando la
varianza en la tercera dimensión ( ) sea lo suficientemente pequeña, el mapa se
mantendrá recta. Sin embargo, con el aumento de la varianza y el corto rango de
interacción lateral, el mapa tiende a convertirse en corrugado, y en esta conexión
debería notar las “rayas de cebra” que han sido encontrados en los mapas del
cerebro experimental. Aquí las rayas tienen una muy simple y natural explicación,
concretamente, ellos ocurren siempre que un mapa bidimensional intente
aproximarse a una distribución de señales de alta dimensionalidad que tiene una
importante variancia más que en el de dos dimensiones.
48
B. Método de Aprendizaje Vector de Cuantización
1. AVC1
Suponer que varios de los vectores códigos son asignados a cada clase de los
valores de , y ; es entonces determinada a pertenecer a la misma clase que el más
cercano pertenece. Sea;
‖ ‖ (61)
donde se define el índice del más cercano a .
Notar que , el índice del “ganador”, depende en y todos los . Si es una
variable vectorial de valor continuo, estocástico y natural, no necesitamos considerar
múltiples mínimos; la probabilidad para:
‖ ‖ ‖ ‖ (62)
Sea una muestra de entrada y sea lo que representa valores secuenciales
del en el dominio de tiempos discreto, los valores para en la
ecuación anterior, minimiza aproximadamente la tasa de errores de clasificación que
son encontrados como valores asintóticos en los siguientes procesos de aprendizaje.
Empieza con valores iniciales correctamente definidos, la siguiente ecuación define
el proceso básico Aprendizaje de Vector de Cuantización; este particular algoritmo es
llamado AVC1.
(63)
Aquí , y que es la tasa de aprendizaje.
49
2. AVC2
La decisión de clasificación en este algoritmo es idéntica con la del AVC1. En el
aprendizaje, sin embargo, dos vectores códigos y que son los vecinos más
cercanos a son actualizados simultáneamente. Uno de ellos debe pertenecer a la
clase correcta y el otro a una clase errónea, respectivamente. Además, debe caer
en una zona de valores denominado “ventana” que es definido en todo el plano
medio de y . Suponiendo que y son distancia Euclidianas de de y ,
respectivamente; entonces es definido a caer en una “ventana” de ancho relativo
sí:
(
)
(64)
Un ancho relativo de ventana de 0,2 a 0,3 es recomendado. La versión de AVC2
llamado AVC2.1, se muestra a continuación y es una mejora del original algoritmo
AVC2 para , mientras que en el original AVC2 tenía que ser el más cercano.
El algoritmo AVC2.1 es el siguiente:
[ ]
(65)
Donde y son los dos vectores códigos más cercano a , a través del cual y
pertenecen a la misma clase, mientras y pertenecen a diferentes clases,
respectivamente. Además debe caer en la ventana.
3. AVC3
El algoritmo AVC2 fue basado en la idea de cambiar diferencialmente los bordes de
decisión hacia los limites Bayesianos, no se prestaba atención que podría suceder a
la ubicación de la en el largo plazo si este proceso continuaba. Por lo tanto parece
50
necesario introducir correcciones que aseguren que el continua la aproximación
de las distribuciones de clase. O más exactamente, la de AVC1, por lo menos
aproximadamente. Combinando las ideas antes mencionada, podemos obtener una
mejora del algoritmo de decisión óptima que puede ser llamado AVC3:
[ ]
(66)
Donde y son los dos más cercanos vectores códigos a , a través del cual y
pertenecen a la misma clase, mientras y pertenecen a diferentes clases,
respectivamente; además debe caer en la “Ventana”.
(67)
Para , si , , y pertenecen a la misma clase.
En una serie de experimentos, valores aplicables de entre 0,1 y 0,5 fueron
encontrados, que se relacionan a o . El valor óptimo de parece depender
en el tamaño de la ventana, siendo más pequeña para ventanas angostas. Este
algoritmo parece ser auto-estabilizante, por ejemplo, el posicionamiento óptimo de
no cambia en el aprendizaje continuo.
4. La Tasa de Aprendizaje Optimizado del AVC1 (AVCO1)
El algoritmo AVC1 básico ahora será modificado de tal manera que un factor de tasa
de aprendizaje individual es asignado a cada , a través del cual obtenemos el
siguiente proceso de aprendizaje. Sea definido en este punto entonces asumimos
que:
(68)
51
El problema es si el puede ser determinado óptimamente, para una más rápida
convergencia de las ecuaciones antes dichas. Expresamos a la ecuación anterior en
la siguiente forma:
(69)
donde si la clasificación es correcta, y si la clasificación es
errónea. Puede ser obvio que la exactitud estadística de los valores aprendido por
los vectores código es aproximadamente óptima si todas las muestras han sido
usados con igual peso, es decir, si los efectos de la corrección hecha en diferentes
tiempos, cuando se hace referencia a el fin del período de aprendizaje, son de
aproximadamente de igual magnitud. Cabe señalar que contiene un traza
de a través del último término en la ecuación anterior, y las trazas de la
anteriores , a través de . En un paso del aprendizaje, la
magnitud de la última traza de es reducido por el factor , y, por ejemplo,
durante el mismo paso la traza de ha llegado a ser reducido por
. Ahora, lo primero que se estipula es que estas dos escalas
deben ser idénticas:
(70)
Si esta condición es hecha para mantener a todos los , por inducción este puede
demostrar que la traza recopilada hasta el tiempo de todas las anteriores será
reducida por una cantidad igual al final, y además el valor óptimo de es
determinado por la recursión.
(71)
52
5. Consideraciones Generales
En el algoritmo AVC, el vector de cuantización no es usado para aproximar las
funciones densidad de la clase de muestra, sino que define directamente los bordes
de clase de acuerdo a la regla de vecino más cercano. La exactitud alcanzable en
cualquier tarea de clasificación para cual los algoritmos AVC son aplicados y el
tiempo necesario para el aprendizaje depende de los siguientes factores:
Un número aproximadamente óptimo de vectores códigos asignados a cada
clase y sus valores iniciales.
El algoritmo detallado, una apropiada tasa de aprendizaje aplicada durante los
pasos, y un apropiado criterio para la detención del aprendizaje.
6. Inicialización de los Vectores Códigos
Desde los bordes de clase, son representados por tramos linealmente por segmentos
de planos medios entre vectores códigos de clases vecinas (un subconjunto de
bordes del Mosaico de Voronoi). Esto puede parecer ser una apropiada estrategia
para una aproximación óptima de los bordes, que la distancia promedio entre los
vectores códigos adyacentes (que depende de sus números por clase) debería ser la
misma en ambos lados de los bordes. Entonces, al menos si las distribuciones de
clases son simétricas, esto significa que el promedio de las distancias más cortas de
los vectores códigos (o alternativamente, las medianas de las distancias más cortas)
debería ser la misma en todos lados en todas las clases. Porque, debido a formas
desconocidas de las distribuciones de clase, la ubicación final de los vectores
códigos no es conocida hasta el fin del proceso de aprendizaje, sus distancias y
además sus números óptimos no pueden ser determinados antes de eso. Este tipo
de asignación de los vectores códigos para las varias clases debe por lo tanto ser
hecho iteradamente.
En muchas aplicaciones prácticas tales como reconocimiento del habla, incluso
cuando la probabilidad a priori de las muestras cae en diferentes clases son muy
53
diferentes, una muy buena estrategia es así para empezar con el mismo número de
vectores códigos en cada clase. Un límite superior para el total de números de
vectores código se establece por el tiempo de reconocimiento restringido y potencia
de cálculo disponible.
Para una buena aproximación lineal de los bordes, las medianas de las distancias
más cortas entre los vectores código también podrían ser seleccionadas un poco
más pequeñas que las desviaciones estándar de la muestra de entrada en todas las
clases respectivas. Se puede utilizar este criterio para determinar el número mínimo
de vectores código por clase.
Una vez que los números tentativos de los vectores códigos para cada clase han
sido establecidos para sus valores iniciales, se pueden utilizar las primeras muestras
de datos reales de entrenamiento obtenidos desde las clases respectivas. Puesto
que los vectores códigos deberían siempre permanecer dentro de los dominios de su
clase respectiva, también para los valores iniciales mencionados anteriormente sólo
puede aceptar muestras que no están mal clasificados. En otras palabras, una
muestra es primero clasificada tentativamente en contra de todas las otras muestras
en el conjunto de entrenamiento, por ejemplo por el método de la vecino más
cercano K19, y aceptada para un posible valor inicial sólo si esta clasificación
tentativa es la misma que el identificador de clase de la muestra.
7. Inicialización del MAO
Si la distribución de clase tiene varios picos, este puede ser difícil de distribuir los
valores iniciales de los vectores códigos de todos los modos. Después que las
unidades de mapa son etiquetadas según los símbolos de clase mediante la
aplicación de muestras de entrenamiento una vez más, toma sus etiquetas en
cuentas como en la calibración del MAO.
19
En inglés K-Nearest Neighbour (KNN).
54
La etiqueta del MAO es entonces ajustado por los algoritmos AVC para aproximarse
a la precisión de la clasificación Bayesiana.
8. Aprendizaje
Se recomienda que el aprendizaje siempre sea comenzado con el algoritmo AVC1
optimizado (AVCO1), que converge muy rápido; su exactitud de reconocimiento
asintótico será lograda después de un número de pasos de aprendizaje que es
alrededor de 30 a 50 veces el total de números de vectores código. Después de esta
primera fase, otros algoritmos pueden continuar con este proceso desde los valores
de vectores códigos obtenidos.
A menudo la fase de aprendizaje del AVCO1 sola puede ser suficiente para
aplicaciones prácticas, especialmente si el tiempo de aprendizaje es crítico. Sin
embargo, en un intento de mejorar la precisión de reconocimiento, se puede
continuar con alguno de los algoritmos básicos (AVC1, el AVC2.1, o el AVC3),
usando un valor inicial bajo en la tasa de aprendizaje, que es el mismo para todas las
clases.
9. Regla de Detención
A menudo sucede que los algoritmos de las redes neuronales “sobre aprenden”, por
ejemplo, si se alternan las fases de aprendizaje y testeo, la exactitud de
reconocimiento mejora hasta que se alcanza un óptimo. Después de eso, cuando el
aprendizaje es continuado, la exactitud empieza a decrecer lentamente. Una posible
explicación de este efecto, es que cuando los vectores códigos están muy
específicamente sintonizados para el dato de entrenamiento, la habilidad del
algoritmo para generalizar nuevos datos es afectada. Es, por lo tanto, necesario
parar el proceso de aprendizaje después de algún número óptimo de pasos, es decir,
unas 50 a 200 veces del número total de vectores códigos. Tal regla de detención
sólo puede ser encontrada por la experiencia, y porlos dato de entrada.
55
Cabe recordar que el algoritmo AVCO1 puede generalmente ser parado después de
un número de pasos que es de 30 a 50 veces el número de vectores códigos.
C. Teoría del MAO Básica
1. Ordenar con Dato Discreto
En un caso especial, el promedio esperado de la medida de distorsión puede ser una
función potencial, incluso en un caso de alta dimensión. Concretamente, cuando la
entrada puede sólo tomar unos valores de un conjunto discreto finito. En este caso,
no hay muestras en los bordes del mosaico Voronoi, a través del cual los conjuntos
de Voronoi de muestras no son modificados debido al cambio de los bordes en
diferenciación con respecto al . Este hecho se hizo posible por Ritter, que recurrió
al método de la gradiente descendiente para probar la convergencia en este caso
especial, y entonces se aplica el método para el problema de Vendedor viajero20,
donde la Función Densidad de Probabilidad de entrada es de valor discreto.
2. En la definición del orden
El concepto de orden es trivial en el caso de una dimensión; con lo cual, este es
también posible para definir una función objetivo para ello. Suponer un conjunto de
números escalares Entonces:
∑| | | |
(72)
Es mínimo (cero) sí y solo sí el son numéricamente ordenados en una secuencia
ascendente o descendente. Tal orden puede ser logrado en un proceso auto
organizado, en que la entrada es de una dimensión, y el corresponde a un
20
Este problema consiste en realizar un recorrido para un vendedor viajero, el cual debe visitar ciudades, y debe regresar a la ciudad de la cual partió, de forma que recorra la menor distancia posible.
56
escalar . De ese modo, los parámetros de la red escalar están asociados con un
arreglo lineal de nodos. El estado con es entonces un estado absorbente en el
sentido que una vez alcanzado, esta condición no es cambiada en el proceso de
aprendizaje de cualquier elección posterior a la entrada externa. En dimensiones
generales, sin embargo, especialmente si la dimensionalidad del vector de entrada
es más alta que la del arreglo de nodos con que los vectores de parámetros son
asociados, la existencia de un estado absorbente parece poco probable. En un
trabajo minucioso durante los últimos años, con muchas sugerencias para la función
objetivo , algunos contraejemplos han siempre sido encontrados, que contradicen la
existencia de un estado absorbente en el caso general.
También debe tenerse en cuenta que el orden resultante en el Mapa Auto
Organizado siempre refleja propiedades de la función densidad de probabilidad .
Por lo tanto, parece al menos por el momento, que el orden debiera ser definido en
términos de la condición de minimalidad de la media de una función de error
propiamente definida. Entonces, en casos especiales, por ejemplo cuando las
dimensionalidades del espacio de señal y el arreglo son iguales, un orden en los
valores de parámetros vectoriales que eventualmente cumple con los arreglos
geométricos de los nodos, es entonces sólo una condición necesaria para el mínimo
global del error funcional.
Sin embargo, sería deseable para relacionar el orden topológico del espacio de
entrada de dimensional arbitraria para las relaciones del vecindario en una cuadrícula
de baja dimensionalidad.
La definición de la calidad de un MAO debe entonces tomar en cuenta ambas: El
error promedio esperado de cuantización, así como también los errores topológicos,
por ejemplo, violación de las relaciones del vecindario en la cuadrícula.
57
3. Recapitulación de los intentos de ordenar y pruebas de convergencia
Para acercarse a estos problemas, las siguientes herramientas matemáticas están
disponibles.
Primero, se podría tratar de las pruebas constructivas. Esto significaría que los
valores generados por el algoritmo de MAO son enlistadas, y las posibles
transiciones entre ellas son analizados. Las pruebas constructivas arrojan
resultados deterministas, pero este método es sólo factible para bajas
dimensionalidades.
Segundo, se podría tratar de aplicar resultados conocidos de la teoría de
procesos de Markov, y el algoritmo de MAO define un proceso especial de
Markov. Los principales problemas son los no lineales (MAO es un proceso de
decisión), condiciones de limites estructurados en los bordes del arreglo, y en
el caso general, de dimensionalidad muy alta.
Tercero, algunas técnicas de computación desarrollada en la física estadística,
especialmente mecanismos estadísticos podrían ser utilizados.
Cuarto, la teoría de matemática de errores puede formar una base para
algunas versiones del MAO.
Quinto, resultados de la Teoría de Sistemas podrían aplicarse para algunos
problemas parciales, tales como pruebas de convergencia. Esto ha sido
mostrado, por ejemplo, que el algoritmo básico de MAO no es exactamente
derivable de una función energía. Notar que contiene el índice de la
ganadora, que es una función de y todos los . Una función energía sería
diferenciable con respecto al sólo dentro del poliendro de Voronoi, no en
los bordes del mosaico, que son cambiados cuando los son cambiados.
Sexto, el método de aproximación estocástica de Robbins y Monro, han sido
usadas para la descripción de un proceso auto organizados, y para la
definición genérica de una clase de los algoritmos de MAO. Existe una
generalización de aproximación estocástica llamada el algoritmo de Dvoretzky.
58
D. Crece Cuando se Requiere
1. Medidas de desempeño de la red
Notación
Una red A comprende N nodos y recibe muestras de entradas de múltiples datos
. Todos los nodos en A tienen un vector de peso sináptico . La
representación de M formado en A es definida por el mapeo , el
mapeo de M a A y sus inversas, están definidas por:
{
(73)
donde es la unidad de mapa con el vector de peso más cercano a . Una
matriz de conexión es definida en la red asignando no ceros a las entradas de la
matriz entre los nodos que están conectados en la red, es decir:
{
(74)
Medida de Preservación de vecindario.
La preservación de relaciones de vecindario (también conocidas como preservación
topológica) es una muy útil propiedad de las mapas auto-organizados y que ha
atraído un gran interés.
En términos generales, un mapeo preserva las relaciones de vecindario si puntos
cercanos en el espacio de entrada permanecen cerca en el espacio del mapa. Este
ha sido formalizado por Thomas Martinetz, a través de la definición del mapa de la
topología perfectamente preservada. Un mapeo entre múltiples entradas y la red
preserva perfectamente la topología, sí y sólo sí, conectados los nodos , que están
adyacentes en tienen vectores de peso , adyacentes en .
59
En general, una red puede sólo realizar un mapeo perfecto de preservación de la
topología, si la dimensionalidad del espacio de mapa refleja la dimensionalidad (o al
menos, la dimensionalidad intrínseca) del espacio de entrada. Esto se ve demostrado
en la Figura N°23. En la parte de abajo de la figura, tres diferentes múltiples formas
cuadradas son mostradas. Sólo en la figura (b), donde la dimensionalidad del
espacio de mapa y el espacio de entrada son las mismas, donde un mapa con la
topología perfectamente preservada es generado entre y . Por esta razón, para
que una red preserve perfectamente la topología es necesario que la red evolucione
para reflejar la dimensionalidad del conjunto de datos, o tiene este ajuste de la
dimensionalidad.
Figura A12-4: Redes A de tres diferentes dimensionalidades. Fuente: “A self-organising network that grows when required”.
La pregunta de cómo la preservación de la topología puede ser medida ha recibido
mucha atención. Varios autores han descrito formas de cuantificar la preservación de
vecindario. Este puede ser dividido en dos categorías: medidas de similitud y
medidas de ordenamiento de similitud. En la primera clase son las medidas que
evalúan la similitud de pares de puntos antes y después del mapeo de vecindario, y
requiere que las dos medidas de similitud sean al menos correlacionadas, mientras
que en la segunda clase sólo se requiere que el ordenamiento relativo de las
60
similitudes sea preservada. Una útil reseña es dada por Geoffrey Goodhill y Terrance
Sejnowski (1997). Dos interesantes medidas son la medida C, que requiere que las
medidas de similitud simétrica sean definidas, ambas formas entre el espacio de
entrada y el espacio de mapa , por lo general como las distancias Euclidianas, y
el producto topográfico , que evalúa la preservación del vecindario mediante el
cálculo de la distancia entre vecinos en el espacio del mapa y el espacio de entrada.
Sin embargo, la más útil medida que ha sido propuesta, porque puede tratar con
múltiples datos no lineales, es la función topográfica.
Función Topográfica
El producto topográfico es limitado a los múltiples datos lineales, como las relaciones
de vecindario son medidas usando la métrica Euclidianas dentro del espacio de
incrustación de los vectores peso. Una forma de evitar este problema es propuesto
por la función topográfica, que evalúa la preservación de la topología del mapeo del
MAO toma la estructura de los múltiples datos en cuenta usando la triangulación
Delaunay inducida en el por el mapeo. La preservación del vecindario de los mapeos
y son denotadas por y , respectivamente, con siendo el
índice del nodo en el mapa y . La función topográfica de mapa
es entonces definido por:
{
∑
∑
(75)
sí y sólo sí el mapa preserva perfectamente la topología.
La pregunta es entonces, cómo calcular las funciones de preservación de vecindario
y . La aproximación básica es el uso de la triangulación Delaunay
61
inducida, que es, el gráfico de puntos de conexión con los adyacentes poliedros de
Voronoi. En la forma dada por Thomas Martinetz y Klaus Schulten la función
topográfica es sólo específica para entramados rectangulares. Esto significa que
ellos no son aplicables para la red CCR y otras redes donde la estructura de la red
no está de esta forma. Para la función topográfica el problema es en la medición de
y . Una descripción de cómo estas mediciones pueden ser hechas de
forma más general es dada por Thomas Villmann (1997).
La estructura de es definida por el gráfico de conectividad que es generado por
la regla Hebbiana de competitividad. Una topología discreta puede ser inducida en
este espacio usando la gráfica de métricas en , donde es con el nodo
toma como la raíz. Una segunda topología discreta puede ser inducida en
considerando el grafico de métrica del grafico Delaunay, , de nuevo con el nodo
toma como la raíz. Estas dos topologías son referidas como y
,
respectivamente.
Una topología de vecindario también necesita ser inducida en múltiples datos , o al
menos que el subconjunto de este | . Mediante la generación el
diagrama de Voronoi de usando y la construcción del gráfico de doble
Delaunay de este , la topología (etiquetado ) es inducido.
Así que, tres espacio topológicos discretos han sido creados, dos en
y , y uno en , ( , ). El mapa puede entonces
ser definidos como la preservación de la topología si el mapa y son
ambos mapeos continuos para todo los nodos , en sus respectivos espacios
topológicos.
( )
( )
(76)
62
Usando estas relaciones, formas generales para (que mide la continuidad y por
consiguiente la preservación de vecindario de ) y (que es lo mismo para
) puede ser derivado, y son dadas a continuación:
{ |
}
{ |
}
(77)
donde es la cardinalidad del conjunto, y es la
métrica de la distancia sobre la base de cada una de las topologías. Estas
mediciones pueden ser entonces usadas en la ecuación (98) y la preservación
de la topología del mapeo aprendido por la red CCR medida.
Evaluar la función topográfica es una tarea computacionalmente costosa. Como la
triangulación Delaunay tiene que ser calculada, entonces el gráfico de conexiones
entre los puntos de datos tiene que ser creada y buscado.
2. Más Mediciones de Rendimiento
A continuación se señalan dos medidas de costos complementarios, las cuales
tienen como objetivo evaluar del mapeo entre el espacio de entrada y espacio del
mapa generado por el algoritmo. Cualquier número de medidas de costo que evalúa
las propiedades deseadas pueden ser generadas, estos particulares fueron elegidos
por su simplicidad.
Las dos medidas representan una compensación entre una red compleja con
muchos nodos que representan a todas las posibles entradas con gran precisión y de
una red eficiente y bien generalizada.
63
La red debería ser tan parsimoniosa como sea posible, significa que la longitud de
los bordes debería ser corta y el número de nodos pequeños, pero igualmente la red
de nodos modelara los datos de manera mucho más precisa, así que la distancia
entre una entrada del nodo que mejor representan a este debería ser pequeño. Las
medidas de costos evalúan cada uno de estos objetivos separadamente. La primera
medida, , dada en la ecuación (78) penaliza a la red por las conexiones de
vecindarios entre los nodos que son ubicados muy separados en el gráfico:
∑∑
(78)
donde la suma es sobre todo los nodos de la red, y es la matriz de conexión
definida anteriormente en la ecuación (97). ‖ ‖ , la distancia
Euclediana. La segunda medida, , es dada por la ecuación (102), muestra cómo
los objetivos de la red para minimizar la distancia entre cada punto de dato y el
nodo que mejor representa a este, :
∑∑
(79)
donde la primera suma es sobre cada elemento del conjunto de datos, y
( )
( )
(80)
En el límite , esto se reduce a el ganador se lleva todo21. Con esta
implementación del ganador se lleva todo, la medida sería optimizada por el
algoritmo de agrupamiento -medias.
21
Winner Takes All.
64
La medida sería minimizada si la red no tuviera ninguna conexión en absoluto,
mientras sería minimizado si hubiera un nodo para todos los patrones de entrada.
Es en la minimización simultánea de las dos medidas que un buen mapeo es
producido. Como el número de nodos en la red es variable y el patrón de
conectividad es sin restricciones, es difícil, si no imposible, encontrar criterios de las
que no pueden ser trivialmente optimizados (eso es, una red con un nodo en todas
las entradas y sin conexiones entre los nodos) para el crecimiento de las redes. En
ausencia de un modelo de probabilidad, alguna heurística es requerida para evitar
esta solución trivial.
65
ANEXO N°13
DIAGRAMAS DE DISPERSIÓN
A. VARIABLES SIN TRATAMIENTO
Se realiza en esta sección el estudio de las relaciones lineales entre las distintas
variables, para lo cual se utiliza el diagrama de dispersión para ver si existía o no
una relación lineal, esto fue realizado para cada una de las parejas de variables
posibles. A continuación se expondrá cada uno de los gráficos (Figura N°A13-1 a
la Figura N°A13-4), junto con su coeficiente de determinación.
En el gráfico de la Figura N° A13-1 se aprecia que la dispersión de los puntos está
concentrada entre 0 y 200, pero de forma dispersa (correlación muy débil);
además se puede apreciar que tiende a ser negativa la poca correlación que
existe, ya que la cantidad de reservas disminuye cuando el valor del dólar sube.
Los puntos que están muy separados corresponden a aquellos casos atípicos, por
ejemplo, cuando la cantidad de reservas es alta aun cuando el valor del dólar es
alto.
66
Figura A13-1: Diagramas de Dispersión para las variables Cantidad de Reservas-Dólar Observado. Fuente: “Elaboración propia”.
Figura A13-2: Diagramas de Dispersión para las variables N° Pasajeros-Dólar Observado. Fuente: “Elaboración propia”.
El gráfico de la Figura N° A13-1 es muy parecido a la de la Figura N° A13-2, tiene
una correlación muy débil y negativa, esto debido a que a un mayor valor del dólar
67
habrá menor cantidad de pasajeros. Existen valores atípicos, pero la mayoría de
los puntos están entre un rango de 0 - 400 pasajeros y entre 450 - 550 dólares, lo
que muestra cierta tendencia.
Figura A13-3: Diagramas de Dispersión para las variables Cantidad de Reservas-Fecha de Reserva. Fuente: “Elaboración propia”.
El gráfico de la Figura N° A13-3 muestra una correlación muy débil ( ), con una
tendencia positiva, esto debido a que en esas fechas la economía (por lo menos
en el dólar como se mostró antes), era más favorable para el aumento de la
cantidad de las reservas.
68
Figura A13-4: Diagramas de Dispersión para las variables N° Pasajeros-Fecha de Reserva. Fuente: “Elaboración propia”.
El gráfico de la Figura N° A13-4 tiene, al igual que la mayoría de los gráficos, una
correlación muy débil (casi inexistente), con una tendencia positiva. Como en los
demás casos, tiene valores atípicos que escapan de lo común. Esto es parecido al
anterior, debido a la situación económica (baja del dólar entre otros factores) que
favoreció al incremento del número de pasajeros.
En resumen, al analizar cada uno de los gráficos antes descritos, se concluye que
el gráfico de Cantidad de Reservas-N° Pasajeros tiene una relación lineal, ya que
al observar el gráfico y su respectivo coeficiente de determinación (R2=0,955) se
aprecia la relación lineal entre las dos variables de esta. Con respecto a las demás
se concluye que tanto Cantidad de Reservas-Fecha de Reserva, N° Pasajeros-
Fecha de Reserva, N° Pasajeros-Dólar Observado y Cantidad de Reservas-Dólar
Observado no tienen una relación lineal, o sea, tienen una independencia lineal,
todo esto respaldado por los R2 que van entre 0,06 al 0,08. se encuentra por
debajo del límite aceptable, por ende, se consideró a esta como
independientemente lineal.
69
B. VARIABLES NORMALIZADAS
El próximo paso fue el estudio de la relación lineal entre las variables, que al igual
que en el punto anterior, se hizo con el Diagrama de Dispersión y con el
Coeficiente de Determinación para ver si tenían o no este tipo de relación entre
ellas. Como se observa en los gráficos siguientes, se mantiene la única relación
lineal que es entre Cantidad de Reservas - N° Pasajeros que tiene además un R2
de 0,977, las demás parejas de variables son todas independientemente lineales,
debido a que no forman una relación lineal visible en el gráfico y porque también
sus R2 están entre 0,05 a 0,07, y a su vez Dólar observado - Fecha de Reserva
tampoco logra tener una relación lineal y se ve reflejado en su R2 que es de
0,513; con lo cual se confirma que estas variables normalizadas se mantienen de
forma muy parecida a las originales (ver Figura N°A13-5 a la Figura N°A13-8).
Figura A13-5: Diagramas de Dispersión para las variables normalizadas Cantidad de Reservas-Fecha de Reserva. Fuente: “Elaboración propia”.
En el gráfico de la Figura N° A13-5 se puede observar que hay una baja
correlación ( ), donde sus puntos están muy dispersos sin una aparente
tendencia, la cual sólo puede ser apreciada gracias a la línea de tendencia
proyectada, y que muestra que es una correlación positiva, como lo era en el caso
sin normalizar, debido a los factores explicados anteriormente. También cabe decir
70
que, al normalizar se produce un cambio en la escala y en la forma en que los
puntos se distribuyen dentro del gráfico.
El gráfico de la Figura N° A13-6 muestra una concentración de los puntos en un
determinado sector del diagrama (casi en el centro de éste). Al igual que con sus
variables sin normalizar, se ve una correlación muy débil y negativa, lo que
reafirma lo anterior.
Figura A13-6: Diagramas de Dispersión para las variables normalizadas Cantidad de Reservas-Dólar Observado. Fuente: “Elaboración propia”.
71
Figura A13-7: Diagramas de Dispersión para las variables normalizadas N° Pasajeros-Dólar Observado. Fuente: “Elaboración propia”.
El gráfico de la Figura N° A13-7 es muy parecido al anterior, ya que se concentran
los puntos en un sector en particular del diagrama (central), además tiene varios
valores lejanos a la línea de tendencia, por último se aprecia la misma tendencia
que las variables sin normalizar.
Figura A13-8: Diagramas de Dispersión para las variables normalizadas N°Pasajeros-Fecha de Reserva. Fuente: “Elaboración propia”.
72
El gráfico de la Figura N° A13-8, al igual que con el primer gráfico, no muestra una
tendencia visible, revelando una concentración de los puntos en la parte final del
diagrama. Como en todos los caso se ratifica la tendencia que se manifiesta con
las variables sin normalizar.
No se efectuo para ninguno de los casos el análisis entre las variables Dólar-
Fecha de Reserva ya que es conocida la inexistencia de una relacion lineal entre
ambas.
73
ANEXO N°14
MÉTODOS TRADICIONALES
A continuación se encuentra el link para acceder al archivo Excel que contiene los
valores y cálculos utilizados al desarrollar los métodos tradicionales de pronóstico.
Anexo 14 Metodos tradicionales.xlsx22
ANEXO N°15
PERCEPTRÓN FINAL
El archivo que sigue a este párrafo contiene los resúmenes de los valores
pronosticados, así como las operaciones a las que se sometieron estos para la
arquitectura basada en Perceptrón Multicapa, además contiene un vocabulario de las
siglas utilizadas.
Anexo 15 Perceptron Final.xlsx23
ANEXO N°16
CRECE CUANDO SE REQUIERE FINAL
El archivo que sigue a continuación posee la información relativa a la arquitectura de
redes Crece Cuando se Requiere, los valores pronosticados, cálculos de errores, el
resumen de los resultados y un vocabulario donde se explican las siglas utilizadas.
Anexo 16 GWR Final.xlsx24
22
Enlace disponible sólo en la versión digital. 23
Enlace disponible sólo en la versión digital. 24
Enlace disponible en la versión digital.
74
ANEXO N°17
MAPAS AUTO-ORGANIZADOS FINAL
Se presenta el archivo Excel que muestra los distintos valores de pronóstico obtenido
por las redes MAO, los resúmenes de estos y un vocabulario donde se explican las
siglas utilizadas.
Anexo 17 SOM Final.xlsx25
ANEXO N°18
RECUENTO DE ITERACIONES
El proceso iterativo que se utilizó para realizar las tareas de entrenamiento,
validación, testeo de cada arquitectura y muestra, puede finalizar en cualquier
iteración una vez alcanzado su objetivo, debido a esto, los subconjuntos de datos
alcanzaron su meta en distintos puntos en esta labor. A continuación se presenta el
archivo que contiene el número de iteraciones en el cual finalizo el proceso, además
del cuadro explicativo de las siglas utilizadas.
Anexo 18 Iteraciones.xlsx26
25
Enlace disponible sólo en la versión digital. 26
Enlace disponible sólo en la versión digital.
75
ANEXO N°19
ANÁLISIS DE LA PRIMERA MUESTRA USADA PARA LAS REDES
NEURONALES ARTIFICIALES
1. Perceptrón Multicapa con Entrada-Salida No-Lineal
Figura A19-1: Gráfico Demanda Real V/S Perceptrón Multicapa con Entrada-Salida no-lineal, con variable de entrada Dólar. Fuente: “Elaboración propia”.
Como se aprecia en la Figura N°A19-1, la red con la variable de entrada Dólar, no
fue capaz de seguir apropiadamente el comportamiento real de la demanda de
Reservas (esto sobre todo en valores más grandes), aún cuando esta técnica
permite ocupar variables no lineales. Esto queda reflejado con el promedio de error
que fue 38,87%, uno de los peores resultados obtenidos en este tipo de red, pero
que en comparación general, es mejor que los entregados por algunas de las
técnicas clásicas. Esto se debe a que la red al hacer los cálculos no-lineales no logro
obtener resultados apropiados que le permitieran realizar de forma adecuada la
cantidad de reservas (variable objetivo) a través del dólar (variable de entrada). Cabe
mencionar que para obtener este resultado se hicieron 306 iteraciones, donde la
cantidad de iteraciones viene dada por la cantidad de veces que encontró el
0
50
100
150
200
250
300
1 6
11
16
21
26
31
36
41
46
51
56
61
66
71
76
81
86
91
96
10
1
10
6
11
1
11
6
12
1
Demanda Real V/S Salida de Red
Cantidad de Reservas Dólar
76
coeficiente de correlación más alto, más la última tanda de iteraciones donde no se
encontró ningún coeficiente de correlación más alto que el último. Obteniéndose así
los siguientes resultados presentados en la Tabla N° A19-1:
306 Iteraciones
Coeficiente de Correlación
Porcentaje de Error
Promedio 0,259854705 0,5182818
Mínimo 0,131574099 0,3887153
Máximo 0,692290263 0,65844613
Tabla A19-1: Porcentaje de Error y Coeficiente de Correlación para Perceptrón Multicapa con
Entrada-Salida No-Lineal para la variable Dólar. Fuente: “Elaboración propia”.
Al contrario del caso anterior, la red fue capaz de dar un resultado mucho más
preciso, como se ve en la Figura N°A19-2 y que se ratifica con el porcentaje de error
7,77%. Este resultado se explica, porque la variable de entrada Número de
Pasajeros, es linealmente dependiente a la cantidad de reservas, lo que hace que se
pueda pronosticar de mejor manera esta variable objetivo. Aún cuando esta variable
no es la más indicada para demostrar la efectividad de la red por ser lineal, dejo claro
que el uso de ésta en la red permitió mejorar el resultado obtenido en la regresión
lineal, que de un 9,97%, paso a ser de un 7,77%, obteniéndose así una mejora de
2, 20% en comparación del mejor pronostico realizado por un modelo tradicional. Por
último mencionar que para obtener este resultado se hicieron 1645 iteraciones,
obteniéndose así los siguientes resultados que se aprecian en la Tabla N° A19-2:
1645 Iteraciones
Coeficiente de Correlación
Porcentaje de Error
Promedio 0,990880412 0,08737101
Mínimo 0,794004169 0,07768818
Máximo 0,993373423 0,10928247
Tabla A19-2: Porcentaje de Error y Coeficiente de Correlación para Perceptrón Multicapa con Entrada-Salida No-Lineal para la variable Número de Pasajeros. Fuente: “Elaboración propia”.
77
Figura A19-2: Gráfico Demanda Real V/S Perceptrón Multicapa con Entrada-Salida no-lineal, con variable de entrada Número de Pasajeros. Fuente: “Elaboración propia”.
Figura A19-3: Gráfico Demanda Real V/S Perceptrón Multicapa con Entrada-Salida no-lineal, con variable de entrada Fecha de Reserva. Fuente: “Elaboración propia”.
Esta red con la variable de entrada Fecha de Reservas obtuvo un 46,87% de error,
mostrando así una baja capacidad de pronóstico. Esto queda ratificado al ver la
Figura N° A19-3, en la cual se aprecia como la curva de pronóstico no es capaz de
0
50
100
150
200
250
300
1 6
11
16
21
26
31
36
41
46
51
56
61
66
71
76
81
86
91
96
10
1
10
6
11
1
11
6
12
1
Demanda Real V/S Salida de Red
Cantidad de Reservas Pax
0
50
100
150
200
250
300
1 6
11
16
21
26
31
36
41
46
51
56
61
66
71
76
81
86
91
96
10
1
10
6
11
1
11
6
12
1
Demanda Real V/S Salida de Red
Cantidad de Reservas Fecha
78
reflejar el comportamiento de la demanda real. Al igual que el primer caso esta
variable es linealmente independiente a la cantidad de reservas, con lo cual predecir
la variable objetivo se hace más difícil. Cabe destacar que aun cuando el porcentaje
de error es alto, supero a los métodos clásicos de suavizamiento exponencial y de
los promedios móviles, que teniendo una variable linealmente dependiente fueron
menos exactos que la red de Perceptrón Multicapa con variables linealmente
independientes. Finalmente mencionar que para obtener este resultado se hicieron
1874 iteraciones, obteniéndose así los siguientes resultados que se muestran en la
Tabla N° A19-3:
1874 Iteraciones
Coeficiente de Correlación
Porcentaje de Error
Promedio 0,424884061 0,49710859
Mínimo 0,246960652 0,47703502
Máximo 0,515295468 0,52935583
Tabla A19-3: Porcentaje de Error y Coeficiente de Correlación para Perceptrón Multicapa con Entrada-Salida No-Lineal para la variable Fecha de Reserva. Fuente: “Elaboración propia”.
Figura A19-4: Gráfico Demanda Real V/S Perceptrón Multicapa con Entrada-Salida no-lineal, con variables de entrada Fecha de Reserva y Dólar. Fuente: “Elaboración propia”.
0
50
100
150
200
250
300
1 6
11
16
21
26
31
36
41
46
51
56
61
66
71
76
81
86
91
96
10
1
10
6
11
1
11
6
12
1
Demanda Real V/S Salida de Red
Cantidad de Reservas Fecha, Dólar
79
Al igual que el primer ejemplo mostrado de esta red con la variante de entrada dólar,
la red no fue capaz de seguir el comportamiento de la demanda real, dando un
porcentaje de error del 32,80%, y el cual se puede a preciar de mejor forma al ver la
Figura N° A19-4; como se ve en esta, la curva de la demanda proyectada no logra
recrear las alzas de la demanda real. Cabe destacar, que la combinación de ambas
variables de entrada dan un mejor resultado que ambas, por si solas, obteniéndose
una mejora de un 6,07% con respecto al dólar y de un 14,07% con respecto a la
fecha de reserva. De todas maneras esta tiene una mejor aproximación que la
mayoría de los métodos tradicionales. Por último, mencionar que para obtener este
resultado se hicieron 2171 iteraciones, obteniéndose así los siguientes resultados
presentados en la Tabla N° A19-4:
2171 Iteraciones
Coeficiente de Correlación
Porcentaje de Error
Promedio 0,375455843 0,56196107
Mínimo 0,186197504 0,32803383
Máximo 0,777087643 8,27232469
Tabla A19-4. Porcentaje de Error y Coeficiente de Correlación para Perceptrón Multicapa con Entrada-Salida No-Lineal para las variables: Dólar y Fecha de Reserva. Fuente: “Elaboración propia”.
Figura A19-5: Gráfico Demanda Real V/S Perceptrón Multicapa con Entrada-Salida no-lineal, con variables de entrada Número de Pasajeros, Fecha de Reserva y Dólar. Fuente: “Elaboración propia”.
0
50
100
150
200
250
300
1 6
11
16
21
26
31
36
41
46
51
56
61
66
71
76
81
86
91
96
10
1
10
6
11
1
11
6
12
1Demanda Real V/S Salida de Red
Cantidad de Reservas Fecha, Pax, Dólar
80
El segundo con mejor porcentaje de error es 7,49%. Como se puede apreciar en la
Figura N° A19-5, el ajuste que tiene la curva proyectada es casi la misma que la de
demanda real. Esto se debe a que dentro de las variables de entrada esta la cantidad
de pasajeros que permite proyectar de buena forma la curva, pero esta variable no
es solamente la que ayuda a esto, sino que también la ayudan el dólar y la fecha de
reserva, ya que como se vio anteriormente, por sí sólo la cantidad de pasajeros da
un porcentaje de error del 7,77% mientras que la combinación de estas tres variables
hace una mejora de un 0,28% dejándola en la cifra de 7,49%, lo que demuestra que
la red al tener una combinatoria de variables y procesarlas a través de cálculos no-
lineales, permite mejorar la efectividad de pronóstico de esta herramienta. Además
se aprecia que supera con 2,48% menos de error que a la regresión lineal, lo que
demuestra al igual que antes, que esta herramienta puede producir mejores
resultados que los tradicionales. Cabe mencionar que para obtener este resultado se
hicieron 1529 iteraciones, obteniéndose así los siguientes resultados que se aprecian
en la Tabla N° A19-5:
1529 Iteraciones
Coeficiente de Correlación
Porcentaje de Error
Promedio 0,993251686 0,08259857
Mínimo 0,97318003 0,07493175
Máximo 0,994658538 0,12397178
Tabla A19-5. Porcentaje de Error y Coeficiente de Correlación para Perceptrón Multicapa con Entrada-Salida No-Lineal para las variables: Número de Pasajeros, Dólar y Fecha de Reserva. Fuente:
“Elaboración propia”.
Este último caso es la tercera mejor representación obtenida para la red de
Perceptrón Multicapa en todos sus casos y todas sus configuraciones, ya que esta
red obtuvo un porcentaje de error del 7,40%. Al observar la Figura N° A19-6, la curva
de la demanda proyectada y la curva de demanda real, son casi las mismas, lo que
refleja la capacidad de la red de poder pronosticar los valores deseados. Al igual que
en todo los casos donde el porcentaje de error fue de menos 9%, la participación de
la variable de entrada Número de Pasajeros y la combinación de una variable no-
lineal como es el caso del Dólar, permite obtener resultados más exactos que los del
81
método tradicional. Esto queda demostrado al hacer la diferencia entre lo proyectado
por la regresión lineal y lo obtenido por la red, lo cual fue de un 2,57% menos de
error que la regresión lineal. Finalmente mencionar que para obtener este resultado
se hicieron 1887 iteraciones, obteniéndose así los siguientes resultados que se
muestran en la Tabla N° A19-6:
1887 Iteraciones
Coeficiente de Correlación
Porcentaje de Error
Promedio 0,993038561 0,08473245
Mínimo 0,788891376 0,07402
Máximo 0,99416429 0,15549115
Tabla A19-6: Porcentaje de Error y Coeficiente de Correlación para Perceptrón Multicapa con Entrada-Salida No-Lineal para las variables: Número de Pasajeros y Dólar. Fuente: “Elaboración propia”.
Figura A19-6: Gráfico Demanda Real V/S Perceptrón Multicapa con Entrada-Salida No-Lineal, con variables de entrada Número de Pasajeros y Dólar. Fuente: “Elaboración propia”.
0
50
100
150
200
250
300
1 7
13
19
25
31
37
43
49
55
61
67
73
79
85
91
97
10
3
10
9
11
5
12
1
Demanda Real V/S Salida de Red
Cantidad de Reservas Dólar, Pax
82
2. Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa
Figura A19-7: Gráfico Demanda Real V/S Perceptrón Multicapa con Auto-Regresivo No-Lineal con entrada externa, con variable de entrada Dólar. Fuente: “Elaboración propia”.
En la Figura N° A19-7, se observa que ambas curvas proyectada y de demanda real
no coinciden, con lo cual se produce un porcentaje de error del 46,59%. Este
resultado refleja que todavía cuando se usa una combinación de variable objetivo y
variable de entrada para la obtención de valores deseados, no es capaz de
pronosticar un bajo porcentaje de error, ni de mejorar los valores que ambas
variables obtuvieron por separadas, como se vio en los casos anteriores del
Perceptrón Multicapa. Por último mencionar que para obtener este resultado se
hicieron 1711 iteraciones, obteniéndose así los siguientes resultados presentados en
la Tabla N° A19-7:
0
50
100
150
200
250
300
350
400
450
1 6
11
16
21
26
31
36
41
46
51
56
61
66
71
76
81
86
91
96
10
1
10
6
11
1
11
6
12
1
Demanda Real V/S Salida de Red
Cantidad de Reservas Dólar
83
1711 Iteraciones
Coeficiente de Correlación
Porcentaje de Error
Promedio 0,478268646 0,52862883
Mínimo 0,255132203 0,4659166
Máximo 0,593373574 0,66637602
Tabla A19-7: Porcentaje de Error y Coeficiente de Correlación para Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para la variable Dólar. Fuente: “Elaboración propia”.
Figura A19-8: Gráfico Demanda Real V/S Perceptrón Multicapa con Auto-Regresivo No-Lineal con entrada externa, con variables de entrada Dólar y Fecha de Reservas. Fuente: “Elaboración propia”.
Como se ha visto en los casos anteriores con esta configuración de variables, la red
no logra proyectar de forma adecuada la demanda, esto se ve reflejado tanto en el
porcentaje de error que fue de un 44,28% y que se ve confirmado por la Figura N°
A19-8, donde se aprecia que la curva que se proyecta por parte de la red no es
capaz de pronosticar valores atípicos. Este comparado con su semejante da un peor
resultado, siendo superior en el porcentaje de error en un 11,48%. Por último cabe
destacar que para obtener este resultado se hicieron 1348 iteraciones, obteniéndose
así los siguientes resultados en la Tabla N° A19-8:
0
50
100
150
200
250
300
350
400
450
1 6
11
16
21
26
31
36
41
46
51
56
61
66
71
76
81
86
91
96
10
1
10
6
11
1
11
6
12
1
Demanda Real V/S Salida de Red
Cantidad de Reservas Fecha, Dólar
84
1348 Iteraciones
Coeficiente de Correlación
Porcentaje de Error
Promedio 0,515922435 0,50887816
Mínimo 0,229021066 0,44282793
Máximo 0,610644143 0,63492789
Tabla A19-8: Porcentaje de Error y Coeficiente de Correlación para Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para las variables: Dólar y Fecha de Reserva. Fuente:
“Elaboración propia”.
Figura A19-9: Gráfico Demanda Real V/S Perceptrón Multicapa con Auto-Regresivo No-Lineal con entrada externa, con variables de entrada Dólar y Número de Pasajeros. Fuente: “Elaboración propia”.
Al igual que en el anterior gráfico, se aprecia en este (Figura N° A19-9), una baja
precisión en los valores que esta proyectando la red, siendo incapaz de lograr
graficar valores atípicos o de seguir la forma de la curva de demanda real, lo que se
ratifica con un porcentaje de error de un 44,67%. Este magro resultado podría ser
atribuido, como ya se ha señalado, a la participación de la variable objetivo para la
obtención de los valores proyectados, ya que como se ha visto, sin esta variable los
resultados han sido óptimos con esta combinación de variables de entrada, y al
contrario de esto, solo con la variable objetivo como valor para proyectar se han
obtenidos malos resultados, con lo cual se puede inferir que es debido a esta
variable que los valores obtenidos con esta configuración de red sean de baja
calidad. Finalizando con este caso, cabe destacar que para obtener este resultado se
0
50
100
150
200
250
300
350
400
450
1 6
11
16
21
26
31
36
41
46
51
56
61
66
71
76
81
86
91
96
10
1
10
6
11
1
11
6
12
1
Demanda Real V/S Salida de Red
Cantidad de Reservas Dólar, Pax
85
hicieron 2372 iteraciones, obteniéndose así los siguientes resultados que se
muestran en la Tabla N° A19-9:
2372 Iteraciones
Coeficiente de Correlación
Porcentaje de Error
Promedio 0,497644106 0,51324204
Mínimo 0,20084322 0,44667445
Máximo 0,608229491 4,57801728
Tabla A19-9: Porcentaje de Error y Coeficiente de Correlación para Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para las variables: Dólar y Número de Pasajeros. Fuente:
“Elaboración propia”.
Figura A19-10: Gráfico Demanda Real V/S Perceptrón Multicapa con Auto-Regresivo No-Lineal con entrada externa, con variable de entrada Fecha de Reservas. Fuente: “Elaboración propia”.
Al apreciar la Figura N° A19-10, se ve como la curva de la proyección no sigue el
patrón de la curva demandada, lo que provoca que se generen errores altos en cada
uno de los valores proyectados, esto se ve reflejado en que el porcentaje de error de
esta red que es de 43,74%. En este caso se ve una mejora con respecto a la otra red
que utilizó a la fecha como variable de entrada, pero como se ha dicho, estos valores
aun siguen por debajo de valores utilizables para una proyección. Para concluir con
este caso, cabe destacar que para obtener este resultado se hicieron 1627
iteraciones, obteniéndose así los siguientes resultados que se aprecian en la Tabla
N° A19-10:
0
50
100
150
200
250
300
350
400
450
1 6
11
16
21
26
31
36
41
46
51
56
61
66
71
76
81
86
91
96
10
1
10
6
11
1
11
6
12
1
Demanda Real V/S Salida de Red
Cantidad de Reservas Fecha
86
1627 Iteraciones
Coeficiente de Correlación
Porcentaje de Error
Promedio 0,533405433 0,49310696
Mínimo 0,370846226 0,4373544
Máximo 0,635262488 0,57826981
Tabla A19-10: Porcentaje de Error y Coeficiente de Correlación para Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para la variable: Fecha de Reserva. Fuente: “Elaboración
propia”.
En este caso se obtuvo un 44,28% en el porcentaje de error, esto se explica al
observa la Tabla N° A19-17, donde se ve como los valores que se proyectan no
coinciden o no están muy cerca de los valores reales (Figura N° A19-11), como ya si
se ha visto en otras redes donde tuvieron porcentajes de errores menores al 9%.
Este es un caso muy especial, ya que la variable de entrada que se esta analizando,
es la linealmente dependiente (Número de Pasajeros), lo cual muestra la fuerte
influencia de la variable objetivo Cantidad de Reservas en la proyección de la
demanda en este tipo de problema, ya que por si sola la variable de entrada, tanto en
la red como en la regresión lineal lograba porcentaje de errores por debajo del 10%.
Esto deja claro la influencia mayoritariamente negativa, que se ha visto sobre la
participación de la variable objetivo en el pronóstico de la demanda. Finalmente,
cabe mencionar que para obtener este resultado se hicieron 2706 iteraciones,
obteniéndose así los siguientes resultados que se muestran en la Tabla N° A19-11:
2706 Iteraciones
Coeficiente de Correlación
Porcentaje de Error
Promedio 0,515302054 0,49278729
Mínimo 0,224280898 0,44284731
Máximo 0,628970483 0,9643973
Tabla A19-11: Porcentaje de Error y Coeficiente de Correlación para Perceptrón Multicapa con Auto-
Regresivo No-Lineal con Entrada Externa para la variable: Número de Pasajeros. Fuente: “Elaboración
propia”.
87
Figura A19-11: Gráfico Demanda Real V/S Perceptrón Multicapa con Auto-Regresivo No-Lineal con entrada externa, con variable de entrada Número de Pasajeros. Fuente: “Elaboración propia”.
Figura A19-12: Gráfico Demanda Real V/S Perceptrón Multicapa con Auto-Regresivo No-Lineal con entrada externa, con variables de entrada Número de Pasajeros y Fecha de Reservas. Fuente:
“Elaboración propia”.
Como hemos apreciado en casi todo los resultados de esta red, con esta última
configuración de problema, los resultados obtenidos son de mala calidad, obteniendo
un porcentaje de error del 40,81%, y que queda ratificado al observar la Figura N°
0
50
100
150
200
250
300
350
400
450
1 6
11
16
21
26
31
36
41
46
51
56
61
66
71
76
81
86
91
96
10
1
10
6
11
1
11
6
12
1
Demanda Real V/S Salida de Red
Cantidad de Reservas Pax
0
50
100
150
200
250
300
350
400
450
1 6
11
16
21
26
31
36
41
46
51
56
61
66
71
76
81
86
91
96
10
1
10
6
11
1
11
6
12
1
Demanda Real V/S Salida de Red
Cantidad de Reservas Fecha, Pax
88
A19-12. Nuevamente se ve como la influencia de la variable objetivo afecta
enormemente en la exactitud de los valores proyectados, haciendo que la
configuración utilizada deba ser descartada por su mala capacidad de proyección,
como en todos los casos anteriores. Por último, cabe mencionar que para obtener
este resultado se hicieron 1620 iteraciones, obteniéndose así los siguientes
resultados que se aprecian en la Tabla N° A19-12:
1620 Iteraciones
Coeficiente de Correlación
Porcentaje de Error
Promedio 0,531234171 0,47997206
Mínimo 0,35189749 0,40808543
Máximo 0,643397481 0,59607349
Tabla A19-12: Porcentaje de Error y Coeficiente de Correlación para Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para la variable: Número de Pasajeros y Fecha de Reserva.
Fuente: “Elaboración propia”.
3. Crece Cuando se Requiere y Perceptrón Multicapa con Entrada-Salida
No-Lineal
Figura A19-13: Gráfico Demanda Real V/S Crece Cuando se Requiere y Perceptrón Multicapa con Entrada-Salida No-Lineal, con variables de entrada Dólar Observado, Número de Pasajeros y Fecha de Reservas.
Fuente: “Elaboración propia”.
0
50
100
150
200
250
300
1 6
11
16
21
26
31
36
41
46
51
56
61
66
71
76
81
86
91
96
10
1
10
6
11
1
11
6
12
1
Demanda Real V/S Salida de Red
Cantidad de Reservas Fecha, Dólar, Pax
89
Como se aprecia en la Figura N° A19-13, la curva que es proyectada por la red se
asemeja mucho a la de la demanda real, lo cual muestra la buena capacidad de la
red para pronosticar los valores deseados con la variables de entrada utilizados,
inclusos los valores atípicos. Todo esto se ve ratificado al bajo valor del porcentaje
de error que es de 7,35% con lo que queda demostrada su eficiencia en los cálculos.
Este valor es ampliamente inferior al entregado por la regresión lineal, dando una
diferencia a favor de 2,62%. Finalmente, cabe mencionar que para obtener este
resultado se hicieron 2425 iteraciones, obteniéndose así los siguientes resultados
que se muestran en la Tabla N° A19-13:
2425 Iteraciones
Coeficiente de Correlación
Porcentaje de Error
Promedio 0,990562102 3,10349E+14
Mínimo 0,200255155 0,073477984
Máximo 0,994088304 7,52596E+17
Tabla A19-13: Porcentaje de Error y Coeficiente de Correlación para Crece Cuando se Requiere con Perceptrón Multicapa con Entrada-Salida No-Lineal para la variable: Número de Pasajeros, Dólar y Fecha
de Reserva. Fuente: “Elaboración propia”.
Figura A19-14: Gráfico Demanda Real V/S Crece Cuando se Requiere y Perceptrón Multicapa con Entrada-Salida No-Lineal, con variables de entrada Fecha de Reservas y Dólar Observado. Fuente: “Elaboración
propia”.
0
50
100
150
200
250
300
1 6
11
16
21
26
31
36
41
46
51
56
61
66
71
76
81
86
91
96
10
1
10
6
11
1
11
6
12
1
Demanda Real V/S Salida de Red
Cantidad de Reservas Fecha, Dólar
90
Al observar la Figura N° A19-14, se aprecia claramente que la curva proyectada no
sigue de ninguna manera la curva de demanda real, quedando constatado con el
porcentaje de error, donde el valor resultante es de 35,36%. Este valor entregado por
esta combinatoria de variables como se ha visto y se vera más adelante en las
distintas redes, siempre da resultados de mala calidad, debido a lo anteriormente
explicado sobre el tipo de variables que son. Para concluir, cabe mencionar que para
obtener este resultado se hicieron 1389 iteraciones, obteniéndose así los siguientes
resultados que se aprecian en la Tabla N° A19-14:
1389 Iteraciones
Coeficiente de Correlación
Porcentaje de Error
Promedio 0,403913432 0,48071471
Mínimo 0,158149382 0,35362213
Máximo 0,746321829 0,73331114
Tabla A19-14: Porcentaje de Error y Coeficiente de Correlación para Crece Cuando se Requiere con Perceptrón Multicapa con Entrada-Salida No-Lineal para la variable: Dólar y Fecha de Reserva. Fuente:
“Elaboración propia”.
Al igual que en todo los casos donde participa la variable de entrada Número de
Pasajeros, el resultado entregado por esta red fue de buena calidad, ya que su
precisión en el pronostico de los valores fue muy parecidos a los originales, el cual
puede concluirse al ver el porcentaje de error, que fue de 7,40%. Lo anterior se
puede apreciar al observar la Figura N° A19-15, donde ambas curvas (demanda real
y proyectada) coinciden en la mayoría de los puntos. Esta red también supera a la
regresión lineal en un 2,57% menos en el porcentaje de error. Finalizando con este
caso, cabe destacar que para obtener este resultado se hicieron 1738 iteraciones,
obteniéndose así los siguientes resultados presentados en la Tabla N° A19-15:
1738 Iteraciones
Coeficiente de Correlación
Porcentaje de Error
Promedio 0,98999453 0,08496844
Mínimo 0,488645237 0,07395632
Máximo 0,994089907 0,09264195
Tabla A19-15: Porcentaje de Error y Coeficiente de Correlación para Crece Cuando se Requiere con Perceptrón Multicapa con Entrada-Salida No-Lineal para las variables: Número de Pasajeros y Fecha de
Reserva. Fuente: “Elaboración propia”.
91
Figura A19-15: Gráfico Demanda Real V/S Crece Cuando se Requiere y Perceptrón Multicapa con Entrada-Salida No-Lineal, con variables de entrada Número de Pasajeros y Fecha de Reservas. Fuente:
“Elaboración propia”.
4. Crece Cuando se Requiere y Perceptrón Multicapa con Auto-Regresivo
No-Lineal con Entrada Externa
Figura A19-16: Gráfico Demanda Real V/S Crece Cuando se Requiere y Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa, con variables de entrada Dólar Observado y Fecha de
Reservas. Fuente: “Elaboración propia”.
0
50
100
150
200
250
300
1 6
11
16
21
26
31
36
41
46
51
56
61
66
71
76
81
86
91
96
10
1
10
6
11
1
11
6
12
1
Demanda Real V/S Salida de Red
Cantidad de Reservas Fecha, Pax
0
50
100
150
200
250
300
350
400
450
1 6
11
16
21
26
31
36
41
46
51
56
61
66
71
76
81
86
91
96
10
1
10
6
11
1
11
6
12
1Demanda Real V/S Salida de Red
Cantidad de Reservas Fecha, Dólar
92
Este caso como se vio en el de Perceptrón Multicapa y como se vera en la MAO, da
resultados poco precisos, ya que su porcentaje de error es de 43,76%, una cifra que
demuestra que la red no esta teniendo la capacidad necesaria para predecir los
valores deseados, como se ve en la Figura N° A19-16, la curva de proyección de la
demanda no sigue de forma sincronizada ni con los mismos altos y bajo de la curva
de demanda real, provocando así errores grandes en cada uno de sus puntos, y por
consiguiente, dando como resultado ese porcentaje de error. También decir que este
caso en especial, se ve afectado además por la participación de la variable objetivo,
que produce que la red no sea capaz de proyectar correctamente, pero con la
diferencia que su empeoramiento es de 8,40%, un valor bajo comparado con las
redes que sacan normalmente 7% y que pasan al 40%.
Por último, cabe mencionar que para obtener este resultado se hicieron 2655
iteraciones, obteniéndose así los siguientes resultados que se muestran en la Tabla
N° A19-16:
2655 Iteraciones
Coeficiente de Correlación
Porcentaje de Error
Promedio 0,503053 0,62800434
Mínimo 0,013506231 0,43755949
Máximo 0,615439195 321,551335
Tabla A19-16: Porcentaje de Error y Coeficiente de Correlación para Crece Cuando se Requiere con Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para las variables: Dólar y Fecha
de Reserva. Fuente: “Elaboración propia”.
93
Figura A19-17: Gráfico Demanda Real V/S Crece Cuando se Requiere y Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa, con variables de entrada Dólar Observado y Número de
Pasajeros. Fuente: “Elaboración propia”.
Como se vio anteriormente en los diversos casos expuestos, la red genera valores
proyectados distintos a los reales, produciendo así errores altos, y por consiguiente,
obteniéndose un alto valor de porcentaje de error (43,28%), también se aprecia la
asertividad de la red en la Figura N° A19-17, donde las curvas tanto de proyección
como la de demanda real son muy disímiles, con amplias diferencia entre ellas. Al
igual que los casos anteriores y en los próximos que serán expuestos, donde la red
tiene una configuración no-lineal con entrada externa, el resultado se ve fuertemente
influenciado por la variable cantidad de reservas (que hace de variable de entrada),
lo que hace que la red sea incapaz de entregar valores exactos, como debiera ser
por la configuración de variables de entrada (Dólar, Número de Pasajeros) que están
participando. Finalmente, cabe mencionar que para obtener este resultado se
hicieron 1571 iteraciones, obteniéndose así los siguientes resultados que se
presentan en la Tabla N° A19-17:
0
50
100
150
200
250
300
350
400
450
1 6
11
16
21
26
31
36
41
46
51
56
61
66
71
76
81
86
91
96
10
1
10
6
11
1
11
6
12
1
Demanda Real V/S Salida de Red
Cantidad de Reservas Dólar, Pax
94
1571 Iteraciones
Coeficiente de Correlación
Porcentaje de Error
Promedio 0,497060172 0,51367953
Mínimo 0,135040845 0,43278036
Máximo 0,605474688 0,81034902
Tabla A19-17: Porcentaje de Error y Coeficiente de Correlación para Crece Cuando se Requiere con Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para las variables: Número de
Pasajeros y Dólar. Fuente: “Elaboración propia”.
Figura A19-18: Gráfico Demanda Real V/S Crece Cuando se Requiere y Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa, con variables de entrada Número de Pasajeros y Fecha de
Reservas. Fuente: “Elaboración propia”.
Como se puede observar en la Figura N° A19-18, la red proyecta tiene una baja
precisión, produciendo de esta forma un alto porcentaje de error de 41,34%. Esto
como hemos señalado, es por la participación de cantidad de reservas como variable
de entrada, lo cual produce la poca asertividad de la red para pronosticar los valores
deseados. Por último, cabe mencionar que para obtener este resultado se hicieron
2884 iteraciones, las cuales entregaron las siguientes medidas de posición que se
pueden observar en la Tabla N° A19-18:
0
50
100
150
200
250
300
350
400
450
1 6
11
16
21
26
31
36
41
46
51
56
61
66
71
76
81
86
91
96
10
1
10
6
11
1
11
6
12
1
Demanda Real V/S Salida de Red
Cantidad de Reservas Fecha, Pax
95
2884 Iteraciones
Coeficiente de Correlación
Porcentaje de Error
Promedio 0,525857222 0,49034293
Mínimo 0,301429003 0,4133819
Máximo 0,635609657 2,47273755
Tabla A19-18: Porcentaje de Error y Coeficiente de Correlación para Crece Cuando se Requiere con Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para las variables: Número de
Pasajeros y Fecha de Reserva. Fuente: “Elaboración propia”.
5. Mapa Auto-Organizado y Perceptrón Multicapa con Entrada-Salida No-
Lineal
Figura A19-19: Gráfico Demanda Real V/S Mapa Auto-Organizado y Perceptrón Multicapa con Entrada-Salida No-Lineal, con variables de entrada Dólar Observado y Fecha de Reservas. Fuente: “Elaboración
propia”.
Como se ha visto a lo largo de los distintos resultados de las redes, esta combinación
de variables de entrada, siempre han dado valores por de bajo de los óptimos, dando
en este caso un porcentaje de error de 35,30% y que se puede apreciar de mejor
forma estos malos valores al ver la Figura N° A19-19. Como se ve en el gráfico la
curva proyectada no logra seguir de forma adecuada a la curva de demanda real,
mostrando la falta de exactitud que tiene la red con esta configuración. Esto es, como
ya se ha dicho anteriormente, por el uso de variables linealmente independientes que
0
50
100
150
200
250
300
1 6
11
16
21
26
31
36
41
46
51
56
61
66
71
76
81
86
91
96
10
1
10
6
11
1
11
6
12
1
Demanda Real V/S Salida de Red
Cantidad de Reservas Fecha, Dólar
96
no permite tener una mejor proyección. Sin embargo, se puede señalar que los
resultados obtenidos son mejores que los dados por los métodos tradicionales como
son suavizamiento exponencial y los promedios móviles, aunque siguen siendo
resultados que no son aconsejables para su uso. Por último, cabe mencionar que
para obtener este resultado se hicieron 1319 iteraciones, obteniéndose así los
siguientes resultados que se pueden observar en la Tabla N° A19-19:
1319 Iteraciones
Coeficiente de Correlación
Porcentaje de Error
Promedio 0,444442092 393,466178
Mínimo 0,179227339 0,35300593
Máximo 0,770627466 516328,984
Tabla A19-19: Porcentaje de Error y Coeficiente de Correlación para Mapa Auto-Organizados con Perceptrón Multicapa con Entrada-Salida No-Lineal para las variables: Dólar y Fecha de Reserva. Fuente:
“Elaboración propia”.
Figura A19-20: Gráfico Demanda Real V/S Mapa Auto-Organizado y Perceptrón Multicapa con Entrada-Salida No-Lineal, con variables de entrada Dólar Observado y Número de Pasajeros. Fuente: “Elaboración
propia”.
Este caso al igual que en la otras redes, sigue con la tendencia de pronosticar con
gran exactitud los valores proyectados al ser usada esta configuración de variables.
Esto queda claro al observar la Figura N° A19-20, donde se aprecia que tanto la
0
50
100
150
200
250
300
1 6
11
16
21
26
31
36
41
46
51
56
61
66
71
76
81
86
91
96
10
1
10
6
11
1
11
6
12
1
Demanda Real V/S Salida de Red
Cantidad de Reservas Dólar, Pax
97
curva de proyección como la curva de demanda real son muy similares, esto queda
reflejado al ver el porcentaje de error es de 7,44%, este valor dado es ligeramente
mejor que su símil de Perceptrón Multicapa con Entrada-Salida No-Lineal, el cual
obtuvo un 7,77% en el porcentaje de error; esto de todas maneras no significa una
mejor performance como red en comparación a la del Perceptrón, ya que hasta el
momento ha sido superada por esta última mencionada. Para concluir, cabe
mencionar que para obtener este resultado se hicieron 1136 iteraciones,
obteniéndose así los siguientes resultados que se muestran en la Tabla N° A19-20:
1136 Iteraciones
Coeficiente de Correlación
Porcentaje de Error
Promedio 0,993009384 0,084732348
Mínimo 0,978446488 0,074432516
Máximo 0,994179468 0,204483869
Tabla A19-20: Porcentaje de Error y Coeficiente de Correlación para Mapa Auto-Organizados con Perceptrón Multicapa con Entrada-Salida No-Lineal para las variables: Número de Pasajeros y Dólar.
Fuente: “Elaboración propia”.
Figura A19-21: Gráfico Demanda Real V/S Mapa Auto-Organizado y Perceptrón Multicapa con Entrada-Salida No-Lineal, con variables de entrada Número de Pasajeros y Fecha de Reservas. Fuente:
“Elaboración propia”.
0
50
100
150
200
250
300
1 6
11
16
21
26
31
36
41
46
51
56
61
66
71
76
81
86
91
96
10
1
10
6
11
1
11
6
12
1
Demanda Real V/S Salida de Red
Cantidad de Reservas Fecha, Pax
98
Como se observa en la Figura N° A19-21, la precisión de la red es alta, donde su
porcentaje de error es de 7,59%, como ya se ha repetido anteriormente esta
combinatoria de variable linealmente dependiente junto a variables linealmente
independiente permite obtener resultados mejores, que si fueran por separados.
Finalmente, cabe mencionar que para obtener este resultado se hicieron 1946
iteraciones, obteniéndose así los siguientes resultados que se pueden apreciar en la
Tabla N° A19-21:
1946 Iteraciones
Coeficiente de Correlación
Porcentaje de Error
Promedio 0,992270172 0,08622425
Mínimo 0,851991611 0,07587353
Máximo 0,994151937 0,11787956
Tabla A19-21: Porcentaje de Error y Coeficiente de Correlación para Mapa Auto-Organizados y Perceptrón Multicapa con Entrada-Salida No-Lineal para las variables: Número de Pasajeros y Fecha de Reserva.
Fuente: “Elaboración propia”.
6. Mapa Auto-Organizado y Perceptrón Multicapa con Entrada-Salida No-
Lineal
Como se ve en la Figura N° A19-22, la red tiene una muy baja capacidad para
proyectar la demanda de reserva y queda demostrado por su porcentaje de error es
de 42,88%, lo que la convierte en una mala alternativa para el pronóstico de este
problema. Esta tendencia deja muy en claro que el uso del tipo de problema Auto-
Regresivo No-Lineal con entrada externa resulta mala para el pronóstico de este
problema, ya que no logra dar con los resultados deseados. Para concluir este caso,
cabe destacar que para obtener este resultado se hicieron 1974 iteraciones,
obteniéndose así los siguientes resultados que se muestran en la Tabla N° A19-22:
99
1974 Iteraciones
Coeficiente de Correlación
Porcentaje de Error
Promedio 0,485928196 0,507832511
Mínimo -0,085666199 0,428821436
Máximo 0,607596436 1,062172885
Tabla A19-22: Porcentaje de Error y Coeficiente de Correlación para Mapa Auto-Organizados y Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para las variables: Número de Pasajeros,
Dólar y Fecha de Reserva. Fuente: “Elaboración propia”.
Figura A19-22: Gráfico Demanda Real V/S Mapa Auto-Organizado y Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa, con variables de entrada Dólar Observado, Número de
Pasajeros y Fecha de Reservas. Fuente: “Elaboración propia”.
En este segundo caso, donde las variables de entrada son Fecha de Reserva y Dólar
Observado ocurre lo antes visto en las demás redes, donde la red no es capaz de
hacer un pronostico asertivo acerca la cantidad de reservas, como se observa en la
Figura N° A19-23, y que es confirmado por el porcentaje de error, que fue de
44,25%. Esta cifra, es muy superior a la entregada por el Mapa Auto-Organizado y
Perceptrón Multicapa con Entrada-Salida No-Lineal, superándola en 8,75% en el
porcentaje de error, con lo que muestra el efecto negativo que se produce al tener
como participante entre las variables de entrada la variable objetivo. Por último, cabe
0
50
100
150
200
250
300
350
400
450
1 6
11
16
21
26
31
36
41
46
51
56
61
66
71
76
81
86
91
96
10
1
10
6
11
1
11
6
12
1
Demanda Real V/S Salida de Red
Cantidad de Reservas Dólar, Pax, Fecha
100
destacar que para obtener este resultado se hicieron 1933 iteraciones, obteniéndose
así los siguientes resultados que se pueden observar en la Tabla N° A19-23:
1933 Iteraciones
Coeficiente de Correlación
Porcentaje de Error
Promedio 0,495410043 0,51738909
Mínimo 0,147415191 0,44249206
Máximo 0,599301221 0,67870583
Tabla A19-23: Porcentaje de Error y Coeficiente de Correlación para Mapa Auto-Organizados con Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para las variables:, Dólar y
Fecha de Reserva. Fuente: “Elaboración propia”.
Figura A19-23: Gráfico Demanda Real V/S Mapa Auto-Organizado y Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa, con variables de entrada Dólar Observado y Fecha de
Reservas. Fuente: “Elaboración propia”.
0
50
100
150
200
250
300
350
400
450
1 6
11
16
21
26
31
36
41
46
51
56
61
66
71
76
81
86
91
96
10
1
10
6
11
1
11
6
12
1
Demanda Real V/S Salida de Red
Cantidad de Reservas Fecha, Dólar
101
Figura A19-24. Gráfico Demanda Real V/S Mapa Auto-Organizado y Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa, con variables de entrada Dólar Observado y Número de
Pasajeros. Fuente: “Elaboración propia”.
Al Observar la Figura N° A19-24, se ratifica lo visto con anterioridad en las redes con
configuración del tipo de problema del Perceptrón, ya que ambas curvas (proyectada
y demanda real) son totalmente diferentes la una de la otra, obteniendo la red un
porcentaje de error de 44,05%, lo que demuestra la poca capacidad o la poca
habilidad que tiene la red para proyectar. En este caso esta red es ampliamente
superada por su símil de Perceptrón Multicapa con Entrada-Salida No-Lineal, lo que
permite ver que ambas configuraciones de esta red son muy distintas en la
efectividad de encontrar los valores deseados. Por último, cabe destacar que para
obtener este resultado se hicieron 1136 iteraciones, obteniéndose así los siguientes
resultados que se pueden observar en la Tabla N° A19-24:
1136 Iteraciones
Coeficiente de Correlación
Porcentaje de Error
Promedio 0,461845942 0,59109347
Mínimo -0,003282144 0,44048181
Máximo 0,635521083 74,207614
Tabla A19-24. Porcentaje de Error y Coeficiente de Correlación para Mapa Auto-Organizados con Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para las variables: Número de
Pasajeros y Dólar. Fuente: “Elaboración propia”.
0
50
100
150
200
250
300
350
400
450
1 6
11
16
21
26
31
36
41
46
51
56
61
66
71
76
81
86
91
96
10
1
10
6
11
1
11
6
12
1
Demanda Real V/S Salida de Red
Cantidad de Reservas Dólar, Pax
102
ANEXO N°20
COMPARACIÓN DE RESULTADOS
En el siguiente enlace se encuentra el archivo con los resultados de la muestra con
mayor tiempo de cálculos y procesos informáticos.
Anexo 20 Comparación.xlsx27
ANEXO N°21
RESULTADOS FINALES DE LAS MUESTRAS
A continuación se presentan en el archivo enlazado los resultados de las 163
muestras, resúmenes de cada una y los valores individuales de cada iteración.
Anexo 21 Resultado Finales 163 Muestras.xls28
ANEXO N°22
RESULTADOS FINALES DE LAS MUESTRAS
En el siguiente archivo se presenta los datos de los resultados mínimos de cada
configuración de red.
Anexo 22 Datos.xls29
27
Enlace disponible sólo en la versión digital. 28
Enlace disponible sólo en la versión digital. 29
Enlace disponible sólo en la versión digital.