UNIVERSIDAD MAYOR FACULTAD DE INGENIERIA PROYECCIÓN …inglomayor.cl/edicion14/2_Lectures...

UNIVERSIDAD MAYOR

FACULTAD DE INGENIERIA

PROYECCIÓN DE DEMANDA A TRAVÉS DE REDES NEURONALES

ARTIFICIALES

Proyecto de Titulación para Optar al Título de Ingeniero Civil Industrial

CLAUDIO AGUILAR SAPUNAR

CRISTIAN REYES FARIAS

SANTIAGO DE CHILE

JUNIO-2012

UNIVERSIDAD MAYOR

FACULTAD DE INGENIERIA

PROYECCIÓN DE DEMANDA A TRAVÉS DE REDES NEURONALES

ARTIFICIALES

Proyecto de Titulación para Optar al Título de Ingeniero Civil Industrial

Alumnos: Claudio Aguilar Sapunar

Cristian Reyes Farias

Profesor Guía: Oscar Agustín Inostroza Aliaga

Ingeniero Civil Electricista

SANTIAGO DE CHILE

JUNIO-2012

DEDICATORIA

A mis padres por su permanente apoyo en todo lo que emprendo, al entregarme sus

consejos y alentarme persistentemente a mejorar, enseñándome la importancia de la

perseverancia y a nunca rendirme.

A mis hermanos que continuamente han estado conmigo y con los cuales he

compartido mis mejores momentos.

A mis amigos que me han entregado su apoyo, consejos y buenos ratos de

esparcimiento durante todo el periodo de la Tesis.

Claudio.

A mis padres e Isabel, gracias por la paciencia sin límites y por el apoyo constante e

incondicional.

Cristián.

AGRADECIMIENTOS

A nuestro profesor guía Oscar Inostroza, que nos ha enseñado y tutelado en un tema

tan poco conocido como son las redes neuronales artificiales, reconociéndole su

buena acogida y estar siempre atento a nuestras inquietudes.

Al Dr. Sergio Velastin de Kingston University; Ex director del Instituto de Informática y

Métodos Cuantitativos de la Universidad Austral de Chile, donde el profesor Inostroza

también fue académico; por atender el requerimiento efectuado por uno de nosotros

en Inglaterra, facilitándonos su ayuda, su consejo y la franca cooperación al

proporcionarnos recomendaciones para el trabajo y contactarnos con uno de los

profesores de su Universidad.

Al Dr. Gordon Hunter de Kingston University, por asistirnos en este trabajo y guiarnos

en la definición del problema en cuestión.

Claudio Aguilar

Cristián Reyes

ÍNDICE

PAG N°

RESUMEN EJECUTIVO i

ABSTRACT ii

CAPITULO I INTRODUCCION 1

1.1 Antecedentes Generales y de Contexto 1

1.2 Objetivos 2

1.2.1 Objetivo General 2

1.2.2 Objetivos Específicos 3

CAPITULO II MARCO TEORICO 5

PARTE I 6

2.1 Neurociencia 6

2.1.1 Sistema Nervioso Central 6

2.1.2 Neuronas 7

2.1.2.1 Estructura de la Neurona 8

2.1.2.2 Base electroquímica 10

2.1.3 Sinapsis 16

2.1.4 Procesamiento de la Información 17

2.1.5 Mecanismo Neuronales de Aprendizaje 17

2.1.6 Memoria 22

2.1.6.1 Subprocesos de la Memoria 23

2.1.7 Modelos Matemáticos de Aprendizaje 24

PARTE II 26

2.2 Redes Neuronales Artificiales 26

2.2.1 Modelo General de Neurona Artificial. 26

2.2.2 Arquitectura 30

A Redes Neuronales de una Capa Realimentación

Positiva

30

B Redes Neuronales de Múltiples Capas

Realimentación Positiva

31

C Redes recurrentes 33

2.2.3 Aprendizaje 34

A Aprendizaje Error-Corrección 35

B Aprendizaje Basado en Memoria 37

C Aprendizaje Hebbiano 39

D Aprendizaje Competitivo 40

E Aprendizaje de Boltzman 43

F Aprender con Profesor 47

G Aprender sin Profesor 48

2.3 Diferentes Modelos de Redes 49

2.3.1 Modelo Mcculloch-Pitts 49

2.3.2 Perceptrón 52

2.3.3 Neurona Lineal Adaptativa (ADALINE) 55

2.3.4 Perceptrón Multicapa 56

2.3.5 Redes Neuronales de Base Radial 59

2.3.6 Redes de Neuronas Recurrente 62

A Redes Parcialmente Recurrente 64

B Redes Totalmente Recurrentes 65

C Red de Hopfield 66

D Máquina de Boltzmann 69

2.3.7 Cognitron 71

2.3.8 Neocognitron 72

2.3.9 Red Neuronal de Atención Selectiva. 73

2.3.10 Mapas Auto-Organizados y Crecientes 74

A Mapas Auto-Organizados de Kohonen 74

B Método de Aprendizaje Vector de Cuantización (AVC) 77

C Gas Neural de Crecimiento (GNC) 78

D Crece Cuando se Requiere (CCR) 81

PARTE III 88

2.4 Proyección de Demanda 88

2.4.1 Modelos de Series de Tiempo 88

2.4.2 Modelos Causales 91

2.4.3 Modelos Subjetivos 96

CAPITULO III DESARROLLO 100

3.1 Parametrización 102

3.2 Análisis de Datos 105

3.2.1 Estudios de Variables sin tratamiento 105

3.2.2 Estudio de Variables Normalizadas 113

3.3 Selección de Muestra 119

3.4 Modelos 119

3.5 Normalización de Variables 120

3.6 Pronóstico 121

3.6.1 Regresión Lineal 121

3.6.2 Promedio Móvil 124

3.6.3 Promedio Móvil Ponderado 124

3.6.4 Suavizamiento Exponencial 125

3.6.5 Red de Perceptrón Multicapa 126

3.6.6 Red Crece Cuando se Requiere 136

3.6.7 Mapas Auto-Organizados 142

3.7 Análisis de Resultados 147

3.7.1 Porcentaje de errores de los Métodos Tradicionales 148

3.7.2 Porcentaje de error de las Redes Seleccionadas 153

3.8 Múltiples Muestras 169

CAPITULO IV CONCLUSIONES 174

4.1 Conclusiones 174

4.2 Discusiones 177

BIBLIOGRAFÍA 183

ANEXOS

ÍNDICE DE TABLA

PAG N°

Tabla 1 Prueba de Kolmogorov-Smirnov para variables sin

tratamiento

106

Tabla 2 Pruebas Estadísticas para variables sin tratamiento 107

Tabla 3 Corrlación de Rho de Spearman para variables sin

tratamiento

112

Tabla 4 Prueba de Kolmogorov-Smirnov para variables

Normalizadas

113

Tabla 5 Pruebas Estadísticas para variables normalizadas 114

Tabla 6 Correlación de Rho de Spearman para variables

normalizadas

118

Tabla 7 Pronóstico con Regresión Lineal 122

Tabla 8 Proyección de Regresión Lineal 123

Tabla 9 Promedio Móvil 124

Tabla 10 Promedio Móvil Ponderado 125

Tabla 11 Suavizamiento Exponencial 126

Tabla 12 Red de Perceptrón Multicapa Auto-regresivo no-lineal

con entrada externa con la variable de entrada Dólar

127


con entrada externa con las variables de entrada

Dólar y Fecha de Reserva

128



Dólar y Número de Pasajeros

128



Dólar, Número de Pasajeros y Fecha de Reserva

129



Fecha de Reserva

129



Número de Pasajeros

130



Número de Pasajeros y Fecha de Reserva

130

Tabla 19 Red de Perceptrón Multicapa Auto-regresivo no-lineal 131

Tabla 20 Red de Perceptrón Multicapa Entrada-Salida No-

Lineal para la variable de entrada Dólar

132


Lineal para la variable de entrada Dólar y Fecha de

Reserva

133


Lineal para la variable de entrada Dólar y Número de

133

Pasajeros


Lineal para la variable de entrada Dólar, Fecha de

Reserva y Número de Pasajeros

134


Lineal para la variable de entrada Fecha de Reservas

134


Lineal para la variable de entrada Número de

Pasajeros

135


Lineal para la variable de entrada Número de

Pasajeros y Fecha de Reservas

135

Tabla 27 Red Crece Cuando Se Requiere y Perceptrón

Multicapa con Entrada-Salida No-lineal para las

variables de entrada: Fecha de Reserva, Dólar y


137



variables de entrada: Fecha de Reserva y Dólar

138



variables de entrada: Dólar y Número de Pasajeros

138

Tabla 30 Red Crece Cuando Se Requiere y Perceptrón 139


variables de entrada: Fecha de Reserva y Número de

Pasajeros


Multicapa con Auto-Regresivo No-Lineal con Entrada

Externa para las variables de entrada: Fecha de

Reserva, Dólar y Número de Pasajeros

140



Externa para las variables de entrada: Dólar y


140




Reserva y Dólar

141




Reserva y Número de Pasajeros

141

Tabla 35 Mapa Auto-Organizado y Perceptrón Multicapa con

Entrada-Salida No-Lineal para las variables de

entrada: Fecha de Reserva, Dólar y Número de

Pasajeros

143


Entrada-Salida No-Lineal para las variables de entrada:

Fecha de Reserva y Dólar

143



entrada: Dólar y Número de Pasajeros

144



entrada: Fecha de Reserva y Número de Pasajeros

144


Auto-Regresivo No-Lineal con Entrada Externa para

las variables de entrada: Fecha de Reserva, Dólar y


145



las variables de entrada: Dólar y Número de

Pasajeros

146



las variables de entrada: Fecha de Reserva y Dólar

146



las variables de entrada: Fecha de Reserva y

147


Tabla 43 Porcentaje de error de las proyecciones con Métodos

Tradicionales

149

Tabla 44 Porcentaje de error de las proyecciones con

Perceptrón Multicapa con entrada-salida no-lineal

153

Tabla 45 Porcentaje de Error y Coeficiente de Correlación para

Perceptrón Multicapa con Entrada-Salida No-Lineal

para las variables: Número de Pasajeros y Fecha de

Reserva

154


Perceptrón Multicapa con Auto-Regresivo No-Lineal

155



para la variable Objetivo Cantidad de Reservas

157



con entrada externa

157



con Entrada Externa para las variables: Dólar,

Número de Pasajeros y Fecha de Reserva

158

Tabla 50 Porcentaje de error de las proyecciones con Crece

Cuando se Requiere y Perceptrón Multicapa con

159

Entrada-Salida No-Lineal


Crece Cuando se Requiere con Perceptrón Multicapa

con Entrada-Salida No-Lineal para la variable:

Número de Pasajeros y Dólar

160

Tabla 52 Porcentaje de error de las proyecciones con Crece

Cuando se Requiere y Perceptrón Multicapa con

Auto-Regresivo No-Lineal con Entrada Externa

161



con Auto-Regresivo No-Lineal con Entrada Externa

para las variables: Número de Pasajeros, Dólar y

Fecha de Reserva

163

Tabla 54 Porcentaje de error de las proyecciones con Mapa

Auto-Organizado y Perceptrón Multicapa con


163


Mapa Auto-Organizados con Perceptrón Multicapa

con Entrada-Salida No-Lineal para las variables:

Número de Pasajeros, Dólar y Fecha de Reserva

164

Tabla 56 Porcentaje de error de las proyecciones con Mapa

Auto-Organizado y Perceptrón Multicapa con Auto-

Regresivo No-Lineal con Entrada Externa.

165





Reserva

167

Tabla 58 Resumen de los Porcentaje de Error de las Redes

Neuronales con el tipo de problema Entrada-Salida

No-Lineal (ESN) para la primera muestra utilizada.

167

Tabla 59 Resumen de los Porcentaje de Error de las Redes

Neuronales con el tipo de problema Auto-Regresivo

No-Lineal con Entrada Externa (ANEE) para la

primera muestra utilizada.

168

Tabla 60 Resumen de los resultados finales de Porcentaje de

Error de las Redes Neuronales para las 163

muestras. Mejor Mínimo para tipo de problema

Entrada-Salida No-Lineal (ESN).

170



muestras. Mejor Promedio para tipo de problema

Entrada-Salida No-Lineal (ESN).

171



muestras. Mejor Mínimo para tipo de problema Auto-

171

Regresivo No-Lineal con Entrada Externa (ANEE).



muestras. Mejor promedio para tipo de problema

Auto-Regresivo No-Lineal con Entrada Externa.

172

ÍNDICE DE FIGURAS

PAG N°

Figura 1 Sistema Nervioso Central 7

Figura 2 Neurona 8

Figura 3 Potencial eléctrico a través de la membrana del axón

medida con microelectrodos

conectados a un osciloscopio

12

Figura 4 Axón en Estado de Reposo 13

Figura 5 El Potencial de Acción de una Neurona 14

Figura 6 Propagación del Potencial de Acción de una

Neurona.

16

Figura 7 Caracol Marino Aplysia Califórnica. 19

Figura 8 Clasificación de aprendizaje 22

Figura 9 Modelo genérico de neurona artificial 27

Figura 10 Modelo de neurona estándar 29

Figura 11 Redes Neuronales de una capa Realimentación

Positiva

31

Figura 12 Red Multicapa Realimentación Positiva 32

Figura 13 Red recurrente sin auto alimentación 33

Figura 14 Neurona de Mcculloch-Pitts. 50

Figura 15 Perceptrón 53

Figura 16 Función Discriminante 54

Figura 17 ADALINE 55

Figura 18 Red Neuronal de Base Radial 61

Figura 19 Red de Hopfield 67

Figura 20 Red de Hopfield 67

Figura 21 Maquina de Boltzmann 70

Figura 22 Proceso de lotes donde las muestras de entrada son

distribuidas en sublista bajo el modelo de la mejor

combinación

76

Figura 23 Gráficos de Regresiones 93

Figura 24 Captura de Pantalla de la base de datos 101

Figura 25 Captura de Pantalla de la Tabla Dinámica 102

Figura 26 Captura de Pantalla de las variables en el programa

IBM SPSS Statistics 19

105

Figura 27 Gráficos de Asimetría y Curtosis de variables sin

tratamiento

109

Figura 28 Diagramas de Dispersión para las variables Cantidad

de Reservas-N°Pasajeros

110

Figura 29 Gráfico de Asimetría y Curtosis de variables

Normalizadas

116

Figura 30 Diagramas de Dispersión para variables Cantidad de

Reservas-N° Pasajeros

117

Figura 31 Captura de Pantalla de variables Normalizadas. 121

Figura 32 Gráficos de contraste la demanda real con la 150

demanda proyectada por Promedio Móvil

Figura 33 Gráficos de contraste la demanda real con la

demanda proyectada por Promedio Móvil Ponderado

151


demanda proyectada por Suavizamiento Exponencial

151


demanda proyectada por Regresión Lineal

152

Figura 36 Gráfico Demanda Real V/S Perceptrón Multicapa con

Entrada-Salida no-lineal, con variables de entrada

Número de Pasajeros y Fecha de Reservas

154


Auto-Regresivo No-Lineal

155


Auto-Regresivo No-Lineal con entrada externa, con

variables de entrada Dólar, Fecha de Reservas y


159

Figura 39 Gráfico Demanda Real V/S Crece Cuando se

Requiere y Perceptrón Multicapa con Entrada-Salida

No-Lineal, con variables de entrada Dólar Observado

y Número de Pasajeros

160

Figura 40 Gráfico Demanda Real V/S Crece Cuando se

Requiere y Perceptrón Multicapa con Auto-Regresivo

No-Lineal con Entrada Externa, con variables de

162

entrada Dólar Observado, Número de Pasajeros y

Fecha de Reservas

Figura 41 Gráfico Demanda Real V/S Mapa Auto-Organizado y

Perceptrón Multicapa con Entrada-Salida No-Lineal,

con variables de entrada Dólar Observado, Número

de Pasajeros y Fecha de Reservas.

164

Figura 42 Gráfico Demanda Real V/S Mapa Auto-Organizado y


con Entrada Externa, con variables de entrada

Número de Pasajeros y Fecha de Reservas

166

Dímelo y lo olvidaré;

enséñame y lo recordaré;

involúcrame y lo aprenderé.

Benjamín Franklin

RESUMEN EJECUTIVO

Los métodos de pronóstico son ampliamente utilizados en las variadas industrias para

predecir la demanda de insumos, para pronosticar la demanda de productos con fines

que van desde la disminución de costos hasta la maximización del beneficio. Escenario

en el cual las empresas dependen de la precisión de estas predicciones para continuar

operando, es por ello que un método que ofrezca resultados más próximos a la

demanda real nace como una necesidad de las organizaciones.

Esta Tesis propone un modelo basado en redes neuronales artificiales que genera

pronósticos más precisos y con un error asociado menor que los modelos tradicionales

para la demanda de un servicio. El estudio estadístico de la información histórica de la

que se dispone, permite generar un conjunto de datos de entrada que proveerá los

elementos para alimentar el modelo desarrollado.

Se utilizan varios esquemas de redes, las cuales se someten a procesos de

entrenamiento, validación y testeo para verificar su eficacia. Los distintos conjuntos de

datos se utilizan para generar pronósticos por arreglo de dato y esquema de red, los

cuales luego son comparados con los resultados de los métodos tradicionales, de esta

manera se comprueba que los métodos que utilizan redes neuronales entregan

resultados más asertivos al momento de pronosticar la demanda de un servicio, esta

conclusión es extensible a la generación de modelos de demanda de productos e

insumos.

i

ABSTRACT

Forecast methods are widely used in many industries to predict consumables demand,

as well as products demand with objectives that range from lowering cost to increasing

profit. Many businesses depend on the accuracy of their forecasting to keep working;

this is why a method that provides a forecast closer to the real demand is a business

necessity.

This Thesis proposes a neural network based model of forecasting more accurate and

less error prone than the traditional service forecasting methods. The statistical analyses

of the service time-series data generate some sets of input data for the model

developed.

Some neural network models are submitted to training process, validation and testing to

verify their effectiveness. The data sets are used to generate forecast for every data set

and for every network model. Then the results are compared with the results of the

traditional methods. In this way it’s verified that neural network based model of

forecasting return more accurate predictions of services demand. Also this conclusion

can be used to predict consumables and products demand.

ii

1

CAPITULO I

INTRODUCCIÓN

1.1 ANTECEDENTES GENERALES Y DE CONTEXTO

Los avances tecnológicos han exacerbado la necesidad de tener que generar

ventajas competitivas que permitan diferenciarse de los competidores y entreguen

valor a los productos.

Las distintas valoraciones que pueden recibir los productos desde las tangibles hasta

las intangibles han afectado su precio, demanda, y las características mismas del

producto. Esto lleva al establecimiento del intercambio1, en el cual se agregan o

eliminan características, en función de un costo óptimo determinado por la empresa.

Es innegable la importancia del costo al momento de la fabricación, una mala

decisión o un mal cálculo del mismo, puede llevar a la empresa a tener serios

problemas de liquidez, problemas fiscales o incluso a la quiebra de la misma.

En las cadenas productivas predictivas, se adelantan a la demanda futura con una

estimación de cuanto será necesario producir - bienes o servicios - para el período o

periodos siguientes, la precisión de esta valoración es vital para el funcionamiento

adecuado de la empresa.

Una mala estimación en una empresa manufacturera puede implicar desde una

escases de producto, (con la perdida de consumidores y clientes asociada), a un

sobre stock de producto, (con los gastos asociados al almacenaje de las unidades de

mercancía extra). En una empresa de servicios, se puede producir una caída en la

calidad del servicio hasta el impedimento de prestacion de los mismos.

La búsqueda de aumentar la precisión de los pronósticos, disminuir el error relativo

de las predicciones si se prefiere, ha llevado al desarrollo de diferentes técnicas que

buscan eliminar o disminuir al mínimo las imprecisiones en la valoración de la

1 Del término inglés Trade-off.

2

producción en los periodos venideros. Este mismo proceso es lo que ha llevado a la

técnica a migrar desde métodos cualitativos a procesos cuantitativos.

En este contexto es donde la utilización de nuevas técnicas, redes neuronales, lógica

difusa, algoritmos genéticos, adquiere relevancia. Cada uno de estos métodos recién

nombrados, con sus ventajas y desventajas propias, que favorezcan su utilización

serán incorporadas en conjunto con las condiciones más apropiadas para cada

instancia. Todas estas metodologías buscan obtener resultados más precisos a

través de la forma de operar del cerebro (redes neuronales), así como de la manera

de pensar (lógica difusa2).

1.2 OBJETIVOS

1.2.1 Objetivo General

Construir un modelo de red neuronal artificial que provea un pronóstico más asertivo,

en comparación a los métodos tradicionales de proyección de demanda, para una

empresa de servicios del mercado chileno.

Este modelo buscará reflejar el comportamiento complejo de un fenómeno, que más

allá, de establecer las relaciones causa efecto de las variables del fenómeno mismo,

será capaz de utilizar estas interaccciones para obtener un pronóstico de mejor

calidad que los métodos tradicionales.

2 En inglés se denomina Fuzzy Logic.

3

1.2.2 Objetivos Específicos

Realizar análisis estadísticos de los datos que dan origen a los pronósticos, se

utilizarán técnicas de estadística descriptiva que permitan que los resultados

obtenidos puedan ser comprendidos por personas sin una formación

estadística sólida.

Revisar las relaciones que se forman entre los datos que dan origen a los

pronósticos y las distintas anormalidades de los mismos.

Utilizar técnicas de pronósticos más comunes y determinar los pronósticos

para estos métodos y el error medido de cada una de estas técnicas.

Efectuar la selección de los parámetros, las distintas variables del problema,

de modo de elegir las más adecuadas para dar solución a este.

Escoger de forma aleatoria una muestra de los datos que se utilizará como

base de comparación entre los modelos de redes neuronales y las técnicas de

pronóstico tradicionales.

Generar dsitintos modelos de redes neuronales con los parámetros

seleccionados para obtener distintas soluciones de pronósticos.

Ajustar las variables del modelo para obtener las respuestas más cercanas a

la solución del problema.

Medir el error de la proyección de cada uno de los modelos.

Seleccionar el mejor modelo en relación al error de predicción asociado al

mismo.

Comparar los resultados entre las técnicas usuales y el modelo elegido; de

este modo, determinar cual método es más asertivo.

4

Generar múltiples muestras que serán entrenadas, validadas y probadas en

los distintos modelos de redes neuronales con el fin de verificar con mas de un

90% de confianza que los pronósticos entregados por los modelos de redes

neuronales superan a los de las técnicas tradicionales.

5

CAPÍTULO II

MARCO TEÓRICO

Como se ha explicado en la introducción, la presente Tesis tiene como objetivo

desarrollar un modelo que sea capaz de proyectar la demanda esperada de

productos de consumo masivo, para ello se ha elegido las redes neuronales

artificiales como herramientas para lograr este propósito.

Pero, antes de explicar lo que son las redes neuronales artificiales, hay que decir

cuales son sus orígenes, que son las neuronas de los seres vivos, especialmente las

de los seres humanos.

Para esto se expondrá a continuación los diferentes aspectos tanto biológicos como

psicológicos, entre otros, del Sistema Nervioso y de las neuronas; como así también

se detallará los aspectos más relevantes del aprendizaje en el cual se ve involucrado

el cerebro.

6

PARTE I

2.1 NEUROCIENCIA

2.1.1 Sistema Nervioso Central3

El sistema nervioso es aquel que nos da las características propias de cada ser

humano; esto es la inteligencia, personalidad, los puntos de vistas entre otras, de

muchas características que el ser humano puede o no poseer.

Se puede decir que el Sistema Nervioso Central está integrando diferentes

estructuras de alta complejidad en un sólo sistema. De las distintas estructuras la

más básica es la neurona, la célula nerviosa por esencia, de la cual se hablará en

detalle posteriormente.

El sistema nervioso humano está conformado por tres sistemas: el Sistema Nervioso

Central, (en adelante SNC), el Sistema Nervioso Periférico, (en adelante SNP) y el

Sistema Nervioso Autónomo o Vegetativo, (en adelante SNA). Para este desarrollo el

objeto de esta Tesis será el SNC.

Las estructuras que integran el SNC son el encéfalo y la medula espinal, ambos

componentes se encuentran resguardados por el cráneo y la columna vertebral

respectivamente. A continuación en la Figura N°1 se ven los componentes generales

del SNC.

Luego de esto se puede dividir el SNC en seis regiones básicas, que son: medula

espinal, bulbo raquídeo, protuberancia y cerebelo, mesencéfalo, tálamo y hemisferios

cerebrales. Para más Información sobre este tema ver el Anexo 1: Estructura del

Sistema Nervioso Central.

3 (Haines, 2003) & (UCSH, 2009).

7

Figura 1: Sistema nervioso central. Fuente: “Principios de Neurociencia”.

2.1.2 Neurona4

“La célula nerviosa (neurona) es considerada como la unidad básica de

funcionamiento del cerebro, debido a su extensa interconectividad y por su

especialización en la comunicación”.

Las neuronas gestionan la información, lo cual produce que haya cambios en sus

propiedades bioeléctricas o bioquímicas. Estos cambios se producen con un enorme

costo energético para cada célula involucrada. Debido a esto último, es que el

4 (UCSH, 2009), (Haines, 2003) & (Squire, Berg, Floyd, Du Lac, Ghosh, & Spitzer, 2008).

8

sistema nervioso es el mayor consumidor de oxígeno y glucosa de nuestro cuerpo al

ser comparado con los otros órganos y sistemas.

Las neuronas, mientras mantienen su metabolismo, son capaces de realizar las

siguientes funciones, en el orden que son presentadas a continuación: recibir

información del entorno o de otras neuronas, procesar información y enviar

información a otras neuronas o tejidos efectores.

2.1.2.1 Estructura de la Neurona

La neurona arquetípica está conformada de un soma o cuerpo neural del cual brotan

las dendritas y el axón. Además, la neurona se observa circunscrita por una

membrana plasmática continúa. En la siguiente ilustración (Figura N°2) se puede

apreciar la neurona arquetípica.

Figura 2: Neurona. Fuente: “Principles of Neural Science”.

9

La información en las neuronas, en su mayoría, va desde las dendritas al soma y

continúa por el axón y sus terminales para pasar a la siguiente neurona o al tejido

efector.

A continuación se explicará cada una de las estructuras de la neurona en el orden en

que se transmite la información.

a. Dendritas: Estas estructuras suelen ramificarse profusamente en las

proximidades del soma, alrededor del cual toma la forma de un árbol o

arbusto. Se encargan de la recepción de las señales que vienen de otras

neuronas o del entorno a través de receptores especializados. La mayoría de

las neuronas son multipolares, o sea, tienen varias dendritas que salen del

soma. Las señales, (información), son recibidas por parte de la dendrita de

dos formas, la primera a través de receptores especiales, cuando es por parte

del entorno de la señal; y la segunda es a través de los contactos que tienen

lugar en la superficie, (la sinapsis), cuando la señal viene de otra neurona.

Esta información viaja desde la parte distal a la parte proximal para converger

en el soma.

En los extremos de las extensiones de la dendrita - ramas distales - existen

prolongaciones de pequeño tamaño, denominadas espinas dendríticas, las

cuales poseen diversas formas y es en ellas donde se desarrollan los

contactos sinápticos. Al aproximarse al soma las dendritas comienzan a unirse

y permiten que adquiera un mayor grosor.

b. Soma: Este es el centro metabólico de la neurona y constituyen la sustancia

gris del sistema nervioso central.

Debido a que hay distintitas formas del soma y patrones de las prolongaciones

que salen de él, las neuronas pueden ser clasificadas en tres grandes tipos:

Multipolares, con múltiples dendritas que le dan la forma poligonal al soma,

Seudomonopolar (o Monopolar), de forma redondeado y que da lugar a una

única prolongación, y Bipolares, que tienen somas redondo u ovalado y desde

sus extremos surgen sendas prolongaciones gruesas.

10

c. Axones y terminales axónicas: “este surge del soma en una pequeña

elevación denominada cono de implantación o más comúnmente, cono

axónico”.

Los axones y las terminales axónicas pueden alcanzar grandes distancias

antes de ramificarse y terminar.

Estas ramificaciones antes mencionadas son conocidas como arborizaciones

terminales o campos terminales. Las neuronas en su mayoría, rematan en su

axón terminal con pequeños botones terminales. Estos son puntos de contacto

funcional (sinapsis) entre las neuronas. A su vez, también se pueden

encontrar a lo largo del axón botones de paso. En otros axones se pueden

encontrar engrosamiento o varicosidades, aunque estos no tienen la forma de

botón antes dicha, pues este engrosamiento representa puntos de

transferencia de información entre una célula a otra.

El lugar donde el terminal axónico se comunica con una segunda neurona se

llama sinapsis. Esta sinapsis se define como el contacto de una sección de la

neurona (que generalmente es el axón) con las dendritas, el soma o el axón

de una segunda neurona.

2.1.2.2 Base Electroquímica

Las neuronas establecen cientos o miles de conexiones con otras neuronas y envían

de forma continua señales basadas en los estimulos que reciben. “Esta propagación

eléctrica (o señal) dentro de la célula es unidireccional”, como ya se dijo en el punto

anterior. “Todas estas computaciones neuronales ocurren simultáneamente, el

procesamiento de la información en el cerebro se produce en paralelo”.

“Las conexiones sinápticas entre neuronas están organizadas de manera que las

corrientes de información paralelas se segregan en vías y núcleos separados. Esta

organización hace que cada función se asocie a una combinación concreta de

11

núcleos y vías”. La información viaja en serie de núcleo en núcleo, y en cada núcleo

las señales se ven envueltas en un grupo determinado de procedimientos. Esto

otorga que más y más información abstracta sea sustraída en base a los datos

suministrados por los receptores sensoriales. A lo recién expuesto se le conoce

como procesamiento jerárquico.

La información en el Sistema Nerviosos Central se almacena distribuyéndola, para

lograr esto, las características de las conexiones sinápticas son cambiadas. Un

ejemplo es el almacenamiento de una asociación concreta de señales aferentes y

eferentes que conlleva a la modificación de las características de varias sinapsis en

cualquier neurona. Cada una de estas neuronas guarda varias asociaciones,

provocando cambios en sus características sinápticas. En el instante que se recogen

grupos parecidos de señales, varias neuronas participan en la respuesta a estas

señales con cálculos similares; es debido a esto que la pérdida de neuronas

individuales no trae consecuencias visibles en el funcionamiento del sistema

nervioso. Esta redundancia es muy importante, ya que en el transcurso de la vida se

pierden muchas neuronas, las cuales no son remplazadas y por ende se pierden

para siempre.

a. Potencial de Reposo

Debido a que el potencial de reposo de la membrana de una neurona no es el

equilibrio potencial para cualquier ion particular, los iones constantemente

disminuyen sus gradientes de concentración.

El potencial de reposo, o potencial de membrana, es generado por una

distribución desigual de iones, particularmente (Potasio), (Sodio) y

(Cloro), a través del plasma de la membrana. Esta distribución inusual es

mantenida por las bombas iónicas y cambiadores. Los ionesde Potasio

están concentrados dentro de la neurona y tienden a disminuir su gradiente de

concentración, llevando a la hiperpolarización de la célula. En el potencial de

equilibrio, la tendencia de los iones de fluir fuera de la célula será

12

compensada de entrar en la célula debido a la atracción del potencial negativo

dentro de esta. La membrana en reposo es también permeable a los iones de

Sodio ( ) y Cloro ( ) y debido a esto el potencial de reposo de la neurona

es aproximadamente -75 a -40mV, (ver Figura N°3).

Las grabaciones intracelulares de mamíferos muestran que distintos tipos de

neuronas presentan diferentes potenciales de reposo de membrana, incluso

en algunas no existe un potencial de reposo propiamente tal, estas continua y

espontáneamente generan potenciales de acción.

Figura 3: Potencial eléctrico a través de la membrana del axón medida con microelectrodos conectados a un osciloscopio. Fuente: “Biología de los Animales”, Capítulo 47, A. Curtis,

Editorial Médica Panamericana.

b. Potencial de Acción

En la sinapsis se realiza un potencial generador debido a un proceso local.

Este es un potencial lento o gradual, ya que su amplitud varía de modo

continuo. Si este potencial se transmite pasivamente a una zona de la

13

membrana eléctricamente excitable, llamada zona de disparo, y sobrepasa un

cierto nivel umbral, se genera un potencial de acción. Este potencial de acción

es “una onda de despolarización del tipo todo o nada que tiende a la

perpetuación y se propaga a lo largo de la membrana de la fibra nervioso”. Si

las despolarizaciónes son más débiles que el umbral es un fenómeno local y

se extingue pasivamente. En la Figura N°4 se observa este fenómeno de

estado de reposo.

Figura 4: Axón en Estado de Reposo. Fuente: “Biología de los Animales”, Capítulo 47, A. Curtis, Editorial Médica Panamericana.

“El umbral de despolarización se define como el nivel de despolarización que

da origen a un potencial de acción en el 50% de las ocasiones”, (ver Figura 5).

Cuando ocurre esto, se activan los canales de con la fuerza necesaria

para que la entrada de no sea sobrepasada por la creciente salida de ,

con el fin de que esta se equilibre con ella. Una pequeña desviación en

cualquiera de los dos sentidos puede establecer el resultado final; lo que

puede llevar a la extinción o a transformarse en un potencial de acción.

Cuando la despolarización es superior al umbral siempre provocará un

14

potencial de acción. “En este caso, la entrada de iguala a la salida de

en el momento en que la despolarización alcanza el valor umbral”.

Figura 5: El Potencial de Acción de una Neurona. Fuente: “Biología de los Animales”, Capítulo 47, A. Curtis, Editorial Médica Panamericana

c. Repolarización

Después de la generación de potencial de acción, el potencial de membrana

se repolariza y se vuelve incluso más negativo que antes, generando una

hiperpolarización.

Inmediatamente después de la generación de un potencial de acción, otro

potencial de acción generalmente no se puede generar, sin importar la

cantidad de corriente inyectada dentro del axón. Este período corresponde a la

etapa de refracción absoluta y usualmente pasa por la inactivación de los

canales de Sodio ( ). El período refractario relativo ocurre durante el

potencial de acción, después de una hiperpolirización y sigue el periodo

refractario absoluto.

15

En la mayoría de las neuronas, la hiperpolarización negativa aproximada a

60mV activa una corriente iónica llamada , que conduce iones y .

Esta corriente típicamente tiene una cinética muy lenta, desarrollándose en un

tiempo constante del orden de decenas de milisegundos. Debido a que los

canales admiten el pasaje de los iones mencionados, está típicamente

dominada por el momento hacia el interior de iones se produce la

depolarización. Entre más se active más rápido la membrana se depolariza

y es menor el tiempo en que se alcanza el umbral para el siguiente potencial

de acción.

d. Propagación del Potencial de Acción

Para que se produzca el desplazamiento del potencial de acción de un

extremo al otro, se realiza un proceso en el cual se despolariza la membrana

adyacente en reposo a la región activa, llevándola hasta el umbral. “En este

instante la membrana inactiva podrá desarrollar un potencial de acción y su

ciclo de despolarización podrá despolarizar a la siguiente sección de

membrana inactiva.” El proceso resultante se mueve como una onda a lo largo

del axón, y se denomina propagación o conducción del potencial de acción

(ver Figura N°6).

16

Figura 6: Propagación del Potencial de Acción de una Neurona. Fuente: “Biología Celular y Molecular”, H. Lodish et al., Editorial Médica Panamericana, Buenos Aires, 2004

2.1.3 Sinapsis5

Existen dos clasificaciones de sinapsis: la eléctrica y la química. En el presente

estudio se hablará de la sinapsis química, dada su ocurrencia en la gran mayoría de

los mamíferos.

En la sinapsis química, el neurotransmisor, (ver Anexo 2: Neurotransmisores), es

producido por la célula presináptica, el cual esta envuelto en pequeñas vesículas

sinápticas, rodeadas de membrana dentro de las terminales nerviosas. En el

momento que un potencial de acción es recibido por la terminal presináptica, esta

libera el neurotransmisor, que se propaga atravesando el espacio sináptico, y se

acopla a moléculas de receptor de la membrana postsináptica. Esto trae que se

modifique la permeabilidad de los canales iónicos postsinápticos, produciendo así

una corriente sináptica que despolariza o hiperpolariza a la membrana postsináptica.

“Debido a la especialización de los elementos presinápticos y postsinápticos, las

sinapsis químicas son unidireccionales”.

5 (Haines, 2003).

17

“En una neurona postsináptica, las corrientes sinápticas pueden ser provocadas por

la actividad de miles de sinapsis. Estas corrientes interactúan produciendo una

hiperpolarización o despolarización netas. Esta interacción de potenciales graduales

o lentos es la base para buena parte del procesamiento de información en el sistema

nervioso”. Para mayor información ver el Anexo 3: Sinapsis.

2.1.4 Procesamiento de la Información5

“En general, cada célula recibe aferencias tanto excitadoras como inhibidoras desde

diferentes fuentes, y el balance entre la inhibición y la excitación determina la

respuesta final. Este tipo de interacciones permite el control de la naturaleza y la

magnitud de los reflejos motores, la detección de las características de un estímulo

visual, tales como la posición de los bordes de los objetos, y la comparación del

tiempo de llegada de los sonidos a los oídos para determinar en qué dirección se

halla una fuente de sonido”.

2.1.5 Mecanismo Neuronales de Aprendizaje6

1. Habituación

“Es la forma más simple de aprendizaje, un organismo aprende a disminuir o suprimir

por completo una respuesta a un estímulo neutral recurrente, es decir, un estímulo

que no es reforzante ni dañino”

Por ejemplo de habituación se puede exponer al caracol marino Aplysia Califórnica,

(se usa este animal debido a su simplicidad del sistema nervioso, en la Figura N°7 se

aprecia una fotografía), se le estimula su sifón, esto provoca que retire con energía

6 (Kandel, 2001) & (Rains, 2007).

18

su branquia. Después de la estimulación repetida del sifón, se reducirá o incluso será

eliminada esta respuesta de retracción.

La habituación se puede dividir en dos tipos; la de corto plazo y de largo plazo. Por

ejemplo, la habituación de corto plazo tendrá lugar después de 10 estímulos al sifón,

la disminución de la retracción de las branquias puede durar alrededor de 10

minutos. Mientras que una habituación de largo plazo tendrá lugar con una cantidad

mayor de estimulaciones por un periodo más largo.

Kandel junto a sus colaboradores describieron el circuito de retracción de la branquia

de la Aplysia. En este estudio se describe como las neuronas sensoriales reciben

estimulos de entradas desde el sifón formando conexiones monosinapticas con las

neuronas motoras que activan la branquia. Estos estudios además han revelado

componentes del mecanismo de habituación a corto plazo en este circuito, el cual

muestra el efecto que involucra la modificación de la actividad en las terminales del

axón de las neuronas sensoriales y por las interneuronas excitatorias que inervan las

neuronas motoras. La habituación también está asociada a su vez a la disminución

en la capacidad de las vesículas transmisoras para moverse a zonas activas de la

membrana presináptica y así estar disponibles para liberar sus contenidos en la

sinapsis.

En la habituación de largo plazo se involucra la activación de genes que provocan

cambios estructurales en estas conexiones. Los estudios de microscopia electrónica,

que compara animales habituados y no habituados, han revelado que después de la

habituación de largo plazo el número promedio de contactos sinápticos que las

ramificaciones de las terminales sinápticas de las neuronas sensoriales establecen

con las neuronas motoras se reduce a un tercio. Además, la proporción de las

terminales del axón sensorial con zonas activas se reduce de manera significativa.

19

Figura 7: Caracol Marino Aplysia Califórnica. Fuente: “Psiquiatria, psicoanálisis y la nueva biologia de la

mente”, Eric Kandel, Ars medica, Barcelona, 2007

Todo esto nos da dos implicaciones de este mecanismo. Primero, aunque es la

forma más simple de aprendizaje, están involucrados diferentes tipos de neuronas:

neuronas sensoriales e interneuronas excitatorias. Por tanto, aún en la habituación

de un reflejo simple, los cambios en la fuerza funcional de los contactos sinápticos no

están restringidos a un sitio en la neurona, sino que están distribuidos en varios

sitios. Segundo, es que este mecanismo no depende de neuronas que están

especializadas para el aprendizaje. En lugar de ello, los cambios neuronales

subyacentes a la habituación del reflejo de retracción de la branquia de la Aplysia

involucran cambios en las neuronas que son componentes del reflejo mismo.

2. Sensibilización

“La magnitud de una respuesta a un estímulo neutral aumenta cuando es procedido

por un estímulo nociceptivo (doloroso)”. Volviendo al circuito de retracción de la

Aplysia, si se aplica un fuerte choque eléctrico a su sifón provocará un reflejo de

retractación de branquia más vigoroso.

20

Eric Kandel y sus colaboradores encontraron que el choque eléctrico a la cola

estimula la interneuronas, que son llamadas interneuronas facilitadoras, las cuales

establecen sinapsis sobre las terminales del axón de las neuronas sensoriales que

reciben entradas desde el sifón y que, a su vez, forman sinapsis: a) sobre las

neuronas motoras que activan la retirada de la branquia y, b) sobre otras

interneuronas que forman sinapsis sobre estas neuronas motoras. Estas conexiones

axo-axonales permiten que una neurona modifique la actividad de una segunda

neurona al influir sobre los eventos en la terminal del axón de la segunda neurona.

En este caso, en respuesta al choque eléctrico en la cola, las interneuronas

facilitadoras liberan serotonina. Esta se une con los receptores (NI) de la terminal del

axón de la neurona sensorial y pone en marcha una cascada bioquímica que, al final

de cuentas, provoca un incremento en el influjo de Ca2+ dentro de la terminal del

axón y causa un aumento en la cantidad del neurotransmisor liberado.

La sensibilización se puede clasificar en corto plazo y a largo plazo, esto depende del

número y la magnitud de estimulación nociceptiva previa. En la sensibilización a

largo plazo se ven envueltos cambios estructurales a través de la activación de

genes. Entre los cambios que se producen se encuentran el incremento en el número

promedio de conexiones sinápticas que se producen entre las neuronas sensoriales

con las neuronas motoras y un crecimiento correspondiente de las dendritas de las

neuronas motoras con el fin de poder adecuar el aumento de los contactos.

“Además, existe un aumento en la proporción de las terminales del axón de la

neurona sensorial con zonas activas”.

3. Condicionamiento Clásico

“Es un proceso altamente específico. El establecimiento de una respuesta

condicionada requiere que el inicio de un estímulo neutro particular preceda de

manera repetida el inicio de un intervalo de tiempo específico (aproximadamente 0,5

21

s)”7. “Aquí el organismo aprende a asociar un estímulo específico con otro. Cuando

un estímulo neutro (uno que no produce una respuesta particular) precede de

manera repetida a un estímulo incondicional (un estímulo que de manera natural

provoca una respuesta particular, llamada respuesta incondicionada), el estímulo

neutro previo se convertirá en un activador de una respuesta idéntica a (o similar a)

la respuesta incondicionada. Cuando esto ocurre, el estímulo previamente neutro se

le denomina estímulo condicionado y la respuesta que evoca se le llama respuesta

condicionada”.

Volviendo al ejemplo de la Aplysia, “el choque eléctrico a la cola es el estímulo

incondicionado, la estimulación de la base del manto es el estímulo condicionado y la

retirada de la branquia es la respuesta incondicionada y, eventualmente, la

condicionada. Por ende, si el choque eléctrico a la cola es precedido durante varios

intentos por una estimulación ligera de la base del manto, esto provocara una

vigorosa retracción de la branquia”. En este caso “las interneuronas, que reciben

entradas de las neuronas sensoriales que inervan la cola, establecen sinapsis axo-

axonales con la neuronas sensoriales que llevan las entradas desde el manto; el

disparo de estas interneuronas provoca la facilitación presinápticas de la neurona

sensorial que transmite las señales desde el manto. Las interneuronas hacen esto

mediante la liberación de serotonina, lo cual genera un incremento en la liberación de

glutamato por las terminales del axón de la neurona sensorial que establece sinapsis

con las neuronas motoras”.

Además de lo anterior “en el condicionamiento, la facilitación presináptica es

bastante amplificada si el estímulo condicionado (estímulo de la base del manto)

produce potenciales de acción en las neuronas sensoriales justo antes del inicio del

estímulo incondicionado (choque eléctrico a la cola). Por tanto, la magnitud de la

facilitación presináptica depende de la actividad de las neuronas sensoriales que

reciben la facilitación, un fenómeno al cual se le denomina facilitación presináptica

dependiente de la actividad”.

7 (Rains, 2007) & (Kandel, 2001).

22

Estos tres mecanismos neuronales del aprendizaje pueden ser clasificados en dos

tipos; en asociativo y no asociativos, el cual puede ser apreciado en la Figura N°8.

2.1.6 Memoria8

“Durante el proceso del aprendizaje quedan huellas que dejan el procesamiento y la

integración de la información percibida. Así es como se activa la memoria. Este es un

proceso cognitivo que permite recordar las experiencias pasadas, tanto en términos

de la adquisición de información nueva como de recordar información”. El

aprendizaje permite que la memoria se vaya edificando y a su vez la memoria

permite hacer perdurar los beneficios del aprendizaje. Tanto la memoria como el

aprendizaje están influenciados por los mismos factores. Es debido a esto que la

memorización de información o de eventos puede ser perfeccionada a través de una

motivación acrecentada, un contexto especial, un estado emocional fuerte o una

atención aumentada.

8 (UCSH, 2009) & (Rains, 2007).

Aprendizaje

No Asociativo

Asociativo

Habituación

Sensibilización

Condicionamiento

Solución de Problemas

Figura 8: Clasificación de Aprendizaje. Basado en “Inostroza, Canessa & Holzmann”.

23

La memoria es uno de los aspectos más centrales del ser humano. Mediante ella, el

sistema nervioso codifica los eventos pasados en una forma que en ocasiones

permite recordar de manera consciente eventos en el pasado distante tan

vívidamente como si apenas hubiesen ocurrido, y estos recuerdos con frecuencia

llevan consigo emociones intensas que van desde lo maravilloso hasta lo

tormentoso. “Los eventos pasados están representados en el sistema nervioso en

una forma que no produce recuerdos conscientes y que incluso afectan la conducta

subsecuente, como cuando se desempeña una habilidad motora como pasear en

bicicleta”.

Otros dominios de la cognición se relacionan con la memoria, lo que se recuerda

está influenciado por lo que ya se sabe y lo que se infiere acerca del pasado. Hay

que destacar que la memoria no es un registro estático, sino que es un proceso

dinámico afectado por los marcos conceptuales y por el conocimiento general; y las

inferencias sacadas a partir de ellos. Por lo tanto, recordar es una construcción o

reconstrucción dinámica del pasado.

Hace un par de años atrás, Elizabeth Loftus demostró de manera experimental la

capacidad reconstructiva de la memoria y lo importante que son los esquemas en

este proceso a través de la manipulación del recuerdo de un evento de los individuos

por medio de la introducción de información después de la experiencia del suceso.

2.1.6.1 Subprocesos de la Memoria

“El proceso de la memoria es dividido en tres subprocesos secuenciales:

registro/codificación, almacenamiento/mantenimiento y recuperación”:

A. Registro/Codificación: el registro es cuando el estímulo debe crear un cierto

impacto sobre un sistema nervioso, con el fin de que el sistema plasme una

representación del mismo. La codificación es la manera en que la información

se representa en el sistema nervioso. La codificación puede adoptar distintas

24

formas, las cuales dependen de las características del estímulo que la usan

como base. Además, esto va a depender mucho del individuo que realiza la

codificación.

B. Almacenamiento/Mantenimiento: esta es una gran incógnita de la

neurobiología. La representación no es precisamente estática, como lo sería al

grabar símbolos, letras, entre otras, en piedras. El recordar, al contrario del

ejemplo anterior, es un proceso dinámico, el cual se ve afectado por una

multitud de factores. Por último, decir que aunque la representación es

dinámicamente cambiante, debe ser almacenada en el cerebro para que la

memoria opere.

C. Recuperación: ocurre cuando se busca acceder a parte de la información

almacenada en el cerebro.

2.1.7 Modelos Matemáticos de Aprendizaje9

Los primeros pasos hacia el entendimiento matemático del aprendizaje se dieron al

inicio del siglo pasado, y están relacionados a los pioneros de la psicología

matemática, dirigiendo su atención a la curva de aprendizaje, en sus estados más

simples, basados en la experimentación con animales. En estos estudios se buscaba

identificar el perfil de la curva que se forma al medir las variaciones en el desempeño

del objeto de estudio al realizar una tarea, a través del tiempo.

El primer intento formal de modelar una gran sección de datos del comportamiento

animal con aprendizaje y motivación se puede atribuir a Clark Hull, ingeniero

eléctrico, quien creía que mucha de la teoría supuestamente confirmada con ratas

podía ser generalizada al comportamiento humano.

La idea de Clark Hull era proveer de un sistema de conceptos primitivos sin

definición, siguiendo luego definiciones y enseguida axiomas y teoremas. Luego, la

9 (Inostroza , Canessa, & Holzmann, 1982) & (Townsend & Kadlec, 1990).

25

teoría se relacionaría con la realidad a través de la creación de correlaciones entre

definiciones desde términos primitivos, axiomas o teoremas posteriores, a

mediciones o datos experimentales. Después de la muerte de Hull en 1952 muchas

de las teorías matemático-psicológicas han sido menos ambiciosas, con muy pocas

excepciones. La mayoría de las teorías se han centrado en paradigmas

relativamente pequeños. Se pueden considerar como modelos relativamente

ambiciosos la teoría de estímulo-muestreo de W. K. Estes y la de comportamiento de

elección individual de R.D. Luce, ellos intentaron formulaciones para describir una

amplia variedad de situaciones de aprendizaje o situaciones de decisión

respectivamente.

La psicología, al igual que muchas otras ciencias, han sacado provecho de los

avances matemáticos, esto se puede apreciar en las teorías del aprendizaje que se

han ido formulando a través del tiempo se puede apreciar esto. Desde los conceptos

intuitivos de C. Hull hasta el trabajo de Robert R. Bush y Frederick Mosteller, los

cuales incorporan modelos estocásticos y ecuaciones diferenciales de primer orden,

la psicología ha seguido incorporando los avances matemáticos como la teoría

general de sistemas y la teoría de autómatas, entre otras.

Esta disciplina, (psicología), se ha ido desarrollando a través del uso de las

probabilidades y estadística. En el desarrollo se ha migrado de acercamientos

cualitativos e intuitivos para probar las hipótesis a una estrategia cuantitativa con el

aumento de un modelamiento matemático cada vez más riguroso.

El desarrollo de las líneas de investigación del aprendizaje lleva a investigadores del

área de la psicología a aventurarse al área de la inteligencia artificial, así como a

investigadores de las ciencias de la computación a entrar en el terreno de la

psicología llegando a que muchos modelos de inteligencia artificial han sido

candidatos para explicar procesos cognitivos del cerebro.

Es así como nacen modelos cognitivos que proveen de información de un ajuste muy

preciso con los datos experimentales.

26

PARTE II

2.2 REDES NEURONALES ARTIFICIALES

Esta sección se organiza de manera de ir ordenando los conceptos de redes

neuronales artificiales para facilitar su comprensión. Primero se entregarán los

conceptos básicos de los modelos de neurona, para luego avanzar hacia las

arquitecturas básicas que pueden representar, y de esta manera introducir los tipos

de aprendizajes clásicos y los paradigmas del entrenamiento de redes neuronales.

En el resto de este capítulo se presentan los modelos de redes neuronales desde los

primeros tipos hasta los más actuales.

2.2.1 Modelo General de Neurona Artificial10

“Se denomina procesador elemental o neurona a un dispositivo simple de cálculo

que, a partir de un vector de entrada procedente del exterior o de otras neuronas,

proporciona una única respuesta o salida”. Esta estructura está compuesta de los

siguientes elementos:

10

(Martin del Brio, 2007).

27

Figura 9: Modelo genérico de neurona artificial. Fuente:“Redes Neuronales y Sistemas Difusos”.

Como se puede apreciar en la Figura N°9 el modelo general de neurona artificial esta

compuesto de:

Conjunto de entradas,

Pesos sinápticos de la neurona i, que representa la intensidad de relación

entre cada neurona presináptica y la neurona postsinaptica .

Regla de propagación , que proporciona el valor del potencial

postsináptico de la neurona en función de sus pesos de

entradas.

Función de activación , que proporciona el estado activación

actual de la neurona , en función de su estado

anterior y de su potencial postsináptico actual.

Función de salida , que proporciona la salida actual

de la neurona en función de su estado activación.

xj wij

hi=

σ(wij,xj)

Sinapsis

ai=f(hi)

yi=F(ai) Entradas

Salida yi

Función de

activación

Regla de

propagación

Función de

salida

28

La operación formal de la neurona se puede expresar como:

(1)

Las entradas y salidas de la ecuación (1) podrán ser de distintos tipos dependiendo

del modelo y la aplicación del mismo.

Los pesos sinápticos de la neurona , representan la intensidad de relación entre

cada neurona presináptica y neurona postsináptica . Dada una entrada positiva

procedente de un sensor o de otra neurona, si el peso es positivo tenderá a excitar a

la neurona postsináptica, en caso contrario tenderá a inhibirla; de esta manera se

puede diferenciar las sinapsis en excitadoras (de peso positivo) e inhibitorias (de

peso negativo).

La regla de propagación permitirá calcular el potencial postsináptico de la neurona a

partir de las entradas y los pesos asociados a estas. La función más habitual es la

lineal y se basa en la suma ponderada de las entradas con los pesos sinápticos

, otra regla de propagación habitual está basada en el cálculo de

distancia entre vectores, en la distancia euclediana.

(2)

Este modelo se puede considerar demasiado general, en la práctica se utiliza un

modelo más simple que se denominará neurona estándar, el cual está compuesto

de:

Un conjunto de entradas y pesos sinápticos .

Una regla de propagación donde es la

regla de uso más común.

Una función de activación , que representa simultáneamente

la salida de la neurona y su estado de activación.

Todo lo anterior se puede apreciar de mejor forma en la Figura N°10.

29

Figura 10: Modelo de neurona estándar. Fuente: “Redes neuronales y sistemas difusos”.

Con frecuencia se añade al conjunto de pesos de la neurona un parámetro adicional

, que se denominará umbral, que se resta del potencial postsináptico, por lo que el

argumento de la función de activación queda:

(3)

Lo que representa añadir un grado de libertad adicional a la neurona.

De esta manera el modelo de neurona estándar queda:

(4)

Sinapsis

Wi1

Wi2

Wij

Win . . .

. . .

x1

x2

xj

xn

Entradas

Umbral

-1

f ( ) yi

Salida

30

2.2.2 Arquitectura11

Basado en los aspectos biológicos de las neuronas se pueden identificar entre las

conexiones existentes algunos tipos de comportamientos. La mayoría de las

neuronas están conectadas con muchas, pero no todas, las neuronas vecinas en la

misma capa. Muchas de estas conexiones pueden ser excitatorias (la mayoría de las

conexiones), algunas inhibitorias, otras neuronas pueden tener un grado de

autoestimulación (un nodo excita a su vecino y este responde con una señal

excitatoria al nodo inicial), a una respuesta excitatoria casi nula.

Se denomina arquitectura a la topología, estructura o patrón de conexión de una red

neuronal. En los sistemas de redes neuronales los nodos se conectan por medio de

sinapsis, esta estructura de conexiones sinápticas determina el comportamiento de la

red. Las conexiones sinápticas son direccionales, es decir, la información solamente

puede propagarse en un sentido (desde la neurona presináptica a la postpsináptica).

En general, las neuronas se suelen agrupar en unidades estructurales que se

denominan capas. Las neuronas de una capa pueden a su vez agruparse, formando

acumulaciones neuronales (grupos12, vecindarios). Dentro de un grupo o de una

capa, si no existe este tipo de agrupación, las neuronas suelen ser del mismo tipo.

Finalmente el conjunto de una o más capas constituye la red neuronal.

A. Redes Neuronales de una Capa con Realimentación Positiva13

Se presenta como la red más básica posible en que cada neurona está conectada

con todas las neuronas que le sigue, esas conexiones pueden ser excitatorias (pesos

positivos), inhibitorias (pesos negativos) o irrelevantes (pesos cercanos a cero).

11

(Mehrotra, Mohan, & Ranka, 2000), (Martin del Brio, 2007) & (Haykin, 2005). 12

En inglés Clusters. 13

En inglés es llamadoFeedforward.

31

Las conexiones alimentan la información hacia adelante estrictamente, también se le

conoce como red de tipo acíclico. Se le conoce como de capa única porque sólo se

consideran las neuronas donde se realizan cálculos, las de salida o nodos de

computación. No se considera la capa de entrada como tal ya que no se realizan

cálculos en ella. A continuación en la Figura N°11 se aprecia una red de una capa

con realimentación positiva.

Figura 11: Redes Neuronales de una capa con Realimentación Positiva. Fuente: “Neural Networks a Comprehensive Foundation”.

B. Redes Neuronales de Múltiples Capas con Realimentación Positiva

Esta arquitectura de redes neuronales se distingue por la presencia de una o más

capas ocultas, en las cuales los nodos se llaman neuronas ocultas, la función de las

neuronas ocultas es intervenir entre la entrada externa y la salida de la red de alguna

manera útil.

Al agregar una o más capaz ocultas, es posible extraer estadísticas de orden

superior; ya que en un sentido intuitivo, la red adquiere una perspectiva global pese a

Capa de

neuronas de

entrada

Capa de neuronas

de salida

32

sus conexiones locales debido al conjunto extra de conexiones sinápticas y la

dimensión extra de interacciones neuronales.

Los nodos de entrada proveen los elementos de activación, o vector de entrada, que

se aplican a las neuronas de la segunda capa. La señal de salida de la segunda capa

se vuelve, a su vez, la señal de entrada de la tercera capa, y de esta manera para el

resto de la red.

Figura 12: Red Multicapa con Realimentación Positiva. Fuente: “Neural Networks a Comprehensive Foundation”.

En la Figura N°12 se puede apreciar una red multicapa con realimentación positiva

totalmente conectada, todas las neuronas se conectan con los nodos de la siguiente

capa, en el caso que existieran conexiones inexistentes se diría que la red es

parcialmente conectada.

Capa de

neuronas de

entrada

Capa de neuronas

de salida

Capa de neuronas

ocultas

33

C. Redes Recurrentes

Estas redes se distinguen de las realimentadas positivamente, en que poseen al

menos un circuito alimentación negativo. Por ejemplo, una red recurrente puede

consistir de una capa simple de neuronas, donde cada una alimenta la señal anterior

de todas las otras neuronas.

En la figura siguiente se muestra una red con realimentación negativa. En el caso de

la Figura N°13 no hay auto alimentación – el flujo de la información vuelve a la misma

neurona - y se utilizan operadores de retardo que resultan en comportamiento

dinámico no lineal, asumiendo que la red neuronal contiene unidades no lineales.

Figura 13: Red recurrente sin auto alimentación. Fuente: “Neural Networks a Comprehensive Foundation”.

z-1

z-1

z-1

z-1

34

2.2.3 Aprendizaje14

La propiedad que tiene mayor significancia para una red neural es la habilidad de la

red de aprender de su entorno y mejorar su rendimiento a través del aprendizaje. La

mejora en el rendimiento ocurre en el tiempo, de acuerdo a una medida

prestablecida.

Una red neural aprende sobre su entorno a través de un proceso interactivo de ajuste

aplicado a los pesos sinápticos y niveles de sesgo15. Idealmente, la red se vuelve

más informada acerca del entorno después de cada iteración del proceso de

aprendizaje.

Existen demasiadas actividades asociadas a la notación de aprendizaje por esto se

hace necesario definirlo en una manera precisa. Adicionalmente, el proceso de

aprendizaje es un punto de vista que vuelve aún más difícil la definición precisa del

término.

Admitiendo que nuestro interés particular son las redes neurales, se utilizará una

definición de aprendizaje adaptada de J. M. Mendel y R. W. McClaren, donde se

define aprendizaje, en el contexto de las redes neuronales, como:

“Aprendizaje es el proceso por el cual los parámetros libres de una red neural

son adaptados a través de un proceso de simulación del entorno en el cual la

red está integrada. El tipo de aprendizaje está determinado por la manera en

que ocurre cada cambio en el parámetro.”

La definición de este proceso implica la siguiente secuencia de eventos:

La red neuronal se estimula por el entorno.

La red neuronal sufre cambios en sus parámetros libres como resultado de

esta estimulación.

14

(Haykin, 2005). 15

Sesgo de un estimador es la diferencia entre el valor esperado del estimador y el verdadero valor del parámetro a estimar.

http://es.wikipedia.org/wiki/Par%C3%A1metro_estad%C3%ADstico

35

La red neuronal responde en una nueva manera al entorno producto de los

cambios ocurridos en su estructura interna.

Se denomina algoritmo de aprendizaje al conjunto establecido de reglas bien

definidas para la solución del problema de aprendizaje. Como se podría esperar, no

existe un algoritmo único para diseñar las redes neuronales. Más que esto, se tiene

un conjunto de herramientas representada por la variedad de algoritmos de

aprendizaje, cada uno ofrece ventajas propias.

Básicamente, los algoritmos de aprendizaje difieren uno del otro en la manera en que

ajustan los pesos sinápticos de una neurona. Además, otro factor a considerar es la

manera en la cual una red neuronal, hecha de un conjunto de neuronas, se relaciona

con su entorno. En este contexto se puede hablar de paradigma de aprendizaje que

se refiere al modelo de entorno en el cual la red operara.

Primero se revisarán las reglas básicas de aprendizaje, luego se enfocará en el

paradigma fundamental del aprendizaje: aprender con un profesor o aprender solo.

A. Aprendizaje Error-Corrección

Considerar un caso simple de una neurona que constituye el único nodo de una

capa de salida en una red neuronal con realimentación positiva. La neurona está

impulsada por un vector señal producido por una o más capas de neuronas

escondidas, las cuales están impulsadas a su vez por un vector de entrada

(estímulo) aplicado sobre los nodos fuentes (capa de entrada) de la red neuronal. El

argumento indica un tiempo discreto, o más precisamente, el tiempo de paso de un

proceso iterativo involucrado en ajustar los pesos sinápticos de la neurona . La

señal de salida de la neurona se denota por . Esta señal de salida, que

representa la única salida de la red neuronal, se compara con la respuesta deseada

36

o salida esperada, definida como . En consecuencia, se produce el error de la

señal, que se definirá como . Por definición se tiene:

(5)

La señal de error actúa como mecanismo de control, donde el propósito

consiste en aplicar una secuencia de ajustes correctivos a los pesos sinápticos de la

neurona . Los ajustes correctivos están diseñados para hacer que la señal de salida

se acerque a la respuesta deseada en un proceso paso a paso. Este objetivo

se alcanza minimizando la función de costo o índice de desarrollo, , definida en

base a la señal de error como:

(6)

Donde, es el valor instantáneo de energía de error. El ajuste paso a paso de los

pesos sinápticos de la neurona continúa hasta que el sistema alcanza un estado

constante, los pesos sinápticos esencialmente se estabilizan. En este punto el

proceso de aprendizaje termina.

El proceso anterior es claramente un proceso de aprendizaje de error-corrección. En

particular, la minimización de la función de costo lleva a la regla de aprendizaje

conocida comúnmente como regla delta o regla de Widrow-Hoff, llamada así por sus

creadores.

Sea el valor del peso sináptico de de una neurona excitada por el

elemento del vector señal en el tiempo . De acuerdo a la regla delta, el

ajuste aplicado al peso sináptico en el tiempo esta definido por:

(7)

37

Donde es una constante positiva que determina la tasa de aprendizaje a la cual se

procede desde un paso a otro en el proceso de aprendizaje. De ahí que sea natural

el referirse a como el parámetro de la tasa de aprendizaje. En otras palabras, la

regla delta se puede definir como:

“El ajuste realizado al peso sináptico de una neurona es proporcional al

producto de la señal de error y la señal de entrada de la sinapsis referida”.

Hay que considerar que la regla delta, definida así, presume que la señal de error es

medible directamente. Para que esta medición sea factible claramente se necesita

proveer la respuesta deseada desde una fuente externa, que tiene acceso directo a

la neurona . En otras palabras, la neurona es visible al mundo externo. Se debe

mencionar que los ajustes sinápticos realizados por la regla delta están localizados

alrededor de la neurona .

Es del caso destacar la importancia de la elección cuidadosa de , parámetro de la

tasa de aprendizaje, para asegurar que se consiga la estabilidad y convergencia del

proceso iterativo de aprendizaje. Además, la elección de tiene profunda influencia

en la precisión y otros aspectos del proceso de aprendizaje; dicho de otra manera, el

parámetro de la tasa de aprendizaje juega un rol importantísimo en el desarrollo de

los procesos de aprendizaje error-corrección.

B. Aprendizaje Basado en Memoria

En el aprendizaje basado en memoria, todos (o la mayoría) de las experiencias

pasadas están almacenadas en una gran memoria de ejemplos de clasificaciones

correctas entrada-salida, , donde es un vector de entrada y es la

respuesta deseada correspondiente. Cuando se requiere la clasificación de un vector

de prueba (que no se ha visto anteriormente), el algoritmo responde

38

recuperando y analizando los datos de entrenamiento en un "vecindario local” de

.

Todos los algoritmos de aprendizaje basados en memoria envuelven dos

componentes esenciales:

El criterio usado para definir el vecindario local del vector de prueba .

Regla de aprendizaje aplicada para los ejemplos de entrenamientos en el

vecindario local de .

Los algoritmos difieren unos de otros en la manera en que estos dos componentes

son definidos.

En un tipo de aprendizaje basado en memoria simple pero efectivo conocido como

regla del vecino más cercano, el vecindario local se define como el ejemplo de

entrenamiento que descansa en el vecindario inmediato del vector de prueba .

En particular, el vector:

(8)

Se dice el más cercano vecino de si,

(9)

Donde es la distancia euclidiana entre los vectores y . La clase

asociada con la distancia mínima, esto es, vector se reporta como la clasificación

de . Esta regla es independiente de la distribución responsable de generar los

ejemplos de entrenamiento.

Una variante del clasificador de vecino más cercano es el clasificador de -vecinos

más cercanos, el procedimiento es el siguiente:

Identificar los patrones clasificados que descansan más cercanos al vector

de prueba para algún entero .

39

Asignar a la clase que es más frecuentemente representada en los

vecinos más cercanos a .

De esta manera la clasificación de vecinos más cercanos actúa como un

dispositivo promediador. Particularmente discrimina contra una observación que es

improbablemente grande para un modelo de interés nominal.

C. Aprendizaje Hebbiano

Este es el modelo más antiguo y famoso de las reglas de aprendizaje. Debe su

nombre al neuropsicologo Donald Hebb. Se define como una sinapsis hebbiana a

una sinapsis que utiliza un mecanismo dependiente del tiempo, altamente local,

fuertemente interactivo para incrementar la eficiencia sináptica como una función de

correlación entre las actividades presinápticas y postsinápticas. De esta definición se

pueden definir las siguientes cuatro propiedades que caracterizan las sinapsis

hebbianas:

Mecanismo Dependiente del Tiempo: Este mecanismo se refiere a que las

modificaciones en una sinapsis hebbiana dependerán en el tiempo exacto de

ocurrencia de las señales presinápticas y postsinápticas.

Mecanismo Local: Por su naturaleza, una sinapsis es el sitio de transmisión

donde señales portadoras de información (representando ocurrencia de

actividad en las unidades presinápticas y postsinápticas) son próximos en

espacio y tiempo. Esta información disponible localmente es utilizada por una

sinapsis hebbiana para producir una modificación sináptica local que es una

entrada específica.

Mecanismo Interactivo: La ocurrencia del cambio en una sinapsis hebbiana

depende de la señal de ambos lados de la sinapsis. Esto quiere decir, que una

forma de aprendizaje hebbiano depende de una "interacción real” entre las

40

señales presináptica y la postsináptica en el sentido de que no se puede hacer

una predicción de cualquiera de las dos actividades por si mismas.

Mecanismo correlacional: Una interpretación del postulado de aprendizaje de

D. Hebb es que la condición para un cambio en la eficiencia sináptica es la

conjunción de señales presinápticas y postsinápticas; además, de acuerdo a

esta interpretación; la ocurrencia simultánea de señales presináptica y

postsináptica (con un intervalo de tiempo pequeño) es suficiente para producir

el cambio sináptico.

C.1 Modelos Matemáticos de Modificaciones Hebbianas.

Para formular el aprendizaje en términos matemáticos, se considera peso sináptico

de una neurona con señales presinápticas y postsinápticas denominadas e

respectivamente. El ajuste aplicado al peso sináptico al momento es

expresada en la forma general:

(10)

Donde es una función de ambas señales –pre y post sinápticas-. Las señales a

menudo son tratadas como no dimensionales.

D. Aprendizaje Competitivo

En el aprendizaje competitivo, como lo indica su nombre, las neuronas de salida de

la red neuronal compiten entre ellas para ser la activa (la que se dispara). Mientras

que en una red neuronal de aprendizaje hebbiano, varias neuronas pueden estar

activas simultáneamente, en el aprendizaje competitivo solo una única neurona esta

41

activa en un momento dado. Esta característica hace del aprendizaje competitivo

muy adecuado para descubrir características estadísticas sobresalientes que pueden

usarse para clasificar conjuntos de patrones de entrada.

Los tres elementos básicos para una regla de aprendizaje competitivo:

Es un conjunto de neuronas, todas iguales, con la excepción de los pesos

sinápticos distribuidos aleatoriamente, y por lo mismo con una respuesta

diferente a un conjunto de patrones de entrada.

Se impone un límite de "fuerza” a cada una de las neuronas.

Un mecanismo que permite a las neuronas competir por el derecho a

responder a un subconjunto de entradas dado, tal que solo una neurona de

salida, o sólo una neurona por grupo, se encuentra activa en un momento

dado. La neurona que gana la competencia sigue el esquema de "el ganador

lo toma todo”.

De esta manera, las neuronas individuales de la red aprenden a especializarse en

conjuntos de patrones similares, y de esta forma se vuelven detectores de

características para diferentes clases de patrones de entrada.

En la forma más simple del aprendizaje competitivo, la red neural tiene sólo una capa

de neuronas de salida, cada una de ellas está completamente conectada a los nodos

de entrada. La red puede incluir conexiones de retroalimentación entre las neuronas.

En la arquitectura que se está describiendo, la conexión de retroalimentación genera

una inhibición lateral, donde cada neurona tiende a inhibir la neurona a la que está

lateralmente conectada. En contraste, las conexiones sinápticas realimentadas

positivamente en la neurona son todas excitatorias.

Para que una neurona sea la ganadora, el campo local inducido para un patrón

de entrada específico debe ser el más grande entre todas las neuronas de la red.

La señal de salida de cada neurona ganadora es igual a uno, las señales de

salida de todas las neuronas que pierden la competencia es igual a cero. Esto se

escribe:

42

(11)

donde el campo local inducido representa la acción combinada de todas las

entradas, neuronas conectadas positivamente y las neuronas retroalimentadoras, de

la neurona .

Sea el peso sináptico conectando el nodo de entrada a la neurona . Suponga

que cada neurona tiene permitido un monto fijo de pesos sinápticos, por ejemplo,

todos los pesos sinápticos son positivos, los cuales son distribuidos entre los nodos

de entrada,

(12)

Una neurona que aprende va cambiando sus pesos sinápticos de nodos de entrada

desde inactivo hasta activo. Si una neurona no responde a un patrón de entrada

particular, no ocurre aprendizaje en la neurona. Si una neurona particular gana la

competencia, cada nodo de entrada de dicha neurona disminuye una porción de su

peso sináptico, y esa porción de peso sináptico entonces se distribuye

equitativamente entre los nodos de entrada activos. De acuerdo a la regla estándar

de aprendizaje competitivo, el cambio aplicado en el peso sináptico es

definido como:

(13)

donde es el parámetro de la tasa de aprendizaje. Esta regla tiene el efecto global

de mover el vector de peso sináptico de la neurona ganadora hacia el patrón de

entrada .

43

E. Aprendizaje de Boltzman

La máquina de Boltzmann al ser una máquina estocástica, hace natural mirar una

teoría de probabilidad para un apropiado índice de rendimiento. Un criterio es la

Función de Verosimilitud. El objetivo del Aprendizaje de Boltzmann es maximizar la

función de verosimilitud o, equivalentemente, la función de verosimilitud logarítmica,

de acuerdo con el principio de máxima verosimilitud.

Se denota a como el conjunto de ejemplo de entrenamiento de la distribución de

probabilidad de interés. Supone que los ejemplos son todos de dos valores. Un

subconjunto del vector estado , dicho , denota el estado de las neuronas visibles.

La parte restante del vector estado , dicho , representa el estado de las neuronas

ocultas. Los vectores estados , y son la realización de los vectores aleatorios

, y , respectivamente. La operación de la máquina de Boltzmann presenta dos

fases:

Fase positiva: En esta fase la red opera en su condición fijada, (por ejemplo,

bajo la influencia directa del conjunto de entrenamiento ).

Fase negativa: En esta segunda fase, la red se puede ejecutar libremente, y

por lo tanto, sin entrada medioambiental.

dado el peso sináptico para la red entera, la probabilidad que las neuronas visibles

estén en el estado es . Con los muchos posibles valores de

contenidos en el conjunto de entrenamiento , suponer que es estadísticamente

independiente, la distribución de probabilidad global es la distribución factorial

. Para formular la función verosimilitud logarítmica , toma el

logaritmo de esta distribución factorial y trata como el vector de parámetro

desconocido. Se puede así escribir:

44

(14)

Para formular la expresión de la probabilidad marginal en términos de la

función energía , se utiliza lo siguiente:

La probabilidad es igual a .

Por definición, el vector estado es la combinación conjunta de

perteneciente a las neuronas visibles y perteneciente a las neuronas

ocultas. Por consiguiente, la probabilidad de encontrar las neuronas visibles

en estados con cualquier es dada por.

(15)

donde el vector aleatorio es un subconjunto de . La función partición es así

misma definida por:

(16)

Así es que, sustituyendo las dos ecuaciones anteriores con la ecuación (que tiene la

función logaritmo), se obtiene la expresión deseada para la función logarítmica de

verosimilitud16:

(17)

La dependencia en es contenida en la función energía , como muestra la

siguiente ecuación:

16

En inglés es llamado Log-likelihood Function.

45

(18)

Al diferenciar con respecto a de la ecuación anterior, se obtiene el siguiente

resultado después de algunas manipulaciones de términos:

(19)

Para simplificar las cosas, se introduciran dos definiciones:

Y

(20)

En un amplio sentido, se puede ver el primer promedio, , como la tasa de disparo

medio o correlación entre los estados de neuronas y con la red operando en su

fase positiva o fija, y similarmente visto el segundo promedio, , como la

correlación entre las fases de neuronas y con la red operando en su

funcionamiento libre o fase negativa. Con estas definiciones se puede simplificar la

ecuación (19) a:

(21)

El objetivo del aprendizaje de Boltzmann es maximizar la función logarítmica de

verosimilitud . Se puede utilizar la gradiente de ascenso para lograr ese objetivo

al escribir:

46

(22)

donde es el parámetro de tasa de aprendizaje; este es definido en términos de y

la temperatura de operación como:

(23)

La regla de la gradiente de ascenso es llamada regla de aprendizaje Boltzmann. El

aprendizaje se desarrolla en lotes; eso es, los cambios para los pesos sinápticos son

hechos en la presentación del conjunto entero de los ejemplos de entrenamiento.

De acuerdo a esta regla de aprendizaje, los pesos sinápticos de una máquina de

Boltzmann son ajustados utilizando solo las observaciones disponibles a nivel local

bajo dos diferentes condiciones: (1) fijado, (2) funcionamiento libre. Esta importante

característica del aprendizaje de Boltzmann simplifica en gran medida la arquitectura

de la red, particularmente cuando se trata de grandes redes. Otra característica útil

del aprendizaje de Boltzmann, que puede venir como una sorpresa, es que la regla

para ajustar el peso sináptico de la neurona a neurona es independientemente de

que estas dos neuronas sean ambas visibles, ambas ocultas, o una de cada una.

Desde un punto de vista de aprendizaje, los dos términos que constituyen la regla de

aprendizaje de Boltzmann tienen significado distinto. Se puede considerar el primer

aspecto, correspondiente a la condición fijada de la red, esencialmente como una

regla de aprendizaje Hebbiano, el segundo aspecto, la red corriendo libremente, se

puede considerar como un des-aprendizaje o condición de olvido.

47

F. Aprender con Profesor

También conocido como aprendizaje supervisado. Se puede conceptualizar este

paradigma diciendo que el profesor tiene conocimiento del entorno, y que este se

representa como un conjunto de ejemplos de entrada-salida. El entorno, sin

embargo, no conoce a la red neuronal de nuestro interés. Suponiendo que tanto, el

profesor como la red neural están expuestos a un vector de aprendizaje atraído

desde el entorno; por medio del conocimiento construido en él, el profesor es capaz

de proveer a la red neuronal con una respuesta esperada para ese vector de

aprendizaje. De hecho, la respuesta deseada representa la acción óptima que

desarrollará la red neuronal.

Los parámetros de la red son ajustados bajo la influencia combinada del vector de

entrenamiento y la señal de error. La señal de error se define como la diferencia

entre la respuesta deseada y la verdadera respuesta de la red. Este ajuste se realiza

iterativamente de una manera paso a paso, con el objetivo de hacer que la red

neuronal emule al profesor eventualmente. Esta emulación presume ser óptima en

un sentido estadístico. De esta manera, el conocimiento del entorno que posee el

profesor se transfiere a la red neuronal a través del entrenamiento tan

completamente como se puede. Cuando se alcanza esta condición, es posible

prescindir del profesor y dejar que la red neuronal enfrente el entorno completamente

sola.

Esta forma de aprendizaje supervisado que se acaba de describir está basada en un

aprendizaje error-corrección.

48

G. Aprender sin Profesor

En la sección anterior se describía el aprendizaje tutelado por un profesor, sin

embargo en este paradigma –como su nombre lo indica- no existe un profesor que

supervise el proceso de aprendizaje. Esto quiere decir que no existen ejemplos

etiquetados de la función que aprenderá la red. Bajo este sistema se identifican dos

subdivisiones.

Aprendizaje reforzado. El aprendizaje de un mapeo entrada-salida se realiza a

través de una interacción continua con el entorno de manera de minimizar un

índice de desempeño escalar. El sistema esta diseñado para aprender bajo

refuerzo retrasado, esto quiere decir, que el sistema observa una secuencia

de estímulos temporales, por ejemplo vectores de estado, también recibidos

del entorno, los cuales eventualmente resultan en la generación de una señal

de refuerzo heurístico. El objetivo de este aprendizaje es minimizar la función

de costo, definida como la expectativa de costo acumulado de las acciones

realizadas sobre una secuencia de pasos de tiempo son de hecho las mejores

determinantes del comportamiento total del sistema. La función del

aprendizaje de máquina, que constituye el segundo componente del sistema,

es descubrir estas acciones y alimentarlas de nuevo al entorno.

Este aprendizaje es de difícil desarrollo debido a dos razones básicas:

No existe profesor para proveer de una respuesta deseada a cada paso

del proceso de aprendizaje.

El retraso en que se incurre en la generación de la primera señal de

refuerzo, implica que la máquina de aprendizaje debe ser capaz de

asignar crédito y culpa individualmente a cada acción en la secuencia

de pasos temporales que conducen a la salida final, mientras el

refuerzo primario puede sólo evaluar la salida.

49

No obstante las dificultades, el método de aprendizaje de refuerzo retrasado

es muy atractivo. Provee las bases de un sistema que interactúa con el

entorno, aprendiendo así a desarrollar una tarea únicamente en la base de la

salida de una experiencia que es el resultado de la interacción.

Aprendizaje sin supervisión: En el aprendizaje sin supervisión o auto-

organizado no existe un profesor externo o crítico que supervisa el proceso

de aprendizaje. Incluso más, se hace una provisión para la medición

independiente de tareas de la calidad de representación que la red

requiere para aprender, y los parámetros de la red se optimizan en relación

a esta medición. Una vez que la red se ha sintonizado a las regularidades

estadísticas de los datos de entrada, desarrolla la habilidad de formar

representaciones internas de las características codificadas en la entrada

y, de esta manera, crear nuevas clases automáticamente.

Para desarrollar este método se debe usar una regla de aprendizaje

competitivo.

2.3 Diferentes Modelos de Redes

2.3.1 Modelo Mcculloch-Pitts17

Propuesto por Warren McCulloch, (Psiquiatra y Neuroanatomista), y Walter Pitts,

(Matemático), en 194318; es el primer modelo considerado como una red de

neuronas artificiales. En este artículo se unían los estudios neurofisiológicos y de

lógica matemática.

17

(Haykin, 2005), (Arbib, 2003) & (Isasi, 2004). 18

En el artículo “A Logical Calculus of the Ideas Immanent in Nervous Activity”.

50

Figura 14: Neurona de Mcculloch-Pitts. Fuente “Redes Neuronales Artificiales Un Enfoque Práctico”.

Ellos mostraban como la excitación, la inhibición y el umbral podrían ser usados para

construir una amplia variedad de neuronas. Este fue el primer modelo en vincular el

estudio de las redes neuronales de lleno a la idea de la computación en su sentido

moderno.

Este modelo muestra “una estructura y un funcionamiento simplificado de las

neuronas del cerebro, considerándolas como dispositivos con sólo dos estados

posibles: apagado (0) y encendido (1)”.

“La neurona de McCulloch-Pitts recibe como entrada un conjunto de n valores

binarios, procedentes de las salidas de otras células, o de la

entrada a la red; y produce una única salida también binaria”, se denominará esta

salida binaria como (ver Figura N°14).

La idea básica es dividir el tiempo en unidades comparables a un período refractario

para que en cada período de tiempo a lo sumo una cima pueda ser generada en el

montículo axónico de una neurona dada. Esta neurona además opera en escala de

tiempos discretos, donde la unidad de tiempo es, (en biología), en el

orden de un milisegundo. Se escribe si un pico aparece en el tiempo , e

si no. Cada conexión o sinapsis, de la salida de una neurona a la entrada de

otra, tiene un peso adjunto. Se denotará al peso en la i-esima conexión en una

∑/Θ

51

neurona determinada. Se denominará sinapsis excitatoria si , e inhibición si

. También se asocia un umbral con cada neurona, y supone exactamente

una unidad de retraso en el efecto de todas las entradas presinápticas en la salida de

la célula, así que una neurona dispara, (por ejemplo tiene un valor 1 en su línea de

salida), en el tiempo si el valor del peso de su entrada en el tiempo es por lo

menos . Formalmente, si en tiempo el valor de la i-esima entrada es y la

salida un paso más adelante es , entonces:

(24)

El modelo se define como: Una red neuronal es una colección de neuronas de

McCulloch-Pitts, todas con las mismas escalas de tiempo, donde sus salidas están

conectadas a las entradas de otras neuronas.

“De este modo, una salida puede actuar sobre varias entradas, pero una entrada

viene a lo sumo de una salida. La red tiene contacto con el exterior a través de líneas

de entrada y de salida. Las líneas de entrada de la red formarán parte de la entrada

de alguna o de todas las neuronas de la red. Asimismo, las líneas de salida

procederán de algunas o de todas las neuronas de la red”.

Este modelo matemático de una red neuronal no busca modelar el cerebro, pero se

considera como el punto de inicio para el estudio del mismo.

El modelo de McCulloch-Pitts se puede utilizar para representar las funciones

lógicas, que se detallan en el Anexo 4: Modelo Mcculloch-Pitts.

52

2.3.2 Perceptrón19

Este modelo de red neuronal fue introducido por Frank Rosemblatt en 1958, y fue el

primer modelo de aprendizaje supervisado. Este es la forma más simple de red

neuronal usada para la clasificación de patrones linealmente separables.

La estructura del perceptrón se inspira en las primeras etapas de procesamiento de

los sistemas sensoriales de los animales (por ejemplo, el de la visión), en los cuales

la información va atravesando sucesivas capas de neuronas, que realizan un

procesamiento progresivamente de más alto nivel.

Este modelo consiste básicamente de una sola neurona con pesos sinápticos

ajustables y de polarización20. El algoritmo que se usó para ajustar los parámetros

libres de esta primera red neuronal apareció en un procedimiento de aprendizaje

desarrollado por F. Rosenblatt (1958, 1962) para su modelo de cerebro Perceptrón.

El Perceptrón simple es un modelo unidireccional compuesto de dos capas de

neuronas, una sensorial o de entrada y otra de salida. La cantidad de neuronas de

entrada o de salida depende del problema que se quiere resolver. Cada una de las

neuronas de entrada tiene conexiones con todas las células de salidas, y son estas

conexiones las que determinan las superficies de discriminación.

Como se ve en la Figura N°15, los pesos sinápticos están denotados por

siguiendo este metodo las entradas del perceptrón son denotadas por

y su salida denotada por . Cabe mencionar que además de lo anterior

existe un parámetro adicional llamado umbral y denotado por . El umbral se utiliza

como factor de comparación para producir la salida, y habrá tantos como neuronas

de salidas existan en la red, uno por cada una.

La salida de la red se produce al aplicarle una función de salida al nivel de activación

de la neurona. La ecuación es la siguiente:

19

(Haykin, 2005), (Martin del Brio, 2007), (Isasi, 2004) & (Kröse, 1996). 20

En inglés es Bias.

53

(25)

Figura 15: Perceptrón. Fuente: “Mathematics An Introduction To Neural Networks”.

La función de activación puede ser lineal para tener una red lineal o no lineal. La

función umbral21:

(26)

Esta ecuación equivale a introducir artificialmente en la salida un nuevo peso que

no está conectado a ninguna entrada, sino a una ficticia con un valor constante de -1.

La salida de la red puede ser +1 o -1 dependiendo de la entrada. La red puede ser

usada para una tarea de clasificación: esta puede decidir si un patrón de entrada

pertenece a una de dos clases. Si el total de entradas es positivo, el patrón será

asignado a la clase +1. Si el total de entrada es negativo, la muestra será asignada a

la clase -1.

En el caso de dos dimensiones la ecuación anterior se transforma en:

21

En inglés Heaviside Fuction.

Θ

54

(27)

La red de una sola capa representa una función discriminante lineal.

Una representación geométrica del umbral lineal de la red neuronal es dada en la

Figura N°16 y la ecuación (27) puede ser escrita como:

(28)

En la Figura N°16 se aprecia que los pesos determinan la pendiente de la línea y el

umbral determina la compensación; por ejemplo, cuán lejos está la línea del origen.

Se debe considerar que también el peso puede ser trazado en la entrada del

espacio; el vector peso es siempre perpendicular a la función discriminante.

Figura 16: Función Discriminante. Fuente: “Mathematics An Introduction To Neural Networks”.

Para ver la regla de aprendizaje del Perceptrón dirigirse al Anexo 5: Perceptrón.

55

2.3.3 Neurona Lineal Adaptativa22 (ADALINE)23

Este modelo fue propuesto por Bernard Widrow y Marcian Hoff en el año 1960, en el

cual aplicaron la regla de aprendizaje que habían desarrollado, Regla Delta, la cual

es una generalización del algoritmo de entrenamiento del Perceptrón.

Figura 17: ADALINE. Fuente: “Mathematics An Introduction To Neural Networks”.

El ADALINE es una estructura prácticamente idéntica a la del Perceptrón, pero es un

mecanismo físico, capaz de realizar aprendizaje. Es un elemento combinador

adaptativo, que recibe un conjunto de entradas y las combina para producir una

salida (ver Figura N°17). Esta salida puede transformarse en binaria mediante un

conmutador bipolar que produce un 1 si la salida es positiva y un -1 si es negativa:

(29)

22

En inglés Adaptive Linear Neuron (ADALINE) 23

(Kröse, 1996) & (Isasi, 2004).

56

donde . El propósito de este dispositivo es el de obtener un valor determinado

en sus salidas cuando el conjunto de valores es aplicado en

las entradas. El problema es determinar los coeficientes , de tal

forma que la respuesta de la entrada-salida es correcta para un gran número de

conjuntos de señales elegidas arbitrariamente. Si una asignación exacta no es

posible, el error promedio debe ser minimizado, por ejemplo, en el sentido de

mínimos cuadrados. Una operación adaptativa significa que existe un mecanismo por

el cual el puede ser ajustado, usualmente iterativamente, para conseguir el valor

correcto.

En el Anexo 6: ADALINE, se detalla la Regla Delta y en el Anexo 7: Perceptrón-

ADALINE, se entrega la información de sus diferencias.

2.3.4 Perceptrón Multicapa24

Las limitaciones del modelo de Perceptrón de una capa, que resultaron en la pérdida

de interés en la investigación en el área de las redes neuronales, hicieron necesario

ir más allá de las redes neuronales de una capa.

Estas redes son una generalización del Perceptrón de una capa visto con

anterioridad, típicamente la red está compuesta de una capa de entrada, una o más

capas ocultas o de cálculo, y una capa de salida, la señal de entrada se propaga

capa por capa hacia adelante.

Estos modelos se han ocupado satisfactoriamente para resolver problemas difíciles y

diversos, entrenándolos de manera supervisada con un algoritmo muy popular

conocido como error de propagación inverso25, el cual está basado en la regla de

aprendizaje de error-corrección.

24

(Graupe, 2007), (Haykin, 2005) & (Isasi, 2004). 25

Su nombre en inglés es Back Propagation (BP), en la bibliografía también se puede encontrar como Retropropagación.

57

Un Perceptrón multicapa tiene tres características distintivas:

El modelo de cada neurona en la red incluye una función de activación no

lineal. El punto más importante a destacar es que la función es continua, una

forma común de no linealidad que satisface los requerimientos es la función

sigmoidal no lineal:

(30)

donde es el campo local inducido de la neurona , e es la salida de la

neurona. La presencia de no linealidad es importante, porque sino la relación

de entrada salida de la red podría reducirse a la de un Perceptrón de una

capa. Inclusive, el uso de funciones derivadas de la biología se incentiva ya

que intenta tomar en cuenta la fase refractaria de las neuronas reales.

Esta red contiene una o más capas ocultas que no son parte de la entrada o

salida de la red. Estas neuronas ocultas permiten a la red aprender tareas

complejas extrayendo progresivamente características más significativas de

los vectores de entrada.

La red exhibe un alto grado de conectividad, determinado por las sinapsis de

la misma. Un cambio en la conectividad de la red requiere un cambio en la

población de las conexiones sinápticas o de los pesos.

Las características mencionadas y la capacidad de aprender a través de

entrenamiento dan cuenta de su gran capacidad de cómputo. Sin embargo, estas

mismas características son las responsables de las deficiencias en el conocimiento

del comportamiento de la red. La presencia de la función no lineal y la alta

conectividad de la red hacen su análisis teórico complicado. El uso de capas ocultas

vuelve el proceso de visualización difícil, por decirlo menos.

El algoritmo de error de propagación inverso se trata de un método de aprendizaje

supervisado, es decir, la modificación de los parámetros de la red se realiza para que

58

la salida de la red sea lo más próxima posible a la salida proporcionada por el

supervisor o salida deseada. Por lo tanto, por cada patrón de entrada se requiere un

patrón de salida deseada. Dado que se busca que la salida de la red sea lo más

cercana a la salida deseada, el aprendizaje de la red se realiza como un problema de

minimización del siguiente nodo:

(31)

siendo el conjunto de parámetros de la red, pesos y umbrales, y una función de

error que evalua la diferencia entre las salidas de la red y las salidas deseadas. En la

mayor parte de los casos el error se define como:

(32)

donde es el número de patrones o muestras y es el error cometido por la red

para el patrón , dado por:

(33)

siendo y los vectores de salidas de

la red y las salidas deseadas para el patrón n, respectivamente.

De este modo, si es un mínimo de la función de error , en dicho punto el error

es próximo a cero, lo cual implica que la salida de la red es próxima a la salida

deseada, alcanzando así la meta de la regla de aprendizaje.

De esta manera el aprendizaje del Perceptrón multicapa es equivalente a encontrar

un mínimo de la función de error. Dado que se habla de función de activación no

lineal hace que la red sea no lineal respecto a sus parámetros ajustables, de esta

manera se entiende que el problema de minimización no es lineal, y en consecuencia

59

se deben usar técnicas no lineales para la optimización. Las técnicas mencionadas

usualmente están basadas en la adaptación de los parámetros siguiendo una cierta

dirección de búsqueda. Al hablar del Perceptrón multicapa esta dirección de

búsqueda usualmente es la dirección negativa al gradiente de la función , pues

conforme al cálculo de varias variables, esta es la dirección en la que la función

decrece. No obstante lo anterior, se han desarrollado métodos de búsqueda aleatoria

para localizar el mínimo de esa función, y métodos basados en técnicas evolutivas,

en las que la búsqueda esta guida por una función de adecuación.

Estrictamente hablando, el aprendizaje de la red debe realizarse para minimizar el

error total, el procedimiento más utilizado, sin embargo, esta basado en métodos de

gradiente estocástico, los cuales consisten en la sucesiva minimización de los

errores de cada patrón, , en lugar de minimizar el error total . De esta manera,

aplicando el método de descenso de gradiante estocástico, cada parámetro de la

red se modifica para cada patrón de entrada de acuerdo a la siguiente ley de

aprendizaje:

(34)

donde es el error del patrón y es la razón o tasa de aprendizaje, parámetro

que influye en la magnitud del desplazamiento del error.

2.3.5 Redes Neuronales de Base Radial26

Estas son redes multicapa con conexiones positivas, de la misma forma que el

Perceptrón Multicapa. Estas redes se caracterizan por tener una sola capa oculta y

cada neurona de esta capa tiene un carácter local, lo que hace que cada neurona

oculta de la red se activa en la región diferente del espacio de patrones de entrada.

“Este carácter local viene dado por el uso de las llamadas funciones de base radial,

26

(Haykin, 2005) & (Isasi, 2004)

60

generalmente la función gausiana, como funciones de activación. Las neuronas de la

capa de salida de las redes de base radial simplemente realizan una combinación

lineal de las actividades de la neuronas ocultas”.

La función de Base Radial fue introducida por primera vez en la solución de los

problemas de interpolación de multivariables reales. El temprano trabajo en esta

materia es estudiado en Michael J. D. Powell (1985). Este es ahora uno de los

principales campos de investigación en análisis numérico.

David Broomhead y David Lowe (1988) fueron los primeros en explotar el uso de la

Función de Base Radial en el diseño de redes neuronales. A parte de ellos,

existieron otros autores que contribuyeron a la teoría, diseño y aplicaciones de las

redes neuronales de Base Radial como son John Moddy y Christian Darken (1989),

Steve Renals (1989) y a Tomaso Poggio y Federico Girosi (1990). En un principio, el

objetivo de estos era construir una red neuronal que requiriera de menor tiempo de

aprendizaje que el que necesitaba el Perceptrón Multicapa, y así tener a disposición

una red que trabajara en tiempo real. Esto se logró al incorporar funciones de

activaciones locales en las neuronas ocultas de la red, lo cual permitía que sólo unas

pocas neuronas ocultas tuvieran que ser procesadas para nuevos patrones de

entrada.

Este tipo de red, al igual que el Perceptrón Multicapa, es un aproximador universal,

en el sentido de que pueden aproximar cualquier función continua sobre un espacio

de .

Las Funciones de Base Radial definen hiperesferas o hiperelipses que dividen el

espacio de entrada. Por lo tanto, cada una de las neuronas de la capa oculta de este

tipo de red construye una aproximación local y no lineal en una región específica de

dicho espacio. La salida de esta red es una combinación lineal de las funciones de

base radial, las aproximaciones que construyen las redes de base radial son

combinaciones lineales de multiples funciones locales y no lineales. Debido a esto,

las redes de base radial aproximan relaciones complejas mediante una colección de

aproximaciones locales menos complejas, dividiendo el problema en varios

61

subproblemas menos complejos. Todo esto hace que este tipo de redes se

diferencien de las aproximaciones globales y basadas en hiperplanos que construye

el Perceptrón Multicapa.

Las redes de base radial están conformadas por tres capas de neuronas (ver Figura

N°18):

Capa de entrada: Está compuesta por un conjunto de neuronas que

reciben las señales del exterior. De aquí estas señales son transmitida a la

capa oculta sin haber sido procesadas.

Única capa oculta: Reciben las señales enviadas por la capa de entrada,

donde se realiza la transformación local y no lineal de estas señales. Aquí

es donde se produce la diferencia entre esta red y el Perceptrón Multicapa,

tanto en la arquitectura como en su comportamiento.

Capa de salida: Acá se realiza una combinación lineal de las activaciones

de las neuronas ocultas, que actúa además como salida de la red.

Figura 18: Red Neuronal de Base Radial. Fuente: “Redes Neuronales Artificiales. Un Enfoque Práctico”.

62

Las redes de Base Radial en la conexión de la capa de entrada a la capa oculta no

tienen asociado ningún peso, en cambio si se encuentra un peso asociado a la

conexión entre la capa oculta y la capa de salida. En tanto a lo que se refiere a los

umbrales de las neuronas, estas sólo se encuentran en las neuronas de salida, que

es tratada como una conexión más de la neurona cuya entrada es constante e igual

a 1 (igual que en el Perceptrón Multicapa).

Para más información ir al Anexo 6: Redes de Base Radial y al Anexo 7: Diferencias

entre Perceptrón Multicapa y las Redes de base Radial.

2.3.6 Redes de Neuronas Recurrente27

“Estas redes se caracterizan porque se crean bucles en las neuronas de la red

mediante el uso de las llamadas conexiones recurrentes, pudiendo aparecer en la

red conexiones de una neurona a ella misma, conexiones entre neuronas de una

misma capa o conexiones de las neuronas de una capa a la capa anterior”.

Al existir conexiones recurrentes en una red de neuronas produce, habitualmente, un

incremento del número de pesos o parámetros ajustables en la red, lo que hace que

aumente la capacidad de representación, ya que en las redes de neuronas artificiales

la información se representa de manera distribuida en los pesos de las conexiones y

no en las neuronas. Esta mayor cantidad de parámetros ajustables, además de la

inserción de estos de forma recurrente, dificulta el aprendizaje de estas redes.

Con la inclusión de las conexiones recurrentes que crean bucles en la red, la

activación de una neurona con conexiones recurrentes no sólo depende de las

activaciones de las neuronas en la capa anterior, sino que depende también del

estado o activaciones de cualquier otra neurona de la red que se conecte a ella, o

incluso de su propia activación. Debido a esto, a las redes de neuronas recurrentes

27

(Isasi, 2004), (Kröse, 1996), (Haykin, 2005) & (Cáceres, 2002).

63

es importante agregar la variable tiempo en la activación o estado de una neurona, la

cual viene dada por la siguiente ecuación:

(35)

donde el índice varía en el conjunto de todas las neuronas conectadas a la neurona

.

La aparición de la variable tiempo en las activaciones, hace que estas redes tengan

un comportamiento dinámico o temporal. Dicho comportamiento temporal se puede

entender de dos formas diferentes, las cuales implican dos maneras distintas de

entender el modo de actuación y aprendizaje de estas redes:

Evolución de las activaciones de la red hasta alcanzar un punto estable.

El modo en que estas redes se desempeñan es el de evolucionar la red, o

sea, la exitación de sus neuronas, desde el estado inicial hasta que las

activaciones de todas las neuronas no se modifiquen más, en el cual se

considera que la red ha alcanzado un estado estable. El estado inicial, por lo

general, es dado por el patrón de entrada y el estado estable representa el

patrón de salida de la red.

Evolución de las activaciones de la red en modo continuo.

En cada instante de tiempo se dispone de la salida de la red, la que depende

de la entrada en el instante inmediatamente anterior. Este tipo de aprendizaje

se puede realizar a través de dos métodos distintos:

o Aprendizaje por épocas: Ocurre en un intervalo de tiempo o época,

donde la red va evolucionando, una vez alcanzado el instante final se

adoptan o modifican los pesos de la red. Al concluir la época, la red se

reinicializa y se entra en un nuevo intervalo de tiempo.

64

o Aprendizaje en tiempo real o continuo: “la ley de aprendizaje para

modificar los pesos de la red se aplica en cada instante de tiempo,

siempre y cuando exista la salida deseada para la red en dicho

instante”.

Dentro de este grupo se pueden encontrar las redes parcialmente recurrentes

y las totalmente recurrentes. Las primeras se caracterizan por tener unas

pocas conexiones recurrentes dentro de la red, mientras que las segundas no

tienen restricciones en la consideración de conexiones recurrentes. Ambos

utilizan algoritmos de aprendizaje supervisados para la modificación de sus

parámetros.

Las redes recurrentes son principalmente usadas para el procesamiento de patrones

dinámicos, aunque también se pueden aplicar para patrones estáticos, o sea,

patrones en los cuales no participa la variable tiempo y en cuyo procesamiento no

importa el orden de presentación de la red.

A. Redes Parcialmente Recurrentes

Estas se caracterizan por ser redes multicapa, las cuales tienen sólo unas pocas

conexiones recurrentes. Estas conexiones permiten recordar el nivel de activación de

ciertas neuronas de la red en un pasado reciente.

En las redes parcialmente recurrentes hay habitualmente un grupo de neuronas

especializadas en la capa de entrada, conocidas como neuronas de contexto o

neuronas de estado. Por consiguiente, en la capa de entrada existen dos tipos de

neuronas, las que actúan como entrada propiamente tal, que reciben las señales del

exterior y las neuronas de contextos. Estas últimas “son las receptoras de las

conexiones recurrentes y funcionan como una memoria de la red donde se

almacenan las activaciones de las neuronas de una cierta capa de la red en el

instante o iteración anterior”.

65

El cálculo de las activaciones de todas las neuronas de las redes parcialmente

recurrente se hace como una red multicapa sin recurrencias, es decir, desde la capa

de entrada pasando por la capa oculta hasta la capa de salida.

En las redes parcialmente recurrentes las conexiones recurrentes son generalmente

conexiones uno a uno, en otras palabras, una neurona “ ” va a una única neurona de

contexto. Si esta conexión contiene un parámetro o peso asociado, generalmente,

este se mantiene constante y no está sometido a aprendizaje. Debido a esto, se

puede utilizar el algoritmo de retropropagación para redes multicapa hacia adelante

como método de aprendizaje.

En el Anexo 10: Redes Recurrentes se darán más detalles sobre el aprendizaje de

este tipo de redes y se mostraran redes parcialmente recurrentes más conocidas,

como son la Red de Jordan y la Red de Elman.

B. Redes Totalmente Recurrentes

Este tipo de redes se les conoce porque en sus neuronas reciben como entradas la

activación del resto de las neuronas de la red, como también su propia activación.

Por lo tanto, si constituye la activación de una neurona de la red en el intervalo

de tiempo , su valor es obtenido por medio de la siguiente ecuación:

(36)

donde representa el peso de la conexión de la neurona a la neurona , es el

conjunto de neuronas de entrada a la red, representa el resto de las neuronas de la

red y es la función de activación. Aunque en el enunciado anterior se dejo en

manifiesto de que todas las neuronas de la red están conectadas entre sí, pueden

existir algunas restricciones para esto.

66

Los parámetros o pesos de las conexiones recurrentes son frecuentemente

sometidos al proceso de adaptación o aprendizaje, lo que conlleva a un aumento

cuantioso del número de parámetros ajustables de la red. Esto trae como

consecuencia dos cosas:

La primera es el aumento en la capacidad de representación de la red, y

La segunda es la existencia de ciclos o conexiones recurrentes en la red, que

mayormente dificulta su aprendizaje.

A diferencia de lo anterior, las redes totalmente recurrentes no pueden emplear el

algoritmo de aprendizaje de retropropagación de forma directa, debido a que los

pesos en estas redes poseen una distribución diferente. Es por ellos que se usan en

estas redes dos tipos de aprendizajes diferentes:

Retropropagación a través del tiempo28.

Aprendizaje recurrente en tiempo real29.

Ambos métodos no son más que modificaciones y extensiones del algoritmo de

retropropagación para redes con conexiones recurrentes, estos son mostrados en el

Anexo 10: Redes Recurrentes.

C. Red de Hopfield

En 1982, John Hopfield (Hopfield, 1982) propone un modelo de neuronas no lineal.

Generalmente, la red de Hopfield es presentada como un modelo de memoria

asociativa de patrones o muestras, en el sentido de que es capaz de recuperar

patrones almacenados a partir de información incompleta sobre los patrones o

incluso a partir de patrones con ruido.

28

En inglés es Back-Propagation Through Time. 29

En inglés es Real-Time Recurrent Learning.

67

La red de Hopfield consiste de un conjunto de neuronas y un correspondiente

conjunto de unidades de retraso, formando un sistema de retroalimentación de

múltiples-ciclos. El número de ciclo de retroalimentación es igual al número de

neuronas. Básicamente, la salida de cada neurona es alimentada de vuelta, a través

de un elemento de unidad de retraso, a cada una de las demás neuronas en la red.

En otras palabras, no hay auto retroalimentación en la red. Los valores de activación

son binarios (ver Figuras N°19 y N°20). Originalmente, Hopfield escogió los valores

de activación de 1 y 0, pero usando valores +1 y -1 presentando algunas ventajas.

Figura 19: Red de Hopfield. Fuente: “Neural Networks. A Comprehensive Foundation”.

Figura 20: Red de Hopfield. Fuente: “Redes neuronales Un Enfoque Práctico”.

68

La matriz de conexiones de la red de Hopfield es una matriz de orden

, donde representa el peso de la conexión de la neurona a la neurona .

Dicha matriz posee las siguientes particularidades:

Es una matriz simétrica, es decir, esto implica que el

peso de la conexión de la neurona a la neurona es igual al peso de la

conexión de la neurona a la neurona .

Los elementos de la diagonal de la matriz son igual a cero, es decir,

debido a que en la red de Hopfield no existen conexiones

de una neurona a ella misma.

El estado del sistema es dado por los valores de activación La entrada de la

red de una neurona en un ciclo es una suma ponderada. En estos

dos últimos se tiene el signo negativo en vez de positivo ( ):

(37)

donde es el estado de la neurona en el instante anterior y es un umbral

fijo aplicado a la neurona .

Una función de umbral simple se aplica a la entrada de red para obtener el nuevo

valor de activación30 en el tiempo :

(38)

donde

30

(Kröse, 1996), (Haykin, 2005) & (Isasi, 2004)

69

En el caso de que el nivel de activación que recibe la neurona, , sea igual a

cero, se considera que el estado de la neurona no cambia con respecto al instante de

tiempo anterior, es decir que .

Para una red Hopfield que tenga neuronas, el estado es dado por la siguiente

ecuación:

(39)

donde significa la matriz traspuesta y el estado constituye una palabra binaria

de bits de información.

Tanto el aprendizaje como la función energía de la red de Hopfield se encuentran en

el Anexo 10: Redes Recurrentes.

D. Máquina de Boltzmann

Esta fue descrita por primera vez por David Ackley, Geoffrey Hilton y Terrence

Sejnowski en 198531, es una red neuronal que puede ser visto como una extensión

de la redes Hopfield para incluir neuronas ocultas, y con un regla de actualización

estocástica en vez de determinista. Los pesos se mantienen simétricos. La operación

de la red está basada en el principio físico de templado32. Proceso a través del cual

un material es calentado y enfriado muy lentamente al punto de congelación. Como

resultado, la red cristalina será altamente ordenada, sin ninguna impureza, de tal

manera que el sistema está en un estado de muy baja energía.

La máquina de Boltzmann divide en dos grupos funcionales a las neuronas: visibles y

ocultas. Las neuronas visibles proveen una interface entre la red y el medio ambiente

en cual estas operan. Durante la fase de entrenamiento de la red, todas las neuronas

visibles son fijadas en estados específicos determinados por el medio ambiente. Las 31

En el paper “A Learning Algorithm for Boltzmann Machines”. 32

En inglés es physics principle of annealing.

70

neuronas ocultas, por otro lado, siempre operan libremente; ellas son usadas para

explicar las limitaciones subyacentes contenidas en los vectores de entrada

medioambiental. Las neuronas ocultas llevan a cabo esta tarea mediante la captura

de las correlaciones estadísticas de orden superior en los vectores de fijación. La red

descrita aquí representa un caso especial de la máquina de Boltzmann, la cual se

puede apreciar mejor en la Figura N° 21. Esta puede ser vista como un

procedimiento de aprendizaje no supervisado para el modelado de una distribución

de probabilidad que es especificado por los patrones de fijación de las neuronas

visibles con probabilidades apropiadas. De este modo, la red puede realizar patrones

de terminación. Específicamente, cuando un vector de información parcialmente

relevante es fijado a un subconjunto de las neuronas visibles, la red realiza una

finalización en las neuronas visibles restantes, siempre que se haya aprendido la

adecuada distribución de entrenamiento.

Figura 21: Maquina de Boltzmann. Fuente: “Neural Networks, A Comprehensive Foundation”.

El principal objetivo del aprendizaje de Boltzmann es para producir una red neuronal

que modele correctamente patrones de entrada de acuerdo a una distribución de

Boltzmann. Aplicando esta forma de aprendizaje, dos supuestos son hecho:

71

Cada vector de entrada medioambiental (patrón) se mantiene el tiempo

suficiente para permitir a la red alcanzar el equilibrio térmico.

No hay estructura en el orden secuencial en que los vectores

medioambientales son fijados en las unidades visibles de la red.

Un particular conjunto de pesos sinápticos se dice, que constituyen un modelo

perfecto de la estructura medioambiental si este lleva a exactamente la misma

distribución de probabilidad de los estados de las unidades visibles (cuando la red

está corriendo libremente) como cuando estas unidades son fijadas por los vectores

de entrada medioambiental. En general, a menos que el número de unidades ocultas

sea exponencialmente grande comparado al número de unidades visibles, es

imposible lograr un modelo perfecto. Si, en cambio, el medio ambiente tiene una

estructura regular, y la red usa sus unidades ocultas para capturar estas

regularidades, se puede lograr una buena combinación para el medio ambiente con

un número manejable de unidades ocultas.

2.3.7 Cognitron33

El Cognitron, fue pensado y diseñado con el propósito principal del reconocimiento

de patrones. Para realizar esto, la red Cognitron emplea neuronas inhibidoras y

excitadoras en sus múltiples capas. Fue desarrollada por Kunihiko Fukushima en

1975, y es una red no supervisada.

El Cognitron consiste básicamente de capas de neuronas excitables e inhibidoras. La

interconexión de una neurona en cualquier capa es sólo para neuronas de la capa

previa que están en la vecindad de la neurona. Este vecindario se denomina como la

región de competición de conexión de la neurona dada. Para un entrenamiento

eficiente, no todas las neuronas son entrenadas. El entrenamiento esta entonces

limitado a sólo un grupo exclusivo de las neuronas más relevantes, concretamente a

neuronas previamente entrenadas para una tarea relacionada.

33

(Graupe, 2007).

72

En tanto que las regiones de conexión llevan a traslapes de neuronas, donde una

neurona dada puede pertenecer a la región de conexión de más de una neurona

superior, competición (para elegir la elite), la que se introduce para superar los

efectos de los traslapes. La competición desconectará las neuronas cuyas

respuestas sean más débiles. La característica anterior provee a la red con

abundantes redundancias, para permitirle funcionar bien en el caso de neuronas

perdidas.

La estructura del Cognitron está basada en una arquitectura multicapa con una

reducción progresiva en el número de regiones competitivas. Alternadamente, grupos

de dos capas, L-I y L-II pueden repetirse veces para formar capas en total

( , , , ,..., etc).

2.3.8 Neocognitron34

Fukushima elaboró una versión más avanzada de su modelo en el año 1983, esta se

denominó Neocognitron. Es de naturaleza jerárquica y apunta a simular la visión

humana. Utiliza un aprendizaje competitivo.

El reconocimiento está arreglado en una estructura jerárquica de grupos de dos

capas, como en el caso del Cognitron.

“Debido a la estructura y la forma de la conexión, las capas de mayor especificidad

poseen menor cantidad de unidades ya que su número decrece al ir aumentando el

tamaño del campo de recepción”.

Estas estructuras permiten al Neocognitron superar los problemas de reconocimiento

donde el Cognitron original fallaba, tales como imágenes mal posicionadas o

distorsiones angulares, caracteres rotados o dígitos en problemas de reconocimiento

de letra manuscrita.

34

(Graupe, 2007), (Inostroza , Canessa, & Holzmann, 1982) & (Mehrotra, Mohan, & Ranka, 2000).

73

Las imágenes de entrada son un arreglo de dos dimensiones, y el resultado final del

reconocimiento de patrones indica una característica de alto nivel o forma que se ha

encontrado en la imagen de entrada, activando el nodo de salida correspondiente. La

red utiliza muchos módulos jerárquicos, cada módulo extrae características desde el

módulo previo. Un Neocognitron con tres o cuatro módulos ha sido capaz de

reconocer satisfactoriamente caracteres manuscritos, con cada nodo de salida

correspondiendo a cada carácter del alfabeto.

Cada módulo consiste de dos capas de nodos. Las dos capas ahora son una (células

simples) capa (Capa S) y un capa de concentración (capa C), comenzando con una

capa S llamada S1 y terminando con una capa C (sea C4). Cada neurona de la capa

S responde a una característica dada de las capas de entrada (incluyendo la entrada

general de la red). Cada uno de los arreglos de la capa C procesa en profundidad

entradas desde, usualmente, un arreglo de capa S.

2.3.9 Red Neuronal de Atención Selectiva35

Propuesta por K. Fukushima en 1990 propone una variación del Neocognitron con

conexiones positivas y negativas. La función de las conexiones positivas es muy

similar a las de un Neocognitron. Las conexiones negativas son una copia completa

de las conexiones positivas, pero conectadas en reversa. El objetivo de esta red

paralela es permitir al sistema identificar los elementos activos de la capa de entrada,

en los cuales la red concluyó que un patrón actualmente detectado estaba presente.

El flujo reverso de la información se origina desde el nodo activo en la última capa de

la parte realimentada positivamente de la red.

A diferencia de un Neocognitron simple, la red de atención selectiva tiene una capa

de entrada activa. Las conexiones reversas pueden apagar algunas de las unidades

en la capa a través de señales inhibitorias. De este modo las señales reversas tienen

el efecto de suprimir esas porciones de la imagen de entrada que no contribuyen a la

35

(Mehrotra, Mohan, & Ranka, 2000).

74

activación del nodo actualmente activo en la última capa. Para cambiar la atención

de la red hacia otro patrón, es necesario suprimir brevemente el nodo activo en la

capa de salida y permitir que otro nodo se active. Este nodo entonces refuerza su

salida a través de señales inhibitorias.

2.3.10 Mapas Auto-Organizados (MAO) y Crecientes36

En esta sección se revisara en profundidad los Mapas Auto-Organizados37 de Teuvo

Kohonen y los algoritmos desarrollados a partir de los MAO, Gas Neural de

Crecimiento38 (GNC) y Crece Cuando se Requiere39 (CCR).

A. Mapas Auto-Organizados de Kohonen

Es una efectiva herramienta de software para la visualización de datos de alta

dimensión. En su forma básica produce un similar gráfico de entrada de datos. Este

convierte las relaciones de la estadística no lineal entre los datos de alta dimensión

en simples relaciones geométricas de sus puntos de imágenes en una visualización

de baja dimensión, usualmente una red de nodos de dos dimensiones. El Mapa Auto-

Organizado (MAO) de ese modo comprime la información mientras preserva la más

importante topología y/o relaciones métricas de los elementos de datos primarios en

la visualización, este también se puede pensar para producir algún tipo de

abstracción. Estos dos aspectos, visualización y abstracción, pueden ser utilizados

en un número de formas en tareas complejas tales como análisis de procesos,

percepción de máquinas, control y comunicación.

36

(Kohonen, 2001), (Marsland, Shapiro, & Nehmzow, 2002), (Holmström & Gällmo, 2002), (Isasi,

2004) & (Bryers & Hunter, 2009). 37

En inglés es Self-Organized Maps (SOM). 38

En inglés es Growing Neural Gas (GNG). 39

En inglés es Grow When Required (GWR).

75

El MAO puede ser descrito formalmente como un mapeo suave no lineal, ordenado,

de múltiples datos de entradas de alta dimensión en los elementos de una matriz

regular de baja dimensión. Este mapeo es implementado de la siguiente forma, que

asemeja al clásico vector de cuantización. En primer lugar se supone por simplicidad

que el conjunto de variables de entradas es definible como un vector real

. Con cada elemento en la matriz Mapa Auto-Organizado

(MAO) se asocia un vector real paramétrico que se

llamara un modelo matriz de peso de conexión. Suponiendo una medida de distancia

general entre y denotado , la imagen de un vector de entrada en la

matriz MAO que es definida como el elemento de la matriz “ ” que es la mejor

combinación con , es decir, que tiene el índice.

(40)

Se destaca que, al seleccionar “una de las columnas de la matriz anterior, la -ésima

por ejemplo, se estará haciendo referencia a la célula j de la capa de competición, y

el vector que se obtiene sería: , que tiene el mismo

número de componentes (la misma dimensión) que el vector de entrada de x”.

Debido a que tienen la misma dimensión, se pueden comparar entre sí, y por ende

se puede definir su distancia como se dijo en el párrafo anterior.

En la Figura N° 22 se ve un arreglo ordenado de nodos de dos dimensiones. En otras

palabras, una red neuronal de dos capas, una primera capa de entrada y una

segunda de competición, cada uno tiene un modelo general asociado con él,

como es mostrado arriba. Los valores iniciales del pueden ser seleccionados al

azar, preferentemente del dominio de las muestras de entrada. Luego se considera

una lista de muestras de entradas , donde es un índice de valor entero. Cabe

mencionar que en este esquema, el y pueden ser vectores, cadena de

símbolos, o incluso ítems más generales. Se compara cada con todos los y

se copia cada en una sublista asociada con ese nodo, el vector modelo que es

76

más similar a relacionado a la medida de distancia general. Cuando todos los

han sido distribuidos en las respectivas sublistas de la manera antes dicha, se

considera el conjunto de vecindad alrededor del modelo . Aquí se compone

de todo los nodos hasta un cierto radio en el cuadriculado del nodo . En la unión de

todas las sublistas en , la próxima tarea es encontrar la muestra “central” ,

definida como la muestra que tiene la más pequeña suma de distancias de todas las

muestras , . Esta muestra es ahora llamada la mediana generalizada en

la unión de las sublistas. Si es restringido para ser una de las muestras , que

se llamará a este mediana de conjunto de generalización; por otro lado, ya que la

puede no cubrir todo el dominio de la entrada, este puede ser posible para

encontrar otro ítem que tiene una aún más pequeña suma de distancias de la

, . Para mayor claridad se denominará la mediana generalizada.

Para mostrar esto más claramente, se describirá un ejemplo de dos dimensiones:

Figura 22: Proceso de lotes donde las muestras de entrada son distribuidas en sub-lista bajo el modelo de la mejor combinación. Fuente: “Self Organizing Maps”.

77

B. Método de Aprendizaje Vector de Cuantización40 (AVC)

Este método describe un aprendizaje supervisado, el AVC está estrictamente

destinado a una clasificación estadística o método de reconocimiento, su único

propósito es definir las regiones de clases en el espacio de datos de entrada. Para

este fin, un subconjunto de códigos similares es ubicado en cada región de clase,

incluso si las distribuciones de clases de las muestras de entrada que se superponen

en los bordes de clases, el vector código de cada clase. En estos algoritmos puede

ser ubicado y destacado para quedarse dentro de cada región de clase para todo los

tiempos. La región de cuantización, como el conjunto de Voronoi en Aprendizaje

Vector de Cuatización (AVC), son definidos por planos medios (hiperplanos) entre

vectores de códigos de vecinos. Una característica adicional en AVC es que por los

bordes de clase uno puede tomar dichos bordes del mosaico de Voronoi que separan

los conjuntos del mismo en diferentes clases. Los bordes de clases de ese modo se

definen por tramos lineales.

Para el algoritmo de Aprendizaje Vector de Cuantización (AVC), existen tres

opciones AVC1, AVC2 y AVC3, todos ellos tienen un rendimiento casi similar de

precisión en la mayoría de las tareas de reconocimiento de patrones estadísticos,

aunque con diferentes formas de trabajo. El AVC1 y AVC3 definen un proceso más

riguroso, a través del cual, los vectores códigos asumen valores estacionarios incluso

después de períodos extendidos de aprendizaje. Para AVC1 la tasa de aprendizaje

puede aproximadamente ser optimizada para una rápida convergencia. En AVC2, las

distancias relativas de los vectores códigos de los bordes de clase son optimizadas

mientras que no hay garantía de los vectores códigos siendo puestos de forma

óptima para describir las formas de las distribuciones de clase. Por lo tanto el AVC2

debería solo ser usado en una referencia diferencial, usando un pequeño valor de

tasa de aprendizaje y un número restringido de pasos de entrenamiento. En el Anexo

12: Mapas Auto-Organizados y Crecientes, se detallará un poco más cada uno de

ellos.

40

En inglés Learning Vector Quantization (LVQ).

78

C. Gas Neural de Crecimiento (GNC)

El algoritmo de Gas Neural de Crecimiento fue creado por Bernd Fritzke en 1995,

este es un algoritmo de agrupamiento41 incremental que no requiere información

sobre un conjunto de datos con antelación, y como tal es un mejoramiento de ambos

algoritmos de agrupamiento como son MAOK42 y K-Medias43. Es capaz de crear una

representación de un conjunto de datos de entrada en el espacio (donde es el

conjunto de números reales) y al igual que sus predecesores puede ser usado para

el vector de cuantización como para la construcción de una representación

topológica de una distribución de conjuntos de datos. Cada nodo en el modelo

consiste de un vector dimensional que representa su posición en el espacio

dimensional , además de una lista de conexiones a otros nodos vecinos.

El modelo mantiene varias constantes y que son

establecidos por el usuario y se ajustan a las particularidades del conjunto de datos.

Las constantes y pueden ser entendidas como modelos de tasas de

aprendizaje y, como tal, son usadas para ajustar los vectores de pesos de los nodos

en el espacio dimensional . Valores típicos para y son 0,05 y 0,0006

respectivamente. La es usada para controlar cuan rápido el modelo es

capaz de adaptarse a los cambios en la distribución del conjunto de datos de entrada

y que típicamente es establecido alrededor de 100. es usado para el control de la

inserción del nuevo nodo. En todas las iteraciones un nuevo nodo es insertado

entre el nodo con el error más grande y su vecino con error más grande. Un valor

típico para este parámetro seria alrededor de 300. Finalmente son usados por

el modelo para controlar las variables de error (error variable), es usado para

establecer la variable de error para un reciente nodo insertado, mientras que es

41

En inglés clustering. 42

Significa Mapa Auto-Organizados de Kohonen y en inglés es KSOM. 43

En inglés K-Means. Este algoritmo permite seleccionar grupos representativos entre los datos.

79

usado para contener el incremento de todas las variables de error en el mapa. El

valor típico para estos parámetros son 0,5 y 0,0005.

A continuación se mostrara el paso a paso del algoritmo Gas Neural de Crecimiento:

1. Crea dos nuevas neuronas con pesos inicializados aleatoriamente, crea un

borde entre ellos y establece su edad en 0.

2. Genera un vector de entrada de la distribución de entrada.

3. Ubica los dos nodos y más cercanos a , con vector de referencia y

respectivamente.

Donde al numero actual de neuronas en el mapa.

, donde

, donde

(41)

Así que el vector peso de , será el nodo más cercano a , mientras el

vector peso de , , será el siguiente más cercano a .

4. Cada nodo mantiene una variable de error que es inicialmente establecido en

0, después el nodo ganador ha sido comprobado en una muestra de datos

en particular, la variable de error de los nodos locales, , es actualizado

como se muestra a continuación:

(42)

5. Mueve y sus vecinos topológicos, es decir, todos los nodos conectados a s

por un borde, hacia :

80

6.

(43)

donde es el conjunto de todos los vecinos de .

7. Incrementa la edad de todos los bordes del nodo a sus vecinos topológicos.

8. Si y son conectados por un borde, entonces se establece la edad de esos

bordes a 0. Si ellos no son conectados entonces se crea un nuevo borde entre

ellos con edad cero.

9. Si no hay ningún borde con una edad mayor que , un sistema

constante de ancho máximo de edad, entonces se eliminan. Si después de

esto hay nodos sin bordes entre ellos, entonces también son eliminados.

10. Si la actual iteración es un múltiplo entero de , y la cuenta máxima de nodos

no ha sido alcanzado, entonces un nuevo nodo es insertado. La inserción de

un nuevo nodo es hecho como se muestra a continuación:

Encontrar el nodo con el más grande error.

Entre los vecinos de , encontrar el nodo con el más grande error.

Insertar el nuevo nodo entre y :

(44)

Crear bordes entre y , y ; entonces se remueven los borde entre y

.

Decrece las variables de error de y y establece el nodo error de

(45)

81

11. Decrece todas las variables de error de todos los nodos por un factor .

(46)

12. Si el criterio de parada no se cumple, entonces repetir desde el paso 2.

El algoritmo Gas Neural de Crecimiento es un modelo de crecimiento dinámico, que

a diferencia de la red Mapa Auto-Organizado de Kohonen (MAOK), ni requiere la

dimensionalidad de la red ni el número de neuronas que se especifiquen de

antemano. Como resultado, este se adapta bien a ambas distribuciones no

estacionarias de aprendizaje dinámico y al proceso de aprendizaje continuo. Este es

todavía construido de vectores pesos individuales al igual que la MAOK, pero hasta

aquí llega la analogía entre estos dos. Hay sólo dos neuronas en el modelo Gas

Neural de Crecimiento (GNC) al empezar, a diferencia de la MAOK que parte con

una matriz . Adicionalmente, el mapa creado en (donde es un entero > 0)

espacio dimensional por el algoritmo GNC siempre será una mejor aproximación de

la real distribución del conjunto de datos, ya que no trata de distorsionar la

distribución de entrada en una cuadricula.

D. Crece Cuando se Requiere (CCR)

La técnica usada para la creación y destrucción de los bordes de redes es el método

de aprendizaje Hebbiano competitivo. Para cada entrada, una conexión de borde es

generada entre el nodo que mejor encaje la unidad y la segunda mejor unidad de

competencia. Estos bordes de conexión tienen una “edad” asociada. Esta

originalmente establecida en cero y es incrementada en cada paso de tiempo para

82

cada borde que está conectado al nodo ganador. La única excepción es el borde que

une a la mejor unidad de encaje y la segunda mejor unidad. Los bordes cuya edad

excedan alguna constante son removidos. Cualquier nodo que no tenga

vecinos, por ejemplo, que no tiene conexiones de bordes, es removido, ya que este

es un nodo muerto.

La nueva parte del algoritmo es la forma en que el proceso de crecimiento se lleva a

cabo. En lugar de agregar un nuevo nodo después de todas las entradas , como en

la red Gas Neural de Crecimiento (GNC), nuevos nodos pueden ser agregados en

cualquier tiempo. Por ejemplo, varios pueden ser agregados después de otra y

entonces no se agregan más para las siguientes 100 iteraciones. Los nuevos nodos

se colocan dependientes en la entrada y del actual nodo ganador, en lugar de

agregarlos donde el error acumulado es más alto, como en el algoritmo GNC de

Fritzke.

Un nuevo nodo es agregado cuando la actividad del mejor nodo combinado (que es

la función de la distancia entre los pesos del nodo y la entrada) no es lo

suficientemente alta. La actividad de los nodos es calculada usando la distancia

Euclidiana entre los pesos para el nodo y la entrada. Es del caso considerar, el

hecho que los nodos creados recientemente pueden, no haber sido entrenados aún,

para coincidir con la salida correctamente deseada, lo que significaría que los nodos

deberían ser entrenados más en lugar de crear un nuevo nodo. Cada nodo es

equipado con una manera de medir la frecuencia, cuan a menudo el nodo ha sido

disparado. Éste podría ser hecho en una variedad de maneras, la más sencilla es

usar un contador simple para cada nodo, el cual es incrementado siempre que el

nodo es el mejor combinado.

Una alternativa al uso del contador simple para grabar cuan a menudo cada nodo ha

disparado, es tener una variable que crece exponencialmente de uno a cero, de

modo que los nuevos nodos tienen un valor de uno y los nodos que han sido

disparados frecuentemente son cercanos a cero. Esto es equivalente a un contador

con un límite superior, pero tiene algunos beneficios. El hecho que los vecinos del

83

nodo ganador son también entrenados puede ser reconocido, ya que sus variables

pueden también decrecer, aunque en menor medida. También, el número de veces

que un nodo ha disparado puede ser muy fácilmente tomado en cuenta en la tasa de

aprendizaje, de manera que los nodos que han sido disparados frecuentemente son

menos entrenados. Esto elimina el problema que las redes que aprenden

continuamente a menudo sufren, los pesos de los nodos bien entrenados continúan

moviéndose levemente, para que la red no converja. Como con la mayoría de las

redes auto organizadas, la configuración de las tasas de aprendizaje son usualmente

basadas en experimentación previa. Finalmente, significa que la red Crece Cuando

se Requiere puede ser usada como un filtro de novedad sin ninguna modificación, si

el nodo que dispara no ha disparado antes, o es disparado muy frecuentemente,

entonces la entrada es novedosa. Esto es lo que se conoce como habituación en los

animales.

Así, cuando una entrada es presentada a la red, la actividad de cada nodo en el

espacio de mapa es calculado y un ganador es elegido. Si este nodo representa la

entrada, entonces la actividad de ese nodo será cercana a uno. En ese caso, el nodo

ganador es entrenado un poco, al igual que sus vecinos. Sin embargo, si la actividad

de la red es por debajo del umbral de inserción , entonces el nodo sólo ha sido

recientemente agregado al mapa y todavía sigue entrando, o hay un desajuste entre

el nodo y la entrada. Si el nodo es nuevo, entonces, el contador de disparo para el

nodo será alto, por lo que el nuevo se entrena un poco y el contador decrece. De otra

forma, un nuevo nodo se necesita para representar la mejor entrada. Éste nodo es

agregado entre el nodo ganador, que causa el problema, y la entrada, con los pesos

del nuevo nodo siendo inicializados para hacer la media aritmética de los pesos para

el nodo ganador y la entrada. Este método de generación de nodo, y en particular el

umbral de inserción , se puede considerar como una generalización ajustable; la

cantidad que puede ser generalizada por la red entre percepciones similares es

controlada por la cantidad de discrepancia entre las percepciones que desencadena

un nuevo nodo.

84

Además, al umbral de inserción descrito previamente, un umbral es también

requerido para decidir en qué nivel de disparo una entrada es considerada

suficientemente entrenada, de modo que una baja actividad significa un desajuste.

En la práctica, el valor de este umbral no parece afectar el comportamiento de la red

de manera significativa. Usando la función de decrecimiento exponencial, el umbral

fue establecido de manera que si un nodo ha disparado cinco veces entonces éste

es considerado para ser entrenado.

El valor del umbral de inserción hace una gran diferencia. Sin embargo, si el valor

está situado muy cercano a uno, entonces, más nodos son producidos y la entrada

es representada muy bien. Con valores más bajos de menos nodos son

agregados.

D.1 Algoritmo Crece Cuando se Requiere

Para entender de mejor manera este algoritmo, se detallarán los pasos a seguir.

Sea el conjunto de nodos de mapa, y es el conjunto de conexiones

entre los nodos en el campo del mapa. Se deja que la distribución de entrada sea

, para las entradas . Definido como el vector de peso del nodo .

Inicialización. Crear dos nodos para el conjunto :

(47)

Con inicializados aleatoriamente de . Definir , el conjunto de conexión,

para ser el conjunto vacío.

(48)

Entonces, cada iteración del algoritmo es la siguiente:

85

1. Generar una muestra de dato para la entrada de la red.

2. Para cada nodo en la red, calcular la distancia de la entrada .

3. Seleccionar el mejor nodo de ajuste ganador, y el segundo mejor, que es el

nodo tal que:

(49)

donde es el vector peso del nodo .

4. Si no hay una conexión entre y , se crea este:

(50)

de otra forma, se fija la edad de la conexión a cero.

5. Calcular la actividad de la mejor unidad de ajuste:

(51)

6. Si la actividad <umbral de actividad y el contador de disparo < umbral de

disparo , entonces un nuevo nodo debería ser agregado entre los dos

mejores nodos de ajustes ( y ).

Agregar el nuevo nodo,

(52)

Crear el nuevo vector de peso, configurando los pesos para ser el

promedio de los pesos para el mejor nodo de ajuste y el vector de

entrada.

86

(53)

Insertar los bordes entre y y entre y

(54)

Remover el enlace entre y

(55)

7. Si el nuevo nodo no es agregado, adaptar las posiciones del nodo ganador y

sus vecinos, , que los nodos a los que está conectado.

(56)

donde 0< < <1 y es el valor del contador de disparo para el nodo .

8. Bordes de edad con un fin en :

(57)

9. Reducir el contador de la frecuencia con el nodo ganador ha disparado de

acuerdo a:

(58)

Y los contadores de sus vecinos

(59)

donde es el tamaño de la variable de disparo para el nodo , la fuerza

inicial, y es la fuerza de estímulo, usualmente 1. y son

constantes que controlan el comportamiento de la curva. El contador de

disparo de la ganadora reduce más rápido que las de sus vecinos.

87

10. Chequear si hay nodos o bordes para eliminar, es decir, si hay nodos que ya

no tienen vecinos, o bordes que son más viejos que la edad permitida, en

cuyo caso, eliminarlos.

11. Si más entradas están disponibles, retornar al paso 1, a menos que algún

criterio de detención se haya alcanzado.

En el Anexo 12: Mapas Auto-Organizados y Crecientes, se encuentra más

información de esta red.

88

PARTE III

2.4 PROYECCIÓN DE DEMANDA

Para la proyección de demanda existe una variada cantidad de metodologías, las

cuales pueden ser usadas individualmente para un proyecto o en conjunto con otras

técnicas, todo esto dependiendo de las variables que se encuentren involucradas en

el proyecto.

Una de las formas de clasificar estas técnicas de proyección es en función a su

carácter, de esta forma se encontran 3 tipos:

Series de tiempo.

Causales.

Subjetivos.

2.4.1 Modelos de Series de Tiempo44

Este tipo de modelos mide los valores de una variable en el tiempo en intervalos

espaciados uniformemente. Todo esto con el fin de determinar un patrón básico en

su comportamiento, y de esta forma poder hacer proyección futura de la variable

deseada.

Dentro de la serie de tiempos se pueden distinguir cuatros componentes básicos que

afectan a su comportamiento:

44

(Sapag, 1989) & (Anderson, Sweeney, & Williams, 2010).

89

A. Tendencia45

Este ve la declinación o el crecimiento a largo plazo del valor promedio de la

variable que se estudia. Esto se puede dar debido a cambios en la población,

características demográficas de la población, tecnología, y/o preferencias del

consumidor.

B. Factores Cíclicos46

Se refiere a la divergencia que existe entre la línea de tendencia proyectada y

el valor real que exhiba la variable. En efecto, las series de tiempo a menudo

muestran una secuencia de alternancia de puntos arriba y debajo de la línea

de tendencia. Esto es debido, entre otras cosas, a la conducta del efecto

combinado de las distintas fuerzas económicas, tecnológicas, políticas,

sociales, culturales y cualquier otra fuerza que sea parte del mercado. En

muchos de los casos, no existen patrones constantes que permitan evitar su

ocurrencia, magnitud y duración.

C. Fluctuaciones Estacionales47

Estos exhiben fluctuaciones que se repiten periódicamente y que normalmente

dependen de factores como el clima y la tradición, entre otros. Algunos

ejemplos de estos son la ropa de temporada, o sea ropa de verano y de

inviernos, pan de pascua (que se acentúa su demanda en épocas navideñas),

entre otros. Cabe destacar que este componente es aplicable para períodos

de horas, días, años, entre otras. Un ejemplo de esto es el volumen de tráfico

diario, donde hay alto nivel vehicular a ciertas horas del día.

45

En inglés Tend. 46

En inglés Cyclical Component. 47

En inglés Seasonal component.

90

D. Variaciones no Sistemáticas48

Este se refiere al componente aleatorio y que puede hacer variar a la línea de

tendencia, factores cíclicos y estacionarios proyectados. Esto ocurre por los

factores de corto plazo, no anticipados, y no recurrentes que afectan a las

series de tiempo.

Existen diversos métodos que permiten estimar el comportamiento de una variable y

que aíslan, en general, el efecto tendencia. Estos modelos son:

I. Promedios Móviles49

Este se usa cuando existe un fuerte efecto estacional. El promedio móvil se

obtiene al promediar los períodos o valores de datos más recientes para

proyectar el próximo período. Su formula matemática es la siguiente:

(60)

El término móvil es usado porque siempre aparece una nueva observación, la

cual queda disponible para la serie de tiempo. Esta remplaza a la más vieja

observación en la ecuación (60) y un nuevo promedio es calculado. Como

resultado, el promedio va a cambiar, o mover, como las nuevas observaciones

lleguen a estar disponibles.

48

En inglés Irregular Component o Catch-all. 49

En inglés Moving Average.

91

II. Afinamiento Exponencial50

Este método es para el pronóstico de corto plazo, un ejemplo de esto es el

pronóstico de ventas futuras; que toma un promedio ponderado de las ventas

reales durante el último período y del pronóstico realizado para ese período.

Esta utiliza un promedio ponderado de los últimos valores de series de

tiempos para la proyección

La ecuación es la siguiente:

(61)

donde representa el pronóstico de la serie de tiempo para el período

, es la constante de afinamiento ( , es la demanda real del

periodo y es el pronóstico de la demanda realizado para el período . “El

valor de se determina por tanteo, donde mientras menor sea , más estable

es el sistema de predicción. El valor de α se calcula de manera tal que se

minimice la medida de error del pronóstico”.

2.4.2 Modelos Causales51

Estos modelos buscan proyectar el mercado sobre la base de antecedentes

cuantitativos históricos. Esta tecnica se basa en que los factores que afectan el

comportamiento histórico de alguna o de todas las variables del mercado estudiado

siguen siendo las mismas.

Dentro de los modelos causales más utilizados se encuentran:

50

En inglés Exponencial Smoothing. 51

(Gujarati, 2004) & (Sapag, 1989).

92

A. Modelo de Regresión

El análisis de regresión trata del estudio de la dependencia de la variable

dependiente, respecto a una o más variables (las variables explicativas), con

el objetivo de estimar y/o predecir la media o valor promedio poblacional de la

primera en términos de los valores conocidos o fijos (muestras repetidas) de

las últimas. En este análisis nos interesa conocer la dependencia estadística

entre variables, en estas relaciones entre variables se trata esencialmente con

variables aleatorias o estocásticas (variables con distribución de probabilidad).

Al hablar de modelos lineales de regresión se debe entender que esta

linealidad está referida a dos conceptos:

Linealidad en las variables, el concepto más natural de linealidad es aquel

en que la esperanza condicional de es una función lineal de , es decir

geométricamente, la curva de regresión en este caso es una línea recta.

Linealidad de los parámetros, este caso se presenta cuando la esperanza

condicional de , es una función lineal de los parámetros, los ;

puede ser lineal en la variable o puede no serlo. Por ejemplo, en este

caso es un modelo de regresión lineal en el

parámetro.

En la Figura N°23 se aprecian distintos modelos de regresión, en los que se puede

apreciar linealidad de los parámetros.

93

Figura 23: Gráficos de Regresiones. Fuente: “Econometría”.

Como se ha señalado anteriormente los modelos de regresión se utilizan para

realizar estimaciones a partir de información ya existente, en el caso de este

documento, series de tiempo. Para la realización de estas estimaciones en dos

variables existen dos métodos que suelen utilizarse, el más común y frecuentemente

usado es la técnica de los mínimos cuadrados ordinarios (MCO) y la segunda

metodología se denomina máxima verosimilitud (MV); se debe mencionar que en el

contexto de la regresión lineal generalmente ambas metodologías proporcionan

resultados similares.

Dado su uso masificado el enfoque estará solamente en el método de mínimos

cuadrados ordinarios, los estimadores del mismo se calculan de la siguiente manera:

(62)

94

Una vez obtenidos estos estimadores, la recta de regresión es fácilmente obtenible.

La precisión de los estimadores MCO está determinada por sus errores estándar, y la

bondad de ajuste general del modelo está determinada por el coeficiente de

determinación , éste señala que proporción de la variación en la variable

dependiente esta explicada por la variable explicativa.

El modelo de dos variables no siempre es adecuado en la práctica, al existir más de

una variable explicativa el modelo deja de tener validez, por esto se hace necesario

ampliar el modelo de regresión lineal simple de manera que pueda considerar más

de dos variables.

Para seguir operando bajo los parámetros de un modelo clásico de regresión lineal

se realizan las siguientes suposiciones:

Valor medio de igual a cero, para cada .

No correlación serial, o tal que

Homoscedasticidad, o

Covarianza entre y cada variable igual a cero, o

No hay sesgo de especificación.

No hay colinealidad exacta entre las variables , o en otras palabras, no hay

relación lineal exacta entre y .

Las ecuaciones normales para los estimadores de MCO de tres variables se

presentan a continuación:

(63)

95

Para la estimación de los modelos de regresión no lineal se utilizan varios

métodos:

Búsqueda directa o método de ensayo y error o de libre derivación. Es un

método que resulta muy atractivo ya que no requiere de métodos de

cálculo, sin embargo no suele utilizarse. Si el modelo tiene muchos

parámetros se vuelve muy engorroso, y no es posible garantizar que con el

conjunto final de los valores de los parámetros que se haya seleccionado,

necesariamente se obtendrá la suma de error de cuadrados mínima

absoluta.

Optimización directa. En este método se diferencia la suma error de

cuadrados con respecto a cada coeficiente o parámetro desconocido, se

iguala la ecuación resultante a cero y se resuelven las ecuaciones

normales obtenidas de manera simultánea. Pero a partir de estas

ecuaciones no se puede resolver explícitamente o analíticamente. Por

consiguiente se recurre a alguna rutina iterativa. Se considera una

desventaja de este método que los valores finales de los parámetros

pueden converger de manera muy lenta.

Método de linealización iterativa. En este método se linealiza la ecuación

no lineal alrededor de algunos valores iniciales de los parámetros. Luego,

la ecuación linealizada se calcula mediante los MCO y los valores elegidos

al principio se ajustan. Tales valores ajustados se emplean para volver a

linealizar el modelo y de nuevo este se calcula mediante MCO reajustando

los valores estimados. Este proceso continúa hasta que no se produzcan

cambios sustanciales en los valores estimados, respecto al último par de

iteraciones. La principal técnica para linealizar una ecuación no lineal es la

expansión de las series de Taylor.

96

B. Encuestas de Intensiones de Compras

Esta metodología empieza con la selección de la adecuada unidad de análisis,

para así poder cuantificar la interacción de compra, luego se hace la correcta

toma de encuesta por muestreo y por último el análisis de los datos obtenidos.

C. Insumo-Producto

Se utiliza para “identificar las relaciones inter-industriales que se producen

entre los sectores de la economía, a través de una matriz que implica suponer

el uso de coeficientes técnicos fijos por parte de las distintas industrias”. “Este

método descompone la demanda entre bienes finales e intermedios y

establece sus relaciones a través de los denominados coeficientes técnicos,

con lo cual permite obtener la demanda de un sector específico”. Todo esto se

hace con el fin de determinar el grado de repercusión que la actividad de un

sector tiene sobre los restantes.

2.4.3 Modelos Subjetivos52

Estos modelos son usados cuando los métodos cuantitativos no cuentan con los

datos históricos suficientes para poder predecir el futuro o porque no son capaces de

explicar por sí solos el comportamiento futuro de algunas de las variables o cuando

el tiempo para elaborar el pronóstico es escaso.

Es por todo lo anterior que estos modelos se basan principalmente en las opiniones

de los expertos. Dentro de las cuales se encontran los siguientes métodos:

52

(Sapag, 1989) & (Anderson, Sweeney, & Williams, 2010).

97

A. Método Delphi

Esta es una de las técnicas más usadas en este tipo de modelos, fue

desarrollada por el grupo de investigación de la Corporación Rand53. Se trata

de un grupo de expertos, quienes participan de varias rondas de preguntas

(cuestionarios), donde todas sus respuestas al final de cada ronda son

retroalimentadas de forma controlada. Con esto se logra obtener “una serie de

información que tratada estadísticamente entrega una convergencia en la

opinión grupal, de la que nace la predicción.”

Para no inhibir a los participantes, el cuestionario se contesta de forma

anónima, donde los participantes están separados físicamente el uno del otro.

Cada vez que se termina una ronda del cuestionario se realiza la

retroalimentación controlada sobre el panel. Esto se realiza hasta que se

llegue a la convergencia de opiniones de todos los expertos. Todo este

procedimiento se realiza con el fin de evitar distorsiones que se producen

cuando hay individuos dominantes, la existencia de comunicaciones

irrelevantes y la presión de parte del grupo para llegar a un consenso forzado,

entre otras cosas.

B. Investigación de Mercado

Esta se utiliza en la recolección de información con el fin de aprobar o

impugnar hipótesis de mercados específicos, lo que permite tomar decisiones

sobre este mercado. Esto se realiza a través de encuestas, experimentos,

mercados pruebas entre otros.

Su principal característica es que este método tiene una flexibilidad en la

selección y diseño de la metodología que se llevará a cabo para resolver el

53

Su nombre en inglés es Rand Corporation.

98

problema en cuestión, “requiriendo una investigación ya sea exploratoria,

descriptiva o explicativa”.

C. Consenso Panel54

Este método de pronóstico se basa en el juicio de un sólo experto o

representante del consenso de un grupo de expertos, lo que lo hace similar al

método Delphi, pero con la diferencia de que aquí todas las identidades de los

emisores de las opiniones son conocidas, otra cosa en común es la falta de

retroalimentación dirigida desde el exterior.

Esta técnica de pronóstico es comúnmente recomendada cuando las

condiciones en el pasado no se mantienen en el futuro.

D. Pronósticos Visionarios

Es cuando se dispone de personal interno de la empresa, los cuales tiene una

experiencia y conocimientos del mercado que le permiten opinar respecto a

estimaciones en la demanda. Un ejemplo de esto son los vendedores que

llevan años conociendo a sus clientes y son capaces de predecir sus

comportamientos.

E. Analogía Histórica

Este supone que el mercado del proyecto que se estudia va a tener un

comportamiento parecido al de otros mercados en el pasado. Este mercado

que es usado como referente, se puede utilizar para un producto distinto, pero

54

En inglés Expert Judgment.

99

con un mercado consumidor parecido o para otra región geográfica o para un

mismo producto pero de otra empresa.

F. Aproximaciones Intuitivas55.

Están basadas en la habilidad de la mente humana para procesar una

variedad de información, que en la mayoría de los casos, es difícil de

cuantificar. Estas técnicas son a menudo usadas en grupos de trabajo, en el

que un comité o grupo trata de desarrollar nuevas ideas o resolver complejos

problemas a través de una serie de sesiones de “tormentas de ideas”. En

estas sesiones, los individuos se liberan de las restricciones habituales del

grupo (presión de los compañeros y la crítica), porque ellos pueden presentar

cualquier idea u opinión sin tener en cuenta su relevancia e, incluso más

importante, sin temor a la crítica.

G. Escritura de Escenario

Este método consiste en desarrollar un escenario conceptual del futuro

basado en un bien definido conjunto de supuestos. Diferentes conjuntos de

supuestos guían a diferentes escenarios. El trabajo de la toma de decisión es

para plantear qué tan probable es cada escenario y luego de eso permite

decidir.

55

En inglés Intuitive Aproaches.

100

CAPÍTULO III

DESARROLLO

Antes de comenzar a explicar en extenso el desarrollo de este estudio, es decir,

indicar los procedimientos realizados, como son la parametrización de variables, la

normalización de ellas, el desarrollo de las redes en base a estas variables, entre

otras; hay que distinguir el contexto o el medio en que se basa este estudio.

Una de las primeras dificultades encontradas, fue decidir que producto o servicio

debería ser proyectado para el desarrollo de este trabajo. Luego de recolectar

información y analizar los datos que se obtuvieron de los distintos productos y

servicios, se optó por basar el estudio en la proyección de la demanda de una

importante empresa aérea, que por razones de confidencialidad no se dará a

conocer su nombre, ni el área que representan los valores utilizados. Esta opción fue

escogida debido a la gran cantidad de información que se logró obtener en la base

de datos, la cual se componía de más de 16 variables con más de 61.000 entradas

para cada una (ver Figura N° 24), como así también, por ser un servicio que en el

mundo trasladó durante el mes de Julio del 2011 aproximadamente 325 billones de

pasajeros en Ingreso por Pasajeros por Kilómetros (IPK56) y, aproximadamente a 385

billones de pasajeros en Asientos Disponibles por Kilómetros (ADK57).

56

En inglés Revenue Passenger Kilometers (RPK), es una medida del volumen de pasajeros llevados por aerolíneas. Un IPK es cuando un pasajero voló un kilometro.

57 En inglés Available Seat Kilometers (ASK), captura la capacidad total de vuelo de pasajeros de una

aerolínea en kilómetros; está se obtiene multiplicando el número total de asientos disponibles para pasajeros programados y el número total de kilómetros de los asientos que fueron usados.

101

Figura 24: Captura de Pantalla de la base de datos. Fuente: “Elaboración propia”.

Una vez escogida está base de datos y antes de parametrizar las variables, se

decide trabajar con un enfoque de datos diarios lo que redujo las entradas de datos

desde 61.000 a 816 que representan la información de cada día. Otra razón de la

disminución de los datos de entrada fue la redundancia de ellos en el mismo día, ya

que éstos se podían repetir. Para lo anterior se utiliza la opción de tablas dinámicas,

la cual redujo de 61.000 a 816 datos de entrada, permitiendo contabilizar de mejor

forma la cantidad de reservas y de pasajeros por día, además de consentir un mejor

manejo y trabajo de los datos (ver Figura N° 25).

Una vez concluida la reducción de todas las variables se entra de lleno al desarrollo

del estudio, que continuación se muestra en detalle.

102

Figura 25: Captura de Pantalla de la Tabla Dinámica. Fuente: “Elaboración propia”.

3.1 PARAMETRIZACIÓN

Las posibles variables con que se pueden trabajar incluyen: El valor del tipo de

cambio, la fecha de viaje, la fecha de reserva58, el número de pasajeros por reservas,

la inflación, los pasajeros que viajan y el desglose de los mismos, pasajeros que

viajan nacionalmente y pasajeros que van al extranjero, de esta misma manera los

pasajeros al extranjero y nacionales se pueden subdividir según los destinos a los

cuales se transportan.

No se han considerado criterios como el precio y las ganancias por viaje dado que

los datos informados no poseen un claro desglose de los costos y pérdidas que

afectaban las ganancias de los respetivos viajes, así mismo se ha ignorado la

inflación ya que esta se presenta mensualmente. No existe una estadística diaria de

la misma que se pueda utilizar al comparar datos día a día.

58

En la empresa usan la palabra en inglés booking.

103

Los parámetros o series de datos con que se trabajarán incluirán datos que se

consideraron importantes al momento de tomar la decisión de viajar, ya sea dentro

del territorio nacional o fuera de este.

La selección de variables se realizará enfocada en la búsqueda de una mejor gestión

de venta del servicio, o si se prefiere la gestión de costos del mismo, es decir el

estudio se enfocará en determinar el número de reservas de pasajes que se

asignarán en determinado día, o periodo de tiempo.

Se reconoce a su vez que se pueden centrar el estudio en otras problemáticas como

por ejemplo: los kilómetros que recorrerán los pasajeros (destino de los viajes), la

asignación de asientos de destinos particulares, entre otras.

Como se mencionó con anterioridad las variables estarán determinadas por el

número de reservas que se realizarán en un periodo de un dia, es por ello que la

totalidad de los datos obtenidos se agrupará en un criterio diario, que concentrará

todos los destinos del día, permitiendo reducir la base de datos desde sobre 60.000

datos de entrada a 816 datos, los que representan cada día en que se realizan

reservas.

Se consideran relevantes:

Fecha de Viaje: Tiene influencia en el destino del viaje y la duración del mismo, por

lo tanto, se incluye entre los factores (parámetros) que se consideraran relevantes al

momento de viajar.

Valor del Dólar (dólar observado diario): El tipo de cambio tiene una alta importancia

al momento de decidir un viaje, un mayor valor del dólar desincentiva al viajero y

afecta la duración del viaje mismo. Un valor bajo del dólar facilita la posibilidad de

viajar y, en conjunto con la fecha de viaje, puede determinar un mayor tiempo de

viaje o incluso la realización del mismo.

104

Reserva y Fecha de Salida: Los datos obtenidos de la base de datos de la empresa

permiten múltiples opciones de trabajo, enfocándose en el número de pasajeros

reservados, o del número de pasajeros que viaja en la fecha determinada, los

pasajeros que se mueven dentro del territorio nacional, o de aquellos que viajan

hacia el extranjero, se presentan como buenas alternativas de análisis para medir la

precisión de las redes neuronales que se someteran a estudio. Las relaciones

causales entre los datos de número de viajes totales y la separación entre viajes

nacionales y/o viajes al extranjero resulta evidente y no requiere de un análisis

profundo, es por ello que se ha decidido no incluir en las pruebas y/o análisis estos

datos, o si prefiere parámetros, al momento de formular las redes neuronales con las

que se trabajara.

Número de Pasajeros: Intuitivamente se puede notar la existencia de una relación

entre el número de pasajeros que viajan y las reservas realizadas en una fecha

determinada, esta relación se analizara en profundidad en la siguiente sección.

Se ha considerado adecuado utilizar los parámetros:

Cantidad de Reservas: Es la cantidad de reservas que se hacen en un día.

Dólar Observado Diario: Corresponde al tipo de cambio establecido por el

Banco Central en función del promedio de transacciones realizadas en el

Mercado Cambiario Formal, durante el día hábil anterior.

N° Pax59 o N° Pasajeros: Cantidad de pasajeros diarios.

Fecha de Reservas: Indica el día, mes y año en que se hizo la reserva.

59

Esta es una abreviatura que se usa en los textos turísticos para referirse al pasajero.

105

3.2 ANÁLISIS DE DATOS

3.2.1 Estudios de Variables sin Tratamiento

Antes de comenzar a trabajar con las variables en la red neuronal propuesta, se han

realizado una serie de estudios para ver sus comportamientos estadísticos,

utilizándose las siguientes pruebas: Existencia o no de Distribución Normal en cada

una de ellas, Distribución de Frecuencias (Tendencia Central y Variabilidad),

Relaciones lineales entre ellas (gráficos de dispersión) y finalmente la Correlación

Bivariada, para lo cual se ha utilizado el programa “IBM SPSS Statistics 19”, que

permite realizar todo estos análisis.

El primer estudio en ejecutarse fue el estudio de la Distribución Normal en las

variables, para realizarlo se ha utilizado la prueba de bondad de ajuste Kolmogorov-

Smirnov, en el cual fueron ingresadas todas las variables (ver Figura N°26), siendo

analizadas de forma independiente. En esta prueba se requiere que la significación

bilateral sea mayor a 0,05 para ser una distribución normal.

Figura 26: Captura de Pantalla de las variables en el programa IBM SPSS Statistics 19. Fuente: “Elaboración propia”.

106

A continuación se mostrarán los resultados de la prueba en la Tabla N°1:

Prueba de Kolmogorov-Smirnov para una muestra

Cantidad de

Reservas

Dólar

Observado N° Pasajeros

Fecha de

Reserva

N 816 816 816 816

Parámetros

normalesa,b

Media 76,90 520,89 174,66 11-abr-2010

Desviación

típica

63,42 39,86 148,06 246

Diferencias más

extremas

Absoluta 0,11 0,09 0,12 0,05

Positiva 0,10 0,09 0,11 0,04

Negativa -0,11 -0,07 -0,12 -0,05

Z de Kolmogorov-Smirnov 3,30 2,61 3,44 1,61

Significación asintótica (bilateral) 0,00 0,00 0,00 0,01

a. La distribución de contraste es la Normal. b. Se han calculado a partir de los datos.

Tabla 1: Prueba de Kolmogorov-Smirnov para variables sin tratamiento. Fuente: “Elaboración propia”.

Como se advierte en los resultados, ninguna de estas variables tiene una

Significación Bilateral mayor a 0,05, por ende, estas variables no siguen una

distribución normal, con lo cual se descarta de forma automática la utilización de la

Correlación Bivariada de Pearson.

La siguiente etapa fue de Estadística Descriptiva, donde se distinguen las

Distribuciones de Frecuencia, encontrándose las medidas de Tendencia Central que

permiten ubicarse dentro de la escala de medición, y las medidas de la Variabilidad

que indican la dispersión de los datos en la escala de medición. Además de las

pruebas señaladas, se utilizó las Estadísticas Descriptivas de Asimetría, Curtosis y

otras. A continuación se muestra la Tabla N°2 con los resultados respectivos a

dichas medidas.

107

Estadísticos

Cantidad de

Reservas

N°

Pasajeros

Fecha de

Reserva

Dólar

Observado

N Válidos 816 816 816 816

Perdidos 1 1 1 1

Media 76,90 174,66 11-abr-2010 520,89

Error típico de la media 2,22 5,18 08 15:15:30,389 1,39

Mediana 65,00 151,00 18-abr-2010 520,04

Moda 40 3a 02-ene-2009

a 494,51

Desviación típica. 63,42 148,06 246 39,86

Varianza 4022,76 21924,17 4,54E14 1589,07

Asimetría 2,11 2,12 -0,10 0,69

Error típico de asimetría 0,08 0,08 0,08 0,08

Curtosis 7,71 7,32 -1,10 -0,040

Error típico de curtosis 0,17 0,17 0,17 0,17

Rango 500 1117 879 00:00:00 183,83

Mínimo 1 1 02-ene-2009 460,04

Máximo 501 1118 31-may-2011 643,87

Suma 62748 142525 425049,97

a. Existen varias modas. Se mostrará el menor de los valores.

Tabla 2: Pruebas Estadísticas para variables sin tratamiento. Fuente: “Elaboración propia”.

Como se observa en la Tabla 2 se obtuvieron las distintas medidas de Tendencia

Central y Variabilidad, que serán interpretadas a continuación:

La mediana de cada variable son las siguientes:

Cantidad de Reservas es 65, quiere decir que la mitad de las reservas

sobrepasan esa Cantidad y la otra mitad es inferior.

N° Pax es 151, al igual que la anterior significa que la mitad de los números de

pasajeros sobrepasa a 151 y la otra mitad está por debajo de está.

Fecha de Reserva es 18 de abril del 2010, indica que una mitad de las fechas

reservadas fueron después de esa fecha y la otra mitad fue antes.

108

Dólar observado es de US$ 520,04 indica que una mitad del dólar observado

fue superior al antes dicho y la otra mitad fue inferior a ésta.

La moda de las variables escogidas fueron las siguientes:

Cantidad de Reserva fue 40, indica que es la Cantidad de reservas que más

frecuentemente se hacen a diario.

N° Pax fue de 3, muestra que frecuentemente esta era la Cantidad de

pasajeros que viajaría.

Fecha de Reserva no es válida para esta variable, debido a que no hay días

repetidos.

Dólar Observado fue de US$ 494,51 indica que fue el promedio de

transacciones más habitual en el mercado cambiario formal.

La media aritmética fue la siguiente:

Cantidad de Reservas, en promedio se realizaron 76,9 reservas de viajes

diariamente.

N° Pax en promedio fue de 174,66 pasajeros diarios.

Dólar observado en promedio fue de US$ 520,89 diario.

La Desviación Estándar para cada variable es la siguiente:

Cantidad de Reservas: 63,425 reservas. Significa que se desvían de 76,9 en

promedio, 63,425 unidades de la escala.

N° Pax: 148,068 pasajeros. Quiere decir que se desvían de 174,66 en

promedio, 148,068 pasajeros.

109

Dólar Observado: US$39,86. Indica, que se desvían de US$520,89 en

promedio, US$39,86.

Figura 27: Gráficos de Asimetría y Curtosis de variables sin tratamiento. Fuente: “Elaboración propia”.

Al revisar los gráficos y los valores entregados por el SPSS (ver Figura N°27), se

pueden concluir los siguientes resultados:

En la asimetría se distingue que de las cuatro variables, tres tienen una asimetría

positiva: Cantidad de Reservas, N° Pax y Dólar Observado; esto quiere decir, que

tienen una mayor Cantidad de valores agrupados en el sector izquierdo del gráfico

(representado por la curva), lo que significa que están por bajo la media. El único que

110

tiene una asimetría negativa es Fecha de Reserva, la cual es ligeramente perceptible

en el gráfico.

Con respecto a la curtosis, al igual que con la asimetría, tres tienen una curtosis

positiva: Cantidad de Reservas, N° Pasajeros (N° Pax) y Dólar Observado; lo que

indica que se concentran varios valores en la región central de la distribución.

También en este caso, Fecha de Reserva tiene un valor negativo, lo que indica que

los valores no se concentran en la región central de la curva.

Una vez conocidos los resultado de la prueba de bondad, de ajuste y de estadística

descriptiva, se pasó al estudio de las relaciones lineales entre las distintas variables,

para lo cual se utilizó el diagrama de dispersión para ver si existía o no una relación

lineal, esto fue realizado para cada una de las parejas de variables posibles, sólo se

presentará el caso que muestra una correlación alta, los demás serám expuestos en

el Anexo 13: Diagramas de Dispersión.

Figura 28: Diagramas de Dispersión para las variables Cantidad de Reservas-N°Pasajeros. Fuente: “Elaboración propia”.

111

En el gráfico de la Figura N° 28, tiene una fuerte correlación (ver su ), donde los

puntos se agrupan muy cerca de la línea de tendencia, además se aprecia que

tiende a tener una correlación positiva, lo cual significa que a mayor cantidad de

reservas habrá mayor cantidad de pasajeros. También se aprecia que los puntos se

concentran en su mayoría entre 0 y 200 reservas y, entre 0 y 400 pasajeros. Tiene

muy pocos valores atípicos, se puede dar como ejemplo donde hay muchos

pasajeros con pocas reservas. Finalmente se puede concluir que estas dos variables

tienen una dependencia lineal.

Una vez concluido que tipo de relación tiene cada variable con las demás, se pasa a

la siguiente etapa del análisis que es el de las Correlaciones Bivariadas. Para el caso

de estas variables se escoge la prueba de Rho de Spearman, utilizada para variables

no normalmente distribuidas.

112

Correlaciones

Cantidad

de reserva

N°

Pasajeros

Fecha de

Reserva

Dólar

Observado

Rho de

Spearman

Cantidad de

Reservas

Coeficiente de

correlación

1,00 0,98** 0,38

** -0,33

**

Significación

(bilateral)

0,00 0,00 0,00

N 816 816 816 816

N° Pasajeros Coeficiente de

correlación

0,98** 1,00 0,33

** -0,28

**

Significación.

(bilateral)

0,00 0,00 0,00

N 816 816 816 816

Fecha de

Reserva

Coeficiente de

correlación

0,38** 0,33

* 1,00 -0,89

**

Significación.

(bilateral)

0,00 0,00 0,00

N 816 816 816 816

Dólar

Observado

Coeficiente de

correlación

-0,33** -0,28

** -0,89

** 1,00

Significación.

(bilateral)

0,00 0,00 0,00

N 816 816 816 816

** La correlación es significativa al nivel 0,01 (bilateral).

Tabla 3: Correlación de Rho de Spearman para variables sin tratamiento. Fuente: “Elaboración propia”.

Como se observa en la tabla de resultados de la Tabla N°3, los coeficientes de

correlación entre las variables que tienen un bajo valor, representan una baja

correlación, lo que demuestra que no existe correlación entre estas variables; en

cambio las variables que tienen coeficientes de correlación altos, son

estadísticamente significativos, con p < 0,01, esto quiere decir, que son altamente

correlacionadas, que para el caso de Cantidad de Reservas-N° Pasajeros están

directamente relacionadas, y para el caso Dólar Observado-Fecha de Reserva están

indirectamente relacionados.

113

3.2.2 Estudio de Variables Normalizadas

Como se explica más adelante, las variables escogidas al momento de ser

trabajadas en la red, fueron normalizadas para evitar distorsiones, es por ello que

nuevamente estas variables son analizadas con el fin de verificar si tuvieron o no

algún cambio con los valores originales.

Se comienza con la bondad de ajuste de Kolmogorov-Smirnov, para ver si siguen o

no una distribución normal. Como se observa en la Tabla N°4, las variables siguen

sin tener una distribución normal, ya que ninguna tiene una Significación Bilateral

mayor a 0,05.

Cantidad

Reservas

Dólar

Observado

N°

Pasajeros

Fecha

Reserva

N 816 816 816 816

Parámetros

normalesa,b

Media 3,93 3,85 4,72 5,88

Desviación

típica

1,07 0,82 1,15 0,90

Diferencias más

extremas

Absoluta 0,11 0,12 0,13 0,16

Positiva 0,07 0,05 0,08 0,16

Negativa -0,11 -0,12 -0,13 -0,13

Z de Kolmogorov-Smirnov 3,34 3,56 3,71 4,61

Significación asintótica (bilateral) 0,00 0,00 0,00 0,00

a. La distribución de contraste es la Normal. b. Se han calculado a partir de los datos.

Tabla 4: Prueba de Kolmogorov-Smirnov para variables Normalizadas. Fuente: “Elaboración propia”.

Se vuelve a ver la estadística descriptiva, para ver los cambios que estos datos

tuvieron al ser normalizadas (ver Tabla N°5).

114

a. Existen varias modas. Se mostrará el menor de los valores.

Tabla 5: Pruebas Estadísticas para variables normalizadas. Fuente: “Elaboración propia”.

La interpretación de las medidas de Tendencia Central y de la Variabilidad de las

variables normalizadas son las siguientes.

La mediana de cada variable a continuación:

Cantidad de Reservas es 4,17 quiere decir que la mitad de las reservas

sobrepasan a esta Cantidad y que la otra mitad es menor a ella. Además, al

desnormalizarla, se ve que esta es la misma que la original o sea 65.

N° Pasajeros (N° Pax) es de 5,02 significa que la mitad de los números de

pasajeros sobrepasa a la cifra anterior y la otra mitad está por debajo de ésta.

Al igual que se observo en el punto anterior, al desnormalizarla queda en 151

como la original.

Cantidad de Reservas Dólar Observado N° Pasajeros Fecha de Reserva

N Válidos 816 816 816 816

Perdidos 0 0 0 0

Media 3,93 3,85 4,72 5,88

Error típico de la media 0,03 0,02 0,04 0,03

Mediana 4,17 4,11 5,01 6,15

Moda 3,68 3,56 1,09 0,00a

Desviación típica 1,07 0,82 1,15 0,90

Varianza 1,16 0,68 1,33 0,82

Asimetría -1,32 -0,99 -1,45 -2,02

Error típico de asimetría 0,08 0,08 0,08 0,08

Curtosis 2,23 1,52 2,64 5,55

Error típico de curtosis 0,17 0,17 0,17 0,17

Rango 6,21 5,21 7,019 6,77

Mínimo 0,00 0,00 0,00 0,00

Máximo 6,21 5,21 7,019 6,77

Suma 3214,73 3146,55 3853,49 4802,25

115

Dólar observado es de 4,11 indica que una mitad del dólar observado fue

superior al antes dicho y la otra mitad fue inferior a ésta. Al desnormalizarla

queda en US$ 520,04.

La moda de las variables escogidas fueron las siguientes:

Cantidad de Reservas fue 3,69, indica que es la Cantidad de reservas que

más frecuentemente se hacen a diario. En su forma original su valor es de 40.

N° Pasajeros fue de 1,1: Muestra que frecuentemente esta era la Cantidad de

pasajeros que viajaría. Que es 3 en su forma original

Fecha de Reserva no es válido para esta variable, debido a que no hay días

repetidos.

Dólar Observado fue de US$ 3,57 indica que fue el promedio de transacciones

más habitual en el mercado cambiario formal. Donde su número original es

US$ 494,51.

La media aritmética fue la siguiente:

Cantidad de Reservas en promedio se realizaron 3,94 reservas de viajes

diarios.

N° Pasajeros en promedio fue de 4,72 pasajeros diarios.

Dólar observado en promedio fue de US$ 3,86 diario.

La Desviación Estándar para cada variable es la siguiente:

Cantidad de Reservas: 1,08 reservas. Significa que se desvían de 3,94, en

promedio, 1,08 unidades de la escala.

N° Pasajeros: 1,16 pasajeros. Quiere decir, que se desvían de 4,72, en

promedio, 1,16 pasajeros.

Dólar Observado: US$0,83. Indica, que se desvían de US$3,86, en promedio,

US$0,83.

116

Figura 29: Gráfico de Asimetría y Curtosis de variables Normalizadas. Fuente: “Elaboración propia”.

A diferencia con los valores no normalizados, se ve una notable diferencia en la

asimetría (Figura N°29).

En la asimetría se ve aquí que todas las variables tienen una concentración de

valores en el lado derecho de la curva y por ende tienen una asimetría negativa, que

es totalmente opuesto al de las variables no normalizadas, esto es debido que al

normalizar los valores se les está ajustando todos ellos con el fin de que estén en

una misma escala, lo que hace que los valores se desplacen en la curva. Esta

asimetría negativa significa que los valores están por sobre la media.

117

Con respecto a la curtosis, esta es muy parecida a los valores no normalizados, con

la salvedad que la Fecha de Reserva ahora también tiene una curtosis positiva.

El próximo paso fue el estudio de la relación lineal entre las variables, que al igual

que en la sección anterior, se hizo con el Diagrama de Dispersión y con el

Coeficiente de Determinación para ver si tenían o no este tipo de relación entre ellas.

Como se observa en el gráfico siguiente, se mantiene la única relación lineal que es

entre Cantidad de Reservas - N° Pasajeros que tiene además un R2 de 0,977, las

demás parejas de variables son todas independientemente lineales y se veran en el

Anexo 13: Diagramas de Dispersión.

Figura 30: Diagramas de Dispersión para variables Cantidad de Reservas-N° Pasajeros. Fuente: “Elaboración propia”.

El gráfico de la Figura N° 30, al igual que en el análisis de las variables sin

normalizar, se observa una correlación fuerte y positiva, donde se aprecian unos

pocos valores atípicos. Como se dijo antes, esta tendencia positiva se ve

claramente, ya que a mayor número de reservas más pasajeros viajan.

118

Finalmente, se realiza nuevamente la prueba de Correlación de Rho de Spearman, la

cual arroja los siguientes resultados:

Correlaciones

Cantidad

de

Reservas

Dólar

Observado

N°

Pasajeros

Fecha de

reserva

Rho de

Spearman

Cantidad de

Reservas

Coeficiente de

correlación

1,00 -0,33** 0,98

** 0,38

**

Significación

(bilateral)

0,00 0,00 0,00

N 816 816 816 816

Dólar

Observado

Coeficiente de

correlación

-0,33** 1,00 -0,28

** -0,89

**

Significación

(bilateral)

0,00 0,00 0,00

N 816 816 816 816

N° Pasajeros Coeficiente de

correlación

0,98** -0,28

** 1,00 0,33

**

Significación

(bilateral)

0,00 0,00 0,00

N 816 816 816 816

Fecha de

Reserva

Coeficiente de

correlación

0,38** -0,89

** 0,33

** 1,00

Significación

(bilateral)

0,00 0,00 0,00

N 816 816 816 816

** La correlación es significativa al nivel 0,01 (bilateral).

Tabla 6: Correlación de Rho de Spearman para variables normalizadas. Fuente: “Elaboración propia”.

Al revisar los resultados se observa claramente que los valores son exactamente los

mismos que con los valores no normalizados, por ende, se mantiene la misma

correlación entre ellos.

Todo esto demuestra que al normalizar las variables no se produjeron distorsiones

que afecten de forma grave a los resultados en la red, y por lo tanto, no hay

problemas en su uso en lugar de los datos con sus valores originales.

119

3.3 SELECCIÓN DE MUESTRA

De manera aleatoria se genera un vector de datos que contiene los valores

numéricos de 1 a 816, esto representa la posición de los datos según su fecha de

ingreso. El vector permitirá crear una matriz de datos donde los valores asociados a

la primera fila corresponderán al primer número aleatorio generado en el vector.

Luego de su creación la matriz se divide en tres subconjuntos, tres submatrices, para

las distintas etapas de creación de la red, es decir, una submatriz de entrenamiento

con 572 datos, una submatriz de validación con 122 datos, y una submatriz de

prueba que también contiene 122 datos.

La muestra que se crea es utilizada a lo largo del desarrollo como una base de

comparación entre los distintos modelos y configuraciones de redes neuronales que

se desarrolla en este estudio.

3.4 MODELOS

Los tres modelos que se utilizan para evaluar la capacidad de las redes neuronales

de proyectar, pronosticar, los valores de reserva de pasajeros o el número de viajes

se construyen a partir de los parámetros seleccionados, desde modelos de una

variable donde se vincula el valor del dólar con el resultado esperado, a modelos

multivariables donde se utilizan todos los parámetros seleccionados para obtener el

pronóstico deseado.

La construcción de los modelos se realiza utilizando las estructuras clásicas de

Perceptrón, Mapa Auto-Organizado de T. Kohonen y el modelo nacido a partir de

este, una red Crece Cuando se Requiere, los valores del número de neuronas y el

número de capas necesario en cada caso se ha determinado según la sugerencia del

120

autor de la red, y luego realizando la sintonía fina a través del método de ensayo

error.

Dada la heterogeneidad de los datos y para un mejor trabajo de los mismos,

previamente se normalizan de manera que las anormalidades estadísticas no

influyan en los resultados del trabajo.

3.5 NORMALIZACIÓN DE VARIABLES

Las variables seleccionadas, como se indicó anteriormente, fueron normalizadas con

el fin de evitar distorsiones en las medidas de distancias; para ello, se procesaron las

variables con la normalización logarítmica, que permite obtener mayores

resoluciones para los componentes del vector. Esta es una transformación no lineal,

y que tiene la siguiente forma:

(64)

donde , , este valor es buscado

en cada una de las columnas (variables) y se escoge el valor mínimo de cada una de

ellas. Luego este valor es utilizado en su correspondiente columna, y se le va

restando este valor a todos los valores de las filas. Un ejemplo, que puede graficar

esto, es el siguiente:

La Columna de Fecha de Reserva tiene el valor mínimo 733775, este valor será

utilizado en cada fila, para el caso de la fila 1, que corresponde al mismo valor

mínimo, la ecuación queda de la siguiente manera:

, para el caso de la fila 2 donde su valor original

es de 733778, el valor es el siguiente: y

así sucesivamente para toda la columna.

121

Como se señala, este proceso fue realizado en cada una de las columnas y fue

escogido en todas ellas la misma normalización logarítmica, para de esta manera,

mantener un mismo estándar en todas (ver Figura N°31).

Figura 31: Captura de Pantalla de variables Normalizadas. Fuente: “Elaboración propia”.

3.6 PRONÓSTICO

3.6.1 Regresión Lineal

Para este método se utilizan dos variables para la proyección de demanda: Cantidad

de Reservas y Número de Pasajeros (N° Pax). Esto es debido a que son las únicas

dos variables que tienen una fuerte correlación entre las variables escogidas para la

Tesis.

Como se sabe, estas variables se dividen en dependientes e independientes, para

este ejemplo la variable dependiente es la Cantidad de Reservas y la independiente

es el Número de Pasajeros.

Al igual que con el análisis de variables, el programa utilizado fue el “IBM SPSS

Statistics 19”, el cual permitió sacar la recta de regresión estimada ( ). A

122

continuación se verán los resultados obtenidos por la regresión lineal del programa

SPSS:

Resumen del modelo

Modelo R R cuadrado

R cuadrado

corregida

Error típico de

la estimación

1 0,97a 0,95 0,95 13,50

a. Variables predictoras: (Constante), N° Pax

Coeficientesa

Modelo

Coeficientes no estandarizados

Coeficientes

tipificados

t Sig. Beta Error típico Beta

1 (Constante) 3,79 0,73 5,18 0,00

N° Pasajeros 0,41 0,00 0,97 130,98 0,00

a. Variable dependiente: Cantidad de Reservas

Tabla 7: Pronóstico con Regresión Lineal. Fuente: “Elaboración propia”.

Como se ve en el recuadro anterior, las constantes son 3,794 y 0,419

respectivamente, con lo cual la recta de regresión estimada queda como sigue:

(65)

La interpretación de esta recta es la siguiente:

El valor , que mide la pendiente de la recta, indica que dentro del intervalo

muestral entre 1 a 1118 pasajeros por día, a medida que se incrementa, en un 1

pasajero, el incremento estimado de la Cantidad de Reservas es alrededor de 0,419

reservas.

El valor , es la intersección de la recta e indica el nivel promedio de la

Cantidad de Reservas cuando el número de pasajeros es cero. Este último caso no

es factible ya que para haber una reserva, a lo menos debe haber un pasajero.

123

Continuando con la interpretación de los resultados obtenidos, el valor de

significa que cerca del 95% de la variación en la Cantidad de Reservas diario está

explicado por el número de pasajeros, además, con este valor que es cercano a 1

(que es el valor máximo de ) nos indica que la recta de regresión muestral se

ajusta muy bien a los datos. El coeficiente de correlación de 0,977 indica que las dos

variables tienen una alta correlación positiva.

Una vez hecha la interpretación de los valores dados, se llevó a cabo la proyección

de la demanda con la ecuación antes dicha. A continuación se presentaran los

primeros 10 datos de entrada como modo de ejemplo de este método en la Tabla

N°8:

Cantidad de Reservas N° Pax

Cantidad de Reservas

9 17 10,909

13 32 17,187

26 63 30,162

21 46 23,047

34 79 36,858

38 94 43,137

28 94 43,137

35 109 49,415

26 69 32,673

46 124 55,693

Tabla 8: Proyección de Regresión Lineal. Fuente: “Elaboración propia”.

El análisis de estos resultados se muestra más adelante, con el fin de poder

comparar en su conjunto a todos los métodos utilizados, lo que permitirá percibir de

forma clara la calidad de cada uno de ellos, o sea, la precisión por medio de los

errores arrojados por los mismos. Por último, estos métodos serán contrastados con

la red propuesta en el trabajo con el fin de demostrar la mejor precisión de este

método con respecto a los tradicionales.

Para ver todos los resultados obtenidos por este método ver el Anexo 14: Métodos

Tradicionales.

124

3.6.2 Promedio Móvil

Para este método sólo se utiliza la variable “Cantidad de Reservas”.

Para la proyección de la demanda en el tiempo “ ” se hizo el promedio de las tres

demandas anteriores ( ).

Como en el método anterior se muestra la Tabla N°9 con los 10 primeros datos de

entrada pronosticados como ejemplo de esta técnica y, al igual que antes, su análisis

queda diferido para más adelante.


Tradicionales.


Promedio Móvil

9 13 26 16,00

21 20,00

34 27,00

38 31,00

28 33,33

35 33,67

26 29,67

46 35,67

36 36,00

58 46,67

Tabla 9: Promedio Móvil. Fuente: “Elaboración propia”.

3.6.3 Promedio Móvil Ponderado

En este caso, al igual que en el anterior, se toma como variable la “Cantidad de

Reservas”, empleándose el promedio de las tres demandas anteriores en los tiempos

para pronosticar la demanda en el tiempo “ ”. La diferencia se

125

encuentra en que las demandas anteriores fueron ponderadas con

, las cuales fueron las ponderaciones que entregaron el

menor error.

A continuación los primeros 10 datos de entrada pronosticados por el método (Tabla

N°10).

Cantidad Reservas

Promedio Móvil Ponderado

9 13 26 21,7

21 19,9

34 28

38 33,4

28 27,2

35 30,1

26 25,2

46 37,4

36 34,4

58 47,8

Tabla 10: Promedio Móvil Ponderado. Fuente: “Elaboración propia”.


Tradicionales.

3.6.4 Suavizamiento Exponencial

Como se hizo en los promedios móviles la variable escogida fue solamente la

“Cantidad de Reservas”.

Para pronosticar se utilizó un α=0,1 el cual ponderó a la demanda del período

anterior y la diferencia de ponderó al pronóstico del período anterior.

126

A continuación se presentan los 10 datos de entrada pronosticados por esta técnica

(Tabla N°11).


Suavizamiento Exponencial

9 13 9,00

26 9,40

21 11,06

34 12,05

38 14,24

28 16,62

35 17,76

26 19,48

46 20,13

36 22,72

Tabla 11: Suavizamiento Exponencial. Fuente: “Elaboración propia”.


Tradicionales.

3.6.5 Red de Perceptrón Multicapa

Para la realización de esta red se trabaja con las cuatro variables, dividido en dos

grupos. El primer grupo es la variable de entrada, la cual está conformada por:

Fechas de Reserva, Número de Pasajeros y Dólar Observado. Y el segundo grupo la

variable objetivo, la cual está conformado únicamente por la variable Cantidad de

Reservas.

Además, para esta red se decide trabajar con tres tipos de problemas de series de

tiempo no lineales, y en cada una de estas se hacen diferentes configuraciones de

variables de entrada.

127

Los valores presentados en esta red corresponden a una parte de los 122 datos

usados para el testeo de la red. Los restantes 694 datos no son usados debido a que

fueron utilizados para la construcción de la red.

A. Auto-Regresivo No-Lineal con Entrada Externa (ANEE)60

Este predice serie dado los valores del pasado de y otras series .

Para una mejor comprensión de lo dicho anterior se expone la siguiente ecuación:

(66)

Para este tipo de problema se plantearon siete distintas configuraciones de variables

de entrada. A continuación se irá presentando cada una de estas.

1. Variable de Entrada Dólar

A continuación se presentan 10 datos de entrada pronosticados (Tabla N°12).

Demanda Real

Demanda Pronosticada

53 44,14

49 45,01

43 43,61

1 41,15

2 0,15

5 34,69

43 39,02

81 43,16

95 52,17

170 45,12

Tabla 12: Red de Perceptrón Multicapa Auto-regresivo no-lineal con entrada externa

con la variable de entrada Dólar. Fuente: “Elaboración propia”.

60

En inglés Nonlinear Autoregressive with External Inpunt (NARX).

128

2. Variables de entrada: Dólar y Fecha de Reserva.


Demanda real


53 51,17

49 47,06

43 49,87

1 72,37

2 2,89

5 34,07

43 5,43

81 65,32

95 77,55

170 32,17

Tabla 13: Red de Perceptrón Multicapa Auto-regresivo no-lineal con entrada externa con las variables de entrada Dólar y Fecha de Reserva. Fuente: “Elaboración propia”.

3. Variables de entrada: Dólar y Número de Pasajeros.


Demanda Real


53 47,69

49 49,74

43 50,46

1 55,66

2 1,53

5 28,45

43 10,71

81 44,51

95 50,62

170 46,01

Tabla 14: Red de Perceptrón Multicapa Auto-regresivo no-lineal con entrada externa con las variables de entrada Dólar y Número de Pasajeros. Fuente: “Elaboración propia”.

129

4. Variables de entradas: Dólar, Número de Pasajeros y Fecha de Reserva.


Demanda Real


53 64,57

49 67,05

43 67,58

1 66,45

2 1,62

5 33,20

43 26,16

81 50,61

95 60,49

170 29,40

Tabla 15: Red de Perceptrón Multicapa Auto-regresivo no-lineal con entrada externa con las variables de entrada Dólar, Número de Pasajeros y Fecha de Reserva. Fuente: “Elaboración propia”.

5. Variable de Entrada: Fecha de Reserva.

A continuación se presentan10 datos de entrada pronosticados (Tabla N°16).

Demanda Real


53 50,65

49 58,02

43 58,58

1 52,76

2 2,90

5 32,62

43 6,35

81 58,86

95 107,70

170 42,40

410 414,18

Tabla 16: Red de Perceptrón Multicapa Auto-regresivo no-lineal con entrada externa con

las variables de entrada Fecha de Reserva. Fuente: “Elaboración propia”.

130

6. Variable de entrada: Número de Pasajeros.


Demanda Real


53 33,47

49 39,41

43 43,88

1 70,11

2 1,07

5 35,10

43 39,94

81 36,23

95 57,38

170 34,16

410 56,31

Tabla 17: Red de Perceptrón Multicapa Auto-regresivo no-lineal con entrada externa con las variables de entrada Número de Pasajeros. Fuente: “Elaboración propia”.

7. Variables de entrada: Número de Pasajeros y Fecha de Reserva.


Demanda Real


53 35,15

49 44,73

43 52,31

1 77,54

2 1,44

5 11,14

43 4,51

81 70,29

95 65,41

170 31,77

Tabla 18: Red de Perceptrón Multicapa Auto-regresivo no-lineal con entrada externa con las variables de entrada Número de Pasajeros y Fecha de Reserva. Fuente: “Elaboración propia”.

131

En el Anexo 15: Perceptrón Final, se pueden observar los resultados completos de

esta configuración.

B. Auto-Regresivo No-Lineal (AN)61.

Predice la serie dado los valores del pasado de . La ecuación es la

siguiente:

(67)

Para este tipo de problema se planteo una sola configuración con la variable objetivo

como la unica entrada a la red. A continuación se presentan 10 datos de entrada

pronosticados (Tabla N°19).

Demanda real


53 41,95

49 46,90

43 46,77

1 45,55

2 1,76

5 35,36

43 27,76

81 46,42

95 56,92

170 57,77

Tabla 19: Red de Perceptrón Multicapa Auto-regresivo no-lineal. Fuente: “Elaboración propia”.



61

En inglés Nonlinear Autoregressive (NAR).

132

C. Entrada-Salida No-Lineal62 (ESN).

Predice la serie dado los valores del pasado de .

(68)

Al igual que para el primer tipo de problema expuesto con anterioridad, se plantean

siete distintas configuraciones de variables de entrada. A continuación se irá

presentando cada una de estas.

1. Variable de entrada: Dólar.


Demanda real


39 54,01

50 54,10

49 54,01

43 54,01

1 11,33

14 54,01

5 34,88

40 44,31

57 54,06

95 54,74

Tabla 20: Red de Perceptrón Multicapa Entrada-Salida No-Lineal para la variable de entrada Dólar. Fuente:

“Elaboración propia”.

62

En inglés Nonlinear Input-Output (NIO).

133

2. Variables de entrada: Dólar y Fecha de Reserva.


Demanda Real


39 41,30

50 42,55

49 43,32

43 39,42

1 31,72

14 53,15

5 37,05

40 41,13

57 52,69

95 51,85

Tabla 21: Red de Perceptrón Multicapa Entrada-Salida No-Lineal para la variable de entrada Dólar y Fecha de Reserva. Fuente: “Elaboración propia”.

3. Variables de entradas: Dólar y Número de Pasajeros.


Demanda Real


39 40,48

50 48,17

49 45,77

43 26,17

1 0,78

14 13,42

5 4,68

40 38,08

57 63,94

95 93,99

Tabla 22: Red de Perceptrón Multicapa Entrada-Salida No-Lineal para la variable de entrada Dólar y Número de Pasajeros. Fuente: “Elaboración propia”.

134

4. Variables de entrada: Dólar, Número de Pasajeros y Fecha de Reserva.


Demanda Real


39 42,69

50 49,80

49 46,46

43 26,50

1 1,01

14 14,52

5 4,52

40 40,22

57 62,85

95 102,11

Tabla 23: Red de Perceptrón Multicapa Entrada-Salida No-Lineal para la variable de entrada Dólar, Fecha de Reserva y Número de Pasajeros. Fuente: “Elaboración propia”.

5. Variable de entrada: Fecha de Reserva.


Demanda real


39 31,03

50 25,21

49 24,85

43 21,58

1 25,03

14 29,02

5 30,04

40 39,85

57 73,97

95 75,05

Tabla 24: Red de Perceptrón Multicapa Entrada-Salida No-Lineal para la variable de entrada Fecha de Reservas. Fuente: “Elaboración propia”.

135

6. Variable de entrada: Número de Pasajeros.


Demanda real


39 45,29

50 53,32

49 49,72

43 28,85

1 0,93

14 14,63

5 5,35

40 44,29

57 69,54

95 97,73

Tabla 25: Red de Perceptrón Multicapa Entrada-Salida No-Lineal para la variable de entrada Número de Pasajeros. Fuente: “Elaboración propia”.

7. Variables de entrada: Número de Pasajeros y Fecha de Reserva.


Demanda real


39 41,53

50 49,85

49 46,20

43 25,42

1 0,90

14 11,82

5 4,98

40 41,35

57 62,32

95 92,66

Tabla 26: Red de Perceptrón Multicapa Entrada-Salida No-Lineal para la variable de entrada Número de Pasajeros y Fecha de Reservas. Fuente: “Elaboración propia”.

136



3.6.6 Red Crece Cuando se Requiere

Para la realización de esta red, al igual que con la anterior, se dividido en dos grupos

las variables. El primer grupo es la variable de entrada, la cual está conformada por:

Fechas de Reserva, Número de pasajeros y Dólar Observado. Y el segundo grupo la

variable objetivo, la cual esta conformado únicamente por la variable Cantidad de

Reservas.

A diferencia con el Perceptrón Multicapa, la red Crece Cuando se Requiere sólo se le

configuró cuatro distintos conjuntos de variables de entrada, para la resolución del

problema. La variable objetivo, en cambio fue utilizada en otra parte de la

conformación de la red, como será explicado más adelante.

Otra diferencia y que le es propia a esta red, es que con cada resolución del

problema la red da distintas configuraciones en su arquitectura, lo que hace que cada

una de las configuraciones de variables que se muestran como resultado de distintas

cantidades de neuronas en la red.

Por último cabe decir que para la salida de esta red se utilizo un Perceptrón

Muticapa, esto porque la red Crece Cuando se Requiere solo brinda como salida

categorías, que se forman de los distintos patrones encontrados por la red, y por

ende, para sacar un valor especifico de estas categoría se le añadió a la red el

perceptrón multicapa. El cual fue hecho con dos de los tres tipos de problemas

explicado antes, los cuales fueron Entrada-Salida No-Lineal y Auto-Regresivo No-

Lineal con entrada externa. Es en esta parte de la red que la variable objetivo es

utilizada para la validación y obtención del resultado deseado.

A continuación se mostraran los resultados obtenidos por la red.

137

A. Crece Cuando se Requiere y Perceptrón Multicapa con Entrada-Salida No-

Lineal.

1. Variables de entrada: Fecha de Reserva, Dólar y Número de Pasajeros.

A continuación se presentaran las primeras 10 demandas pronosticadas por la

red (Tabla N°27).

Demanda Real


39 40,89

50 49,00

49 46,25

43 26,82

1 0,85

14 13,37

5 4,92

40 41,10

57 63,76

95 94,65

Tabla 27: Red Crece Cuando Se Requiere y Perceptrón Multicapa con Entrada-Salida No-lineal para las variables de entrada: Fecha de Reserva, Dólar y Número de Pasajeros. Fuente: “Elaboración propia”.

2. Variables de Entrada: Fecha de Reserva y Dólar.

A continuación se mostraran los primeros 10 datos de entrada pronosticados

(Tabla N°28).

138

Demanda Real


39 51,26

50 50,86

49 50,67

43 50,67

1 29,60

14 50,67

5 26,02

40 50,88

57 43,61

95 53,12

Tabla 28: Red Crece Cuando Se Requiere y Perceptrón Multicapa con Entrada-Salida No-lineal para las variables de entrada: Fecha de Reserva y Dólar. Fuente: “Elaboración propia”.

3. Variables de Entrada: Dólar y Número de Pasajeros.


(Tabla N°29).

Demanda Real


39 41,85

50 49,42

49 46,48

43 30,24

1 0,67

14 13,38

5 4,54

40 41,63

57 64,42

95 92,10

Tabla 29: Red Crece Cuando Se Requiere y Perceptrón Multicapa con Entrada-Salida No-lineal para las variables de entrada: Dólar y Número de Pasajeros. Fuente: “Elaboración propia”.

139

4. Variables de Entrada: Fecha de Reserva y Número de pasajeros.


(Tabla N°30).

Demanda Real


39 42,32

50 48,15

49 45,26

43 27,57

1 0,73

14 14,29

5 6,12

40 39,89

57 62,02

95 92,23

Tabla 30: Red Crece Cuando Se Requiere y Perceptrón Multicapa con Entrada-Salida No-lineal para las variables de entrada: Fecha de Reserva y Número de Pasajeros. Fuente: “Elaboración propia”.

En el Anexo 16: GWR Final, se pueden observar los resultados completos de esta

configuración.

B. Crece Cuando se Requiere y Perceptrón Multicapa con Auto-Regresivo No-

Lineal con entrada externa.

1. Variables de Entrada: Fecha de reserva, Dólar y Número de Pasajeros.


(Tabla N°31).

140

Demanda Real


53 47,03

49 51,69

43 52,45

1 58,07

2 1,36

5 19,43

43 39,07

81 47,51

95 61,43

170 30,30

Tabla 31: Red Crece Cuando Se Requiere y Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para las variables de entrada: Fecha de Reserva, Dólar y Número de Pasajeros. Fuente:




(Tabla N°32).

Demanda Real


53 40,27

49 43,14

43 43,65

1 46,27

2 3,89

5 32,69

43 23,54

81 50,44

95 42,86

170 47,72

Tabla 32: Red Crece Cuando Se Requiere y Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para las variables de entrada: Dólar y Número de Pasajeros. Fuente: “Elaboración

propia”.

141



(Tabla N°33).

Demanda Real


53 75,64

49 66,84

43 49,86

1 73,39

2 4,40

5 17,24

43 25,76

81 82,32

95 80,08

170 36,33

Tabla 33: Red Crece Cuando Se Requiere y Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para las variables de entrada: Fecha de Reserva y Dólar. Fuente: “Elaboración propia”.

4. Variables de Entrada: Fecha de Reserva y Número de Pasajeros.


(Tabla N°34).

Demanda Real


53 49,90

49 55,18

43 58,36

1 95,05

2 1,30

5 16,55

43 3,24

81 59,29

95 62,87

170 29,86

Tabla 34: Red Crece Cuando Se Requiere y Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para las variables de entrada: Fecha de Reserva y Número de Pasajeros. Fuente:


142

En el Anexo 16: GWR Final, se pueden observar los resultados completos de esta

configuración.

3.6.7 Mapas Auto-Organizados

Al igual que con las dos redes anteriores, las variables están divididas de la misma

forma y en los dos mismos grupos antes mencionados. También cabe destacar que

se realizo la misma cantidad de conjuntos de variables que se desarrollo en la red

Crece Cuando se Requiere, que era de cuatro combinaciones de variables.

Finalmente, decir que la red para su salida también utilizo un Perceptrón Muticapa,

ya que al igual que Crece Cuando se Requiere realizan categorías de los patrones

encontrados por los datos de entrada. Esta, al igual que en el caso anterior, utilizó los

tipos de problemas Entrada-Salida No-Lineal y Auto-Regresivo No-Lineal con entrada

externa.

A continuación se mostraran los resultados obtenidos por la red.

A. Mapa Auto-Organizado y Perceptrón Multicapa con Entrada-Salida No-

Lineal.

1. Variables de Entrada: Fecha de Reserva, Dólar y Número de Pasajeros.


(Tabla N°35).

143

Demanda Real


39 39,16

50 46,80

49 43,54

43 26,33

1 0,78

14 13,99

5 4,90

40 41,32

57 61,65

95 94,74

Tabla 35: Mapa Auto-Organizado y Perceptrón Multicapa con Entrada-Salida No-Lineal para las variables de entrada: Fecha de Reserva, Dólar y Número de Pasajeros. Fuente: “Elaboración propia”.



(Tabla N°36).

Demanda

Real

Demanda

Pronosticada

39 51,20

50 46,36

49 42,45

43 30,39

1 5,68

14 36,97

5 35,65

40 51,58

57 57,66

95 55,63

Tabla 36: Mapa Auto-Organizado y Perceptrón Multicapa con Entrada-Salida No-Lineal para las variables de entrada: Fecha de Reserva y Dólar. Fuente: “Elaboración propia”.



(Tabla N°37).

144

Demanda Real


39 41,27

50 50,53

49 46,89

43 25,49

1 0,98

14 14,20

5 4,97

40 40,01

57 62,53

95 94,90

Tabla 37: Mapa Auto-Organizado y Perceptrón Multicapa con Entrada-Salida No-Lineal para las variables de entrada: Dólar y Número de Pasajeros. Fuente: “Elaboración propia”.

4. Variables de Entrada: Fecha de Reserva y Número de pasajeros.


(Tabla N°38).

Demanda Real


39 40,31

50 48,88

49 44,98

43 27,62

1 0,80

14 12,67

5 4,66

40 40,27

57 61,14

95 94,56

Tabla 38: Mapa Auto-Organizado y Perceptrón Multicapa con Entrada-Salida No-Lineal para las variables de entrada: Fecha de Reserva y Número de Pasajeros. Fuente: “Elaboración propia”.

En el Anexo 17: SOM Final, se pueden observar los resultados completos de esta

configuración.

145

B. Mapa Auto-Organizado y Perceptrón Multicapa con Auto-Regresivo No-

Lineal con entrada externa.

1. Variables de Entrada: Fecha de reserva, Dólar y Número de Pasajeros.


(Tabla N°39)

Demanda Real


53 41,19

49 41,55

43 42,34

1 48,36

2 1,93

5 15,03

43 9,51

81 46,06

95 50,20

170 29,98

Tabla 39: Mapa Auto-Organizado y Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para las variables de entrada: Fecha de Reserva, Dólar y Número de Pasajeros. Fuente:




(Tabla N°40).

146


Dólar, Pax

53 42,54

49 51,70

43 50,80

1 54,06

2 2,69

5 60,72

43 38,61

81 44,69

95 47,27

170 43,07

Tabla 40: Mapa Auto-Organizado y Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para las variables de entrada: Dólar y Número de Pasajeros. Fuente: “Elaboración propia”.



(Tabla N°41).

Demanda Real


53 43,77

49 42,00

43 41,91

1 41,80

2 1,63

5 57,22

43 41,87

81 41,80

95 41,94

170 41,61

Tabla 41: Mapa Auto-Organizado y Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para las variables de entrada: Fecha de Reserva y Dólar. Fuente: “Elaboración propia”.

147

4. Variables de Entrada: Fecha de Reserva y Número de Pasajeros.


(Tabla N°42).

Demanda Real


53 57,45

49 50,87

43 54,52

1 60,30

2 1,25

5 20,47

43 6,95

81 54,48

95 43,92

170 22,50

Tabla 42: Mapa Auto-Organizado y Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para las variables de entrada: Fecha de Reserva y Número de Pasajeros. Fuente: “Elaboración

propia”.

En el Anexo 17: SOM Final, se pueden observar los resultados completos de esta

configuración.

3.7 ANÁLISIS DE RESULTADOS

Dado que las técnicas tradicionales se basan en la medición del error para realizar la

selección del mejor método de pronóstico, se realizará un análisis de similares

características para comparar los resultados de los metodos tradicionales con los

resultados obtenidos del modelo de red neuronal propuesto.

Los resultados de estos análisis se presentarán en una serie de tablas y gráficos en

los que se presentan los mejores resultados del conjunto de datos para cada

arquitectura de red utilizada.

El procedimiento para el cálculo del error es el siguiente:

148

1. Se restó la demanda proyectada con la real.

(69)

2. El error fue llevado a valor absoluto, .

3. Se sumó todos los errores arrojado por el modelo.

(70)

4. Se promedió el Error Total con la cantidad de entradas.

(71)

Donde x es el número total de pronósticos realizados en el método escogido.

5. Se sumó todas las demandas reales.

(72)

6. Se promedió la Demanda Total con la cantidad de entradas.

(73)

7. Se sacó el porcentaje de error de la proyección con respecto al promedio de la

demanda real.

(74)

3.7.1 Porcentaje de Errores de los Métodos Tradicionales

A continuación se presentan todos los errores de las técnicas habituales, donde la

Tabla N°43 que se exhibirá contendrá a las primeras 5 entradas, las últimas 5

entradas, el promedio del error y el porcentaje de error de cada método. En el Anexo

149

14: Métodos Tradicionales, se encuentran todos los errores arrojados por estas

técnicas.

Cantidad de reservas

Errores Absolutos

Promedio Móvil

Promedio Móvil

Ponderado

Suavizamiento Exponencial

Regresión Lineal

9 1,91

13 4,00 4,19

26 16,60 4,16

21 5,00 0,70 9,94 2,05

34 14,00 14,10 21,95 2,86

38 11,00 10,00 23,75 5,14

28 3,00 5,40 11,38 15,14

35 1,67 7,80 17,24 14,41

158 3,67 17,70 41,39 14,41

33 124,33 108,60 87,75 1,58

46 69,33 8,70 65,97 1,61

195 116,00 156,20 89,62 1,32

159 67,67 13,30 44,66 14,72

Promedio 76,90 49,01 43,06 40,59 7,66

Porcentaje de Error

63,74% 55,99% 52,78% 9,97%

Tabla 43: Porcentaje de error de las proyecciones con Métodos Tradicionales. Fuente: “Elaboración propia”.

Para analizar de mejor forma los resultados de la Tabla N°43, se usarán como

apoyos los gráficos de la Figura N°32 a la Figura N°35.

150

Figura 32: Gráficos de contraste la demanda real con la demanda proyectada por Promedio Móvil. Fuente: “Elaboración propia”.

Como se advierte en la Tabla N° 43 el porcentaje de error del método Promedio

Móvil es muy alto (de un 63,74%), esto debido a que esta técnica, como se menciona

anteriormente, es un promedio de los períodos anteriores, que en este caso son de

tres períodos para proyectar el cuarto, lo cual produce que se acoten los valores que

se puedan proyectar y, por ende, lo hace ser poco sensible e incapaz de proyectar

valores muy altos. Como se puede apreciar en la Figura N° 32 queda demostrado

que en los períodos donde hubo gran demanda, la técnica pronosticó valores muy

bajos, y que en los períodos donde la demanda no fue tan alta el método predijo con

una mayor exactitud.

Al igual que con el anterior método, el Promedio Móvil Ponderado produce un alto

porcentaje de error de 55,99% (ver Tabla N°43), este valor mejora con respecto al

método anterior, debido a que esta técnica le da ponderaciones a los períodos

anteriores, o sea, jerarquiza la importancia de ellos en la proyección, lo que hace que

tenga un porcentaje de error menor que el primero. Se puede apreciar en la Figura

N° 33 que los valores proyectados por esta técnicas siguen un patrón muy parecido

al real, con una diferencia entre ellas baja con respecto a la técnica antes aplicada, lo

que finalmente hace que se produzca una mejoría en lo pronosticado.

´

151

Figura 33: Gráficos de contraste la demanda real con la demanda proyectada por Promedio Móvil

Ponderado. Fuente: “Elaboración propia”.

Figura 34: Gráficos de contraste la demanda real con la demanda proyectada por Suavizamiento Exponencial. Fuente: “Elaboración propia”.

Esta técnica, como queda demostrado en la Tabla N° 43, tiene un alto porcentaje de

error (52,78%), lo cual hace que tenga poca exactitud al igual que las otras técnicas

antes señaladas; esto último también se debe a que ocupa muy pocos valores de

entrada, lo que produce que no sea capaz de predecir valores que sean muy altos o

bajos. Con respecto a lo que proyecta, se observa en la Figura N°34 que esta técnica

´

152

no se logra a justar a los patrones que sigue la demanda real, siendo en este caso la

que más falla por cada día proyectado.

Figura 35: Gráficos de contraste la demanda real con la demanda proyectada por Regresión Lineal. Fuente: “Elaboración propia”.

Finalmente se deja a la Regresión Lineal, ya que esta muestra tanto en el porcentaje

de error como en los días proyectados los mejores resultados entre los métodos

tradicionales. Primero, como se puede apreciar en la Tabla N° 43, el porcentaje de

error fue de 9,97%, un valor muy bajo comparado con las demás técnicas. Esto se

debe a que esta técnica, a diferencia de las demás, ocupa todas las entradas

disponibles, lo cual hace que pueda pronosticar valores que salen de lo normal

(atípicos). Esto se aprecia en la Figura N° 35, donde la demanda real casi no se ve

debido a la demanda proyectada, lo que demuestra su mayor precisión.

153

3.7.2 Porcentaje de Error de las Redes Seleccionadas

En las siguientes tablas se exponen los errores de las distintas redes seleccionadas, con sus diferentes variantes. Para

ello se muestran las primeras 5 entradas y últimas 5 entradas. Al igual que en el caso anterior se muestran también los

promedio de error y los porcentajes de error de cada una de las redes. En el Anexo 15: Perceptrón Final, Anexo 16: GWR

Final, Anexo 17: SOM Final, Anexo 18: Iteraciones y Anexo 19: Análisis de la primera muestra de redes se encuentran

todos los errores arrojados por estas herramientas.

I. Perceptrón Multicapa con Entrada-Salida No-Lineal.

Dda. Real Error Absoluto

Dólar Número

Pasajeros Fecha

(Dólar, Fecha)

(Fecha, N. Pasajeros)

(Dólar, N. Pasajeros)

(Dólar, N. Pasajeros, Fecha)

39 15,01 6,29 7,97 2,3 2,53 1,48 3,69

50 4,1 3,32 24,79 7,45 0,15 1,83 0,2

49 5,01 0,72 24,15 5,68 2,8 3,23 2,54

43 11,01 14,15 21,42 3,58 17,58 16,83 16,5

1 10,33 0,07 24,03 30,72 0,1 0,22 0,01

131 22,24 5,74 38,71 9,18 11,17 2,11 10,71

98 13,51 12,23 4,96 32,17 7,66 6,71 8,36

92 19,52 14,01 1,54 40,8 10,86 9,03 9,21

192 100,51 15,5 96,07 74,8 14,74 11,88 12,48

73 46,62 0,93 23,31 36,08 1,13 1,85 2,3

Promedio 67,4 26,2 5,24 31,59 22,11 4,99 4,99 5,05

Porcentaje de error 38,87% 7,77% 46,87% 32,80% 7,40% 7,40% 7,49% Tabla 44: Porcentaje de error de las proyecciones con Perceptrón Multicapa con entrada-salida no-lineal. Fuente: “Elaboración propia”.

154

A continuación se analiza el mejor caso de esta configuración de red, los demás

casos estarán en el Anexo 19.

Como se ve en Gráfico N°36, la curva de la demanda proyectada, junto a la curva de

demanda real son casi la misma y esto se ve reflejado en el porcentaje de error

calculado que fue de 7,40% (Tabla N°44), que es el mejor resultado obtenido en esta

configuración de la red. Esto se ve explicado por la presencia de la variable de

entrada Número de Pasajeros, (que ya ha sido explicado antes), y por la ayuda de la

variable Fecha de Reserva, que permite obtener un 0,37% menos de lo que se

proyecto con la variable Número de Pasajeros.

Figura 36: Gráfico Demanda Real V/S Perceptrón Multicapa con Entrada-Salida no-lineal, con variables de entrada Número de Pasajeros y Fecha de Reservas. Fuente: “Elaboración propia”.

La participación de las variables no lineales, junto a la variable lineal, permite mejorar

la precisión de la red, lo cual queda demostrado en este caso y en dos más. Cabe

mencionar que para obtener este resultado se hicieron 2311 iteraciones,

obteniéndose así los siguientes resultados en la Tabla N°45:

2311 Iteraciones

Coeficiente de Correlación

Porcentaje de Error

Promedio 0,99 0,08

Mínimo 0,97 0,07

Máximo 0,99 0,13

Tabla 45: Porcentaje de Error y Coeficiente de Correlación para Perceptrón Multicapa con Entrada-Salida No-Lineal para las variables: Número de Pasajeros y Fecha de Reserva. Fuente: “Elaboración propia”.

155

II. Perceptrón Multicapa con Auto-Regresivo No-Lineal

Error Absoluto

Dda. real Cantidad de Reservas

53 11,05

49 2,1

43 3,77

1 44,55

2 0,24

232 179,35

20 5,76

80 33,81

126 9,84

155 38,41

Promedio 73,35 33,59

Porcentaje de error 45,80%

Tabla 46: Porcentaje de error de las proyecciones con Perceptrón Multicapa con Auto-Regresivo No-Lineal. Fuente: “Elaboración propia”.

Con el fin de realizar un mejor análisis de los resultados de la Tabla N°46, se usará

como apoyo el gráfico de la Figura N°37.

Figura 37: Gráfico Demanda Real V/S Perceptrón Multicapa con Auto-Regresivo No-Lineal. Fuente: “Elaboración propia”.

156

A diferencia del caso anterior del Perceptrón Multicapa, acá se utiliza únicamente la

variable objetivo Cantidad de Reservas para hacer la proyección, como se indica en

el punto anterior de resultados. Como se aprecia en el Gráfico N°37 la curva de

proyección trata de asemejarse a la curva de la demanda real, pero esta no logra

tener la capacidad ni la suficiente sensibilidad para poder proyectar valores que se

escapen de su lógica, como son los valores muy altos. Esto provoca que genere un

porcentaje de error del 45,80% (Tabla N°46). Viendo los casos parecidos a este en

los métodos tradicionales que ocupan la misma variable Cantidad de Reservas para

proyectar, se ve que se mejora con creces los resultados obtenidos por ellos con una

diferencia a favor de un 6,98% menos de error frente a la mejor pronosticada, que

fue Suavizamiento Exponencial, con un 52,78% de error. De todas maneras, los

resultados obtenidos por ambos métodos son malos y poco recomendables para su

uso. Por último mencionar que para obtener este resultado se hicieron 2633

iteraciones, obteniéndose así los siguientes resultados que se presentan en la Tabla

N°47.

157

2633 Iteraciones


Porcentaje de Error

Promedio 0,50 0,50

Mínimo 0,16 0,45

Máximo 0,60 0,63

Tabla 47: Porcentaje de Error y Coeficiente de Correlación para Perceptrón Multicapa con Auto-Regresivo No-Lineal para la variable Objetivo Cantidad de Reservas. Fuente: “Elaboración propia”.

III. Perceptrón Multicapa Auto-Regresivo No-Lineal con Entrada Externa.


Dólar Número

Pasajeros Fecha

(Dólar, Fecha)




53 8,86 19,53 2,35 1,83 11,57 17,85 5,31

49 3,99 9,59 9,02 1,94 18,05 4,27 0,74

43 0,61 0,88 15,58 6,87 24,58 9,31 7,46

1 40,15 69,11 51,76 71,37 65,45 76,54 54,66

2 1,85 0,93 0,9 0,89 0,38 0,56 0,47

101 21,72 24,64 7,7 2,81 9,1 8,2 7,53

102 0,89 1,03 40,05 0,04 3,58 1,18 4,53

20 50,89 56,67 50,57 47,72 58,8 68,75 59,82

149 13,15 14,47 13,42 5,25 20,22 5,4 19,04

63 4,78 9,78 9,49 0,41 3,94 4,94 14,4

Promedio 73,35 34,18 32,48 32,08 32,48 29,82 29,93 32,76

Porcentaje de error

46,59% 44,28% 43,74% 44,28% 40,66% 40,81% 44,67%

Tabla 48: Porcentaje de error de las proyecciones con Perceptrón Multicapa con Auto-Regresivo No-Lineal con entrada externa. Fuente: “Elaboración propia”.

158

Al igual que en el caso anterior, se analiza el mejor resultado de esta configuración, y

los demás análisis se encuentran en anexo correspondiente a la misma.

Al ver la Figura N° 38, se puede apreciar que los valores proyectados no coinciden

con los valores reales, este error puede ser provocado por el uso adicional de la

variable objetivo para el pronóstico de la demanda. Esto debido, como se vio antes, a

que el uso de las tres variables entrada producía un muy bajo porcentaje de error,

pero que al combinarla con la variable objetivo Cantidad de Reserva, en vez de

mejorar sus resultados los empeora, obteniéndose un 40,66% (Tabla N°48) en el

porcentaje de error. Este hecho se va a apreciar en los restantes casos para este tipo

de problema de Perceptrón Multicapa. Para concluir de forma definitiva se espera a

ver los resultados de los demás casos y de las demás muestras, que se verán al

finalizar este capitulo. Para terminar con este caso, cabe mencionar que para obtener

este resultado se hicieron 1384 iteraciones, obteniéndose así los siguientes

resultados que se exponen en la Tabla N°49:

1384 Iteraciones


Porcentaje de Error

Promedio 0,52 0,49

Mínimo 0,30 0,40

Máximo 0,63 0,63

Tabla 49: Porcentaje de Error y Coeficiente de Correlación para Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para las variables: Dólar, Número de Pasajeros y Fecha de Reserva.

Fuente: “Elaboración propia”.

159

Figura 38: Gráfico Demanda Real V/S Perceptrón Multicapa con Auto-Regresivo No-Lineal con entrada externa, con variables de entrada Dólar, Fecha de Reservas y Número de Pasajeros. Fuente: “Elaboración

propia”.

IV. Red Crece Cuando se Requiere y Perceptrón Multicapa con Entrada-Salida

No-Lineal


(Dólar, Fecha)




39 12,26 3,32 2,85 1,89

50 0,86 1,85 0,58 1

49 1,67 3,74 2,52 2,75

43 7,67 15,43 12,76 16,18

1 28,6 0,27 0,33 0,15

131 37,09 7,12 1,51 7,96

98 12,03 5,23 3,77 6,91

92 27,92 12,89 13,81 10,49

192 105,58 22,86 20,79 23,12

73 36,99 0,57 1,19 0,89

Promedio 67,4 23,83 4,98 4,79 4,95

Porcentaje de error

35,36% 7,40% 7,11% 7,35%

Tabla 50: Porcentaje de error de las proyecciones con Crece Cuando se Requiere y Perceptrón Multicapa con Entrada-Salida No-Lineal. Fuente: “Elaboración propia”.

160

A continuación se revisa el mejor resultado obtenido por esta red, los demás

resultados son vistos en el Anexo 19.

Figura 39: Gráfico Demanda Real V/S Crece Cuando se Requiere y Perceptrón Multicapa con Entrada-Salida No-Lineal, con variables de entrada Dólar Observado y Número de Pasajeros. Fuente: “Elaboración

propia”.

En la Tabla N°50 se aprecia que el valor del porcentaje de error es de 7,11%, lo que

queda reflejado en la Figura N°39, donde se aprecia como la red tiene la habilidad de

proyectar los valores deseados con muy poco error con respecto a los valores dados

por la demanda real, generando así una curva de proyección similar (casi igual) a la

curva de demanda real. Con respecto a los métodos tradicionales, este caso supera

sin problemas al mejor resultado dado por alguno de ellos, teniendo una diferencia

de un 2,86% menos que la técnica tradicional. Por último, cabe destacar que para

obtener este resultado se hicieron 1219 iteraciones, obteniéndose así los siguientes

resultados que se presentan en la Tabla N°51:

1219 Iteraciones


Porcentaje de Error

Promedio 0,99 0,16

Mínimo 0,45 0,07

Máximo 0,99 100,38

Tabla 51: Porcentaje de Error y Coeficiente de Correlación para Crece Cuando se Requiere con Perceptrón Multicapa con Entrada-Salida No-Lineal para la variable: Número de Pasajeros y Dólar. Fuente:


161

V. Red Crece Cuando se Requiere y Perceptrón Multicapa con Auto-Regresivo

No-Lineal con Entrada Externa.


(Dólar, Fecha)




53 22,64 3,1 12,73 5,97

49 17,84 6,18 5,86 2,69

43 6,86 15,36 0,65 9,45

1 72,39 94,05 45,27 57,07

2 2,4 0,7 1,89 0,64

101 5,05 2,39 20,03 4,93

102 93,71 7,46 6,15 8,33

20 56,24 64,32 65,47 70,35

149 22,3 6,49 25,57 13,37

63 9,13 9,36 6,38 1,25

Promedio 73,35 32,1 30,32 31,75 29,92

Porcentaje de error

43,76% 41,34% 43,28% 40,79%

Tabla 52: Porcentaje de error de las proyecciones con Crece Cuando se Requiere y Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa. Fuente: “Elaboración propia”.

Como en los demás casos se analizan la configuración que obtuvo los mejores

resultados, las restantes configuraciones se ven en el Anexo 19.

162

Figura 40: Gráfico Demanda Real V/S Crece Cuando se Requiere y Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa, con variables de entrada Dólar Observado, Número de

Pasajeros y Fecha de Reservas. Fuente: “Elaboración propia”.

En la Tabla N°52 se aprecia que el porcentaje de error arrojado por la red es de

40,79%, este valor demuestra la baja capacidad que tiene la red para predecir el

comportamiento que tendrá la demanda real, produciendo por ende, valores de

errores altos, esta poca asertividad de la red es percibida en la Figura N°40, donde

se observa como la red no es capaz de proyectar correctamente la demanda, con lo

cual se obtiene una curva de proyección muy distinta y nada sincronizada con la de

demanda real. Este mal resultado es provocado por la participación de la variable

objetivo, ya que como se ha visto y dicho antes, la participación de esta variable ha

provocado que la proyección por parte de la red sea bastante mala. Finalmente, cabe

destacar que para obtener este resultado se hicieron 2349 iteraciones, obteniéndose

así los siguientes resultados se muestran en la Tabla N°53:

163

2349 Iteraciones


Porcentaje de Error

Promedio 0,52 0,50

Mínimo 0,14 0,40

Máximo 0,63 29,68

Tabla 53: Porcentaje de Error y Coeficiente de Correlación para Crece Cuando se Requiere con Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para las variables: Número de

Pasajeros, Dólar y Fecha de Reserva. Fuente: “Elaboración propia”.

VI. Mapa Auto-Organizado y Perceptrón Multicapa con Entrada-Salida No-

Lineal


(Dólar, Fecha)




53 12,2 1,31 2,27 0,16

49 3,64 1,12 0,53 3,2

43 6,55 4,02 2,11 5,46

1 12,61 15,38 17,51 16,67

2 4,68 0,2 0,02 0,22

101 16,46 3,24 0,42 2,21

102 21,56 4,08 10,21 1,2

20 27,58 9,35 10,17 7,69

149 61,33 23,71 22,04 12

63 39,28 7,86 1,28 4,54

Promedio 73,35 23,79 5,11 5,02 4,98

Porcentaje de error

35,30% 7,59% 7,44% 7,40%

Tabla 54: Porcentaje de error de las proyecciones con Mapa Auto-Organizado y Perceptrón Multicapa con Entrada-Salida No-Lineal. Fuente: “Elaboración propia”.

164

A continuación se analiza la configuración con el mejor resultado obtenido para esta

red, los demás casos se ven en el Anexo 19.

Figura 41: Gráfico Demanda Real V/S Mapa Auto-Organizado y Perceptrón Multicapa con Entrada-Salida No-Lineal, con variables de entrada Dólar Observado, Número de Pasajeros y Fecha de Reservas. Fuente:


Como se aprecia en la Figura N°41, los valores proyectados por la red se asemejan

mucho a los valores de la demanda real, obteniéndose así un porcentaje de error del

7,40% (Tabla N°54) , esto demuestra que la red tiene una buena precisión a la hora

de proyectar. Al igual que las demás redes, esta supera con crece a los métodos

tradicionales, consiguiendo un porcentaje de error menor al de ellos, por ejemplo con

respecto a la regresion lineal esta es menor en un 2,57%. Finalmente, cabe


obteniéndose así los siguientes resultados se presentan en la Tabla N°55:

1487 Iteraciones


Porcentaje de Error

Promedio 0,99 0,08

Mínimo 0,94 0,07

Máximo 0,99 0,12

Tabla 55: Porcentaje de Error y Coeficiente de Correlación para Mapa Auto-Organizados con Perceptrón Multicapa con Entrada-Salida No-Lineal para las variables: Número de Pasajeros, Dólar y Fecha de

Reserva. Fuente: “Elaboración propia”.

165

VII. Mapa Auto-Organizado y Perceptrón Multicapa con Auto-Regresivo No-

Lineal con Entrada Externa.


(Dólar, Fecha)




53 9,23 4,45 12,73 10,46

49 7 1,87 5,86 2,7

43 1,09 11,52 0,65 7,8

1 40,8 59,3 45,27 53,06

2 0,37 0,75 1,89 0,69

101 13,42 31,81 20,03 9,49

102 35,5 39,79 6,15 3,34

20 50,53 60,57 65,47 63,08

149 19,9 14,95 25,57 22,1

63 3,17 11,78 6,38 2,08

Promedio 73,35 32,46 30,54 31,75 32,31

Porcentaje de error

44,25% 41,64% 43,28% 44,05%

Tabla 56: Porcentaje de error de las proyecciones con Mapa Auto-Organizado y Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa. Fuente: “Elaboración propia”.

A continuación se analiza el caso que obtuvo los mejores resultados dentro de este

tipo de red, los demás casos se analizan en el Anexo 19.

166

Figura 42: Gráfico Demanda Real V/S Mapa Auto-Organizado y Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa, con variables de entrada Número de Pasajeros y Fecha de Reservas.


En este último caso de Mapas Auto-Organizados, se observa en la Figura N°42 la

poca capacidad que tiene la red para pronosticar los valores deseados, ya que no es

capaz de producir los mismos valores o semejantes que los observados de la

demanda real, produciendo así que la curva proyectada no vaya a la par con la curva

de demanda real, y además al observar el Gráfico se nota la nula capacidad de la red

de pronosticar los valores atipicos (excepto en un caso). Todo esto traer consigo que

la red produzca errores elevados, y que por lo tanto, se genere un porcentaje de

error de la red de un 41,64% (Tabla N°56). Este problema de mala proyección, como

se dijo en todo este segmento, es debido a la participación de la variable objetivo

para la obtención de los resultados, donde en ningún caso en el cual participó arrojó

valores que fueran los deseados. Finalmente, cabe mencionar que para obtener este

resultado se hicieron 1324 iteraciones, obteniéndose así los siguientes resultados se

muestran en la Tabla N°57:

167

1324 Iteraciones


Porcentaje de Error

Promedio 0,52 0,58

Mínimo -0,07 0,41

Máximo 0,66 188,06

Tabla 57: Porcentaje de Error y Coeficiente de Correlación para Mapa Auto-Organizados con Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para las variables: Número de Pasajeros y

Fecha de Reserva. Fuente: “Elaboración propia”.

Después de haber visto y analizado cada una de las distintas configuraciones de

redes (las cuales usaron la misma muestra de datos), se verá cual fue la red que

obtuvo los mejores resultados. Para ello, se presentará la Tabla N°58 la cual tiene los

porcentajes de error obtenidos por las redes con una configuración de tipo de

problema Entrada-Salida No-Lineal (ESN) y la Tabla N°59 con los porcentajes de

error para el tipo de problema Auto-Regresivo No-Lineal con Entrada Externa (ANEE)

(Anexo 20: Comparación).

ESN63

Porcentaje de Error

Redes64

Fecha,

Dólar, N.

Pasajeros

Fecha,

Dólar

Dólar, N.

Pasajeros

Fecha, N.

Pasajeros

Fecha Número

Pasajeros

Dólar

Crece

Cuando se

Requiere

7,35% 35,36% 7,11% 7,40%

Mapa Auto-

Organizado

7,40% 35,30% 7,44% 7,59%

Perceptrón

Multicapa

7,49% 32,80% 7,40% 7,40% 46,87% 7,77% 38,87%

Mínimo 7,35% 32,80% 7,11% 7,40% 46,87% 7,77% 38,87%

Ganador CCR PM CCR CCR PM PM PM

Tabla 58: Resumen de los Porcentaje de Error de las Redes Neuronales con el tipo de problema Entrada-Salida No-Lineal (ESN) para la primera muestra utilizada. Fuente: “Elaboración propia”.

63

Tipos de Problemas: Entrada-Salida No-Lineal (ESN). 64

Crece Cuando se Requiere (CCR), Perceptrón Multicapa (PM), Mapa Auto-Organizado (MAO), Pasajeros (PAX).

168

ANEE65

Porcentaje de Error

Redes66

Fecha,

Dólar, N.

Pasajeros

Fecha,

Dólar

Dólar, N.

Pasajeros

Fecha, N.

Pasajeros

Fecha Número

Pasajeros

Dólar

Crece

Cuando se

Requiere

40,79% 43,76% 43,28% 41,34%

Mapa Auto-

Organizado

42,88% 44,25% 44,05% 41,64%

Perceptrón

Multicapa

40,66% 44,28% 44,67% 40,81% 43,74% 44,28% 46,59%

Mínimo 40,66% 43,76% 43,28% 40,81% 43,74% 44,28% 46,59%

Ganador PM CCR CCR PM PM PM PM

Tabla 59: Resumen de los Porcentaje de Error de las Redes Neuronales con el tipo de problema Auto-Regresivo No-Lineal con Entrada Externa (ANEE) para la primera muestra utilizada. Fuente: “Elaboración

propia”.

Como se puede apreciar en las tablas, la red Crece Cuando se Requiere obtuvo

cinco triunfos de las ocho categorías (las distintas configuraciones de variables de

entrada), donde competía junto al Mapa Auto-Organizado y Perceptrón Multicapa. Se

destaca en estos resultados el porcentaje de error de 7,11%, siendo el más bajo

encontrado en todas las configuraciones de redes, y el cual supera por un buen

margen al mejor resultado obtenido por un método tradicional. También al ver la

Tabla N°58 en la configuración Fecha de Reserva-Número de Pasajeros, se podría

pensar que la Crece Cuando se Requiere (CCR) y el Perceptrón Multicapa dan un

mismo porcentaje de error, pero esta realmente tiene una diferencia a favor a la CCR

de 0,00165% (el cual no se aprecia en la tabla por el número de decimales

mostrados). También se aprecia la gran diferencia de porcentajes de error descrita

con anterioridad en los caso a caso, producido por las redes configuradas con el

Perceptrón Multicapa con Entrada-Salida No-Lineal (ESN) y las redes configuradas

con el Perceptrón Multicapa Auto-Regresivo No-Lineal con Entrada Externa (ANEE).

65

Tipos de Problemas: Auto-Regresivo No-Lineal con Entrada 66

Crece Cuando se Requiere (CCR), Perceptrón Multicapa (PM), Mapa Auto-Organizado (MAO), Pasajeros (PAX).

169

Otro punto que se aprecia y que fue mencionado en algunos de los ejemplos que se

analizaron con anterioridad, es que la participación de la variable entrada linealmente

dependiente (Número de Pasajeros), junto con las variables de entrada linealmente

independientes (Dólar Observado y Fecha de Reserva), permite mejorar los

resultados que se obtuvieron cuando sólo participaba Número de Pasajeros como

variable de entrada, mostrando así que la libertad de esta herramienta en el uso de

variables, permite que el uso de las variables linealmente independiente sea

indispensable para la mejora y modelamiento de los problemas.

3.8 MÚLTIPLES MUESTRAS

Finalmente, para demostrar que lo expuesto con anterioridad no es sólo una

ocurrencia particular, se generarán muestras adicionales con las que se alimentarán

los modelos y configuraciones de redes neuronales.

Para determinar el número de muestras que se debe generar se utilizará la ecuación

del tamaño de una muestra normal:

(75)

donde es el total de población (que para este caso son ), es (cuando

la seguridad es de ), es la proporción esperada (que para este caso se utilizo

, o sea, ), es (que para este caso es ) y por último

que es la precisión (que para este caso se utilizo un ).

Con lo cual se consigue lo siguiente:

(76)

170

De la ecuación anterior se puede concluir que un tamaño de 163 muestras es

apropiado para satisfacer el nivel de confianza solicitado.

Se utiliza el software Matlab para conseguir de forma aleatoria las distintas

combinaciones de datos a utilizar para las instancias de entrenamiento, validación y

testeo de la red; en la cual, de la población total de datos (816 datos), el 70% de

ellos, o sea, 572 datos son utilizados para el entrenamiento de la red, el 15% (122

datos) son utilizados para la validación y el otro 15% es utilizado en el testeo de la

red.

A continuación, en las Tablas N°60, N°61, N°62 y N°63 se presenta el resumen final

de resultados para las 163 muestras mencionadas recientemente, en la cual se

aprecian los Porcentajes de Error Mínimos obtenidos por las redes en todas sus

muestras y el promedio del porcentaje de error obtenido al promediar todos los

mínimos conseguidos en las muestras; todo es para las distintas configuraciones de

tipo de error, o sea, para Entrada-Salida No-Lineal (ESN) y para Auto-Regresivo No-

Lineal con Entrada Externa (ANEE). Para ver los resultados completos de estas 163

muestras ver el Anexo 21: Resultados Finales 163 Muestras y Anexos 22:

Resultados Mínimos Desglosados 163 Muestras.

ESN67

Porcentaje de Error (Mínimos)

Mínimo en las redes

68

Fecha, Dólar, Pasajeros

Dólar, Pasajeros

Fecha, Pasajeros

Dólar, Fecha

Fecha Dólar Pasajeros

CCR 6,45% 6,36% 6,45% 32,98%

MAO 6,43% 6,18% 6,42% 36,76%

PM 6,52% 6,25% 6,45% 33,98% 45,73% 37,16% 6,60%

Mínimo 6,43% 6,18% 6,42% 32,98% 45,73% 37,16% 6,60%

Ganador MAO MAO MAO CCR PM PM PM

Tabla 60: Resumen de los resultados finales de Porcentaje de Error de las Redes Neuronales para las 163 muestras. Mejor Mínimo para tipo de problema Entrada-Salida No-Lineal (ESN). Fuente: “Elaboración

propia”.

67

Tipo de Problema: Entrada-Salida No-Lineal (ESN). 68

Crece Cuando se Requiere (CCR), Perceptrón Multicapa (PM), Mapa Auto-Organizado (MAO).

171

ESN68

Porcentaje de Error (Promedios)

Promedio en las

redes69


Dólar, Pasajeros

Fecha, Pasajeros

Dólar, Fecha


CCR 8,47% 8,62% 8,43% 46,32%

MAO 8,33% 8,56% 8,11% 47,57%

PM 8,34% 8,53% 8,23% 48,47% 52,79% 48,72% 8,77%

Mínimo 8,33% 8,53% 8,11% 46,32% 52,79% 48,72% 8,77%

Ganador MAO PM MAO CCR PM PM PM

Tabla 61: Resumen de los resultados finales de Porcentaje de Error de las Redes Neuronales para las 163 muestras. Mejor Promedio para tipo de problema Entrada-Salida No-Lineal (ESN). Fuente: “Elaboración

propia”.

ANEE69

Porcentaje de Error (Mínimos)

Mínimo en las

redes70


Dólar, Pasajeros

Fecha, Pasajeros

Dólar, Fecha


CCR 35,99% 37,53% 34,68% 33,17%

MAO 34,84% 36,96% 34,31% 37,49%

PM 35,27% 34,21% 31,93% 33,43% 35,22% 36,25% 35,02%

Mínimo 34,84% 34,21% 31,93% 33,17% 35,22% 36,25% 35,02%

Ganador MAO PM PM CCR PM PM PM

Tabla 62: Resumen de los resultados finales de Porcentaje de Error de las Redes Neuronales para las 163

muestras. Mejor Mínimo para tipo de problema Auto-Regresivo No-Lineal con Entrada Externa (ANEE). Fuente: “Elaboración propia”.

69

Tipo de Problema: Entrada-Salida No-Lineal (ESN), Auto-Regresivo No-Lineal con Entrada Externa (ANEE). 70


172

ANEE71

Porcentaje de Error

Promedio de las redes

72

Fecha, Dólar, Pasajero

Dólar, Pasajero

Fecha, Pasajero

Dólar, Fecha


CCR 45,63% 46,66% 45,08% 44,97%

MAO 45,10% 45,56% 43,97% 46,01%

PM 44,47% 44,91% 43,93% 45,06% 44,23% 45,48% 45,34%

Mínimo 44,47% 44,91% 43,93% 44,97% 44,23% 45,48% 45,34%

Ganador PM PM PM CCR PM PM PM

Tabla 63: Resumen de los resultados finales de Porcentaje de Error de las Redes Neuronales para las 163 muestras. Mejor promedio para tipo de problema Auto-Regresivo No-Lineal con Entrada Externa. Fuente:


Como se aprecia en las tablas, los resultados muestran la tendencia antes vista en la

primera muestra, donde las redes que están configuradas con el Perceptrón

Multicapa con Auto-Regresivo No-Lineal con Entrada Externa dan resultado de mala

calidad, lo que demuestra que no son capaces de seguir las variaciones de la

demanda real, de todas formas tanto los resultados obtenidos en los mínimos como

en los promedios son mejores que los encontrados por los métodos tradicionales

(con excepción de Regresión Lineal). Siguiendo con el mismo punto, pero con las

configuraciones de red que tienen al Perceptrón Multicapa con Entrada-Salida No-

Lineal, la tendencia a obtener resultados de alta calidad, y por ende, de alta

precisión, consiguiendose además valores mejores que los que se obtuvieron con la

primera muestra, donde, por ejemplo el mejor valor mínimo fue de 6,11%, o sea, un

3,86% menor que la Regresión Lineal. Esto demuestra las capacidades que tienen la

redes en aprender sobre el problema y poder, por ende, dar resultados más exactos

y parecidos a los que se desean.

Con respecto a que red fue mejor, después de ver los resultados de las 163

muestras, Crece Cuando se Requiere (CCR) ganó en total (Mínimo + promedio)

cuatro veces, Mapa Auto-Organizados ganó en total seis veces y Perceptrón

Multicapa gana seis veces también. Esto muestra una diferencia con respecto a la

71

Tipo de Problema: Auto-Regresivo No-Lineal con Entrada Externa (ANEE). 72


173

primera muestra donde ganó Crece Cuando se Requiere, de todas formas sea quien

gane entre estas redes las diferencias son mínimas de menos de 0,2% entre sus

mínimos, lo cual demuestra lo competitivo que están entre ellas y la muy buena

representación que ellas logran de su entorno superando por amplio margen a los

métodos tradicionales.

De todas formas aún cuando Crece Cuando se Requiere no haya ganado en la

segunda fase de la demostración de precisión de las redes, esta es una red que

permite tener mejores rendimientos en aspectos donde Perceptrón Multicapa y Mapa

Auto-Organizado (MAO) no son capaces de hacerlo, esto es que con respecto a la

primera, esta no es capaz de generar en su Arquitectutra categorías en base a los

parámetros dados que permitan obtener más información y una mejor interpretación

del comportamiento del medio ambiente (problema que se busca solucionar), y con

respecto a Mapa Auto-Organizado donde ambas son parecidas, ya que en esta

última su arquitectura, aún cuando es dinamica, no es capaz de crear o destruir

borde y neuronas, lo que hace que sea menos eficiente y que al ver la arquitectura

de la red se encuentren neuronas sin participación (sin categorías) y que puedan

producir error al ser interpretadas por el usuario. Es por esto que no solamente se

tomará el resultado arrojado por la red sino que también las caracteristicas propias

de ella para su eleccíon. Debido a esto que se elije Crece Cuando se Requiere

(CCR), aún cuando no haya ganado en la mayoria de los casos, donde la diferencia

con las demás redes, como ya se dijo, es de 0,2%.

Finalmente para este caso, las tres redes confirmaron de manera concluyente lo

expuesto al principio de este trabajo, existen herramientas superiores a los métodos

clásicos, con una asertividad mucho mayor a las antes expuestas, y por

consiguiente, un menor grado de error, que se puede traducir para una empresa por

ejemplo en una baja de sus costos.

174

CAPÍTULO IV

CONCLUSIONES

4.1 CONCLUSIONES

Al finalizar esta Tesis, se puede apreciar la existencia de distintos factores a tener en

consideración en la elección y elaboración de la red, observándose también mayor

precisión de este método con respecto a los métodos tradicionales, entre otras

cosas.

Uno de los primeros problemas en el trabajo con redes neuronales es la elección de

ésta, ya que existe una gran variedad, es por ello que al trabajar con este método se

hace importante conocer cada una de ellas, y saber así para donde va enfocada

cada red y que tipos de problemas resuelven; esto último, debido a que una mala

elección de red puede llevar a una mala resolución del problema. Por lo anterior, es

que se debe tener amplios conocimientos de redes neuronales, para lo cual es

necesario contar con una gran cantidad de información y estudios. Al respecto, y

dado que en Chile no existe una amplia gama de información, contenida en análisis,

investigaciones, articulos, libros, entre otras, es necesario obtener antecedentes de

fuentes extranjeras, a traves de medios digitales, o la adquisición de textos en el

extranjero o en tiendas especializadas.

Después de la elección de la red, el siguiente punto es el modelamiento de la misma,

para lo que se debe estar al tanto de cuáles son las variables que están afectando al

problema. Esto es similar a lo que se hace en regresión lineal (la elección de

variables), pero difiere en que las variables utilizables en la regresión lineal deben

tener relación lineal entre la variable dependiente e independiente, mientras que la

red no se acota a este hecho, lo que permite tener una mayor flexibilidad y

posibilidad de uso de variables. Esta libertad de uso de variables permite al usuario

de la red tener menos restricción, pero una mayor dificultad en encontrar la forma de

resolver el problema, ya que con una mayor cantidad de variables, es más difícil

175

resolver la red (que converja), lo que se traduce en una gran desventaja al

compararlo con los métodos tradicionales, que son más mecánicos en su

implementación. Esta dificultad, por lo tanto, hace que las personas inexpertas en

este tema vean a las redes neuronales con resquemor, lo que finalmente repercute

en el poco uso y conocimiento de ellas, como sucede en el caso de Chile, donde son

pocas las personas que las conocen y donde no se tiene tanta bibliografía como se

quisiera.

Otro problema relacionado con el modelamiento tiene que ver en como son

presentadas la variables en la red. En el caso de los métodos tradicionales, las

variables son introducidas en su forma original y, a lo más, se les cambia la unidad a

otra más apropiada, pero en el caso de las redes neuronales, como el caso de esta

Tesis, las variables deben ser normalizadas antes de introducirlas, dado que al tener

valores distintos, por ejemplo variables que están en los cientos y otras en los miles,

pueden provocar distorsión, ya que las últimas tendrían una mayor preeminencia que

las otras. Conocer lo anterior es de suma importancia, así como tener conocimiento

de cuales son los métodos de normalización y cómo realizarlos de forma correcta, ya

que, de no considerar esto, se puede llegar a pensar que las variables están mal o

que el programa no responde, entre otras y, por consiguiente, generar una pérdida

de tiempo en la resolución del problema o a dar con una mala solución.

En el caso de la red aplicada Crece Cuando se Requiere (CCR), su elección fue

hecha por su dinamismo, permitiendo agregar o quitar neuronas, dependiendo de si

éstas se requieren o no, con lo cual se logra que la red sea más eficiente, ya que por

ejemplo, al contar ellas con neuronas que no se están utilizando, la red se hace más

“pesada” y por ende más lenta en la realización de los cálculos. Lo anterior, deja de

manifiesto que la arquitectura de la red fue la más adecuada para el problema y

única para éste, lo que difiere de otras redes que no cambian su arquitectura y que

son estáticas en este sentido. Esto último tiene relación con la cantidad de neuronas,

ya que la forma de la grilla varía en todas las redes. Es esta particularidad de la red,

que contrastada a otras analizadas en este estudio, la hizo ser elegida por sobre las

demás. Es dable destacar que la Crece Cuando se Requiere (CCR), en comparación

176

con las demás redes, es relativamente nueva, lo que hace que se tenga poca

información de ella y por ende, es más difícil de trabajar, en comparación con el resto

de las redes que ya llevan más de 30 años. Esta desventaja (debilidad) es superada

por la particularidad de la misma, lo que le da una mayor ventaja por sobre las

demás.

Como se expresa al inicio, el objetivo de este estudio es demostrar que las redes

neuronales son más precisas que los métodos tradicionales, lo que queda expuesto

en los resultados del porcentaje de error analizados, que demuestran que dichos

métodos producen un mayor error que el de la red propuesta, dado que no procesan

la información dada por las variables de una forma muy profunda, como el caso de

los métodos de tiempo, que aún cuando buscan patrones, no son capaces de

proyectar de una manera precisa, debido a la poca información que se le introduce

para dicha proyección, y en el caso de los modelos causales, como se dijo antes,

tiene una limitante de variables que le impiden conocer la existencia de otras

variables que afectan al problema, además de quedar restringido a un sistema

mecanizado. En cambio las redes neuronales requieren tener el conocimiento de una

gran cantidad de variables que afectan al problema y mediante un proceso de

aprendizaje esta va analizando la situación de cada entrada (que contiene varias

variables), reconociendo patrones, los cuales agrupa en ciertos sectores de la red

(vecindades), con lo cual las aprende y las utiliza para proyectar más adelante

(mapas auto-organizados), esto le da a la red una característica superior al de los

métodos tradicionales, ya que busca primero imitar al mecanismo que tiene el ser

humano en el sistema nervioso y luego con esto resolver el problema.

Cabe destacar, que el método de redes neuronales será superior a los métodos

tradicionales siempre y cuando la red que se utilice sea la adecuada para el

problema y se haga una buena modelación, lo que conllevará a resultados óptimos y

superiores a los métodos ya conocidos.

Además, es del caso mencionar, que no siempre las redes son la mejor solución,

debido a que, como se ha manifestado, poseen un alto grado de complejidad, por

177

ende, éstas deben ser utilizadas en problemas donde la red sea un real aporte, como

el caso presentado.

Finalmente, se debe señalar que el estudio de los datos puede dar pie a otros

trabajos científicos que se enfoquen en otras áreas del transporte, se pueden

mencionar entre estas las distancias de viaje, los comportamiento de los viajeros,

transporte de carga, entre otras.

4.2 DISCUSIONES

Como se ve en este estudio, la red propuesta fue capaz de proyectar la demanda de

un servicio, no siendo lo único que este tipo de red ni otras pueden realizar. Además,

las redes pueden ser mejoradas al ser combinadas con otros métodos como lo son la

Inteligencia Artificial, algoritmos genéticos, sistemas borrosos, técnicas estadísticas,

entre otros. Lo anterior se irá explicando a continuación con mayor detalle.

Lo primero que es posible señalar es que las redes neuronales son capaces de

resolver un variado tipo de casos, ya que estas no se estructuran sólo para satisfacer

un tipo de problema. Obviamente hay redes que se especializan o son únicas para

algunos tipos de casos, un ejemplo de esto son las redes Auto-Organizadas que

buscan patrones, que pueden solucionar desde proyección de demanda hasta

reconocimiento de objeto y, un sinnúmero de casos más. En este contexto, dentro de

las posibles utilidades o aplicaciones de redes se pueden encontrar:

A. Medicina y Biología

Predicción de accidentes de anestesia, de mortandad de pacientes, del

riesgo de intoxicación por digoxina, de la respuesta emética, del nivel

178

deciclosporina, de enfermedades degenerativas cardiacas. Detección de

arritmia, de cardiopatías, de tumores cancerígenos.

Caracterización de la dinámica en la variabilidad cardiaca, comprensión de

señales electrocardiográficas, analizadores del habla para ayudar en la

audición de sordos profundos, obtención de modelos de la retina.

B. Procesado por la Señal

Reconocimientos de caracteres impresos, del habla, de caracteres

manuscritos (con esta solución se puede agilizar el traspaso de

información de los documentos que están en papel a digital y con ello

poder realizar de forma más expedita el proceso al cual se le aplicó esta

solución, de patrones en imágenes).

Sonar, radar, anulación de ruido y vibraciones, exploración activa y puntos

clave en agrupamiento para el reconocimiento de objetos, ecualización de

canales de comunicación, ecualizadores lineales y canceladores de ecos

(telecomunicaciones).

C. Economía

Aprobación de préstamos, esto permite evaluar el riesgo de prestar dinero

a los clientes, determinación de la posibilidad de quiebra de un banco.

Análisis de Mercado, permite enfrentar al mercado con la mejor estrategia

posible, buscando patrones en los datos históricos del mercado en

cuestión, fraudes con tarjetas de crédito, la red busca patrones en los

engaños utilizados por los delincuentes. Predicción en el mercado bursátil

usando redes neuronales, clasificacion de tendencias a corto y mediano

plazo en bolsa de valores.

Cambio de moneda. Pronóstico del gasto eléctrico de empresas y centrales

179

D. Medio Ambiente

Predicción de irradiación solar, de niveles tóxicos de ozono en zonas

rurales y urbanas, de variaciones globales de temperatura.

E. Manufacturación

Control de calidad, donde se puede buscar patrones de anomalías o

errores en los productos, control de procesos, en el cual la red neuronal

busca mejorar la eficiencia de los procesos, sean estos en el rendimiento

de la fábrica, la calidad de los productos, entre otras.

Robots automatizados y sistemas de control (visión artificial y sensores de

presión, temperatura, gas, entre otras), hornos de fundición, la red ubica de

forma precisa el electrodo de un horno de arco de voltaje.

F. Militares

Combates aéreos, aquí la red proporciona ayuda en el pilotaje del avión en

situaciones de riesgos proporcionadas por el enemigo. Creación de armas

inteligentes, guiado automático de misiles. Optimización del uso de

recursos escasos.

G. Automoción

Mejora de las emisiones de gases de los autos, detección en la avería en

el encendido del auto.

Gestión de tráfico, conducir camiones en marcha atrás, debido a la

dificultad que se tiene en un camión con remolque, la red es capaz de

mover al camión de cualquier posición sin tener ningún problema.

180

H. Empresa

Prospección petrolífera, evaluación de probabilidad de formaciones

geológicas. Explotación de bases de datos.

Optimización de plazas y horarios en líneas de vuelo, optimización del flujo

del tránsito controlando convenientemente la temporización de los

semáforos.

I. Videos Juegos

Neuralbot, aquí la red se complementa con algoritmo genético en la

simulación de un jugador humano en el videojuego Quake II. Black and

White (estrategia).

J. Policial

Lucha contra el tráfico de drogas, detección de bombas en los aeropuertos,

aquí las redes analizan el aire en busca de elementos químicos explosivos.

Erradicación de la corrupción entre los funcionarios policiales.

K. Física

Detección de sucesos en aceleradores de partículas (CERN), análisis de

espectros PIXE (proton induced X-ray emissions) obtenida de muestras

orgánicas.

El otro punto que se discute, la solución que dan las redes neuronales puede ser

mejorada al combinarla con otras herramientas existentes que tienen otros enfoques

que permiten complementarlas. Entre las técnicas que se pueden complementar a

las redes neuronales están las siguientes:

181

1. Inteligencia Artificial: Tiene un enfoque Top-down, que es contrario al de las

redes neuronales. El enfoque Top-down es una perspectiva simbólica, en la

cual se busca recrear la forma en que la mente humana razona, o sea, como

se enfrenta a los problemas y los resuelve y, de ahí, crear programas que lo

emulen; en cambio, las redes neuronales tienen un enfoque Bottom-up, que

es una perspectiva sub-simbólica, la cual busca recrear los mecanismos

físicos del sistema nervioso, con el fin de crear programas capaces de

resolver casos, al igual como lo haría el sistema nervioso humano. Como se

advierte, ambas técnicas buscan resolver los problemas desde distintos

puntos de vista, y al combinarlas recrean de mayor forma la manera de

procesar la información del ser humano y por ende, logran una mejor

resolución.

2. Lógica Difusa: Esta técnica es similar a la inteligencia artificial, ya que busca

imitar la manera en que el cerebro razona y trabaja con información indefinida

(imprecisa), que se combina con un conjunto de reglas dada por expertos con

el fin de resolver el problema. La lógica difusa se puede combinar con las

redes neuronales, utilizando los métodos de aprendizajes de estos últimos, y

de esta forma, juntar y complementar las habilidades de ambas técnicas.

3. Algoritmos Genéticos: Basados en la naturaleza, en el aspecto de como ésta

ha ido evolucionando en los seres vivos, con el fin de que ellos puedan

adaptarse a los distintos ambientes a los que se enfrenten. Esta técnica se

puede combinar con las redes neuronales, haciendo que el algoritmo genético

logre hacer evolucionar los pesos de la red, su arquitectura, minimizar

funciones y evitar mínimos locales, entre otros aspectos.

4. Técnicas Estadísticas: Pueden complementar a la redes en el estudio de las

variables de entrada, con lo cual se puede mejorar el inicio de los pesos en la

red y, mejorar salidas, entre otras cosas.

182

Hay que aclarar que las cuatro técnicas mencionadas anteriormente no son las

únicas con las que se pueden combinar las redes neuronales, también existen otras

técnicas que ayudan a mejorar los resultados de las redes, sin embargo, estas

cuentan con respaldo bibliográfico.

Por último, cabe mencionar que esta complementación puede realizarse de forma

simultánea entre varias técnicas, lo que permite resolver el problema desde distintos

enfoques, con lo cual se puede lograr abarcar de mejor manera cada caso en

particular.

183

BIBLIOGRAFÍA

1. Anderson, David; Sweeney, Dennis; Williams Thomas (2010).” Statistics for

business and economics”. Onceava Edición. Thomson South-Western. Estados

Unidos de América. 1054 pp.

2. Arbib, Michael (2003). “The Handbook of Brain Theory and Neural Networks”.

Segunda Edición. Massachusetts Institute of Technology. Madison, Wisconsin,

Estados Unidos de América. 1344 pp.

3. Butz, Martin; Sigaud, Olivier; Pezzulo, Giovanni; Baldassarre, Gianluca (2007).

“Anticipatory Behavior in Adaptive Learning Systems”. Springer. Alemania. 379

pp.

4. Bryers, James; Hunter, Gordon (2009). “Discovering Time-Series Building

Blocks Using an Artificial Intelligence Framework”. Master of Science by

research. Faculty of Computing, Information Systems and Mathematics.

Kingston University. Kingston. Londres. Reino Unido. Marzo. 92 pp.

5. Caceres Bascuñan, Francisco (2002). ”Bases Biológicas y Teóricas de las

Redes Neuronales Artificiales”. Facultad de Ingeniería. Santiago. Chile. 129 pp.

6. Devore, Jay (2005). “Probabilidad y Estadística: para Ingeniería y Ciencias”.

Sexta Edición. Thomson. México. 794 pp.

7. Elsevier Science (2002). “A self-organising network that grows when required”.

Marsland, Stephen; Shapiro, Jonathan; Nehmzow, Ulrich. 18 pp.

8. Fundación Andaluza Beturia para la Investigación en salud (2007). “Cómo

realizar paso a paso un contraste de hipótesis con SPSS para Windows”.

Aguayo Canela, Mariano; Lora Monge, E. Sevilla. España. 15 pp.

9. Graupe, Daniel (2007). “Principles of Artificial Neural Networks”. Segunda

Edición. World Scientific. Singapur. 303 pp.

184

10. González Galán, María; González Galán, Ana; Pérez Morales, Germán.

“Correlación”. Departamento de Economía General y Estadística. 8 pp.

11. Gujarati, Damodar (2004). “Econometría”. Cuarta Edición. McGraw-Hill. México.

972 pp.

12. Haines, Duane (2003). “Principios de Neurociencia”. Segunda Edición. Elsevier

Science. Madrid. España. 606 pp.

13. Haykin, Simon (2005). “Neural Networks. A Comprehensive Foundation”.

Segunda Edición. Pearson Prentice Hall. India. 823 pp.

14. Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2008). “The Elements of

Stadistical Learning”. Segunda Edición. Springer. Estados Unidos de América.

15. Helsinki University of Technology (2003). “Self-organizing map in Matlab: the

SOM Toolbox”. Vesanto, Juha; Himberg, Johan; Alhoniemi, Esa; Parhankangas

Juha. Espoo. Finlandia. 6 pp.

16. Hernández Sampieri, Roberto (1997). “Metodología de la Investigación”.

McGraw-Hill. México. 411 pp.

17. Holmström, Jim; Gällmo, Olle (2002). “Growing Neural Gas: Experiments with

GNG, GNG with Utility and Supervised GNG”. Department of Information

Technology Computer Systems. Uppsala University. Uppsala. Suecia. Agosto.

38 pp.

18. Inostroza, Oscar; Canessa, Glen; Hozlmann, Carlos (1982). “Memorias

Asociativas”. Ingeniería Civil Eléctrica. Facultad de Ciencias Físicas y

Matemáticas. Universidad de Chile. Santiago. Chile. 283 pp.

19. Isasi Viñuela, Pedro; Galván León, Inés (2004). “Redes Neuronales Artificiales.

Un enfoque práctico”. Xxx Edición. Pearson Prentice Hall. Madrid. España. 248

pp.

185

20. Kandel, Eric (2001). “Principios de Neurociencia”. Cuarta Edición. McGraw-Hill.

España. 1400 pp.

21. Kohonen, Teuvo (2001). “Self-Organizing Maps”. Tercera Edición. Springer-

Verlag. Alemania. 501 pp.

22. Kröse, Ben; Van der Smagt, Patrick (1996). “An Itroduction to Neural Networks”.

Octava Edición. The University of Amsterdam. Países Bajos. 135 pp.

23. Marsland, Stephen (2009). “Machine Learning: An Algorithmic Perspective”.

Primera Edición. Chapman & Hall/CRC. Estados Unidos de América. 390 pp.

24. Martin del Brio, Bonifacio; Sanz Molina, Alfredo (2007). “Redes Neuronales y

Sistemas Borrosos”. Tercera Edición. Alfaomega. México D.F. México. 404 pp.

25. Mehrotra, Kishan; Mohan, Chilukuri; Ranka, Sanjay (1996). “Elements of

Artificial Neural Networks”. The MIT Press. 344 pp.

26. Pyle, Dorian (1999). “Data Preparation for Data Mining”. Morgan Kaufmann

Publishers. San Francisco. Estados Unidos de América. 466 pp.

27. Rains, Dennis (2007). “Principios de Neuropsicología Humana”. Primera

Edición. McGraw-Hill Interamericana. México. 533 pp.

28. Sapag Chaín, Nassir (1989). “Preparación y Evaluación de Proyectos”. Segunda

Edición. McGraw-Hill. Mexico. 390 pp.

29. Squire, Larry; Berg, Darwing; Bloom, Floyd; du Lac, Sascha; Ghosh, Anirvan;

Spitzer, Nicholas (2008). “Fundamental Neuroscience”. Tercera Edición.

Elsevier. Canada. 1256 pp.

30. SPSS Inc. (2005). “Manual del usuario de SPSS Base 14.0”. Chicago. Estados


31. SPSS Inc. (2006). “Guía Breve de SPSS 15.0”. Chicago. Estados Unidos de

América. 177 pp.

186

32. The MathWorks (2001). “Matlab: Getting Started with MATLAB”. Quinta Edición.

Estados Unidos de América. 136 pp.

33. The MathWorks (2001). “Matlab: Using MATLAB”. Sexta Edición. Estados


34. Townsend, James; Kadlec, Helena (1990). “Mathematics and Science”. World

Scientific Publishing Co. Pte. Ltd. Singapur. 28 pp.

35. Universidad Católica Silva Henríquez (UCSH) (2009). “La Compresión del

Cerebro: El nacimiento de una ciencia del aprendizaje”. Primera Edición.

Ediciones UCSH. Santiago. Chile. 424 pp.

36. Universidad Tecnológica Nacional (2001). “Redes Neuronales: Conceptos

Básicos y Aplicaciones”. Matich, Damián. Rosario. Argentina. 55 pp.

PÁGINAS WEB

1. Banco Central de Chile, Base de Datos Estadísticos.

http://si3.bcentral.cl/Siete/secure/cuadros/home.aspx

2. Biblioteca EPM (2005).

http://www2.epm.com.co/bibliotecaepm/biblioteca_virtual/Portalredesneuronales

-Aplicaciones.htm

3. Carnegie Mellon University. http://www.cmu.edu/index.shtml

4. Helsinki University of Technology, Laboratory of Computer and Information

Science (2005). http://www.cis.hut.fi/somtoolbox/documentation/index.shtml

5. Portales Médicos (2008).

http://www.portalesmedicos.com/publicaciones/articles/1314/1/Test-no-

parametricos-para-datos-biosanitarios-con-SPSS.html

6. Stephen Marsland. http://www-ist.massey.ac.nz/smarsland/gwr.html

http://si3.bcentral.cl/Siete/secure/cuadros/home.aspx

http://www2.epm.com.co/bibliotecaepm/biblioteca_virtual/Portalredesneuronales-Aplicaciones.htm

http://www2.epm.com.co/bibliotecaepm/biblioteca_virtual/Portalredesneuronales-Aplicaciones.htm

http://www.cmu.edu/index.shtml

http://www.cis.hut.fi/somtoolbox/documentation/index.shtml

http://www.portalesmedicos.com/publicaciones/articles/1314/1/Test-no-parametricos-para-datos-biosanitarios-con-SPSS.html

http://www.portalesmedicos.com/publicaciones/articles/1314/1/Test-no-parametricos-para-datos-biosanitarios-con-SPSS.html

http://www-ist.massey.ac.nz/smarsland/gwr.html

187

7. Stanford University. http://www.stanford.edu/

8. The MathWorks, Inc (2011). http://www.mathworks.com/help/

9. The International Air Transport Association.

http://www.iata.org/Pages/default.aspx

10. Wikipedia (2011). http://es.wikipedia.org/wiki/Enc%C3%A9falo

11. Fisterra.

http://www.fisterra.com/mbe/investiga/9muestras/9muestras2.asp#parametros

http://www.stanford.edu/

http://www.mathworks.com/help/

http://www.iata.org/Pages/default.aspx

http://es.wikipedia.org/wiki/Enc%C3%A9falo

http://www.fisterra.com/mbe/investiga/9muestras/9muestras2.asp#parametros

ÍNDICE

PAG N°

ANEXO N°1 ESTRUCTURA DEL SISTEMA NERVIOSO

CENTRAL

1

Generalidades 1

ANEXO N°2 NEUROTRANSMISORES 3

ANEXO N°3 SINAPSIS 4

ANEXO N°4 MODELO MCCULLOCH-PITTS 5

1 Función Lógica NOT 5

2 Función Lógica AND 6

3 Función Lógica OR 7

ANEXO N°5 PERCEPTRÓN 9

A Regla de aprendizaje del Perceptrón 9

ANEXO N°6 ADALINE 10

A Regla Delta 10

ANEXO N°7 PERCEPTRÓN-ADALINE 13

ANEXO N°8 REDES DE BASE RADIAL 14

A Activación de las neuronas de la red de base radial 14

B Aprendizaje en las redes de base radial 16

ANEXO N°9 DIFERENCIAS ENTRE LA PERCEPTRÓN

MULTICAPA Y LAS

REDES DE BASE RADIAL

23

ANEXO N°10 REDES RECURRENTES 25

A Generalización de la Regla Delta en redes

recurrentes

25

B Ejemplo de Redes Parcialmente Recurrentes 26

C Mecanismo de aprendizaje de las Redes de Jordan,

Elman o cualquier otra red parcialmente recurrente.

29

D Retropropagación a través del tiempo 30

E Aprendizaje recurrente en tiempo real 34

F Red de Hopfield 37

ANEXO N° 11 COGNITRÓN 39

A Funcionamiento del Cognitrón 39

ANEXO N°12 MAPAS AUTO-ORGANIZADOS Y CRECIENTES 42

A Mapas Auto-Organizados de Kohonen 42

B Método de Aprendizaje Vector de Cuantización 48

C Teoría del MAO Básica 55

D Crece Cuando se Requiere 58

ANEXO N°13 DIAGRAMAS DE DISPERCIÓN 65

A Variables sin Tratamiento 65

B Variables Normalizadas 69

ANEXO N°14 MÉTODOS TRADICIONALES 73

ANEXO N°15 PERCEPTRÓN FINAL 73

ANEXO N°16 CRECE CUANDO SE REQUIERE FINAL 73

ANEXO N°17 MAPAS AUTO-ORGANIZADOS FINAL 74

ANEXO N°18 RECUENTO DE ITERACIONES 74

ANEXO N°19 ANALISÍS DE LA PRIMERA MUESTRA USADA

PARA LAS REDES NEURONALES ARTIFICIALES

75

1 Perceptrón Multicapa con Entrada-Salida No-Lineal 75

2 Perceptrón Multicapa con Auto-Regresivo No-Lineal

con Entrada Externa

82

3 Crece Cuando se Requiere y Perceptrón Multicapa

con Entrada-Salida No-Lineal

88

4 Crece Cuando se Requiere y Perceptrón Multicapa


91

5 Mapa Auto-Organizado y Perceptrón Multicapa con


95

6 Mapa Auto-Organizado y Perceptrón Multicapa con

Auto-Regresivo No-Lineal con Entrada Externa

96

ANEXO N°20 COMPARACIÓN DE RESULTADOS 102

ANEXO N°21 RESULTADOS FINALES DE LAS MUESTRAS 102

ANEXO N°22 RESULTADOS FINALES DE LAS MUESTRAS 102

ÍNDICE DE TABLA

PAG N°

Tabla A4-1 Función AND con sus distintas entradas. 6

Tabla A4-2 Función lógica AND y sus distintas salidas. 7

Tabla A4-3 Función lógica OR. 8

Tabla A4-4 Neurona de McCulloch-Pitts. 8

Tabla A19-1 Porcentaje de Error y Coeficiente de Correlación para


para la variable Dólar.

76



para la variable Número de Pasajeros normalizadas.

76



para la variable Fecha de Reserva.

78



para las variables: Dólar y Fecha de Reserva.

79




Fecha de Reserva.

80



para las variables: Número de Pasajeros y Dólar.

81



con Entrada Externa para la variable Dólar.

83



con Entrada Externa para las variables: Dólar y

Fecha de Reserva.

84



con Entrada Externa para las variables: Dólar y

Número de Pasajeros.

85



con Entrada Externa para la variable: Fecha de

Reserva.

86



con Entrada Externa para la variable: Número de

Pasajeros.

86

Tabla A19-12 Porcentaje de Error y Coeficiente de Correlación para 88


con Entrada Externa para la variable: Número de

Pasajeros y Fecha de Reserva.



con Entrada-Salida No-Lineal para la variable:

Número de Pasajeros, Dólar y Fecha de Reserva.

89



con Entrada-Salida No-Lineal para la variable: Dólar y

Fecha de Reserva.

90




Número de Pasajeros y Fecha de Reserva.

90




para las variables: Dólar y Fecha de Reserva.

92





94





Reserva.

95




Dólar y Fecha de Reserva.

96




Número de Pasajeros y Dólar.

97




Número de Pasajeros y Fecha de Reserva.

98





Fecha de Reserva.

99

Tabla A19-23 Porcentaje de Error y Coeficiente de Correlación para 100



para las variables:, Dólar y Fecha de Reserva.





101

ÍNDICE DE FIGURAS

PAG N°

Figura A1-1 Encéfalo. 1

Figura A3-1 Diagrama de una Sinapsis Nerviosa. 4

Figura A4-1 Función Lógica NOT. 5

Figura A4-2 Función Lógica AND. 6

Figura A4-3 Función Lógica OR. 7

Figura A10-1 Red de Jordan. 26

Figura A10-2 Retropropagación a través del Tiempo. 30

Figura A10-3 Retropropagación a través del Tiempo. 31

Figura A10-4 Aprendizaje Recurrente en tiempo real. 34

Figura A11-1 Esquema de red Cognitron, una región de

competición con dos neuronas en cada capa.

41

Figura A12-1 Función del Sombrero Mexicano. 43

Figura A12-2 Modelo simplificado de una red neuronal distribuida. 43

Figura A12-3 Demostración de la función GTT. 45

Figura A12-4 Redes A de tres diferentes dimensionalidades. 59

Figura A13-1 Diagramas de dispersión para las variables Cantidad

de Reservas-Dólar Observado.

66

Figura A13-2 Diagramas de dispersión para las variables Número

de Pasajeros-Dólar Observado.

66

Figura A13-3 Diagramas de dispersión para las variables Cantidad

de Reservas-Fecha de Reserva.

67

Figura A13-4 Diagramas de dispersión para las variables Número

de Pasajeros-Fecha de Reserva.

68

Figura A13-5 Diagramas de dispersión para las variables

normalizadas Cantidad de Reservas-Fecha de

Reserva.

69


normalizadas Cantidad de Reservas-Dólar

Observado.

70


normalizadas Número de Pasajeros-Dólar

Observado.

71


normalizadas Número de Pasajeros-Fecha de

Reserva.

71

Figura A19-1 Gráfico Demanda Real V/S Perceptrón Multicapa con

Entrada-Salida no-lineal, con variable de entrada

Dólar.

75



Número de Pasajeros.

77

Figura A19-3 Gráfico Demanda Real V/S Perceptrón Multicapa con 77


Fecha de Reserva.



Fecha de Reserva y Dólar.

78



Número de Pasajeros, Fecha de Reserva y Dólar.

79



Número de Pasajeros y Dólar.

81



variable de entrada Dólar.

82



variables de entrada Dólar y Fecha de Reservas.

83



variables de entrada Dólar y Número de Pasajeros.

84



variable de entrada Fecha de Reservas.

85



variable de entrada Número de Pasajeros.

87



variables de entrada Número de Pasajeros y Fecha

de Reservas.

87

Figura A19-13 Gráfico Demanda Real V/S Crece Cuando se


No-Lineal, con variables de entrada Dólar Observado,

Número de Pasajeros y Fecha de Reservas.

88



No-Lineal, con variables de entrada Fecha de

Reservas y Dólar Observado.

89



No-Lineal, con variables de entrada Número de

Pasajeros y Fecha de Reservas.

91




entrada Dólar Observado y Fecha de Reservas.

91




entrada Dólar Observado y Número de Pasajeros.

93




entrada Número de Pasajeros y Fecha de Reservas.

94

Figura A19-19 Gráfico Demanda Real V/S Mapa Auto-Organizado y


con variables de entrada Dólar Observado y Fecha

de Reservas.

95



con variables de entrada Dólar Observado y Número

de Pasajeros.

96



con variables de entrada Número de Pasajeros y

Fecha de Reservas.

97



con Entrada Externa, con variables de entrada Dólar

99

Observado, Número de Pasajeros y Fecha de

Reservas.




Observado y Fecha de Reservas.

100




Observado y Número de Pasajeros.

101

1

ANEXOS

ANEXO N°1

ESTRUCTURA DEL SISTEMA NERVIOSO CENTRAL1

Generalidades

El sistema nervioso humano está conformado por tres sistemas: El sistema nervioso

central (en adelante SNC), el sistema nervioso periférico (en adelante SNP) y el

sistema nervioso autónomo o vegetativo (en adelante SNA), para este documento el

objeto de nuestro estudio será el SNC.

Para ir explicando de mejor manera de que se trata el sistema nervioso central y sus

componentes vamos a ir de lo macro a lo micro, o sea, desde sus estructura más

grandes hasta la más pequeña como es la neurona.

Las estructuras que integra el SNC son el encéfalo y la medula espinal, ambos

componentes se encuentran resguardados por el cráneo y la columna vertebral

respectivamente.

Figura A1-1: Encéfalo. Fuente: “Wikipedia”.

1 (Haines, 2003)

&

(Rains, 2007)

2

Luego de esto podemos dividir el sistema nervioso central en 6 regiones básicas que

son: Médula espinal, bulbo raquídeo, protuberancia y cerebelo, mesencéfalo, tálamo

y hemisferios cerebrales.

Luego de la división regional, el SNC está constituido de Sistemas Funcionales; los

cuales son conjuntos de neuronas conectadas para transmitir un determinado bloque

de información o para realizar una tarea concreta. Estos sistemas no son de una sola

región en particular, sino que pueden atravesar a más de una región, como por

ejemplo cuando tocamos una hoja de algún libro, en el cual se cruzan todas las

regiones del sistema nervioso comprendido entre los dedos y la corteza

somatosensorial.

La clasificación básica de las células del SNC las separa en células gliales (o glías2)

y neuronas, el número de células es de alrededor de 100.000 millones, las neuronas

son de nuestro interés y se verán en el siguiente punto. Del número antes dicho,

“pocas son de neuronas sensoriales primarias, el primer vinculo en la cadena

aferente entre los receptores sensoriales (las primera neuronas en registrar la

presencia de estímulos) y el cerebro”, esto es, debido, a que estas neuronas están

ubicadas mayoritariamente en el ganglio, que no es parte del sistema nervioso

central. De las cerca de 3 millones de neuronas motoras, las que se desprenden de

la médula espinal para activar los músculos esqueléticos, las demás células que

conforman el SNC se dividen en células sensoriales y neuronas motoras. Una

estimación ubica el 99,98% de las neuronas del SNC de los mamíferos como

interneuronas, células nerviosas que no reciben estímulos directos del ambiente o

que provocan de modo directo la contracción muscular. Son estas neuronas las que

proveen las bases para el proceso que hace posible el comportamiento complejo.

2 Las glías cumplen la función de soporte estructural de las neuronas además de preocuparse de crear el medio

apropiado para el desarrollo de las labores que desarrollan la célula nerviosa.

3

ANEXO N°2

NEUROTRANSMISORES3

“Los neurotransmisores son un medio para el intercambio de información entre

células nerviosas, así como entre células nerviosas y células efectoras”.

“Los neurotransmisores pueden ser aminas biógenas (por ejemplo acetilcolina,

dopamina, noradrenalina), aminoácidos (por ejemplo acido glutámico, GABA),

nucleótidos (por ejemplo adenosina), neuropéptidos (por ejemplo sustancia P,

colecistocinina, somatostatina) o inclusos gases (por ejemplo óxido nítrico, monóxido

de carbono). Muchos de estos neurotransmisores se almacenan en las vesículas

presinápticas y son liberados de ellas en la terminal axónica, pero en otros casos,

como el óxido nítrico, la liberación se produce sin que intervengan vesículas”.

3 (Haines, 2003)

4

ANEXO N°3

SINAPSIS4

“Las sinapsis excitadoras normalmente se asocian con un incremento del Na+ o de

una combinación de iones, cuyo flujo neto de corriente en el canal es de entrada, lo

que descarga la capacitancia de membrana y produce la despolarización. Esto hace

que la membrana se acerque al umbral para los potenciales de acción en la zona de

disparo”.

“En la sinapsis inhibidoras, los cambios en la permeabilidad iónicas son distintos y

conlleva una corriente neta de salida. Esto puede producir una hiperpolarización, que

hace que el potencial de la zona de disparo se aleje del umbral”.

Figura A3-1: Diagrama de una Sinapsis Nerviosa.

4 (Haines, 2003)

5

ANEXO N°4

MODELO MCCULLOCH-PITTS5

1. Función Lógica NOT

“Es una neurona con una entrada y una salida. El único peso que posee tiene valor -

1, y su umbral valor -1”.

Figura A4-1: Función Lógica NOT. Fuente: “Redes Neuronales Artificiales. Un enfoque práctico”.

“Si la entrada de la neurona es cero, la salida será ; como es mayor que el

umbral, que es -1, la salida será 1. Para una entrada de uno la salida será:

, que al no ser mayor que el umbral -1 producirá una salida de 0. Este es el

comportamiento de una función lógica NOT”.

5(Isasi, 2004)

/-1

6

2. Función Lógica AND

En esta función la neurona tiene dos entradas y una salida. El valor del umbral es 1,

y el de las dos conexiones también 1.

Figura A4-2. Función Lógica AND. Fuente: “Redes Neuronales Artificiales. Un enfoque practico”.

Tabla con las distintas entradas de la función AND.

X1 X2 y

0 0 0

0 1 0

1 0 0

1 1 1

Tabla A4-1: Función AND con sus distintas entradas. Fuente: “Redes Neuronales Artificiales. Un enfoque practico”.

/1

7

Tabla con la salida de la neurona para cada una de las entradas.

X1 X2 y

0 0 0 0

0 1 1 0

1 0 1 0

1 1 2 1

Tabla A4-2: Función lógica AND y sus distintas salidas. Fuente: “Redes Neuronales Artificiales. Un

enfoque practico”.

Como se ve en la tabla, en la última fila se ve que la sumatoria pasa el umbral de 1 y,

por lo tanto, tendrá una salida de 1.

3. Función Lógica OR

“La neurona que representa la función OR es igual que la de la función lógica AND,

cambiando el valor del umbral, que en este caso será cero”.

Figura A2-3. Función Lógica OR. Fuente: “Redes Neuronales Artificiales. Un enfoque práctico”.

/0

8

La tabla de la función OR es:

X1 X2 Y

0 0 0

0 1 1

1 0 1

1 1 1

Tabla A4-3. Función lógica OR. . Fuente: “Redes Neuronales Artificiales. Un enfoque practico”.

Mientras que la tabla de la neurona de McCulloch-Pitts anterior es:

X1 X2 y

0 0 0 0

0 1 1 1

1 0 1 1

1 1 2 1

Tabla A4-4. Neurona de McCulloch-Pitts. . Fuente: “Redes Neuronales Artificiales. Un enfoque practico”.

En este caso el único que no supera el umbral es el de la primera fila, el cual tendrá

una salida que da cero.

9

ANEXO N°5

PERCEPTRÓN6

A. Regla de aprendizaje del Perceptrón

Suponga que sean preparadas un conjunto de muestras de aprendizaje consistente

de un vector de entrada y una salida deseada Para una tarea de clasificación

la es usualmente +1 o -1. La regla de aprendizaje del Perceptrón es muy simple

y se puede describir de la siguiente forma:

1. Empezar con valores aleatorios para los pesos y el umbral.

2. Seleccionar un vector de entrada del conjunto de muestra de entrenamiento.

3. Si , la red da una salida incorrecta. Modificar de acuerdo con:

4. Si no se ha cumplido el criterio de finalización, volver a 2.

“En el paso tres se aprecia que si la salida de la red para un patrón es , pero

su clase es , entonces el incremento es negativo, ,

mientras que si ocurre lo contrario, es positivo, como se describió anteriormente”.

“Puesto que el umbral es equivalente a un peso adicional, al que se denota por

, cuya entrada es siempre 1 , la ecuación anterior se puede extender para

el umbral de la siguiente forma”.

(1)

{

(2)

6 (Isasi, 2004) & (Kröse, 1996)

10

ANEXO N°6

ADALINE7

A. Regla Delta

La diferencia de esta regla de aprendizaje con respecto a la del Perceptrón “es la

manera de utilizar la salida, una diferencia fundamental entre ambos sistemas. El

Perceptrón utiliza la salida de la función umbral para el aprendizaje; sin embargo, la

regla Delta, utiliza directamente la salida de la red, sin pasarla por ninguna función

umbral”.

Suponer que se quiere entrenar una red tal que un hiperplano es ajustado tanto

como se puede a un conjunto de muestras de entrenamiento consistente de valores

de entrada y valores de salidas deseados (u objetivo) . Para toda muestra de

entrada dada, la salida de la red difiere de la del valor objetivo por ,

donde es la real salida para este patrón. La regla delta ahora utiliza una función

costo o función error basado en estas diferencias para ajustar los pesos.

La función error, como lo indica el nombre de mínimos cuadrados, es la suma de los

errores al cuadrado. Eso es, el error total definido como:

∑

∑

(3)

donde el índice de rango el conjunto de patrones de entrada y representan el

error en el patrón . “La regla intentará minimizar este valor para todo los elementos

del conjunto de patrones de aprendizaje. La manera de minimizar este error es

recurrir a un proceso iterativo en el que se van presentando los patrones uno a uno, y

7 (Kröse, 1996) (Isasi, 2004)

11

modificando los parámetros de la red (pesos de las conexiones), mediante la regla

del descenso del gradiente”.

La idea es hacer un cambio en cada peso proporcional a la derivada del error,

medida en el patrón actual, respecto a cada peso:

(4)

donde es una constante de proporcionalidad.

Aplicando la regla de la cadena a la expresión anterior queda como sigue:

(5)

Como son unidades lineales, sin función de activación en la capa de salida, se

plasma lo siguiente:

(6)

Que al sustituir, queda como continúa:

(7)

12

Con esta última ecuación se ve la diferencia que tiene la regla Delta con la regla de

aprendizaje del Perceptrón ( ), en el cual se ve “que la diferencia es

precisamente la introducción de la diferencia entre la salida deseada y la obtenida en

la regla de aprendizaje. Si la salida del ADALINE fuese binaria, el conjunto de

patrones estaría constituido por ⃗⃗ ⃗ ⃗⃗ ⃗⃗ ⃗ , es decir ϵ 0, 1, .

Si se incluye la salida del ADALINE el acoplador bipolar comentado con anterioridad

para “binarizar” la salida, la regla Delta (ecuación anterior) quedaría así”:

{

(8)

“que para un se convierte en la regla del Perceptrón. Así pues, la regla Delta

es una extensión de la regla del Perceptrón a valores de salida reales”.

El procedimiento de la regla Delta es el siguiente:

1. Inicializar los pesos de forma aleatoria.

2. Introducir un patrón de entrada.

3. Calcular la salida de la red, compararla con la deseada y obtener la diferencia:

.

4. Para todos los pesos, multiplicar dicha diferencia por la entrada

correspondiente, y ponderarla por una tasa de aprendizaje .

5. Modificar el peso restando del valor antiguo la cantidad obtenida en 4.

6. Si no se ha cumplido el criterio de convergencia, regresar al punto 2; si se han

acabado todo los patrones, empezar de nuevo a introducir patrones.

13

ANEXO N°7

PERCEPTRÓN-ADALINE8

Se puede enumerar las siguientes diferencias entre los dos modelos:

1. En el Perceptrón la salida es binaria, en el ADALINE es real.

2. En el Perceptrón la diferencia entre entrada y salida es 0 si ambas pertenecen

a la misma categoría si por el contrario pertenece a categorías

diferentes. En el ADALINE se calcula la diferencia real entre entradas y

salidas.

3. En el ADALINE existe una medida de cuanto se ha equivocado la red; en el

Perceptrón sólo se determina si se ha equivocado o no.

4. En el ADALINE hay una razón de aprendizaje ( ) para regular cuanto va a

afectar cada equivocación a la modificación de los pesos. Es siempre un valor

entre 0 y 1 para ponderar el aprendizaje.

8 (Isasi, 2004)

14

ANEXO N°8

REDES DE BASE RADIAL9

A. Activación de las neuronas de la red de base radial

“Dada una red de neuronas de base radial con neuronas en la capa de entrada,

neuronas en la capa oculta y neuronas en la capa de salida, las activaciones de las

neuronas de salida para el patrón de entrada , ,

denotadas como , vienen dadas por la siguiente expresión”:

∑

(9)

“Donde representa el peso de la conexión de la neurona oculta a la neurona de

salida , es el umbral de la neurona de salida y son las activaciones de

las neuronas ocultas para el patrón de entrada . En la ecuación anterior se ve

que se utiliza la función activación identidad en las neuronas de salida, realizando

una transformación lineal de las activaciones de todas las neuronas ocultas”.

“Las funciones , también conocidas como funciones de base radial, determinan las

activaciones de las neuronas ocultas de la red en función del vector de entrada a la

red y vienen dadas por la siguiente expresión”:

(‖ ‖

)

(10)

9 (Isasi, 2004)

15

“donde es una función de base radial; son vectores que

representan los centros de la función de la base radial; son números reales que

representan la desviación, anchura o dilatación de la función de base radial; y ‖ ‖

es la distancia euclídea del vector de entrada al centro , definida como”:

‖ ‖ (∑

)

(11)

“Por tanto, la activación de una neurona oculta en las redes de base radial depende

de la distancia del patrón de entrada al centro de la función de base radial.

Estas funciones bases poseen un carácter local, pues son funciones que alcanzan

un nivel cercano al máximo de su recorrido cuando el patrón se aleja del centro, el

valor de función va teniendo al valor mínimo de su recorrido”.

La función de base radial puede tomar diferentes formas entre las cuales se

encuentra:

Función Gaussiana:

(

)

(12)

Función Inversa Cuadrática:

(13)

Función Inversa Multicuadratica:

√

(14)

16

La más usada de estas en la Función Gaussiana, por lo que la activación de las

neuronas ocultas es la siguiente:

‖ ‖

(15)

Las salidas de estas redes sonuna combinación lineal de gaussianas, donde cada

neurona se activa para una especifica región del espacio determinada por los

patrones de entrada (Isasi, 2004).

B. Aprendizaje en las redes de base radial

“El proceso de aprendizaje implica la determinación de todos los parámetros que

intervienen en la red. Estos son: los centros y las desviaciones de las neuronas

ocultas y los pesos de la capa oculta de salida, así como los umbrales de las

neuronas de salida”.

Tanto los centros como las desviaciones de la capa oculta tienen un aprendizaje

diferente que el de los umbrales y pesos, esto porque “las capa de neuronas en una

red de base radial realizan tareas diferentes. El aprendizaje de los centros y

desviaciones debe estar guiado por una optimización en el espacio de patrones de

entrada, pues cada una de las neuronas ocultas en la red de base radial va a

representar una zona diferente del espacio de entrada. Sin embargo, para los

parámetros de la capa de salida la optimización se debe realizar en base a las

salidas que se desea obtener o salidas deseadas, ya que las redes de base radial se

utilizan para aproximar relaciones entre el conjunto de variables de entrada y salida

que definen el problema. Para lograr todo esto se emplea el Método de aprendizaje

Hibrido, el cual está compuesto de dos fases”:

17

Fase no supervisada: Determinación de los centros y amplitudes de las

neuronas de la capa oculta.

Fase supervisada: Determinación de pesos y umbrales de la capa de salida.

“Otro método que existe para este tipo de redes es el método de aprendizaje

totalmente supervisado, que a diferencia del método anterior, este no conserva, en

principio, las propiedades o características locales de las redes de base radial. En

este caso, todos los parámetros de la red de base radial: centros, amplitudes, pesos

y umbrales se determinan de manera completamente supervisadas y con el objetivo

de minimizar el error cuadrático medio, es decir, las diferencias entre las salidas de la

red y las salidas esperadas”.

∑

∑

(16)

“Al utilizar este método, en ningún momento el proceso de aprendizaje se guía para

que las amplitudes alcancen valores tales que el solapamiento de las activaciones de

las neuronas ocultas sea la más suave posible, sino que se determinan para

minimizar el error cometido por la red en la capa de salida. Por tanto, no es posible

esperar que la red siga conservando sus características locales”.

Cabe decir que estos dos métodos de aprendizaje antes dichos pueden ser

combinados, “con el objeto de mejorar la precisión de la red en la resolución de

problemas. Esta combinación consiste, básicamente en inicializar los centros y

desviaciones de las funciones de base radial utilizando el método hibrido, para,

posteriormente, adaptarlos de manera supervisada utilizando el metido totalmente

supervisado”.

18

A continuación se darán los pasos a seguir de cada uno de los métodos de

aprendizaje y del método combinado (más detallado estos procedimientos en:

I. Método Hibrido

“Dado el conjunto de patrones de entrada y sus salidas

deseadas, el método de aprendizaje hibrido para las redes de neuronas de base

radial se puede resumir en los siguientes pasos”10:

Se aplica el algoritmo de K-medias sobre el conjunto de patrones de entrada

para el cálculo de los centros de las funciones de base

radial, siendo K el número de neuronas ocultas de la red.

Se calculan las amplitudes o desviaciones de las funciones de base radial

utilizando algunas de las expresiones dadas por las ecuaciones:

∑‖ ‖

(17)

(Medida uniforme de las distancias euclídeas del centro a los centros

más cercanos)

√‖ ‖‖ ‖

(18)

Siendo y los dos centros más cercanos al centro .

Se determinan los pesos y umbrales de la capa de salida siguiendo el

siguiente proceso iterativo:

1. Se inicializan aleatoriamente los pesos y umbrales de la capa de salida.

2. Se toma un patrón del conjunto de patrones disponibles y se

calcula la salida de la red, , para el patrón de entrada .

3. Se evalúa el error cometido por la red para dicho patrón, con la

ecuación:

10

(Isasi, 2004)

19

∑

(19)

Siendo y los vectores

de salida de la red y salida deseada para el patrón de entrada ,

respectivamente.

4. Se modifican los parámetros de la red utilizando las leyes de aprendizaje

dadas por las ecuaciones:

(20)

Para y para .

5. Se repiten los pasos 2, 3 y 4 para todos los patrones de entrenamiento.

6. Se repiten los pasos 2, 3, 4 y 5 hasta conseguir la convergencia, es decir,

hasta que la suma de los errores para todos los patrones (

)

se estabilice.

II. Método de aprendizaje totalmente supervisado

“Dado el conjunto de patrones de entrada y sus salidas

deseadas, el método de aprendizaje totalmente supervisado para las redes de

neuronas de base radial se puede resumir en los siguientes pasos”:

1. Se inicializan todos los parámetros de la red. En el caso de las amplitudes,

pesos y umbrales, esta inicialización suele hacerse de manera aleatoria con

valores cercanos a cero. Para los centros es, generalmente, preferible

20

inicializarlos aleatoriamente a patrones de entrada o la salida de un algoritmo

de clasificación aplicado en el espacio de entrada.



3. Se evalúa el error cometido por la red para dicho patrón.

∑

(21)

4. Se modifican los pesos, umbrales, centros y amplitudes de la red utilizando las

ecuaciones

(∑( )

) ( )

(22)

Para j=1, 2, …, p y para i=1, …, m

(∑( )

) ‖ ‖

(23)

Para i=1, …,m.


6. Se repiten los pasos 2, 3, 4, 5 hasta conseguir la convergencia, es decir, hasta

que la suma de los errores para todos los patrones

se

estabilice, momento en el que se alcanza un mínimo dicha función.

21

III. Método combinado: Hibrido-Totalmente Supervisado

1. Se calculan los centros de las funciones de base radial aplicando el algoritmo

de K-medias sobre el conjunto de patrones de entrada .

2. Se calculan las amplitudes o desviaciones de las funciones de base radial

utilizando alguna de las expresiones dadas por las ecuaciones:

∑‖ ‖

(24)

o

√‖ ‖‖ ‖

(25)

3. Se aplica el algoritmo de los mínimos cuadrados para el cálculo de los pesos

y umbrales de la red, ecuaciones:

(26)



5. Se evalúa el error cometido por la red para dicho patrón.

6. Se modifican los pesos, umbrales, centros y amplitudes de la red utilizando las

ecuaciones.

∑

(27)

22

(∑( )

) ( )

(28)

Para y para

(∑( )

) ‖ ‖

(29)

Para

En este punto es necesario prestar especial atención a las razones o tasas de

aprendizajes de los centros y amplitudes, y . Al aplicar las leyes dadas

por las ecuaciones (las dos últimas), los centros y desviaciones no deben

sufrir cambios bruscos respecto a los valores obtenidos en los pasos 1 y 2,

pues, en ese caso, la información obtenida en la fase no supervisada se

perdería.


8. Se repiten los pasos 4, 5, 6 y 7 hasta conseguir la convergencia, es decir,

hasta que la suma de los errores para todos los patrones

se

estabilice, momento en el que se alcanza un mínimo de dicha función.

23

ANEXO N°9

DIFERENCIAS ENTRE LA PERCEPTRÓN MULTICAPA Y LAS

REDES DE BASE RADIAL11

Las diferencias que se encuentra entre estas dos redes es el número de capas

ocultas, en el caso de las redes de base radial solo tienen una capa, mientras que el

Perceptrón multicapa tiene tantas capas ocultas se deseen, la distribución de los

pesos en las redes de base radial las conexiones de la capa de entrada a la oculta

no llevan pesos asociados y, por ejemplo también la linealidad en la capa de salida,

la cual no es imprescindible para el caso del Perceptrón multicapa.

Pero la mayor diferencia entre estas dos redes es en la función de activación de las

neuronas ocultas en la red, lo que hace que cada una de las arquitecturas de estas

redes, tengan sus propias características, a continuación se explicara cada una de

ellas:

El Perceptrón Multicapa construye aproximaciones globales

“Debido al uso de funciones de activación sigmoidal, el Perceptrón multicapa

construye relaciones globales entre los datos de entrada y salida disponibles.

Esto hace que el aprendizaje de la red sea lento, pues el cambio en un solo

peso de la red provoca cambios en la salida para todos los patrones de

entrada presentados anteriormente, reduciéndose así el efecto de previos

ciclos de aprendizaje y retrasando la convergencia del algoritmo de

aprendizaje”.

Las redes de base radial construye aproximaciones locales

“Cada neurona oculta de la red de base radial se especializa en una

determinada región del espacio de entrada y construyen una aproximación

11

(Isasi, 2004)

24

local en dicha región. Por tanto, la relación que definen las redes de base

radial entre los datos de entrada y salida es una suma de funciones no

lineales y locales para diferentes regiones del espacio de entrada. A diferencia

de cuando se construyen aproximaciones globales, la construcción de

aproximaciones locales permite que el aprendizaje sea más rápido, ya que el

cambio en un solo peso de red afecta únicamente a la neurona oculta

asociada a dicho peso y, por tanto, a un determinado grupo de patrones de

entrada, los pertenecientes a la clase que representa la neurona oculta en

cuestión”.

“Debido al carácter local, el aprendizaje de estas redes es, generalmente,

menos sensible al orden de presentación de los patrones que en el caso del

Perceptrón multicapa”.

“En muchos casos, sin embargo, ocurre que para poder construir una

aproximación mediante la suma de aproximaciones locales se requiere un alto

número de neuronas ocultas, lo cual podría influir negativamente en la

capacidad de generalización de las redes de base radial”.

“Finalmente, debe señalarse que el número de neuronas ocultas de la red

puede aumentar exponencialmente con la dimensión del espacio de entrada.

Por tanto, para aplicaciones que requieren un alto número de variables de

entrada, las redes de base radial podrían no ser las más adecuadas”.

25

ANEXO N°10

REDES RECURRENTES12

A. Generalización de la Regla Delta en redes recurrentes

La regla de aprendizaje de retropropagación, puede ser fácilmente usado para los

patrones de entrenamiento en redes recurrente. Primero describiremos las redes

donde algunos de los valores de activación de las neuronas ocultas son

realimentadas a un conjunto extra de neuronas de entrada (la red de Elman), o

donde los valores de salida son realimentados en las neuronas ocultas (la red de

Jordan).

Antes consideremos este caso general: Una típica aplicación de esta red es la

siguiente, suponga que tenemos que construir una red que debe generar un

comando de control que dependa de una entrada externa, que es una serie de

tiempo Con una red alimentada hacia adelante hay dos

posibles aproximaciones:

a. Crear entradas que constituyen los últimos valores del vector

de entrada. Así es que una “ventana de tiempo” del vector de entrada es

entrada de la red.

b. Crear entradas además solo entradas , también la entrada de

sus primera, segunda, entre otras, derivadas. Naturalmente, el cálculo de

estas derivadas no es una tarea trivial para las derivadas de orden superior.

La desventaja es, por supuesto, la dimensionalidad de entrada de la red alimentada

hacia adelante es multiplicada con n, que conduce a una red muy grande, que es

lenta y difícil para entrenar. Las redes de Jordan y Elman proveen una solución para

este problema. Debido a las conexiones recurrentes, un grupo de entradas no

necesita ser entradas nuevamente; en vez, la red se supone que aprende de la

influencia de los pasos de tiempo anteriores de sí mismo.

12

(Kröse, 1996), (Isasi, 2004) & (Haykin, 2005).

26

B. Ejemplo de Redes Parcialmente Recurrentes

1. Red de Jordan

Fue uno de las primeras redes neurales recurrentes y fue propuesto por Michael

Jordan en 198613.

Figura A10-1: Red de Jordan. Fuente: “Mathematics An Introduction To Neural Networks”.

En la red de Jordan, los valores de activación de las neuronas de salida son

realimentadas en la capa de entrada a través de un conjunto extra de neuronas de

entrada llamadas neuronas de estado o neuronas de contexto. Hay tantas neuronas

de estado como neuronas de salida en la red. Las conexiones entre las neuronas de

salida y las neuronas de estado tienen un peso de fijo ( ) de +1 (en (Isasi, 2004), en

cambio, dice un valor constante positivo y menor que 1); el aprendizaje se lleva a

13

En los libros de Jordan 1986a y 1986b.

27

cabo en las conexiones entre las neuronas de entrada y las neuronas ocultas como

también con las neuronas ocultas y las neuronas de salida. Además todas las reglas

de aprendizaje derivadas del Perceptrón Multicapa pueden ser usadas para el

entrenamiento de esta red.

Como se ve en la Figura N°14, cada neurona de contexto se conecta con una

neurona de salida y consigo misma, lo cual hace que la activación de las neuronas

de contexto (también llamada neuronas de estado) en la iteración o instante de

tiempo , denotada como viene dada por la siguiente ecuación(Isasi, 2004):

(30)

donde es el vector salida de la red en el

instante de tiempo y es el número de salidas de la red

Las demás activaciones de la red se computan como en una red multicapa con

conexiones positivas; para ello se considera como entrada total a la red en la

iteración el vector que es el resultado del encadenamiento de las activaciones

de las neuronas de entrada y las neuronas de estado:

(31)

donde representan las señales que la red recibe del exterior.

Cabe decir que las neuronas ocultas de la red como las neuronas de salida tienen la

función de activación sigmoidal.

Hay que destacar que las neuronas de estado tienen funciones de activación lineal,

lo que permite a las neuronas de estado (o de contexto) que sus activaciones se

puedan desenvolver en el tiempo de la siguiente manera:

(32)

28

obteniéndose, entonces, la siguiente expresión:

∑

(33)

Cabe decir, que la red de Jordan obtiene una cierta inercia a las neuronas de estado,

gracias al parámetro que se encuentra en su arquitectura. Como se ve en la

ecuación (32) las neuronas de estado “acumulan las salidas de la red en todos los

instantes anteriores de tiempo y el valor del parámetro determina la sensibilidad de

las neuronas de estado para retener dicha información”. Con esto, queda definido

que los valores cercanos a 1 permiten memorizar estados muy lejanos al del tiempo

actual, y a medida que se aproxima el valor de a 0, estos estados tienen una menor

representación en la activación actual de las neuronas de estado.

2. Red de Elman

Esta red fue introducida por Jeff Elman en 1990. En esta red un conjunto de

neuronas de contexto son introducidas, que son neuronas extras de entrada cuyos

valores de activación son realimentados de la neurona oculta. Además la red es muy

similar a la Red de Jordan, excepto que las neuronas ocultas en vez de las neuronas

de salida son realimentadas y las neuronas extras de entrada no tienen auto-

conexiones (Kröse, 1996) (Haykin, 2005). “Existen en esta red tantas neuronas de

contexto como neuronas ocultas tenga. De este modo, la activación de las neuronas

de contexto viene dada por”:

(34)

Donde es el número de neuronas ocultas de la red y son las activaciones

de dichas neuronas en el instante .

29

Con lo que respecta a las restantes activaciones de la red, estas se calculan como

una red multicapa con conexiones hacia adelante, en la que se considera como

entrada total a la red el vector dado por la ecuación:

(35)

“Para la Red de Elman las conexiones recurrentes hacen que las neuronas ocultas

contengan información sobre las señales de entrada que proceden del exterior en el

instante inmediatamente anterior”.

C. Mecanismo de aprendizaje de las Redes de Jordan, Elman o cualquier

otra red parcialmente recurrente.

1. Se inicializan las neuronas de contextos de la red parcialmente recurrente en

el instante de tiempo .

2. Se presenta a la red en el instante de tiempo el patrón de entrada

procedente del exterior, , que junto con la activación de

las neuronas de contextos en ese instante, forman el vector de entrada

total a la red, .

(36)

3. El vector se propaga hacia la salida de la red, obteniendo así la salida de

la red en dicho instante de tiempo.

4. Se aplica la regla delta generalización para modificar los pesos de la red.

5. Se incrementa la variable tiempo en una unidad y se vuelve al paso 2.

30

D. Retropropagación a través del tiempo

Como se dijo antes, este algoritmo es una extensión del algoritmo estándar de

retropropagación. Este algoritmo “se basa en la idea de que para cada red recurrente

es posible construir una red multicapa con conexiones hacia adelante y con idéntico

comportamiento; basta desarrollar en el tiempo la red recurrente”.

A continuación se da un ejemplo, para ilustrar todo esto.

“Se trata de una red simple, con dos neuronas totalmente conectadas, y la activación

de cada una de las neuronas viene dada por”:

Figura A10-2: Retropropagación a través del Tiempo. Fuente: “Neural Networks. A Comprehensive Foundation”.

(37)

Desarrollando dichas activaciones en el tiempo se obtiene que:

…

(38)

31

“Por tanto, las activaciones hasta el instante de tiempo de la red recurrente que se

muestra en la figura anterior son equivalente a las activaciones de las neuronas de la

red multicapa con conexiones hacia adelante que se muestras en la siguiente figura.

De este modo, la red recurrente se puede representar mediante una red con

conexiones hacia adelante, la cual se obtiene añadiendo una nueva capa por cada

unidad de tiempo”.

Figura A10-3: Retropropagación a través del Tiempo. Fuente: “Neural Networks. A Comprehensive Foundation”.

Para la aplicación del algoritmo de retropropagación a través del tiempo, la red

recurrente es particionada en época o intervalo independiente, con cada época

representando un patrón temporal de interés. Dado donde es el comienzo

del tiempo de una época y denota su final de tiempo, se define el error cometido

por la red en dicho intervalo como:

∑ ∑

(39)

“donde es el conjunto de índices que representan las neuronas de salida de la red,

es decir, neuronas para las cuales se dispone de una salida deseada; y es el

32

error que comete la red en el instante , medido como la diferencia entre la salida de

la red y la salida deseada. Los pesos de la red totalmente recurrente se van a

modificar siguiendo la dirección negativa del gradiente del error dado por la ecuación

anterior, por lo que el cambio del peso de la neurona a la neurona viene dada

por”:

(40)

“El aprendizaje de la red recurrente mediante el algoritmo de retropropagación a

través del tiempo implica el cálculo de la derivada de respecto de las

conexiones de la red. Para ello se aplica el algoritmo de retropropagación a través

del tiempo se presenta a continuación:

1. Dado un tiempo inicial , la red totalmente recurrente se desarrolla en el

intervalo , obteniendo una red multicapa con conexiones hacia

adelante.

2. Se calculan y almacenan las activaciones de todas las neuronas de la red

multicapa.

Se denota como ) la activación de la neurona de la capa

en la red multicapa, donde es la función de activación y es el

nivel total de activación que recibe la neurona .

3. La aplicación del algoritmo de retropropagación a la red multicapa equivalente

implica el cálculo de los valores para cada una de las capas de la red

multicapa, empezando por la última capa, capa , hasta llegar a la primera

capa oculta, capa .

Denotado por el valor asociado a la neurona de la capa para todo

y teniendo en cuenta el mecanismo para calcular dichos valores cuando

se utiliza el algoritmo de retropropagación, se obtiene que:

33

{ ( )

( )( )

(41)

Donde es la derivada de la función de activación respecto a su

argumento.

Aplicando dicha ecuación, se obtiene . Por tanto,

es necesario calcular tantos valores como el número de instantes de tiempo

que contiene el intervalo o época

4. Una vez que se obtiene el valor de la capa , el cambio o ajuste para el

peso viene dado por la siguiente expresión:

∑

(42)

Donde es la razón de aprendizaje y es la entrada a la neurona.

5. Con los nuevos pesos, se repite e proceso para el instante de tiempo ,

preparando la red para una nueva época.

“El algoritmo de retropropagación a través del tiempo no es precisamente un método

adecuado para aplicaciones en tiempo real, es decir, para aplicaciones que requieren

una adaptación continua de la red recurrente. Este algoritmo involucra un coste

computacional para el cálculo de los valores que podría ser elevado, así como la

necesidad de almacenar en memoria el estado de la red desarrollada en el tiempo”.

34

E. Aprendizaje recurrente en tiempo real

El algoritmo deriva su nombre del hecho que los ajustes son hechos a los pesos

sinápticos de una red totalmente recurrentes en tiempo real, que es, mientras la red

continua realizando su función de procesamiento de señal.

“La red recurrente en tiempo real está compuesta por neuronas y neuronas de

entrada que reciben las señales del exterior. De las neuronas, algunas se

consideran neuronas de salidas, es decir, neuronas para las que se dispone de una

salida deseada. Se trata de una red con conexiones recurrentes, pues las

neuronas se conectan con todas las demás e incluso con ellas mismas; y

conexiones hacia adelante, pues cada neurona de entrada se conecta con el resto de

las neuronas de la red. Por tanto, la matriz de pesos de la red, ( ), es una

matriz de orden , donde representa la conexión de la neurona a la

neurona , para y para ”.

Figura A10-4: Aprendizaje Recurrente en tiempo real. Fuente: “Neural Networks. A Comprehensive Foundation”.

“Sea el conjunto de índices que representan las neuronas de entrada y sea el

conjunto de índices para el resto de las neuronas de la red. Según la red definida

35

anteriormente, el cardinal de es y el cardinal de es . Sea el

vector formado por las activaciones de las neuronas de la red en el instante de

tiempo . Se define entonces el vector como la concatenación de dichos

vectores, de manera que la coordenada de dicho vector viene dada por”:

{

(43)

Las activaciones de las neuronas de la red, vienen dadas por:

( ) (44)

“siendo la función de activación y el nivel total de activación que recibe la

neurona , es decir, la suma de los productos de las entradas a la neurona por sus

correspondiente conexiones”:

∑

(45)

“La aplicación del algoritmo de aprendizaje recurrente en tiempo real a la red definida

anteriormente consiste en ajustar los pesos de la red siguiendo la dirección negativa

del gradiente del error computado en las neuronas que actúan como salida de la red.

Debido a que la activación de una neurona de salida en un instante depende de las

activaciones de todas las neuronas de la red en el instante anterior (las dos

ecuaciones anteriores), incluida ella misma, en el cálculo de la derivada de la

neurona de salida con respecto a un peso de la red interviene también la derivada

del resto de las activaciones en el instante anterior respecto a dicho peso, es por

todo esto que el algoritmo visto en las redes Perceptrón Multicapa (algoritmo de

retropropagación) no se puede aplicar directamente a estas redes”.

36

Para conseguir el algoritmo de aprendizaje de redes recurrente en tiempo en real que

se aplica a estas redes, se desarrolla una serie de operaciones de las cuales solo se

mostrara el resultado de la operación final, es decir, el algoritmo definitivo14:

( )∑

(46)

“Y la derivada del error viene dada por”:

∑

(47)

“donde es la salida en el instante de tiempo del sistema dinámico definido

por la ecuación anterior, con valores o condiciones iniciales ”.

“Mediante este algoritmo de aprendizaje, los pesos se adaptan en cada instante de

tiempo utilizando las salidas del sistema dinámico dado anteriormente, ,

variables que serán utilizadas en el siguiente instante de tiempo . A diferencia

del algoritmo de retropropagación a través del tiempo, el algoritmo de aprendizaje

recurrente puede aplicarse en un tiempo real, pues no necesita almacenar en

memoria el estado de la red durante un intervalo de tiempo, lo cual lo hace más

eficiente”.

14

El detalle de la operación se puede encontrar en (Isasi, 2004)

37

F. Red de Hopfield

I. Aprendizaje y mecanismo de actuación de la red de Hopfield

La red de Hopfield cuenta con dos fases de operación, las cuales son:

Fase de Almacenamiento: Donde se van a determinar los valores que deben

tomar los pesos de la red para almacenar un conjunto de patrones, para esto

se usa la regla Hebb.

Fase de recuperación: describe el mecanismo para recuperar la información

almacenada a partir de información incompleta.

II. Función Energía en la Red de Hopfield

La función energía permite entender y describir el comportamiento y funcionamiento

de la red.

“Dado una red de Hopfield con neuronas y con conexiones , siendo

una matriz simétrica y con ceros en la diagonal, la función energía asociada a dicha

red viene dada por la siguiente ecuación”, en el primero sale la ecuación con signo

positivo

∑∑ ∑

(48)

La energía expresada en la ecuación anterior está limitada desde abajo, desde el

son limitados desde abajo y el y son constante. En segundo lugar es

siempre negativo (cuando cambia según las dos primeras ecuaciones nombradas

en Hopfield), por lo que la función es monótona decreciente respecto a los estado

de la red (ver ecuación de abajo). “De este modo, el punto estable de la red de

Hopfield se corresponde con un mínimo local de la función energía. De hecho, la

manera de modificar los estados de la red en la fase de recuperación (dos primeras

ecuaciones) no es más que el resultado de aplicar el método de descenso del

38

gradiente para encontrar un mínimo local de la función energía dada por la ecuación

anterior”.

(∑

)

(49)

Al igual que con la ecuación anterior a esta en el libro sale con signo negativo .

“Debido a que un mínimo local de la función energía se corresponde con un punto

estable de la red de Hopfield, todo problema de optimización que pueda escribirse en

términos de la función energía puede ser, en principio, resuelto con la red de Hopfield

asociada a dicha función”.

39

ANEXO N° 11

COGNITRÓN15

A. Funcionamiento del Cognitrón

1. Neuronas excitables

La salida de una neurona está dada por:

Sean la salida de una neurona excitatoria en la capa previa y sea la salida de

una neurona inhibidora de la capa previa. Definimos la salida de componentes de la

neurona excitatoria -esima como:

∑

∑

(50)

donde y son los pesos respectivos, los que son ajustados cuando la neurona

correspondiente es más activa que sus vecinos. La salida total de la neurona anterior

está dado por:

(51)

donde

{

(52)

de ahí que, para un pequeño

15

(Graupe, 2007)

40

(53)

Sin embargo, para y muy grandes, se tiene

(54)

Incluso más, si ambos y se incrementan linealmente con algún concreto:

(55)

Siendo y constantes, entonces:

[ (

)]

(56)

Que tiene la forma de la ley de Weber-Fechner que aproxima la respuesta de

neuronas sensoriales biológicas.

2. Neuronas inhibidoras

La salida de una neurona inhibidora está dada por:

∑

donde

∑

(57)

Siendo la salida de una célula excitable. Los pesos son previamente elegidos y

no se modifican durante el entrenamiento de la red.

41

3. Entrenamiento del Cognitrón

Los pesos de la neurona excitatoria en una estructura de Cognitrón de dos capas

son iterados por como se ve en la siguiente ecuación:

(58)

Lo anterior es cierto sólo si la neurona es la célula ganadora de la región, donde

es el peso de la entrada excitatoria a la menciona neurona excitatoria, y es el

peso de la neurona inhibitoria de esta capa, y donde representa el coeficiente de la

tasa de aprendizaje –previamente definida-.

A continuación se presenta la Figura N°A11-1, en la cual se muestra el esquema de

red Cognitrón.

Figura A11-1: Esquema de red Cognitron, una región de competición con dos neuronas en cada capa. Fuente: “Principles of Artificial Neural Networks”.

inhibitoria inhibitoria

Excitatoria (j)

excitatoria(k)

excitatoria(h)

Excitatoria (i)

j

k

i

h

LI

LI

yj

aji

cj

ck

aki

v

bi

yi

gi

gh

yh

𝜆

𝜆

𝜙𝑖

𝜙ℎ

Capa I [L1] Capa II [L2]

42

ANEXO N° 12

MAPAS AUTO-ORGANIZADOS Y CRECIENTES16

A. Mapas Auto-Organizados de Kohonen

1. Mecanismo de control lateral

Un gran número de científicos tiene el convencimiento que los mejores resultados de

las auto-organizadas son obtenidas sí los dos siguientes procesos parciales son

implementados en sus formas puras:

1. Decodificado de , denotado por (“ganador”) que tiene la mejor

combinación con .

2. La mejora de adaptación de la combinación en el vecindario del centro de las

neuronas alrededor del “ganador”.

La operación anterior es conocida como la función ganador toma todo17 (GTT).

Tradicionalmente, la función GTT ha sido implementada en redes neuronales por

circuitos laterales-retroalimentados. El siguiente tipo de control del vecindario, sin

embargo, como se presenta en Kohonen, representa una nueva dirección en el

modelamiento neuronal: El “ganador” modula la sinapsis plástica directamente en la

dirección lateral. Por consiguiente, para el modelamiento del proceso fisiológico de la

MAO necesitamos definir dos separadas interacciones de núcleos18:

La activación del núcleo, usualmente llamado función del “Sombrero

Mexicano” y que se muestra en la Figura N°A12-1.

16

(Kohonen, 2001) (Marsland, Shapiro, & Nehmzow, 2002) 17

En inglés Winner Takes All (WTA). 18

En inglés Kernels.

43

La plasticidad del control del núcleo el cual define como la actividad local

determina la tasa de aprendizaje en su vecindario.

Figura A12-1: Función del Sombrero Mexicano. Fuente: “Self Organizing Maps”.

2. Función GTT, basada en control de actividad lateral

Considere la Figura N°A12-2 siguiente, donde la red neuronal tiene dos capas y en

donde cada neurona principal recibe entradas de alguna fuente externa, y las

neuronas son interconectados por la abundante retroalimentación lateral.

Figura A12-2: Modelo simplificado de una red neuronal distribuida. Fuente: “Self Organizing Maps”.

44

La actividad de salida (picos de frecuencia) de cada neurona en la red es descrita

por la ley de la forma general:

(59)

donde , es el efecto combinado de todas las entradas, por ejemplo, entradas

aferentes así como retroalimentaciones laterales, en la neurona incrustado en la

capa de la red. describe todas los efectos de pérdidas o escapes que se

oponen a . Este es una forma abreviada de escribir: Desde , sólo se mantiene

cuando , o cuando y , mientras que lo contrario es

.

Para la neurona principal la entrada consiste de dos partes e

,

respectivamente:

, donde el superíndice significa entrada “externa” o

aferente, y la retroalimentación lateral, respectivamente. En el caso más simple

estos términos se leen:

∑

∑

(60)

Aquí supone el vector de datos de entrada aferente, mientras

que es redefinido para ser el correspondiente vector de

pesos sinápticos de la neurona . El describe la eficaz fuerza de las

conexiones laterales de las neuronas. Para simplificar, este supone que es

independiente de , y , son mutuamente iguales.

Todo esto se parte con no negativos arbitrarios, con diferentes valores iniciales

y con , la salida de la neurona para la que es el máximo (“ganador”)

puede ser mostrada para converger a un valor alto asintótico, mientras que el otro

, tiende a cero. Esta convergencia es muy robusta.

45

El circuito GTT puede operar en ciclos, donde cada ciclo puede ser pensado para

corresponder a una fase discreta de tiempo del algoritmo MAO. Normalmente, la

entrada sería cargada en cada nuevo ciclo; sin embargo, si la entrada es fijada por

un largo tiempo, el próximo ciclo selecciona al “subcampeón”, después que el

ganador es elegido de nuevo, entre otras.

Este ejemplo de ciclo de operación de la GTT es ilustrado en la Figura N°A12-3

siguiente:

Figura A12-3: Demostración de la función GTT. Fuente: “Self Organizing Maps”.

Las primeras entradas fueron aplicadas en el tiempo cero. Las nuevas entradas

fueron aplicadas como indica las flechas punteadas. La red consiste de 20 neuronas,

y las entradas

fueron seleccionadas como números al azar del intervalo

(0,1). Los eran iguales a 0,5 y el , , igual a -2,0, respectivamente. La

función pérdida tenía la forma

; otra simple ley que puede ser usada.

Los parámetros de retroalimentación fueron . La operación de la

red es la siguiente: El primer “ganador” es la neurona que recibe la mayor entrada; su

46

primera respuesta se estabilizara a un valor alto, mientras las otras salidas tienden a

cero. Cuando la actividad del “ganador” es temporalmente deprimida por la dinámica

de la retroalimentación, las otras neuronas continúan compitiendo.

Hay que destacar que cuando se está compitiendo ”todas las neuronas trataran de

impedir que las demás tengan un valor de activación alto, gracias a las conexiones

inhibitorias con todas sus vecinas; a la vez que intentaran tener ellas mismas un

valor de activación alto, gracias a las conexiones reflexivas excitatorias”. Todo esto

ocurre en la segunda capa que es la de competición.

El algoritmo que describe el funcionamiento de la red es el siguiente:

1. Se recibe el estímulo en la capa de entrada.

2. Se propaga la señala hasta la capa de competición y se calcula el valor de

excitación para cada neurona de la capa de competición.

3. Se inhiben las conexiones entre la capa de entrada y la capa de competición.

Se propaga la señal por la capa de competición, calculándose los nuevos

valores de excitación de las neuronas. Cuando sólo haya una neurona

(neurona ganadora) con un valor de salida mayor que cero, ir a paso 5.

4. Ir a paso 3.

5. Restablecer las conexiones entre las capas de entrada y competición. Calcular

los nuevos valores para los pesos de las conexiones entre las capa de entrada

y la neurona ganadora en el paso 3.

3. Selección Automática de dimensiones características

En los procesos de auto-organización existen dos tendencias opositoras. La primera

es que el conjunto de los vectores de pesos tiende a describir la función densidad de

los vectores de entrada. Y la segunda, es que las interacciones locales entre las

unidades de procesamiento tienden a preservar la continuidad en la doble secuencia

de vectores de pesos (dos dimensiones). El resultado de estas fuerzas opositoras es

que la distribución del vector referencia, tiende a aproximarse a una hipersuperficie

47

suavizada. También busca una óptima orientación y una forma en el espacio de

patrones que mejor imite la estructura general de la densidad del vector de entrada

(Kohonen, 2001).

Un detalle muy importante sobre la distribución del vector de referencia es que este

automáticamente tiende a encontrar esas dos dimensiones del espacio de patrones,

donde los vectores de entrada tienen una alta varianza y que, en consecuencia,

debería ser descrita en el mapa.

Para expresar de mejor forma de que se trata todo esto, se dará un ejemplo.

Primero, supongamos que el sistema consiste de sólo cinco neuronas conectadas

como un arreglo lineal abierto-cerrado. Sus vectores de referencia

y los componentes de los vectores de entrada . La varianza

de y son ahora seleccionados diferentemente, siempre y cuando una de las

varianzas sea significativamente alta, los vectores pesos forman una casi línea recta

que está alineada en la dirección de la mayor varianza.

Por otro lado, si la varianza es casi igual, o si el largo del arreglo es mucho mayor

que el rango de interacción lateral, la forma recta de la distribución es cambiado en

una “curva peano”. La transición de línea recta a línea curva es bastante fuerte. Aquí

las varianzas son arregladas pero el largo del arreglo es variado.

Otra cosa a tener en cuenta que puede suceder cuando los vectores de entrada

tienen una alta dimensionalidad es la topología de la red. Siempre y cuando la

varianza en la tercera dimensión ( ) sea lo suficientemente pequeña, el mapa se

mantendrá recta. Sin embargo, con el aumento de la varianza y el corto rango de

interacción lateral, el mapa tiende a convertirse en corrugado, y en esta conexión

debería notar las “rayas de cebra” que han sido encontrados en los mapas del

cerebro experimental. Aquí las rayas tienen una muy simple y natural explicación,

concretamente, ellos ocurren siempre que un mapa bidimensional intente

aproximarse a una distribución de señales de alta dimensionalidad que tiene una

importante variancia más que en el de dos dimensiones.

48

B. Método de Aprendizaje Vector de Cuantización

1. AVC1

Suponer que varios de los vectores códigos son asignados a cada clase de los

valores de , y ; es entonces determinada a pertenecer a la misma clase que el más

cercano pertenece. Sea;

‖ ‖ (61)

donde se define el índice del más cercano a .

Notar que , el índice del “ganador”, depende en y todos los . Si es una

variable vectorial de valor continuo, estocástico y natural, no necesitamos considerar

múltiples mínimos; la probabilidad para:

‖ ‖ ‖ ‖ (62)

Sea una muestra de entrada y sea lo que representa valores secuenciales

del en el dominio de tiempos discreto, los valores para en la

ecuación anterior, minimiza aproximadamente la tasa de errores de clasificación que

son encontrados como valores asintóticos en los siguientes procesos de aprendizaje.

Empieza con valores iniciales correctamente definidos, la siguiente ecuación define

el proceso básico Aprendizaje de Vector de Cuantización; este particular algoritmo es

llamado AVC1.

(63)

Aquí , y que es la tasa de aprendizaje.

49

2. AVC2

La decisión de clasificación en este algoritmo es idéntica con la del AVC1. En el

aprendizaje, sin embargo, dos vectores códigos y que son los vecinos más

cercanos a son actualizados simultáneamente. Uno de ellos debe pertenecer a la

clase correcta y el otro a una clase errónea, respectivamente. Además, debe caer

en una zona de valores denominado “ventana” que es definido en todo el plano

medio de y . Suponiendo que y son distancia Euclidianas de de y ,

respectivamente; entonces es definido a caer en una “ventana” de ancho relativo

sí:

(

)

(64)

Un ancho relativo de ventana de 0,2 a 0,3 es recomendado. La versión de AVC2

llamado AVC2.1, se muestra a continuación y es una mejora del original algoritmo

AVC2 para , mientras que en el original AVC2 tenía que ser el más cercano.

El algoritmo AVC2.1 es el siguiente:

[ ]

(65)

Donde y son los dos vectores códigos más cercano a , a través del cual y

pertenecen a la misma clase, mientras y pertenecen a diferentes clases,

respectivamente. Además debe caer en la ventana.

3. AVC3

El algoritmo AVC2 fue basado en la idea de cambiar diferencialmente los bordes de

decisión hacia los limites Bayesianos, no se prestaba atención que podría suceder a

la ubicación de la en el largo plazo si este proceso continuaba. Por lo tanto parece

50

necesario introducir correcciones que aseguren que el continua la aproximación

de las distribuciones de clase. O más exactamente, la de AVC1, por lo menos

aproximadamente. Combinando las ideas antes mencionada, podemos obtener una

mejora del algoritmo de decisión óptima que puede ser llamado AVC3:

[ ]

(66)

Donde y son los dos más cercanos vectores códigos a , a través del cual y

pertenecen a la misma clase, mientras y pertenecen a diferentes clases,

respectivamente; además debe caer en la “Ventana”.

(67)

Para , si , , y pertenecen a la misma clase.

En una serie de experimentos, valores aplicables de entre 0,1 y 0,5 fueron

encontrados, que se relacionan a o . El valor óptimo de parece depender

en el tamaño de la ventana, siendo más pequeña para ventanas angostas. Este

algoritmo parece ser auto-estabilizante, por ejemplo, el posicionamiento óptimo de

no cambia en el aprendizaje continuo.

4. La Tasa de Aprendizaje Optimizado del AVC1 (AVCO1)

El algoritmo AVC1 básico ahora será modificado de tal manera que un factor de tasa

de aprendizaje individual es asignado a cada , a través del cual obtenemos el

siguiente proceso de aprendizaje. Sea definido en este punto entonces asumimos

que:

(68)

51

El problema es si el puede ser determinado óptimamente, para una más rápida

convergencia de las ecuaciones antes dichas. Expresamos a la ecuación anterior en

la siguiente forma:

(69)

donde si la clasificación es correcta, y si la clasificación es

errónea. Puede ser obvio que la exactitud estadística de los valores aprendido por

los vectores código es aproximadamente óptima si todas las muestras han sido

usados con igual peso, es decir, si los efectos de la corrección hecha en diferentes

tiempos, cuando se hace referencia a el fin del período de aprendizaje, son de

aproximadamente de igual magnitud. Cabe señalar que contiene un traza

de a través del último término en la ecuación anterior, y las trazas de la

anteriores , a través de . En un paso del aprendizaje, la

magnitud de la última traza de es reducido por el factor , y, por ejemplo,

durante el mismo paso la traza de ha llegado a ser reducido por

. Ahora, lo primero que se estipula es que estas dos escalas

deben ser idénticas:

(70)

Si esta condición es hecha para mantener a todos los , por inducción este puede

demostrar que la traza recopilada hasta el tiempo de todas las anteriores será

reducida por una cantidad igual al final, y además el valor óptimo de es

determinado por la recursión.

(71)

52

5. Consideraciones Generales

En el algoritmo AVC, el vector de cuantización no es usado para aproximar las

funciones densidad de la clase de muestra, sino que define directamente los bordes

de clase de acuerdo a la regla de vecino más cercano. La exactitud alcanzable en

cualquier tarea de clasificación para cual los algoritmos AVC son aplicados y el

tiempo necesario para el aprendizaje depende de los siguientes factores:

Un número aproximadamente óptimo de vectores códigos asignados a cada

clase y sus valores iniciales.

El algoritmo detallado, una apropiada tasa de aprendizaje aplicada durante los

pasos, y un apropiado criterio para la detención del aprendizaje.

6. Inicialización de los Vectores Códigos

Desde los bordes de clase, son representados por tramos linealmente por segmentos

de planos medios entre vectores códigos de clases vecinas (un subconjunto de

bordes del Mosaico de Voronoi). Esto puede parecer ser una apropiada estrategia

para una aproximación óptima de los bordes, que la distancia promedio entre los

vectores códigos adyacentes (que depende de sus números por clase) debería ser la

misma en ambos lados de los bordes. Entonces, al menos si las distribuciones de

clases son simétricas, esto significa que el promedio de las distancias más cortas de

los vectores códigos (o alternativamente, las medianas de las distancias más cortas)

debería ser la misma en todos lados en todas las clases. Porque, debido a formas

desconocidas de las distribuciones de clase, la ubicación final de los vectores

códigos no es conocida hasta el fin del proceso de aprendizaje, sus distancias y

además sus números óptimos no pueden ser determinados antes de eso. Este tipo

de asignación de los vectores códigos para las varias clases debe por lo tanto ser

hecho iteradamente.

En muchas aplicaciones prácticas tales como reconocimiento del habla, incluso

cuando la probabilidad a priori de las muestras cae en diferentes clases son muy

53

diferentes, una muy buena estrategia es así para empezar con el mismo número de

vectores códigos en cada clase. Un límite superior para el total de números de

vectores código se establece por el tiempo de reconocimiento restringido y potencia

de cálculo disponible.

Para una buena aproximación lineal de los bordes, las medianas de las distancias

más cortas entre los vectores código también podrían ser seleccionadas un poco

más pequeñas que las desviaciones estándar de la muestra de entrada en todas las

clases respectivas. Se puede utilizar este criterio para determinar el número mínimo

de vectores código por clase.

Una vez que los números tentativos de los vectores códigos para cada clase han

sido establecidos para sus valores iniciales, se pueden utilizar las primeras muestras

de datos reales de entrenamiento obtenidos desde las clases respectivas. Puesto

que los vectores códigos deberían siempre permanecer dentro de los dominios de su

clase respectiva, también para los valores iniciales mencionados anteriormente sólo

puede aceptar muestras que no están mal clasificados. En otras palabras, una

muestra es primero clasificada tentativamente en contra de todas las otras muestras

en el conjunto de entrenamiento, por ejemplo por el método de la vecino más

cercano K19, y aceptada para un posible valor inicial sólo si esta clasificación

tentativa es la misma que el identificador de clase de la muestra.

7. Inicialización del MAO

Si la distribución de clase tiene varios picos, este puede ser difícil de distribuir los

valores iniciales de los vectores códigos de todos los modos. Después que las

unidades de mapa son etiquetadas según los símbolos de clase mediante la

aplicación de muestras de entrenamiento una vez más, toma sus etiquetas en

cuentas como en la calibración del MAO.

19

En inglés K-Nearest Neighbour (KNN).

54

La etiqueta del MAO es entonces ajustado por los algoritmos AVC para aproximarse

a la precisión de la clasificación Bayesiana.

8. Aprendizaje

Se recomienda que el aprendizaje siempre sea comenzado con el algoritmo AVC1

optimizado (AVCO1), que converge muy rápido; su exactitud de reconocimiento

asintótico será lograda después de un número de pasos de aprendizaje que es

alrededor de 30 a 50 veces el total de números de vectores código. Después de esta

primera fase, otros algoritmos pueden continuar con este proceso desde los valores

de vectores códigos obtenidos.

A menudo la fase de aprendizaje del AVCO1 sola puede ser suficiente para

aplicaciones prácticas, especialmente si el tiempo de aprendizaje es crítico. Sin

embargo, en un intento de mejorar la precisión de reconocimiento, se puede

continuar con alguno de los algoritmos básicos (AVC1, el AVC2.1, o el AVC3),

usando un valor inicial bajo en la tasa de aprendizaje, que es el mismo para todas las

clases.

9. Regla de Detención

A menudo sucede que los algoritmos de las redes neuronales “sobre aprenden”, por

ejemplo, si se alternan las fases de aprendizaje y testeo, la exactitud de

reconocimiento mejora hasta que se alcanza un óptimo. Después de eso, cuando el

aprendizaje es continuado, la exactitud empieza a decrecer lentamente. Una posible

explicación de este efecto, es que cuando los vectores códigos están muy

específicamente sintonizados para el dato de entrenamiento, la habilidad del

algoritmo para generalizar nuevos datos es afectada. Es, por lo tanto, necesario

parar el proceso de aprendizaje después de algún número óptimo de pasos, es decir,

unas 50 a 200 veces del número total de vectores códigos. Tal regla de detención

sólo puede ser encontrada por la experiencia, y porlos dato de entrada.

55

Cabe recordar que el algoritmo AVCO1 puede generalmente ser parado después de

un número de pasos que es de 30 a 50 veces el número de vectores códigos.

C. Teoría del MAO Básica

1. Ordenar con Dato Discreto

En un caso especial, el promedio esperado de la medida de distorsión puede ser una

función potencial, incluso en un caso de alta dimensión. Concretamente, cuando la

entrada puede sólo tomar unos valores de un conjunto discreto finito. En este caso,

no hay muestras en los bordes del mosaico Voronoi, a través del cual los conjuntos

de Voronoi de muestras no son modificados debido al cambio de los bordes en

diferenciación con respecto al . Este hecho se hizo posible por Ritter, que recurrió

al método de la gradiente descendiente para probar la convergencia en este caso

especial, y entonces se aplica el método para el problema de Vendedor viajero20,

donde la Función Densidad de Probabilidad de entrada es de valor discreto.

2. En la definición del orden

El concepto de orden es trivial en el caso de una dimensión; con lo cual, este es

también posible para definir una función objetivo para ello. Suponer un conjunto de

números escalares Entonces:

∑| | | |

(72)

Es mínimo (cero) sí y solo sí el son numéricamente ordenados en una secuencia

ascendente o descendente. Tal orden puede ser logrado en un proceso auto

organizado, en que la entrada es de una dimensión, y el corresponde a un

20

Este problema consiste en realizar un recorrido para un vendedor viajero, el cual debe visitar ciudades, y debe regresar a la ciudad de la cual partió, de forma que recorra la menor distancia posible.

56

escalar . De ese modo, los parámetros de la red escalar están asociados con un

arreglo lineal de nodos. El estado con es entonces un estado absorbente en el

sentido que una vez alcanzado, esta condición no es cambiada en el proceso de

aprendizaje de cualquier elección posterior a la entrada externa. En dimensiones

generales, sin embargo, especialmente si la dimensionalidad del vector de entrada

es más alta que la del arreglo de nodos con que los vectores de parámetros son

asociados, la existencia de un estado absorbente parece poco probable. En un

trabajo minucioso durante los últimos años, con muchas sugerencias para la función

objetivo , algunos contraejemplos han siempre sido encontrados, que contradicen la

existencia de un estado absorbente en el caso general.

También debe tenerse en cuenta que el orden resultante en el Mapa Auto

Organizado siempre refleja propiedades de la función densidad de probabilidad .

Por lo tanto, parece al menos por el momento, que el orden debiera ser definido en

términos de la condición de minimalidad de la media de una función de error

propiamente definida. Entonces, en casos especiales, por ejemplo cuando las

dimensionalidades del espacio de señal y el arreglo son iguales, un orden en los

valores de parámetros vectoriales que eventualmente cumple con los arreglos

geométricos de los nodos, es entonces sólo una condición necesaria para el mínimo

global del error funcional.

Sin embargo, sería deseable para relacionar el orden topológico del espacio de

entrada de dimensional arbitraria para las relaciones del vecindario en una cuadrícula

de baja dimensionalidad.

La definición de la calidad de un MAO debe entonces tomar en cuenta ambas: El

error promedio esperado de cuantización, así como también los errores topológicos,

por ejemplo, violación de las relaciones del vecindario en la cuadrícula.

57

3. Recapitulación de los intentos de ordenar y pruebas de convergencia

Para acercarse a estos problemas, las siguientes herramientas matemáticas están

disponibles.

Primero, se podría tratar de las pruebas constructivas. Esto significaría que los

valores generados por el algoritmo de MAO son enlistadas, y las posibles

transiciones entre ellas son analizados. Las pruebas constructivas arrojan

resultados deterministas, pero este método es sólo factible para bajas

dimensionalidades.

Segundo, se podría tratar de aplicar resultados conocidos de la teoría de

procesos de Markov, y el algoritmo de MAO define un proceso especial de

Markov. Los principales problemas son los no lineales (MAO es un proceso de

decisión), condiciones de limites estructurados en los bordes del arreglo, y en

el caso general, de dimensionalidad muy alta.

Tercero, algunas técnicas de computación desarrollada en la física estadística,

especialmente mecanismos estadísticos podrían ser utilizados.

Cuarto, la teoría de matemática de errores puede formar una base para

algunas versiones del MAO.

Quinto, resultados de la Teoría de Sistemas podrían aplicarse para algunos

problemas parciales, tales como pruebas de convergencia. Esto ha sido

mostrado, por ejemplo, que el algoritmo básico de MAO no es exactamente

derivable de una función energía. Notar que contiene el índice de la

ganadora, que es una función de y todos los . Una función energía sería

diferenciable con respecto al sólo dentro del poliendro de Voronoi, no en

los bordes del mosaico, que son cambiados cuando los son cambiados.

Sexto, el método de aproximación estocástica de Robbins y Monro, han sido

usadas para la descripción de un proceso auto organizados, y para la

definición genérica de una clase de los algoritmos de MAO. Existe una

generalización de aproximación estocástica llamada el algoritmo de Dvoretzky.

58

D. Crece Cuando se Requiere

1. Medidas de desempeño de la red

Notación

Una red A comprende N nodos y recibe muestras de entradas de múltiples datos

. Todos los nodos en A tienen un vector de peso sináptico . La

representación de M formado en A es definida por el mapeo , el

mapeo de M a A y sus inversas, están definidas por:

{

(73)

donde es la unidad de mapa con el vector de peso más cercano a . Una

matriz de conexión es definida en la red asignando no ceros a las entradas de la

matriz entre los nodos que están conectados en la red, es decir:

{

(74)

Medida de Preservación de vecindario.

La preservación de relaciones de vecindario (también conocidas como preservación

topológica) es una muy útil propiedad de las mapas auto-organizados y que ha

atraído un gran interés.

En términos generales, un mapeo preserva las relaciones de vecindario si puntos

cercanos en el espacio de entrada permanecen cerca en el espacio del mapa. Este

ha sido formalizado por Thomas Martinetz, a través de la definición del mapa de la

topología perfectamente preservada. Un mapeo entre múltiples entradas y la red

preserva perfectamente la topología, sí y sólo sí, conectados los nodos , que están

adyacentes en tienen vectores de peso , adyacentes en .

59

En general, una red puede sólo realizar un mapeo perfecto de preservación de la

topología, si la dimensionalidad del espacio de mapa refleja la dimensionalidad (o al

menos, la dimensionalidad intrínseca) del espacio de entrada. Esto se ve demostrado

en la Figura N°23. En la parte de abajo de la figura, tres diferentes múltiples formas

cuadradas son mostradas. Sólo en la figura (b), donde la dimensionalidad del

espacio de mapa y el espacio de entrada son las mismas, donde un mapa con la

topología perfectamente preservada es generado entre y . Por esta razón, para

que una red preserve perfectamente la topología es necesario que la red evolucione

para reflejar la dimensionalidad del conjunto de datos, o tiene este ajuste de la

dimensionalidad.

Figura A12-4: Redes A de tres diferentes dimensionalidades. Fuente: “A self-organising network that grows when required”.

La pregunta de cómo la preservación de la topología puede ser medida ha recibido

mucha atención. Varios autores han descrito formas de cuantificar la preservación de

vecindario. Este puede ser dividido en dos categorías: medidas de similitud y

medidas de ordenamiento de similitud. En la primera clase son las medidas que

evalúan la similitud de pares de puntos antes y después del mapeo de vecindario, y

requiere que las dos medidas de similitud sean al menos correlacionadas, mientras

que en la segunda clase sólo se requiere que el ordenamiento relativo de las

60

similitudes sea preservada. Una útil reseña es dada por Geoffrey Goodhill y Terrance

Sejnowski (1997). Dos interesantes medidas son la medida C, que requiere que las

medidas de similitud simétrica sean definidas, ambas formas entre el espacio de

entrada y el espacio de mapa , por lo general como las distancias Euclidianas, y

el producto topográfico , que evalúa la preservación del vecindario mediante el

cálculo de la distancia entre vecinos en el espacio del mapa y el espacio de entrada.

Sin embargo, la más útil medida que ha sido propuesta, porque puede tratar con

múltiples datos no lineales, es la función topográfica.

Función Topográfica

El producto topográfico es limitado a los múltiples datos lineales, como las relaciones

de vecindario son medidas usando la métrica Euclidianas dentro del espacio de

incrustación de los vectores peso. Una forma de evitar este problema es propuesto

por la función topográfica, que evalúa la preservación de la topología del mapeo del

MAO toma la estructura de los múltiples datos en cuenta usando la triangulación

Delaunay inducida en el por el mapeo. La preservación del vecindario de los mapeos

y son denotadas por y , respectivamente, con siendo el

índice del nodo en el mapa y . La función topográfica de mapa

es entonces definido por:

{

∑

∑

(75)

sí y sólo sí el mapa preserva perfectamente la topología.

La pregunta es entonces, cómo calcular las funciones de preservación de vecindario

y . La aproximación básica es el uso de la triangulación Delaunay

61

inducida, que es, el gráfico de puntos de conexión con los adyacentes poliedros de

Voronoi. En la forma dada por Thomas Martinetz y Klaus Schulten la función

topográfica es sólo específica para entramados rectangulares. Esto significa que

ellos no son aplicables para la red CCR y otras redes donde la estructura de la red

no está de esta forma. Para la función topográfica el problema es en la medición de

y . Una descripción de cómo estas mediciones pueden ser hechas de

forma más general es dada por Thomas Villmann (1997).

La estructura de es definida por el gráfico de conectividad que es generado por

la regla Hebbiana de competitividad. Una topología discreta puede ser inducida en

este espacio usando la gráfica de métricas en , donde es con el nodo

toma como la raíz. Una segunda topología discreta puede ser inducida en

considerando el grafico de métrica del grafico Delaunay, , de nuevo con el nodo

toma como la raíz. Estas dos topologías son referidas como y

,

respectivamente.

Una topología de vecindario también necesita ser inducida en múltiples datos , o al

menos que el subconjunto de este | . Mediante la generación el

diagrama de Voronoi de usando y la construcción del gráfico de doble

Delaunay de este , la topología (etiquetado ) es inducido.

Así que, tres espacio topológicos discretos han sido creados, dos en

y , y uno en , ( , ). El mapa puede entonces

ser definidos como la preservación de la topología si el mapa y son

ambos mapeos continuos para todo los nodos , en sus respectivos espacios

topológicos.

( )

( )

(76)

62

Usando estas relaciones, formas generales para (que mide la continuidad y por

consiguiente la preservación de vecindario de ) y (que es lo mismo para

) puede ser derivado, y son dadas a continuación:

{ |

}

{ |

}

(77)

donde es la cardinalidad del conjunto, y es la

métrica de la distancia sobre la base de cada una de las topologías. Estas

mediciones pueden ser entonces usadas en la ecuación (98) y la preservación

de la topología del mapeo aprendido por la red CCR medida.

Evaluar la función topográfica es una tarea computacionalmente costosa. Como la

triangulación Delaunay tiene que ser calculada, entonces el gráfico de conexiones

entre los puntos de datos tiene que ser creada y buscado.

2. Más Mediciones de Rendimiento

A continuación se señalan dos medidas de costos complementarios, las cuales

tienen como objetivo evaluar del mapeo entre el espacio de entrada y espacio del

mapa generado por el algoritmo. Cualquier número de medidas de costo que evalúa

las propiedades deseadas pueden ser generadas, estos particulares fueron elegidos

por su simplicidad.

Las dos medidas representan una compensación entre una red compleja con

muchos nodos que representan a todas las posibles entradas con gran precisión y de

una red eficiente y bien generalizada.

63

La red debería ser tan parsimoniosa como sea posible, significa que la longitud de

los bordes debería ser corta y el número de nodos pequeños, pero igualmente la red

de nodos modelara los datos de manera mucho más precisa, así que la distancia

entre una entrada del nodo que mejor representan a este debería ser pequeño. Las

medidas de costos evalúan cada uno de estos objetivos separadamente. La primera

medida, , dada en la ecuación (78) penaliza a la red por las conexiones de

vecindarios entre los nodos que son ubicados muy separados en el gráfico:

∑∑

(78)

donde la suma es sobre todo los nodos de la red, y es la matriz de conexión

definida anteriormente en la ecuación (97). ‖ ‖ , la distancia

Euclediana. La segunda medida, , es dada por la ecuación (102), muestra cómo

los objetivos de la red para minimizar la distancia entre cada punto de dato y el

nodo que mejor representa a este, :

∑∑

(79)

donde la primera suma es sobre cada elemento del conjunto de datos, y

( )

( )

(80)

En el límite , esto se reduce a el ganador se lleva todo21. Con esta

implementación del ganador se lleva todo, la medida sería optimizada por el

algoritmo de agrupamiento -medias.

21

Winner Takes All.

64

La medida sería minimizada si la red no tuviera ninguna conexión en absoluto,

mientras sería minimizado si hubiera un nodo para todos los patrones de entrada.

Es en la minimización simultánea de las dos medidas que un buen mapeo es

producido. Como el número de nodos en la red es variable y el patrón de

conectividad es sin restricciones, es difícil, si no imposible, encontrar criterios de las

que no pueden ser trivialmente optimizados (eso es, una red con un nodo en todas

las entradas y sin conexiones entre los nodos) para el crecimiento de las redes. En

ausencia de un modelo de probabilidad, alguna heurística es requerida para evitar

esta solución trivial.

65

ANEXO N°13

DIAGRAMAS DE DISPERSIÓN

A. VARIABLES SIN TRATAMIENTO

Se realiza en esta sección el estudio de las relaciones lineales entre las distintas

variables, para lo cual se utiliza el diagrama de dispersión para ver si existía o no

una relación lineal, esto fue realizado para cada una de las parejas de variables

posibles. A continuación se expondrá cada uno de los gráficos (Figura N°A13-1 a

la Figura N°A13-4), junto con su coeficiente de determinación.

En el gráfico de la Figura N° A13-1 se aprecia que la dispersión de los puntos está

concentrada entre 0 y 200, pero de forma dispersa (correlación muy débil);

además se puede apreciar que tiende a ser negativa la poca correlación que

existe, ya que la cantidad de reservas disminuye cuando el valor del dólar sube.

Los puntos que están muy separados corresponden a aquellos casos atípicos, por

ejemplo, cuando la cantidad de reservas es alta aun cuando el valor del dólar es

alto.

66

Figura A13-1: Diagramas de Dispersión para las variables Cantidad de Reservas-Dólar Observado. Fuente: “Elaboración propia”.

Figura A13-2: Diagramas de Dispersión para las variables N° Pasajeros-Dólar Observado. Fuente: “Elaboración propia”.

El gráfico de la Figura N° A13-1 es muy parecido a la de la Figura N° A13-2, tiene

una correlación muy débil y negativa, esto debido a que a un mayor valor del dólar

67

habrá menor cantidad de pasajeros. Existen valores atípicos, pero la mayoría de

los puntos están entre un rango de 0 - 400 pasajeros y entre 450 - 550 dólares, lo

que muestra cierta tendencia.

Figura A13-3: Diagramas de Dispersión para las variables Cantidad de Reservas-Fecha de Reserva. Fuente: “Elaboración propia”.

El gráfico de la Figura N° A13-3 muestra una correlación muy débil ( ), con una

tendencia positiva, esto debido a que en esas fechas la economía (por lo menos

en el dólar como se mostró antes), era más favorable para el aumento de la

cantidad de las reservas.

68

Figura A13-4: Diagramas de Dispersión para las variables N° Pasajeros-Fecha de Reserva. Fuente: “Elaboración propia”.

El gráfico de la Figura N° A13-4 tiene, al igual que la mayoría de los gráficos, una

correlación muy débil (casi inexistente), con una tendencia positiva. Como en los

demás casos, tiene valores atípicos que escapan de lo común. Esto es parecido al

anterior, debido a la situación económica (baja del dólar entre otros factores) que

favoreció al incremento del número de pasajeros.

En resumen, al analizar cada uno de los gráficos antes descritos, se concluye que

el gráfico de Cantidad de Reservas-N° Pasajeros tiene una relación lineal, ya que

al observar el gráfico y su respectivo coeficiente de determinación (R2=0,955) se

aprecia la relación lineal entre las dos variables de esta. Con respecto a las demás

se concluye que tanto Cantidad de Reservas-Fecha de Reserva, N° Pasajeros-

Fecha de Reserva, N° Pasajeros-Dólar Observado y Cantidad de Reservas-Dólar

Observado no tienen una relación lineal, o sea, tienen una independencia lineal,

todo esto respaldado por los R2 que van entre 0,06 al 0,08. se encuentra por

debajo del límite aceptable, por ende, se consideró a esta como

independientemente lineal.

69

B. VARIABLES NORMALIZADAS

El próximo paso fue el estudio de la relación lineal entre las variables, que al igual

que en el punto anterior, se hizo con el Diagrama de Dispersión y con el

Coeficiente de Determinación para ver si tenían o no este tipo de relación entre

ellas. Como se observa en los gráficos siguientes, se mantiene la única relación

lineal que es entre Cantidad de Reservas - N° Pasajeros que tiene además un R2

de 0,977, las demás parejas de variables son todas independientemente lineales,

debido a que no forman una relación lineal visible en el gráfico y porque también

sus R2 están entre 0,05 a 0,07, y a su vez Dólar observado - Fecha de Reserva

tampoco logra tener una relación lineal y se ve reflejado en su R2 que es de

0,513; con lo cual se confirma que estas variables normalizadas se mantienen de

forma muy parecida a las originales (ver Figura N°A13-5 a la Figura N°A13-8).

Figura A13-5: Diagramas de Dispersión para las variables normalizadas Cantidad de Reservas-Fecha de Reserva. Fuente: “Elaboración propia”.

En el gráfico de la Figura N° A13-5 se puede observar que hay una baja

correlación ( ), donde sus puntos están muy dispersos sin una aparente

tendencia, la cual sólo puede ser apreciada gracias a la línea de tendencia

proyectada, y que muestra que es una correlación positiva, como lo era en el caso

sin normalizar, debido a los factores explicados anteriormente. También cabe decir

70

que, al normalizar se produce un cambio en la escala y en la forma en que los

puntos se distribuyen dentro del gráfico.

El gráfico de la Figura N° A13-6 muestra una concentración de los puntos en un

determinado sector del diagrama (casi en el centro de éste). Al igual que con sus

variables sin normalizar, se ve una correlación muy débil y negativa, lo que

reafirma lo anterior.

Figura A13-6: Diagramas de Dispersión para las variables normalizadas Cantidad de Reservas-Dólar Observado. Fuente: “Elaboración propia”.

71

Figura A13-7: Diagramas de Dispersión para las variables normalizadas N° Pasajeros-Dólar Observado. Fuente: “Elaboración propia”.

El gráfico de la Figura N° A13-7 es muy parecido al anterior, ya que se concentran

los puntos en un sector en particular del diagrama (central), además tiene varios

valores lejanos a la línea de tendencia, por último se aprecia la misma tendencia

que las variables sin normalizar.

Figura A13-8: Diagramas de Dispersión para las variables normalizadas N°Pasajeros-Fecha de Reserva. Fuente: “Elaboración propia”.

72

El gráfico de la Figura N° A13-8, al igual que con el primer gráfico, no muestra una

tendencia visible, revelando una concentración de los puntos en la parte final del

diagrama. Como en todos los caso se ratifica la tendencia que se manifiesta con

las variables sin normalizar.

No se efectuo para ninguno de los casos el análisis entre las variables Dólar-

Fecha de Reserva ya que es conocida la inexistencia de una relacion lineal entre

ambas.

73

ANEXO N°14

MÉTODOS TRADICIONALES

A continuación se encuentra el link para acceder al archivo Excel que contiene los

valores y cálculos utilizados al desarrollar los métodos tradicionales de pronóstico.

Anexo 14 Metodos tradicionales.xlsx22

ANEXO N°15

PERCEPTRÓN FINAL

El archivo que sigue a este párrafo contiene los resúmenes de los valores

pronosticados, así como las operaciones a las que se sometieron estos para la

arquitectura basada en Perceptrón Multicapa, además contiene un vocabulario de las

siglas utilizadas.

Anexo 15 Perceptron Final.xlsx23

ANEXO N°16

CRECE CUANDO SE REQUIERE FINAL

El archivo que sigue a continuación posee la información relativa a la arquitectura de

redes Crece Cuando se Requiere, los valores pronosticados, cálculos de errores, el

resumen de los resultados y un vocabulario donde se explican las siglas utilizadas.

Anexo 16 GWR Final.xlsx24

22

Enlace disponible sólo en la versión digital. 23


Enlace disponible en la versión digital.

Anexo%2014%20Metodos%20tradicionales.xlsx

Anexo%2015%20Perceptron%20Final.xlsx

Anexo%2016%20GWR%20Final.xlsx

74

ANEXO N°17

MAPAS AUTO-ORGANIZADOS FINAL

Se presenta el archivo Excel que muestra los distintos valores de pronóstico obtenido

por las redes MAO, los resúmenes de estos y un vocabulario donde se explican las

siglas utilizadas.

Anexo 17 SOM Final.xlsx25

ANEXO N°18

RECUENTO DE ITERACIONES

El proceso iterativo que se utilizó para realizar las tareas de entrenamiento,

validación, testeo de cada arquitectura y muestra, puede finalizar en cualquier

iteración una vez alcanzado su objetivo, debido a esto, los subconjuntos de datos

alcanzaron su meta en distintos puntos en esta labor. A continuación se presenta el

archivo que contiene el número de iteraciones en el cual finalizo el proceso, además

del cuadro explicativo de las siglas utilizadas.

Anexo 18 Iteraciones.xlsx26

25


Enlace disponible sólo en la versión digital.

Anexo%2017%20SOM%20Final.xlsx

Anexo%2018%20Iteraciones.xlsx

75

ANEXO N°19

ANÁLISIS DE LA PRIMERA MUESTRA USADA PARA LAS REDES

NEURONALES ARTIFICIALES

1. Perceptrón Multicapa con Entrada-Salida No-Lineal

Figura A19-1: Gráfico Demanda Real V/S Perceptrón Multicapa con Entrada-Salida no-lineal, con variable de entrada Dólar. Fuente: “Elaboración propia”.

Como se aprecia en la Figura N°A19-1, la red con la variable de entrada Dólar, no

fue capaz de seguir apropiadamente el comportamiento real de la demanda de

Reservas (esto sobre todo en valores más grandes), aún cuando esta técnica

permite ocupar variables no lineales. Esto queda reflejado con el promedio de error

que fue 38,87%, uno de los peores resultados obtenidos en este tipo de red, pero

que en comparación general, es mejor que los entregados por algunas de las

técnicas clásicas. Esto se debe a que la red al hacer los cálculos no-lineales no logro

obtener resultados apropiados que le permitieran realizar de forma adecuada la

cantidad de reservas (variable objetivo) a través del dólar (variable de entrada). Cabe

mencionar que para obtener este resultado se hicieron 306 iteraciones, donde la

cantidad de iteraciones viene dada por la cantidad de veces que encontró el

0

50

100

150

200

250

300

1 6

11

16

21

26

31

36

41

46

51

56

61

66

71

76

81

86

91

96

10

1

10

6

11

1

11

6

12

1

Demanda Real V/S Salida de Red

Cantidad de Reservas Dólar

76

coeficiente de correlación más alto, más la última tanda de iteraciones donde no se

encontró ningún coeficiente de correlación más alto que el último. Obteniéndose así

los siguientes resultados presentados en la Tabla N° A19-1:

306 Iteraciones


Porcentaje de Error

Promedio 0,259854705 0,5182818

Mínimo 0,131574099 0,3887153

Máximo 0,692290263 0,65844613

Tabla A19-1: Porcentaje de Error y Coeficiente de Correlación para Perceptrón Multicapa con

Entrada-Salida No-Lineal para la variable Dólar. Fuente: “Elaboración propia”.

Al contrario del caso anterior, la red fue capaz de dar un resultado mucho más

preciso, como se ve en la Figura N°A19-2 y que se ratifica con el porcentaje de error

7,77%. Este resultado se explica, porque la variable de entrada Número de

Pasajeros, es linealmente dependiente a la cantidad de reservas, lo que hace que se

pueda pronosticar de mejor manera esta variable objetivo. Aún cuando esta variable

no es la más indicada para demostrar la efectividad de la red por ser lineal, dejo claro

que el uso de ésta en la red permitió mejorar el resultado obtenido en la regresión

lineal, que de un 9,97%, paso a ser de un 7,77%, obteniéndose así una mejora de

2, 20% en comparación del mejor pronostico realizado por un modelo tradicional. Por

último mencionar que para obtener este resultado se hicieron 1645 iteraciones,

obteniéndose así los siguientes resultados que se aprecian en la Tabla N° A19-2:

1645 Iteraciones


Porcentaje de Error

Promedio 0,990880412 0,08737101

Mínimo 0,794004169 0,07768818

Máximo 0,993373423 0,10928247

Tabla A19-2: Porcentaje de Error y Coeficiente de Correlación para Perceptrón Multicapa con Entrada-Salida No-Lineal para la variable Número de Pasajeros. Fuente: “Elaboración propia”.

77

Figura A19-2: Gráfico Demanda Real V/S Perceptrón Multicapa con Entrada-Salida no-lineal, con variable de entrada Número de Pasajeros. Fuente: “Elaboración propia”.

Figura A19-3: Gráfico Demanda Real V/S Perceptrón Multicapa con Entrada-Salida no-lineal, con variable de entrada Fecha de Reserva. Fuente: “Elaboración propia”.

Esta red con la variable de entrada Fecha de Reservas obtuvo un 46,87% de error,

mostrando así una baja capacidad de pronóstico. Esto queda ratificado al ver la

Figura N° A19-3, en la cual se aprecia como la curva de pronóstico no es capaz de

0

50

100

150

200

250

300

1 6

11

16

21

26

31

36

41

46

51

56

61

66

71

76

81

86

91

96

10

1

10

6

11

1

11

6

12

1


Cantidad de Reservas Pax

0

50

100

150

200

250

300

1 6

11

16

21

26

31

36

41

46

51

56

61

66

71

76

81

86

91

96

10

1

10

6

11

1

11

6

12

1


Cantidad de Reservas Fecha

78

reflejar el comportamiento de la demanda real. Al igual que el primer caso esta

variable es linealmente independiente a la cantidad de reservas, con lo cual predecir

la variable objetivo se hace más difícil. Cabe destacar que aun cuando el porcentaje

de error es alto, supero a los métodos clásicos de suavizamiento exponencial y de

los promedios móviles, que teniendo una variable linealmente dependiente fueron

menos exactos que la red de Perceptrón Multicapa con variables linealmente

independientes. Finalmente mencionar que para obtener este resultado se hicieron

1874 iteraciones, obteniéndose así los siguientes resultados que se muestran en la

Tabla N° A19-3:

1874 Iteraciones


Porcentaje de Error

Promedio 0,424884061 0,49710859

Mínimo 0,246960652 0,47703502

Máximo 0,515295468 0,52935583

Tabla A19-3: Porcentaje de Error y Coeficiente de Correlación para Perceptrón Multicapa con Entrada-Salida No-Lineal para la variable Fecha de Reserva. Fuente: “Elaboración propia”.

Figura A19-4: Gráfico Demanda Real V/S Perceptrón Multicapa con Entrada-Salida no-lineal, con variables de entrada Fecha de Reserva y Dólar. Fuente: “Elaboración propia”.

0

50

100

150

200

250

300

1 6

11

16

21

26

31

36

41

46

51

56

61

66

71

76

81

86

91

96

10

1

10

6

11

1

11

6

12

1


Cantidad de Reservas Fecha, Dólar

79

Al igual que el primer ejemplo mostrado de esta red con la variante de entrada dólar,

la red no fue capaz de seguir el comportamiento de la demanda real, dando un

porcentaje de error del 32,80%, y el cual se puede a preciar de mejor forma al ver la

Figura N° A19-4; como se ve en esta, la curva de la demanda proyectada no logra

recrear las alzas de la demanda real. Cabe destacar, que la combinación de ambas

variables de entrada dan un mejor resultado que ambas, por si solas, obteniéndose

una mejora de un 6,07% con respecto al dólar y de un 14,07% con respecto a la

fecha de reserva. De todas maneras esta tiene una mejor aproximación que la

mayoría de los métodos tradicionales. Por último, mencionar que para obtener este

resultado se hicieron 2171 iteraciones, obteniéndose así los siguientes resultados

presentados en la Tabla N° A19-4:

2171 Iteraciones


Porcentaje de Error

Promedio 0,375455843 0,56196107

Mínimo 0,186197504 0,32803383

Máximo 0,777087643 8,27232469

Tabla A19-4. Porcentaje de Error y Coeficiente de Correlación para Perceptrón Multicapa con Entrada-Salida No-Lineal para las variables: Dólar y Fecha de Reserva. Fuente: “Elaboración propia”.

Figura A19-5: Gráfico Demanda Real V/S Perceptrón Multicapa con Entrada-Salida no-lineal, con variables de entrada Número de Pasajeros, Fecha de Reserva y Dólar. Fuente: “Elaboración propia”.

0

50

100

150

200

250

300

1 6

11

16

21

26

31

36

41

46

51

56

61

66

71

76

81

86

91

96

10

1

10

6

11

1

11

6

12

1Demanda Real V/S Salida de Red

Cantidad de Reservas Fecha, Pax, Dólar

80

El segundo con mejor porcentaje de error es 7,49%. Como se puede apreciar en la

Figura N° A19-5, el ajuste que tiene la curva proyectada es casi la misma que la de

demanda real. Esto se debe a que dentro de las variables de entrada esta la cantidad

de pasajeros que permite proyectar de buena forma la curva, pero esta variable no

es solamente la que ayuda a esto, sino que también la ayudan el dólar y la fecha de

reserva, ya que como se vio anteriormente, por sí sólo la cantidad de pasajeros da

un porcentaje de error del 7,77% mientras que la combinación de estas tres variables

hace una mejora de un 0,28% dejándola en la cifra de 7,49%, lo que demuestra que

la red al tener una combinatoria de variables y procesarlas a través de cálculos no-

lineales, permite mejorar la efectividad de pronóstico de esta herramienta. Además

se aprecia que supera con 2,48% menos de error que a la regresión lineal, lo que

demuestra al igual que antes, que esta herramienta puede producir mejores

resultados que los tradicionales. Cabe mencionar que para obtener este resultado se

hicieron 1529 iteraciones, obteniéndose así los siguientes resultados que se aprecian

en la Tabla N° A19-5:

1529 Iteraciones


Porcentaje de Error

Promedio 0,993251686 0,08259857

Mínimo 0,97318003 0,07493175

Máximo 0,994658538 0,12397178

Tabla A19-5. Porcentaje de Error y Coeficiente de Correlación para Perceptrón Multicapa con Entrada-Salida No-Lineal para las variables: Número de Pasajeros, Dólar y Fecha de Reserva. Fuente:


Este último caso es la tercera mejor representación obtenida para la red de

Perceptrón Multicapa en todos sus casos y todas sus configuraciones, ya que esta

red obtuvo un porcentaje de error del 7,40%. Al observar la Figura N° A19-6, la curva

de la demanda proyectada y la curva de demanda real, son casi las mismas, lo que

refleja la capacidad de la red de poder pronosticar los valores deseados. Al igual que

en todo los casos donde el porcentaje de error fue de menos 9%, la participación de

la variable de entrada Número de Pasajeros y la combinación de una variable no-

lineal como es el caso del Dólar, permite obtener resultados más exactos que los del

81

método tradicional. Esto queda demostrado al hacer la diferencia entre lo proyectado

por la regresión lineal y lo obtenido por la red, lo cual fue de un 2,57% menos de

error que la regresión lineal. Finalmente mencionar que para obtener este resultado

se hicieron 1887 iteraciones, obteniéndose así los siguientes resultados que se

muestran en la Tabla N° A19-6:

1887 Iteraciones


Porcentaje de Error

Promedio 0,993038561 0,08473245

Mínimo 0,788891376 0,07402

Máximo 0,99416429 0,15549115

Tabla A19-6: Porcentaje de Error y Coeficiente de Correlación para Perceptrón Multicapa con Entrada-Salida No-Lineal para las variables: Número de Pasajeros y Dólar. Fuente: “Elaboración propia”.

Figura A19-6: Gráfico Demanda Real V/S Perceptrón Multicapa con Entrada-Salida No-Lineal, con variables de entrada Número de Pasajeros y Dólar. Fuente: “Elaboración propia”.

0

50

100

150

200

250

300

1 7

13

19

25

31

37

43

49

55

61

67

73

79

85

91

97

10

3

10

9

11

5

12

1


Cantidad de Reservas Dólar, Pax

82

2. Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa

Figura A19-7: Gráfico Demanda Real V/S Perceptrón Multicapa con Auto-Regresivo No-Lineal con entrada externa, con variable de entrada Dólar. Fuente: “Elaboración propia”.

En la Figura N° A19-7, se observa que ambas curvas proyectada y de demanda real

no coinciden, con lo cual se produce un porcentaje de error del 46,59%. Este

resultado refleja que todavía cuando se usa una combinación de variable objetivo y

variable de entrada para la obtención de valores deseados, no es capaz de

pronosticar un bajo porcentaje de error, ni de mejorar los valores que ambas

variables obtuvieron por separadas, como se vio en los casos anteriores del

Perceptrón Multicapa. Por último mencionar que para obtener este resultado se

hicieron 1711 iteraciones, obteniéndose así los siguientes resultados presentados en

la Tabla N° A19-7:

0

50

100

150

200

250

300

350

400

450

1 6

11

16

21

26

31

36

41

46

51

56

61

66

71

76

81

86

91

96

10

1

10

6

11

1

11

6

12

1


Cantidad de Reservas Dólar

83

1711 Iteraciones


Porcentaje de Error

Promedio 0,478268646 0,52862883

Mínimo 0,255132203 0,4659166

Máximo 0,593373574 0,66637602

Tabla A19-7: Porcentaje de Error y Coeficiente de Correlación para Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para la variable Dólar. Fuente: “Elaboración propia”.

Figura A19-8: Gráfico Demanda Real V/S Perceptrón Multicapa con Auto-Regresivo No-Lineal con entrada externa, con variables de entrada Dólar y Fecha de Reservas. Fuente: “Elaboración propia”.

Como se ha visto en los casos anteriores con esta configuración de variables, la red

no logra proyectar de forma adecuada la demanda, esto se ve reflejado tanto en el

porcentaje de error que fue de un 44,28% y que se ve confirmado por la Figura N°

A19-8, donde se aprecia que la curva que se proyecta por parte de la red no es

capaz de pronosticar valores atípicos. Este comparado con su semejante da un peor

resultado, siendo superior en el porcentaje de error en un 11,48%. Por último cabe


así los siguientes resultados en la Tabla N° A19-8:

0

50

100

150

200

250

300

350

400

450

1 6

11

16

21

26

31

36

41

46

51

56

61

66

71

76

81

86

91

96

10

1

10

6

11

1

11

6

12

1



84

1348 Iteraciones


Porcentaje de Error

Promedio 0,515922435 0,50887816

Mínimo 0,229021066 0,44282793

Máximo 0,610644143 0,63492789

Tabla A19-8: Porcentaje de Error y Coeficiente de Correlación para Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para las variables: Dólar y Fecha de Reserva. Fuente:


Figura A19-9: Gráfico Demanda Real V/S Perceptrón Multicapa con Auto-Regresivo No-Lineal con entrada externa, con variables de entrada Dólar y Número de Pasajeros. Fuente: “Elaboración propia”.

Al igual que en el anterior gráfico, se aprecia en este (Figura N° A19-9), una baja

precisión en los valores que esta proyectando la red, siendo incapaz de lograr

graficar valores atípicos o de seguir la forma de la curva de demanda real, lo que se

ratifica con un porcentaje de error de un 44,67%. Este magro resultado podría ser

atribuido, como ya se ha señalado, a la participación de la variable objetivo para la

obtención de los valores proyectados, ya que como se ha visto, sin esta variable los

resultados han sido óptimos con esta combinación de variables de entrada, y al

contrario de esto, solo con la variable objetivo como valor para proyectar se han

obtenidos malos resultados, con lo cual se puede inferir que es debido a esta

variable que los valores obtenidos con esta configuración de red sean de baja

calidad. Finalizando con este caso, cabe destacar que para obtener este resultado se

0

50

100

150

200

250

300

350

400

450

1 6

11

16

21

26

31

36

41

46

51

56

61

66

71

76

81

86

91

96

10

1

10

6

11

1

11

6

12

1



85

hicieron 2372 iteraciones, obteniéndose así los siguientes resultados que se

muestran en la Tabla N° A19-9:

2372 Iteraciones


Porcentaje de Error

Promedio 0,497644106 0,51324204

Mínimo 0,20084322 0,44667445

Máximo 0,608229491 4,57801728

Tabla A19-9: Porcentaje de Error y Coeficiente de Correlación para Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para las variables: Dólar y Número de Pasajeros. Fuente:


Figura A19-10: Gráfico Demanda Real V/S Perceptrón Multicapa con Auto-Regresivo No-Lineal con entrada externa, con variable de entrada Fecha de Reservas. Fuente: “Elaboración propia”.

Al apreciar la Figura N° A19-10, se ve como la curva de la proyección no sigue el

patrón de la curva demandada, lo que provoca que se generen errores altos en cada

uno de los valores proyectados, esto se ve reflejado en que el porcentaje de error de

esta red que es de 43,74%. En este caso se ve una mejora con respecto a la otra red

que utilizó a la fecha como variable de entrada, pero como se ha dicho, estos valores

aun siguen por debajo de valores utilizables para una proyección. Para concluir con

este caso, cabe destacar que para obtener este resultado se hicieron 1627

iteraciones, obteniéndose así los siguientes resultados que se aprecian en la Tabla

N° A19-10:

0

50

100

150

200

250

300

350

400

450

1 6

11

16

21

26

31

36

41

46

51

56

61

66

71

76

81

86

91

96

10

1

10

6

11

1

11

6

12

1


Cantidad de Reservas Fecha

86

1627 Iteraciones


Porcentaje de Error

Promedio 0,533405433 0,49310696

Mínimo 0,370846226 0,4373544

Máximo 0,635262488 0,57826981

Tabla A19-10: Porcentaje de Error y Coeficiente de Correlación para Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para la variable: Fecha de Reserva. Fuente: “Elaboración

propia”.

En este caso se obtuvo un 44,28% en el porcentaje de error, esto se explica al

observa la Tabla N° A19-17, donde se ve como los valores que se proyectan no

coinciden o no están muy cerca de los valores reales (Figura N° A19-11), como ya si

se ha visto en otras redes donde tuvieron porcentajes de errores menores al 9%.

Este es un caso muy especial, ya que la variable de entrada que se esta analizando,

es la linealmente dependiente (Número de Pasajeros), lo cual muestra la fuerte

influencia de la variable objetivo Cantidad de Reservas en la proyección de la

demanda en este tipo de problema, ya que por si sola la variable de entrada, tanto en

la red como en la regresión lineal lograba porcentaje de errores por debajo del 10%.

Esto deja claro la influencia mayoritariamente negativa, que se ha visto sobre la

participación de la variable objetivo en el pronóstico de la demanda. Finalmente,

cabe mencionar que para obtener este resultado se hicieron 2706 iteraciones,

obteniéndose así los siguientes resultados que se muestran en la Tabla N° A19-11:

2706 Iteraciones


Porcentaje de Error

Promedio 0,515302054 0,49278729

Mínimo 0,224280898 0,44284731

Máximo 0,628970483 0,9643973

Tabla A19-11: Porcentaje de Error y Coeficiente de Correlación para Perceptrón Multicapa con Auto-

Regresivo No-Lineal con Entrada Externa para la variable: Número de Pasajeros. Fuente: “Elaboración

propia”.

87

Figura A19-11: Gráfico Demanda Real V/S Perceptrón Multicapa con Auto-Regresivo No-Lineal con entrada externa, con variable de entrada Número de Pasajeros. Fuente: “Elaboración propia”.

Figura A19-12: Gráfico Demanda Real V/S Perceptrón Multicapa con Auto-Regresivo No-Lineal con entrada externa, con variables de entrada Número de Pasajeros y Fecha de Reservas. Fuente:


Como hemos apreciado en casi todo los resultados de esta red, con esta última

configuración de problema, los resultados obtenidos son de mala calidad, obteniendo

un porcentaje de error del 40,81%, y que queda ratificado al observar la Figura N°

0

50

100

150

200

250

300

350

400

450

1 6

11

16

21

26

31

36

41

46

51

56

61

66

71

76

81

86

91

96

10

1

10

6

11

1

11

6

12

1


Cantidad de Reservas Pax

0

50

100

150

200

250

300

350

400

450

1 6

11

16

21

26

31

36

41

46

51

56

61

66

71

76

81

86

91

96

10

1

10

6

11

1

11

6

12

1


Cantidad de Reservas Fecha, Pax

88

A19-12. Nuevamente se ve como la influencia de la variable objetivo afecta

enormemente en la exactitud de los valores proyectados, haciendo que la

configuración utilizada deba ser descartada por su mala capacidad de proyección,

como en todos los casos anteriores. Por último, cabe mencionar que para obtener

este resultado se hicieron 1620 iteraciones, obteniéndose así los siguientes

resultados que se aprecian en la Tabla N° A19-12:

1620 Iteraciones


Porcentaje de Error

Promedio 0,531234171 0,47997206

Mínimo 0,35189749 0,40808543

Máximo 0,643397481 0,59607349

Tabla A19-12: Porcentaje de Error y Coeficiente de Correlación para Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para la variable: Número de Pasajeros y Fecha de Reserva.


3. Crece Cuando se Requiere y Perceptrón Multicapa con Entrada-Salida

No-Lineal

Figura A19-13: Gráfico Demanda Real V/S Crece Cuando se Requiere y Perceptrón Multicapa con Entrada-Salida No-Lineal, con variables de entrada Dólar Observado, Número de Pasajeros y Fecha de Reservas.


0

50

100

150

200

250

300

1 6

11

16

21

26

31

36

41

46

51

56

61

66

71

76

81

86

91

96

10

1

10

6

11

1

11

6

12

1


Cantidad de Reservas Fecha, Dólar, Pax

89

Como se aprecia en la Figura N° A19-13, la curva que es proyectada por la red se

asemeja mucho a la de la demanda real, lo cual muestra la buena capacidad de la

red para pronosticar los valores deseados con la variables de entrada utilizados,

inclusos los valores atípicos. Todo esto se ve ratificado al bajo valor del porcentaje

de error que es de 7,35% con lo que queda demostrada su eficiencia en los cálculos.

Este valor es ampliamente inferior al entregado por la regresión lineal, dando una

diferencia a favor de 2,62%. Finalmente, cabe mencionar que para obtener este

resultado se hicieron 2425 iteraciones, obteniéndose así los siguientes resultados

que se muestran en la Tabla N° A19-13:

2425 Iteraciones


Porcentaje de Error

Promedio 0,990562102 3,10349E+14

Mínimo 0,200255155 0,073477984

Máximo 0,994088304 7,52596E+17

Tabla A19-13: Porcentaje de Error y Coeficiente de Correlación para Crece Cuando se Requiere con Perceptrón Multicapa con Entrada-Salida No-Lineal para la variable: Número de Pasajeros, Dólar y Fecha

de Reserva. Fuente: “Elaboración propia”.

Figura A19-14: Gráfico Demanda Real V/S Crece Cuando se Requiere y Perceptrón Multicapa con Entrada-Salida No-Lineal, con variables de entrada Fecha de Reservas y Dólar Observado. Fuente: “Elaboración

propia”.

0

50

100

150

200

250

300

1 6

11

16

21

26

31

36

41

46

51

56

61

66

71

76

81

86

91

96

10

1

10

6

11

1

11

6

12

1



90

Al observar la Figura N° A19-14, se aprecia claramente que la curva proyectada no

sigue de ninguna manera la curva de demanda real, quedando constatado con el

porcentaje de error, donde el valor resultante es de 35,36%. Este valor entregado por

esta combinatoria de variables como se ha visto y se vera más adelante en las

distintas redes, siempre da resultados de mala calidad, debido a lo anteriormente

explicado sobre el tipo de variables que son. Para concluir, cabe mencionar que para


resultados que se aprecian en la Tabla N° A19-14:

1389 Iteraciones


Porcentaje de Error

Promedio 0,403913432 0,48071471

Mínimo 0,158149382 0,35362213

Máximo 0,746321829 0,73331114

Tabla A19-14: Porcentaje de Error y Coeficiente de Correlación para Crece Cuando se Requiere con Perceptrón Multicapa con Entrada-Salida No-Lineal para la variable: Dólar y Fecha de Reserva. Fuente:


Al igual que en todo los casos donde participa la variable de entrada Número de

Pasajeros, el resultado entregado por esta red fue de buena calidad, ya que su

precisión en el pronostico de los valores fue muy parecidos a los originales, el cual

puede concluirse al ver el porcentaje de error, que fue de 7,40%. Lo anterior se

puede apreciar al observar la Figura N° A19-15, donde ambas curvas (demanda real

y proyectada) coinciden en la mayoría de los puntos. Esta red también supera a la

regresión lineal en un 2,57% menos en el porcentaje de error. Finalizando con este

caso, cabe destacar que para obtener este resultado se hicieron 1738 iteraciones,

obteniéndose así los siguientes resultados presentados en la Tabla N° A19-15:

1738 Iteraciones


Porcentaje de Error

Promedio 0,98999453 0,08496844

Mínimo 0,488645237 0,07395632

Máximo 0,994089907 0,09264195

Tabla A19-15: Porcentaje de Error y Coeficiente de Correlación para Crece Cuando se Requiere con Perceptrón Multicapa con Entrada-Salida No-Lineal para las variables: Número de Pasajeros y Fecha de

Reserva. Fuente: “Elaboración propia”.

91

Figura A19-15: Gráfico Demanda Real V/S Crece Cuando se Requiere y Perceptrón Multicapa con Entrada-Salida No-Lineal, con variables de entrada Número de Pasajeros y Fecha de Reservas. Fuente:


4. Crece Cuando se Requiere y Perceptrón Multicapa con Auto-Regresivo

No-Lineal con Entrada Externa

Figura A19-16: Gráfico Demanda Real V/S Crece Cuando se Requiere y Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa, con variables de entrada Dólar Observado y Fecha de

Reservas. Fuente: “Elaboración propia”.

0

50

100

150

200

250

300

1 6

11

16

21

26

31

36

41

46

51

56

61

66

71

76

81

86

91

96

10

1

10

6

11

1

11

6

12

1



0

50

100

150

200

250

300

350

400

450

1 6

11

16

21

26

31

36

41

46

51

56

61

66

71

76

81

86

91

96

10

1

10

6

11

1

11

6

12

1Demanda Real V/S Salida de Red


92

Este caso como se vio en el de Perceptrón Multicapa y como se vera en la MAO, da

resultados poco precisos, ya que su porcentaje de error es de 43,76%, una cifra que

demuestra que la red no esta teniendo la capacidad necesaria para predecir los

valores deseados, como se ve en la Figura N° A19-16, la curva de proyección de la

demanda no sigue de forma sincronizada ni con los mismos altos y bajo de la curva

de demanda real, provocando así errores grandes en cada uno de sus puntos, y por

consiguiente, dando como resultado ese porcentaje de error. También decir que este

caso en especial, se ve afectado además por la participación de la variable objetivo,

que produce que la red no sea capaz de proyectar correctamente, pero con la

diferencia que su empeoramiento es de 8,40%, un valor bajo comparado con las

redes que sacan normalmente 7% y que pasan al 40%.

Por último, cabe mencionar que para obtener este resultado se hicieron 2655

iteraciones, obteniéndose así los siguientes resultados que se muestran en la Tabla

N° A19-16:

2655 Iteraciones


Porcentaje de Error

Promedio 0,503053 0,62800434

Mínimo 0,013506231 0,43755949

Máximo 0,615439195 321,551335

Tabla A19-16: Porcentaje de Error y Coeficiente de Correlación para Crece Cuando se Requiere con Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para las variables: Dólar y Fecha

de Reserva. Fuente: “Elaboración propia”.

93

Figura A19-17: Gráfico Demanda Real V/S Crece Cuando se Requiere y Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa, con variables de entrada Dólar Observado y Número de

Pasajeros. Fuente: “Elaboración propia”.

Como se vio anteriormente en los diversos casos expuestos, la red genera valores

proyectados distintos a los reales, produciendo así errores altos, y por consiguiente,

obteniéndose un alto valor de porcentaje de error (43,28%), también se aprecia la

asertividad de la red en la Figura N° A19-17, donde las curvas tanto de proyección

como la de demanda real son muy disímiles, con amplias diferencia entre ellas. Al

igual que los casos anteriores y en los próximos que serán expuestos, donde la red

tiene una configuración no-lineal con entrada externa, el resultado se ve fuertemente

influenciado por la variable cantidad de reservas (que hace de variable de entrada),

lo que hace que la red sea incapaz de entregar valores exactos, como debiera ser

por la configuración de variables de entrada (Dólar, Número de Pasajeros) que están

participando. Finalmente, cabe mencionar que para obtener este resultado se

hicieron 1571 iteraciones, obteniéndose así los siguientes resultados que se

presentan en la Tabla N° A19-17:

0

50

100

150

200

250

300

350

400

450

1 6

11

16

21

26

31

36

41

46

51

56

61

66

71

76

81

86

91

96

10

1

10

6

11

1

11

6

12

1



94

1571 Iteraciones


Porcentaje de Error

Promedio 0,497060172 0,51367953

Mínimo 0,135040845 0,43278036

Máximo 0,605474688 0,81034902

Tabla A19-17: Porcentaje de Error y Coeficiente de Correlación para Crece Cuando se Requiere con Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para las variables: Número de

Pasajeros y Dólar. Fuente: “Elaboración propia”.

Figura A19-18: Gráfico Demanda Real V/S Crece Cuando se Requiere y Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa, con variables de entrada Número de Pasajeros y Fecha de


Como se puede observar en la Figura N° A19-18, la red proyecta tiene una baja

precisión, produciendo de esta forma un alto porcentaje de error de 41,34%. Esto

como hemos señalado, es por la participación de cantidad de reservas como variable

de entrada, lo cual produce la poca asertividad de la red para pronosticar los valores

deseados. Por último, cabe mencionar que para obtener este resultado se hicieron

2884 iteraciones, las cuales entregaron las siguientes medidas de posición que se

pueden observar en la Tabla N° A19-18:

0

50

100

150

200

250

300

350

400

450

1 6

11

16

21

26

31

36

41

46

51

56

61

66

71

76

81

86

91

96

10

1

10

6

11

1

11

6

12

1



95

2884 Iteraciones


Porcentaje de Error

Promedio 0,525857222 0,49034293

Mínimo 0,301429003 0,4133819

Máximo 0,635609657 2,47273755

Tabla A19-18: Porcentaje de Error y Coeficiente de Correlación para Crece Cuando se Requiere con Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para las variables: Número de

Pasajeros y Fecha de Reserva. Fuente: “Elaboración propia”.

5. Mapa Auto-Organizado y Perceptrón Multicapa con Entrada-Salida No-

Lineal

Figura A19-19: Gráfico Demanda Real V/S Mapa Auto-Organizado y Perceptrón Multicapa con Entrada-Salida No-Lineal, con variables de entrada Dólar Observado y Fecha de Reservas. Fuente: “Elaboración

propia”.

Como se ha visto a lo largo de los distintos resultados de las redes, esta combinación

de variables de entrada, siempre han dado valores por de bajo de los óptimos, dando

en este caso un porcentaje de error de 35,30% y que se puede apreciar de mejor

forma estos malos valores al ver la Figura N° A19-19. Como se ve en el gráfico la

curva proyectada no logra seguir de forma adecuada a la curva de demanda real,

mostrando la falta de exactitud que tiene la red con esta configuración. Esto es, como

ya se ha dicho anteriormente, por el uso de variables linealmente independientes que

0

50

100

150

200

250

300

1 6

11

16

21

26

31

36

41

46

51

56

61

66

71

76

81

86

91

96

10

1

10

6

11

1

11

6

12

1



96

no permite tener una mejor proyección. Sin embargo, se puede señalar que los

resultados obtenidos son mejores que los dados por los métodos tradicionales como

son suavizamiento exponencial y los promedios móviles, aunque siguen siendo

resultados que no son aconsejables para su uso. Por último, cabe mencionar que

para obtener este resultado se hicieron 1319 iteraciones, obteniéndose así los

siguientes resultados que se pueden observar en la Tabla N° A19-19:

1319 Iteraciones


Porcentaje de Error

Promedio 0,444442092 393,466178

Mínimo 0,179227339 0,35300593

Máximo 0,770627466 516328,984

Tabla A19-19: Porcentaje de Error y Coeficiente de Correlación para Mapa Auto-Organizados con Perceptrón Multicapa con Entrada-Salida No-Lineal para las variables: Dólar y Fecha de Reserva. Fuente:


Figura A19-20: Gráfico Demanda Real V/S Mapa Auto-Organizado y Perceptrón Multicapa con Entrada-Salida No-Lineal, con variables de entrada Dólar Observado y Número de Pasajeros. Fuente: “Elaboración

propia”.

Este caso al igual que en la otras redes, sigue con la tendencia de pronosticar con

gran exactitud los valores proyectados al ser usada esta configuración de variables.

Esto queda claro al observar la Figura N° A19-20, donde se aprecia que tanto la

0

50

100

150

200

250

300

1 6

11

16

21

26

31

36

41

46

51

56

61

66

71

76

81

86

91

96

10

1

10

6

11

1

11

6

12

1



97

curva de proyección como la curva de demanda real son muy similares, esto queda

reflejado al ver el porcentaje de error es de 7,44%, este valor dado es ligeramente

mejor que su símil de Perceptrón Multicapa con Entrada-Salida No-Lineal, el cual

obtuvo un 7,77% en el porcentaje de error; esto de todas maneras no significa una

mejor performance como red en comparación a la del Perceptrón, ya que hasta el

momento ha sido superada por esta última mencionada. Para concluir, cabe



1136 Iteraciones


Porcentaje de Error

Promedio 0,993009384 0,084732348

Mínimo 0,978446488 0,074432516

Máximo 0,994179468 0,204483869

Tabla A19-20: Porcentaje de Error y Coeficiente de Correlación para Mapa Auto-Organizados con Perceptrón Multicapa con Entrada-Salida No-Lineal para las variables: Número de Pasajeros y Dólar.


Figura A19-21: Gráfico Demanda Real V/S Mapa Auto-Organizado y Perceptrón Multicapa con Entrada-Salida No-Lineal, con variables de entrada Número de Pasajeros y Fecha de Reservas. Fuente:


0

50

100

150

200

250

300

1 6

11

16

21

26

31

36

41

46

51

56

61

66

71

76

81

86

91

96

10

1

10

6

11

1

11

6

12

1



98

Como se observa en la Figura N° A19-21, la precisión de la red es alta, donde su

porcentaje de error es de 7,59%, como ya se ha repetido anteriormente esta

combinatoria de variable linealmente dependiente junto a variables linealmente

independiente permite obtener resultados mejores, que si fueran por separados.

Finalmente, cabe mencionar que para obtener este resultado se hicieron 1946

iteraciones, obteniéndose así los siguientes resultados que se pueden apreciar en la

Tabla N° A19-21:

1946 Iteraciones


Porcentaje de Error

Promedio 0,992270172 0,08622425

Mínimo 0,851991611 0,07587353

Máximo 0,994151937 0,11787956

Tabla A19-21: Porcentaje de Error y Coeficiente de Correlación para Mapa Auto-Organizados y Perceptrón Multicapa con Entrada-Salida No-Lineal para las variables: Número de Pasajeros y Fecha de Reserva.


6. Mapa Auto-Organizado y Perceptrón Multicapa con Entrada-Salida No-

Lineal

Como se ve en la Figura N° A19-22, la red tiene una muy baja capacidad para

proyectar la demanda de reserva y queda demostrado por su porcentaje de error es

de 42,88%, lo que la convierte en una mala alternativa para el pronóstico de este

problema. Esta tendencia deja muy en claro que el uso del tipo de problema Auto-

Regresivo No-Lineal con entrada externa resulta mala para el pronóstico de este

problema, ya que no logra dar con los resultados deseados. Para concluir este caso,

cabe destacar que para obtener este resultado se hicieron 1974 iteraciones,


99

1974 Iteraciones


Porcentaje de Error

Promedio 0,485928196 0,507832511

Mínimo -0,085666199 0,428821436

Máximo 0,607596436 1,062172885

Tabla A19-22: Porcentaje de Error y Coeficiente de Correlación para Mapa Auto-Organizados y Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para las variables: Número de Pasajeros,

Dólar y Fecha de Reserva. Fuente: “Elaboración propia”.

Figura A19-22: Gráfico Demanda Real V/S Mapa Auto-Organizado y Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa, con variables de entrada Dólar Observado, Número de

Pasajeros y Fecha de Reservas. Fuente: “Elaboración propia”.

En este segundo caso, donde las variables de entrada son Fecha de Reserva y Dólar

Observado ocurre lo antes visto en las demás redes, donde la red no es capaz de

hacer un pronostico asertivo acerca la cantidad de reservas, como se observa en la

Figura N° A19-23, y que es confirmado por el porcentaje de error, que fue de

44,25%. Esta cifra, es muy superior a la entregada por el Mapa Auto-Organizado y

Perceptrón Multicapa con Entrada-Salida No-Lineal, superándola en 8,75% en el

porcentaje de error, con lo que muestra el efecto negativo que se produce al tener

como participante entre las variables de entrada la variable objetivo. Por último, cabe

0

50

100

150

200

250

300

350

400

450

1 6

11

16

21

26

31

36

41

46

51

56

61

66

71

76

81

86

91

96

10

1

10

6

11

1

11

6

12

1


Cantidad de Reservas Dólar, Pax, Fecha

100


así los siguientes resultados que se pueden observar en la Tabla N° A19-23:

1933 Iteraciones


Porcentaje de Error

Promedio 0,495410043 0,51738909

Mínimo 0,147415191 0,44249206

Máximo 0,599301221 0,67870583

Tabla A19-23: Porcentaje de Error y Coeficiente de Correlación para Mapa Auto-Organizados con Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para las variables:, Dólar y

Fecha de Reserva. Fuente: “Elaboración propia”.

Figura A19-23: Gráfico Demanda Real V/S Mapa Auto-Organizado y Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa, con variables de entrada Dólar Observado y Fecha de


0

50

100

150

200

250

300

350

400

450

1 6

11

16

21

26

31

36

41

46

51

56

61

66

71

76

81

86

91

96

10

1

10

6

11

1

11

6

12

1



101

Figura A19-24. Gráfico Demanda Real V/S Mapa Auto-Organizado y Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa, con variables de entrada Dólar Observado y Número de

Pasajeros. Fuente: “Elaboración propia”.

Al Observar la Figura N° A19-24, se ratifica lo visto con anterioridad en las redes con

configuración del tipo de problema del Perceptrón, ya que ambas curvas (proyectada

y demanda real) son totalmente diferentes la una de la otra, obteniendo la red un

porcentaje de error de 44,05%, lo que demuestra la poca capacidad o la poca

habilidad que tiene la red para proyectar. En este caso esta red es ampliamente

superada por su símil de Perceptrón Multicapa con Entrada-Salida No-Lineal, lo que

permite ver que ambas configuraciones de esta red son muy distintas en la

efectividad de encontrar los valores deseados. Por último, cabe destacar que para


resultados que se pueden observar en la Tabla N° A19-24:

1136 Iteraciones


Porcentaje de Error

Promedio 0,461845942 0,59109347

Mínimo -0,003282144 0,44048181

Máximo 0,635521083 74,207614

Tabla A19-24. Porcentaje de Error y Coeficiente de Correlación para Mapa Auto-Organizados con Perceptrón Multicapa con Auto-Regresivo No-Lineal con Entrada Externa para las variables: Número de

Pasajeros y Dólar. Fuente: “Elaboración propia”.

0

50

100

150

200

250

300

350

400

450

1 6

11

16

21

26

31

36

41

46

51

56

61

66

71

76

81

86

91

96

10

1

10

6

11

1

11

6

12

1



102

ANEXO N°20

COMPARACIÓN DE RESULTADOS

En el siguiente enlace se encuentra el archivo con los resultados de la muestra con

mayor tiempo de cálculos y procesos informáticos.

Anexo 20 Comparación.xlsx27

ANEXO N°21

RESULTADOS FINALES DE LAS MUESTRAS

A continuación se presentan en el archivo enlazado los resultados de las 163

muestras, resúmenes de cada una y los valores individuales de cada iteración.

Anexo 21 Resultado Finales 163 Muestras.xls28

ANEXO N°22

RESULTADOS FINALES DE LAS MUESTRAS

En el siguiente archivo se presenta los datos de los resultados mínimos de cada

configuración de red.

Anexo 22 Datos.xls29

27



Enlace disponible sólo en la versión digital.

Anexo%2020%20Comparación.xlsx

Anexo%2021%20Resultado%20Finales%20163%20Muestras.xls

Anexo%2022%20Datos.xls

Date post:	13-Mar-2020
Category:	Documents
Upload:	others
View:	1 times
Download:	0 times

UNIVERSIDAD MAYOR FACULTAD DE INGENIERIA PROYECCIÓN …inglomayor.cl/edicion14/2_Lectures...

Documents