+ All Categories
Home > Documents > UNIVERSIDAD POLITECNICA DE MADRID´ - oa.upm.esoa.upm.es/5855/1/JOSE_LUIS_MARTINEZ_PEREZ.pdf ·...

UNIVERSIDAD POLITECNICA DE MADRID´ - oa.upm.esoa.upm.es/5855/1/JOSE_LUIS_MARTINEZ_PEREZ.pdf ·...

Date post: 02-Nov-2018
Category:
Upload: dinhtu
View: 224 times
Download: 0 times
Share this document with a friend
259
UNIVERSIDAD POLIT ´ ECNICA DE MADRID ESCUELA T ´ ECNICA SUPERIOR DE INGENIEROS INDUSTRIALES COMUNICACI ´ ON CON COMPUTADOR MEDIANTE SE ˜ NALES CEREBRALES. APLICACI ´ ON A LA TECNOLOG ´ IA DE LA REHABILITACI ´ ON. Tesis Doctoral Jos´ e Luis Mart´ ınez P´ erez. Ingeniero Industrial por la ETSII de Madrid 2009
Transcript

UNIVERSIDAD POLITECNICA DE MADRID

ESCUELA TECNICA SUPERIOR DE INGENIEROS INDUSTRIALES

COMUNICACION CON COMPUTADOR

MEDIANTE SENALES CEREBRALES.

APLICACION A LA TECNOLOGIA DE LA

REHABILITACION.

Tesis Doctoral

Jose Luis Martınez Perez.

Ingeniero Industrial por la ETSII de Madrid

2009

DEPARTAMENTO DE AUTOMATICA, INGENIERIA ELECTRONICAE INFORMATICA INDUSTRIAL

ESCUELA TECNICA SUPERIOR DE INGENIEROS INDUSTRIALES

COMUNICACION CON COMPUTADOR

MEDIANTE SENALES CEREBRALES.

APLICACION A LA TECNOLOGIA DE LA

REHABILITACION.

Tesis Doctoral

Autor: Jose Luis Martınez Perez.Ingeniero Industrial por la ETSII de Madrid

Director: Dr. Antonio Barrientos Cruz.Doctor Ingeniero Industrial.

2009

Tıtulo:COMUNICACION CON COMPUTADOR MEDIANTE SENALES

CEREBRALES. APLICACION A LA TECNOLOGIA DE LAREHABILITACION.

Autor:Jose Luis Martınez Perez.

Tribunal:

Presidente : Ramon Galan

Vocales :

XXXXXXX

Secretario : XXXXXXX

Suplentes :

Acuerdan otorgar la calificacion de:

Madrid, XX de YY de 2008

A mi padre y madre: Luis y Eladia.

Resumen

Avances recientes en hardware para ordenadores personales y procesamiento de senalha hecho posible el uso de senales EEG u ondas cerebrales para comunicacion entrepersonas y computadores. Pacientes que sufren de sındromes bloqueantes disponen ahorade una nueva forma de comunicacion con el resto del mundo, pero incluso con las masmodernas tecnicas, estos sistemas aun tienen tasas de comunicacion del orden de 2-3actividades / minuto. En suma, los dispositivos existentes no son disenados con la idea deflexibilidad en mente, dando lugar a sistemas lentos que son difıciles de mejorar.

Este proyecto explora la efectividad de las tecnicas de analisis en tiempo y enfrecuencia para la clasificacion de diferentes actividades mentales haciendo uso deelectroencefalografıa (EEG). Senales EEG de de dos canales provenientes de variosvoluntarios han sido estudiadas durante la realizacion de tres tareas mentales (lıneabase, imaginacion de movimiento, actividad matematica). La distincion entre ellas enclasificacion On-line es el principal objetivo del proyecto.

Diferentes metodos basados en representaciones temporales y frecuenciales han sidoconsiderados para la clasificacion entre las tareas mencionadas. Los resultados indicanla utilizacion de este metodo para ventanas de un tercio de segundo, distinguir lascaracterısiticas de los datos, con porcentajes de acierto aceptables.

ix

Indice general

Lista de Figuras. XV

Lista de Tablas. XXI

1. Introduccion. 11.1. La tecnologıa de Interfaz Cerebro Computador. . . . . . . . . . . . . . . . . 1

1.1.1. Clasificacion de dispositivos ICC. . . . . . . . . . . . . . . . . . . . . 31.1.2. Componentes de un dispositivo ICC. . . . . . . . . . . . . . . . . . . 5

1.2. Aplicacion de la tecnologıa ICC. . . . . . . . . . . . . . . . . . . . . . . . . 91.2.1. Ciencia de la rehabilitacion. . . . . . . . . . . . . . . . . . . . . . . . 101.2.2. Teleoperacion de robots industriales. . . . . . . . . . . . . . . . . . . 111.2.3. Sector militar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.2.4. Sector del ocio y entretenimiento. . . . . . . . . . . . . . . . . . . . . 11

1.3. Motivaciones de la tesis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.3.1. Objetivos de la tesis. . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.3.2. Aportaciones de la tesis. . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.4. Estructura de la tesis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2. Estado de la tecnica. 152.1. Fundamentos fisiologicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.1.1. Fisiologıa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.1.2. La neurona. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.1.3. El Sistema Nervioso. . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.1.4. El Cerebro. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.2. Tecnicas para la adquisicion de actividad cerebral. . . . . . . . . . . . . . . 272.2.1. Electroencefalografıa. . . . . . . . . . . . . . . . . . . . . . . . . . . 272.2.2. Magnetoencefalografıa. . . . . . . . . . . . . . . . . . . . . . . . . . . 372.2.3. Imagen cerebral mediante rayos X. . . . . . . . . . . . . . . . . . . . 412.2.4. Imagen cerebral mediante imagen nuclear. . . . . . . . . . . . . . . . 422.2.5. Imagen cerebral mediante tomografıa computerizada. . . . . . . . . . 432.2.6. Imagen cerebral: MRI. . . . . . . . . . . . . . . . . . . . . . . . . . . 44

XII INDICE GENERAL

2.2.7. Imagen cerebral: SPECT. . . . . . . . . . . . . . . . . . . . . . . . . 452.2.8. Imagen cerebral: Tomografıa por Emision de Positrones (PET). . . . 45

2.3. Referencias historicas sobre la tecnologıa ICC. . . . . . . . . . . . . . . . . . 462.4. Estado actual de la tecnologıa. . . . . . . . . . . . . . . . . . . . . . . . . . 51

3. Adquisicion y procesamiento de senal EEG. 573.1. Acondicionamiento de la senal electroencefalografica. . . . . . . . . . . . . . 593.2. Muestreo, cuantificacion y codificacion de la senal EEG. . . . . . . . . . . . 603.3. Normalizacion y ventaneado. . . . . . . . . . . . . . . . . . . . . . . . . . . 603.4. Transformacion de la senal del espacio temporal al espacio frecuencial. . . 643.5. Obtencion del vector de caracterısticas. . . . . . . . . . . . . . . . . . . . . 653.6. Deteccion de artefactos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

4. Tipologıa de clasificadores. 674.1. Metodos estadısticos : Comparacion de dos poblaciones. . . . . . . . . . . . 68

4.1.1. Introduccion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 684.1.2. Descripcion del test de contraste de la igualdad de dos poblaciones. . 714.1.3. Procedimiento operacional. . . . . . . . . . . . . . . . . . . . . . . . 74

4.2. Metodos estadısticos: Analisis por discriminantes lineales. . . . . . . . . . . 774.2.1. Introduccion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 774.2.2. Referencia historica. . . . . . . . . . . . . . . . . . . . . . . . . . . . 784.2.3. Discriminacion lineal clasica. . . . . . . . . . . . . . . . . . . . . . . 784.2.4. Discriminante lineal de Fisher. . . . . . . . . . . . . . . . . . . . . . 804.2.5. Procedimiento operacional. . . . . . . . . . . . . . . . . . . . . . . . 82

4.3. Clasificadores basados en redes neuronales. . . . . . . . . . . . . . . . . . . 834.3.1. Clasificador Perceptron Multicapa MLP. . . . . . . . . . . . . . . . . 854.3.2. Clasificador basado en red neuronal de tipo RBF. . . . . . . . . . . . 944.3.3. Clasificador basado en red neuronal de tipo PNN. . . . . . . . . . . 102

4.4. Clasificador bietapa basado en Modelo Oculto de Markov y RBF. . . . . . . 1044.4.1. Descripcion Modelo Oculto de Markov. . . . . . . . . . . . . . . . . 1044.4.2. Solucion a los problemas canonicos. . . . . . . . . . . . . . . . . . . 1074.4.3. Densidades de observacion continuas en MOM. . . . . . . . . . . . . 1144.4.4. Tipos de Modelos Ocultos de Markov . . . . . . . . . . . . . . . . . 1154.4.5. Consideraciones practicas en la implementacion de Modelos Ocultos

de Markov. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1224.4.6. Descripcion del algoritmo de clasificacion bietapa. . . . . . . . . . . 125

4.5. Clasificador basado en Maquina de Soporte de Vectores. . . . . . . . . . . . 1294.5.1. Introduccion a las Maquinas de Soporte de Vectores. . . . . . . . . . 1294.5.2. Descripcion del clasificador lineal optimo. . . . . . . . . . . . . . . . 1304.5.3. Descripcion del problema de optimizacion lineal. . . . . . . . . . . . 1314.5.4. Margen blando. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

INDICE GENERAL XIII

4.5.5. Descripcion del clasificador no lineal. . . . . . . . . . . . . . . . . . . 1344.5.6. Comparacion entre Maquinas de soporte de Vectores y Redes

Neuronales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1364.5.7. Implementaciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

5. Procedimientos experimentales y aplicacion de demostracion. 1395.1. Protocolo preparacion del usuario. . . . . . . . . . . . . . . . . . . . . . . . 1395.2. Descripcion del equipo de adquisicion y procesamiento. . . . . . . . . . . . . 1405.3. Descripcion de las actividades cognitivas. . . . . . . . . . . . . . . . . . . . 1415.4. Descripcion del protocolo para el procedimiento Off-line. . . . . . . . . . . . 1425.5. Descripcion del protocolo para el procedimiento On-line. . . . . . . . . . . . 1445.6. Procedimientos experimentales de clasificacion. . . . . . . . . . . . . . . . . 145

5.6.1. Contraste estadıstico de poblaciones. . . . . . . . . . . . . . . . . . . 1465.6.2. Analisis Discriminante Lineal. . . . . . . . . . . . . . . . . . . . . . . 1475.6.3. Clasificadores basados en redes neuronales. . . . . . . . . . . . . . . 1485.6.4. Clasificador bietapa RBF-MOM . . . . . . . . . . . . . . . . . . . . 1495.6.5. Clasificador basado en Maquinas de Soporte de Vectores. . . . . . . 150

5.7. Descripcion de arquitectura dispositivo ICC. . . . . . . . . . . . . . . . . . . 1515.7.1. Identificacion de actores. . . . . . . . . . . . . . . . . . . . . . . . . . 1515.7.2. Descripcion de casos de uso. . . . . . . . . . . . . . . . . . . . . . . . 1515.7.3. Estructura de clases de analisis. . . . . . . . . . . . . . . . . . . . . . 1555.7.4. Realizacion de los Casos de Uso. . . . . . . . . . . . . . . . . . . . . 158

6. Analisis y discusion de los resultados experimentales. 1616.1. Resultados del metodo estadıstico de comparacion de poblaciones. . . . . . 161

6.1.1. Presentacion de resultados. . . . . . . . . . . . . . . . . . . . . . . . 1626.1.2. Analisis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1626.1.3. Discusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1656.1.4. Conclusiones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166

6.2. Resultados obtenidos aplicando la tecnica LDA. . . . . . . . . . . . . . . . . 1676.2.1. Presentacion de resultados. . . . . . . . . . . . . . . . . . . . . . . . 1676.2.2. Analisis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1746.2.3. Discusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1746.2.4. Conclusiones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

6.3. Resultados obtenidos con clasificadores basados en redes neuronales. . . . . 1766.3.1. Presentacion de resultados. . . . . . . . . . . . . . . . . . . . . . . . 1766.3.2. Analisis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1856.3.3. Discusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1856.3.4. Conclusiones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186

6.4. Resultados obtenidos con clasificadores bietapa basados en redes neuronalesy Modelos Ocultos de Markov. . . . . . . . . . . . . . . . . . . . . . . . . . 187

XIV INDICE GENERAL

6.4.1. Presentacion de resultados. . . . . . . . . . . . . . . . . . . . . . . . 1876.4.2. Analisis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1896.4.3. Discusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1896.4.4. Conclusiones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189

6.5. Resultados obtenidos con clasificadores basados en Maquinas de Soporte deVectores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1906.5.1. Presentacion de resultados. . . . . . . . . . . . . . . . . . . . . . . . 1906.5.2. Analisis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2046.5.3. Discusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2046.5.4. Conclusiones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205

6.6. Corolario. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206

7. Conclusiones y futuros desarrollos. 2077.1. Conclusiones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2077.2. Futuros desarrollos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209

A. Adquisicion de senal. 213A.1. Muestreo de senales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213A.2. Cuantificacion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215A.3. Codificacion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217

B. Matriz de confusion. 219

Lista de Figuras

1.1. Representacion del sistema ICC . . . . . . . . . . . . . . . . . . . . . . . . 21.2. Clasificacion de dispositivos ICC. . . . . . . . . . . . . . . . . . . . . . . . . 41.3. Componentes de un sistema ICC. . . . . . . . . . . . . . . . . . . . . . . . . 5

2.1. Diagrama frenologico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.2. Neuronas. Ramon y Cajal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.3. Neuronas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.4. Topologıa de la celula neuronal. . . . . . . . . . . . . . . . . . . . . . . . . . 192.5. Tipos de neuronas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.6. Tipos de sinapsis. (a - Axoaxionica. b - Axodendrıtica . c - Axosomatica.) . 212.7. Sistema Nervioso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.8. Encefalo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.9. Cabeza. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.10. Tronco encefalico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.11. Nervios craneales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.12. Distribucion de las funciones de la corteza cerebral. . . . . . . . . . . . . . . 272.13. Tecnicas de registro monopolar y diferencial. . . . . . . . . . . . . . . . . . 292.14. Sistema electroencefalografico 10 - 20. . . . . . . . . . . . . . . . . . . . . . 302.15. Electroencefalograma normal. . . . . . . . . . . . . . . . . . . . . . . . . . . 312.16. Localizacion somatosensorial. . . . . . . . . . . . . . . . . . . . . . . . . . . 332.17. Localizacion de potenciales auditivos evocados. . . . . . . . . . . . . . . . . 342.18. Componentes de los potenciales auditivos evocados. . . . . . . . . . . . . . . 352.19. Potenciales sensoriales evocados. . . . . . . . . . . . . . . . . . . . . . . . . 362.20. Componentes de los potenciales visuales evocados. . . . . . . . . . . . . . . 362.21. Intensidad de campos bio-magneticos. . . . . . . . . . . . . . . . . . . . . . 382.22. Magnetocardiograma. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392.23. Magnetoencefalograma con campos magneticos auditivos inducidos. . . . . . 392.24. Magnetoencefalograma con campos magneticos sensitivos inducidos. . . . . 402.25. Rayos X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 412.26. Camara Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422.27. Tomografıa computerizada. . . . . . . . . . . . . . . . . . . . . . . . . . . . 432.28. Tomografıa computerizada. . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

XVI LISTA DE FIGURAS

2.29. En MRI, la bobina de radio frecuencia excita las secciones en el eje Y . Unreceptor de RF mide la secciones en el eje X. . . . . . . . . . . . . . . . . . 44

2.30. MRI tejidos blandos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442.31. Tomografıa por Emision de Positrones . . . . . . . . . . . . . . . . . . . . . 452.32. Velocidad de transferencia de informacion en bits/min, variando el numero

de posibles elecciones N={2, 4, 8, 16 o 32}. . . . . . . . . . . . . . . . . . . 522.33. Evolucion temporal del desarrollo de la tecnologıa ICC. . . . . . . . . . . . 56

3.1. Colocacion de los electrodos. . . . . . . . . . . . . . . . . . . . . . . . . . . 583.2. Esquema de conexionado electrico. . . . . . . . . . . . . . . . . . . . . . . . 583.3. Registro de senal tıpico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 593.4. Procedimiento de ventaneado de la senal. . . . . . . . . . . . . . . . . . . . 613.5. Ventanas de preprocesamiento Rectangular y Triangular. . . . . . . . . . . . 623.6. Ventanas de preprocesamiento: Blackman, Hamming y Hanning. . . . . . . 633.7. Ventanas de preprocesamiento: Kaiser y Tukey. . . . . . . . . . . . . . . . . 633.8. Efecto de derrame frecuencial. . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4.1. Proceso contraste de hipotesis. . . . . . . . . . . . . . . . . . . . . . . . . . 684.2. Procedimiento operacional. . . . . . . . . . . . . . . . . . . . . . . . . . . . 764.3. Arquitectura de una red neuronal tipo perceptron multicapa. . . . . . . . . 854.4. Representacion perceptron. . . . . . . . . . . . . . . . . . . . . . . . . . . . 864.5. Funciones de activacion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 874.6. Arquitectura general de una red MLP. . . . . . . . . . . . . . . . . . . . . . 884.7. Arquitectura de una red neuronal tipo RBF. . . . . . . . . . . . . . . . . . . 94

4.8. Funcion de activacion, φ(x) = e−x2

2σ2 . . . . . . . . . . . . . . . . . . . . . . 964.9. Comparacion clasificacion MLP vs RBF. . . . . . . . . . . . . . . . . . . . . 1004.10. Arquitectura de una red neuronal tipo PNN. . . . . . . . . . . . . . . . . . 1024.11. Representacion Modelo Oculto de Markov. . . . . . . . . . . . . . . . . . . . 1044.12. Algoritmo “adelante-atras”. Procedimiento hacia delante. . . . . . . . . . . 1094.13. Algoritmo “adelante-atras”. Procedimiento hacia atras. . . . . . . . . . . . 1094.14. Representacion de la obtencion de εt(i, j). . . . . . . . . . . . . . . . . . . . 1124.15. Esquema del modelo ergodico. . . . . . . . . . . . . . . . . . . . . . . . . . . 1154.16. Esquema del modelo izquierda-derecha. . . . . . . . . . . . . . . . . . . . . . 1164.17. Esquema del modelo rutas paralelas. . . . . . . . . . . . . . . . . . . . . . . 1164.18. Esquema del modelo entrada-salida. . . . . . . . . . . . . . . . . . . . . . . 1174.19. Algoritmo de clasificacion bietapa. . . . . . . . . . . . . . . . . . . . . . . . 1264.20. Arquitectura de la red neuronal RBF. . . . . . . . . . . . . . . . . . . . . . 1274.21. Entrenamiento de la red neuronal RBF. . . . . . . . . . . . . . . . . . . . . 1284.22. Entrenamiento de los MOM’s. . . . . . . . . . . . . . . . . . . . . . . . . . . 1284.23. Funcionamiento MSV. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1294.24. Seleccion del hiperplano optimo. . . . . . . . . . . . . . . . . . . . . . . . . 131

LISTA DE FIGURAS XVII

4.25. Separacion lineal: margen blando. . . . . . . . . . . . . . . . . . . . . . . . . 1344.26. Separacion no lineal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

5.1. Localizacion de los electrodos. . . . . . . . . . . . . . . . . . . . . . . . . . . 1405.2. Componentes del sistema. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1415.3. Flujograma procedimiento “Off-line”. . . . . . . . . . . . . . . . . . . . . . 1425.4. Flujograma procedimiento “On-line”. . . . . . . . . . . . . . . . . . . . . . 1445.5. Procedimiento de procesamiento registros EEG. . . . . . . . . . . . . . . . . 1455.6. Procedimiento estadıstico de comparacion de poblaciones. . . . . . . . . . . 1465.7. Procedimiento de aplicacion de la tecnica LDA. . . . . . . . . . . . . . . . . 1475.8. Procedimiento de aplicacion de clasificadores basados en redes neuronales. . 1485.9. Procedimiento de aplicacion del clasificador bietapa RBF-MOM. . . . . . . 1495.10. Procedimiento de aplicacion del clasificador basado en MSV. . . . . . . . . 1505.11. Casos de uso de la aplicacion. . . . . . . . . . . . . . . . . . . . . . . . . . . 1515.12. Interfaz de la aplicacion demostrador. . . . . . . . . . . . . . . . . . . . . . 1525.13. Interfaz de la aplicacion demostrador. . . . . . . . . . . . . . . . . . . . . . 1575.14. Diagrama de secuencia del caso de uso Puesta en marcha del sistema. . . . 1585.15. Diagrama de secuencia del caso de uso “Deletrear palabra”. . . . . . . . . . 1595.16. Diagrama de secuencia del caso de uso Finalizacion de la aplicacion. . . . . 160

6.1. Resultados de la comparacion de actividades cognitivas en el canal 1. . . . . 1636.2. Resultados de la comparacion de actividades cognitivas en el canal 2. . . . . 1646.3. Off-line. Calculo matematico vs Imaginacion de movimiento. Proyec. sobre

X1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1686.4. Off-line. Calculo matematico vs Relax. Proyec. sobre X1. . . . . . . . . . . . 1686.5. Off-line. Imaginacion de movimiento vs Relax. Proyec. sobre X1. . . . . . . 1696.6. On-line. Calculo matematico vs Imaginacion de movimiento. Proyec. sobre

X1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1696.7. On-line. Calculo matematico vs Relax. Proyec. sobre X1. . . . . . . . . . . . 1706.8. On-line. Imaginacion de movimiento vs Relax. Proyec. sobre X1. . . . . . . 1706.9. Off-line. Calculo matematico vs Imaginacion de movimiento. Proyec. sobre

X2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1716.10. Off-line. Calculo matematico vs Relax. Proyec. sobre X2. . . . . . . . . . . . 1716.11. Off-line. Imaginacion de movimiento vs Relax. Proyec. sobre X2. . . . . . . 1726.12. On-line. Calculo matematico vs Imaginacion de movimiento. Proyec. sobre

X2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1726.13. On-line. Calculo matematico vs Relax. Proyec. sobre X2. . . . . . . . . . . . 1736.14. On-line. Imaginacion de movimiento vs Relax. Proyec. sobre X2. . . . . . . 1736.15. Sujeto A. Canal 1. Clasificaciones correctas. . . . . . . . . . . . . . . . . . . 1776.16. Sujeto A. Canal 2. Clasificaciones correctas. . . . . . . . . . . . . . . . . . . 1776.17. Sujeto A. Canal 1 y 2. Clasificaciones correctas. . . . . . . . . . . . . . . . . 1786.18. Sujeto B. Canal 1. Clasificaciones correctas. . . . . . . . . . . . . . . . . . . 178

XVIII LISTA DE FIGURAS

6.19. Sujeto B. Canal 2. Clasificaciones correctas. . . . . . . . . . . . . . . . . . . 1796.20. Sujeto B. Canal 1 y 2. Clasificaciones correctas. . . . . . . . . . . . . . . . . 1796.21. Sujeto C. Canal 1. Clasificaciones correctas. . . . . . . . . . . . . . . . . . . 1806.22. Sujeto C. Canal 2. Clasificaciones correctas. . . . . . . . . . . . . . . . . . . 1806.23. Sujeto C. Canal 1 y 2. Clasificaciones correctas. . . . . . . . . . . . . . . . . 1816.24. Sujeto D. Canal 1. Clasificaciones correctas. . . . . . . . . . . . . . . . . . . 1816.25. Sujeto D. Canal 2. Clasificaciones correctas. . . . . . . . . . . . . . . . . . . 1826.26. Sujeto D. Canal 1 y 2. Clasificaciones correctas. . . . . . . . . . . . . . . . . 1826.27. Sujeto E. Canal 1. Clasificaciones correctas. . . . . . . . . . . . . . . . . . . 1836.28. Sujeto E. Canal 2. Clasificaciones correctas. . . . . . . . . . . . . . . . . . . 1836.29. Sujeto E. Canal 1 y 2. Clasificaciones correctas. . . . . . . . . . . . . . . . . 1846.30. Porcentaje de clasificaciones correctas. Canal 1. Kernel gaussiano. . . . . . . 1926.31. Porcentaje de clasificaciones correctas. Canal 2. Kernel gaussiano . . . . . . 1926.32. Porcentaje de clasificaciones correctas. Canal 1. Kernel polinomico. . . . . . 1936.33. Porcentaje de clasificaciones correctas. Canal 2. Kernel polinomico. . . . . . 1936.34. Porcentaje de vectores soporte. Canal 1. Kernel gaussiano. . . . . . . . . . . 1946.35. Porcentaje de vectores soporte. Canal 2. Kernel gaussiano . . . . . . . . . . 1946.36. Porcentaje de vectores soporte. Canal 1. Kernel polinomico. . . . . . . . . . 1956.37. Porcentaje de vectores soporte. Canal 2. Kernel polinomico. . . . . . . . . . 1956.38. Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel gaussiano

P=1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1966.39. Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel gaussiano

P=1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1966.40. Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel gaussiano

P=2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1976.41. Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel gaussiano

P=2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1976.42. Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel gaussiano

P=3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1986.43. Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel gaussiano

P=3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1986.44. Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel gaussiano

P=5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1996.45. Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel gaussiano

P=5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1996.46. Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel gaussiano

P=10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2006.47. Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel gaussiano

P=10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2006.48. Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel polinomico

P=2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201

LISTA DE FIGURAS XIX

6.49. Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel polinomicoP=2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201

6.50. Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel polinomicoP=3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202

6.51. Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel polinomicoP=3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202

6.52. Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel polinomicoP=4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203

6.53. Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel polinomicoP=4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203

A.1. Cuantificacion uniforme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215

XX LISTA DE FIGURAS

Lista de Tablas

2.1. Terminologıa de formas de onda para EEG. . . . . . . . . . . . . . . . . . . 322.2. Componentes potenciales sensoriales evocados. . . . . . . . . . . . . . . . . 35

3.1. Tipos de ventanas de preprocesamiento considerados. . . . . . . . . . . . . . 623.2. Determinacion del vector de caracterısticas. . . . . . . . . . . . . . . . . . . 65

4.1. Vector de caracterısticas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 754.2. Funciones Kernel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1374.3. Comparacion entre SVM y Redes Neuronales. . . . . . . . . . . . . . . . . . 137

6.1. Resultados voluntario AL01. . . . . . . . . . . . . . . . . . . . . . . . . . . . 1886.2. Resultados voluntario RO01. . . . . . . . . . . . . . . . . . . . . . . . . . . 1886.3. Resultados voluntario JA01. . . . . . . . . . . . . . . . . . . . . . . . . . . . 1886.4. Resultados voluntario DA01. . . . . . . . . . . . . . . . . . . . . . . . . . . 1886.5. Resultados voluntario RA01. . . . . . . . . . . . . . . . . . . . . . . . . . . 1886.6. Resultados voluntario RA02. . . . . . . . . . . . . . . . . . . . . . . . . . . 1886.7. Familia de funciones Kernel y parametros caracterısticos. . . . . . . . . . . 1906.8. Resultados Kernel gaussiano (P:1). . . . . . . . . . . . . . . . . . . . . . . . 1966.9. Resultados Kernel gaussiano (P:2). . . . . . . . . . . . . . . . . . . . . . . . 1976.10. Resultados Kernel gaussiano (P:3). . . . . . . . . . . . . . . . . . . . . . . . 1986.11. Resultados Kernel gaussiano (P:5). . . . . . . . . . . . . . . . . . . . . . . . 1996.12. Resultados Kernel gaussiano (P:10). . . . . . . . . . . . . . . . . . . . . . . 2006.13. Resultados Kernel polinomico (P:2). . . . . . . . . . . . . . . . . . . . . . . 2016.14. Resultados Kernel polinomico (P:3). . . . . . . . . . . . . . . . . . . . . . . 2026.15. Resultados Kernel polinomico (P:4). . . . . . . . . . . . . . . . . . . . . . . 203

B.1. Matriz de confusion del clasificador ideal. . . . . . . . . . . . . . . . . . . . 219B.2. Matriz de confusion para un clasificador real. . . . . . . . . . . . . . . . . . 220

XXII LISTA DE TABLAS

Capıtulo 1

Introduccion.

1.1. La tecnologıa de Interfaz Cerebro Computador.

Desde el momento en que un ser humano nace, la interaccion con el entorno que le rodease produce a traves de dos vıas, una sensorial destinada a la percepcion de dicho entorno,y otra motora, con la que se modifica dicho entorno a traves de movimientos, [Ratey 03].Mediante un proceso de aprendizaje, [Webster 04], [Wang 08], iniciado incluso antes denacer, en el vientre materno se determinan los canales y bucles de senales electroquımicasque permitiran tanto la adquisicion de informacion del entorno exterior, como el controlde los musculos con los que modificar dicho entorno, [Baker 89], [Jessell 91].

Siendo pues la percepcion de informacion y el movimiento, los mecanismos deinteraccion con el entorno fısico que nos rodea, no es de extranar que la practica totalidadde los actuales dispositivos de interfaz entre personas y maquinas necesiten algun tipo decontrol muscular voluntario, aunque este sea mınimo como por ejemplo es el caso de losdispositivos de comunicacion aumentada [Reilly 99], [Montoya 02].

Esta necesidad de movimiento impide que personas que hayan sufrido algun tipode accidente traumatico, que afecte a su capacidad de movimiento, o con trastornosneuromotores que se manifiesten en episodios de bloqueo o paralisis muscular, puedanhacer uso de dichos mecanismos de comunicacion, sin embargo la mayorıa de personas coneste tipo de problemas mantienen intactas su sensacion corporal, vista y oıdo, ası comosus capacidades cognitivas [Arnao 97].

Por ello desde que en 1920, el Dr. Hans Berger demostrara la existencia de variacionesde potenciales electricos en el cerebro asociadas a diferentes estados [Bronzino 95a],[Webster 04], [Baker 89], la comunidad cientıfica ha buscado el modo de aplicar dichodescubrimiento para obtener una vıa de comunicacion mas directa entre el cerebrohumano y dispositivos mecanicos externos, [Wolpaw 00b], [Wolpaw 03], [Pfurtscheller 00],[Perelmouter 99], [McFarland 97], [Penny 99], [Birch 00], dando lugar al surgimiento dela tecnologıa de Interfaz Cerebro Computador, ICC1, definida como “una nueva vıade comunicacion entre personas y computadores, radicalmente diferente a las empleadasen la actualidad, que utiliza canales de comunicacion independientes de los canalesde salida habituales del cerebro: sistema nervioso periferico y musculos” [Wolpaw 00a],

1En terminologıa sajona esta tecnologıa se conoce bajo las siglas BCI:“Brain Computer Interface”

2 Introduccion.

[Wolpaw 02]. Lo cual la hace especialmente valiosa en areas como rehabilitacion[Jacques 94], tratamiento de enfermedades nerviosas [Siegfried 97], realidad virtual o sectormilitar, [NASA 08].

Como se puede comprobar en esta tesis, la tecnologıa ICC involucra aspectos complejos,como el control voluntario de la senal electroencefalografica tanto de neuronas individualescomo de centros neuronales en cualquiera de sus diferentes modalidades: potencialesevocados, actividad neuronal espontanea, desincronizacion y sincronizacion de ritmoscerebrales; ası mismo implica la deteccion, medicion, interpretacion y clasificacion de dichaactividad neuronal por medio de sistemas basados en microprocesadores, para ası controlardiferentes tipos de dispositivos como por ejemplo: protesis neuronales, [Donchin 00],[Isaacs 00], protesis robotizadas, [Chapin 99], [Mahajan 98], sillas de ruedas electricas uordenadores personales, [Perelmouter 99], [Millan 03], sistemas de comunicacion verbal,[Kumlbler 01].

Desde el punto de vista de interaccion entre el ser humano y el dispositivo mecanicoexterno, hay que considerar que en el bucle de control interactuan dos componentesadaptativos con capacidad de aprendizaje, por un lado la persona y por otro el propiodispositivo de interfaz. Por lo que es preciso analizar el efecto que sobre la capacidad deutilizacion del sistema tienen tanto el efecto de realimentacion de informacion al usuario,como los cambios de estado de animo de este, [Holzapfel 98], [Sheikh 03].

Diferentes tecnicas de adquisicion y registro de actividad cerebral son empleadas enICC, [Wolpaw 03], [Barreno 97], [Rubio 00], como por ejemplo: la magnetoencefalografıa(MEG), la Tomografıa por Emision de Positrones (PET), o la imagen de resonanciamagnetica funcional (fMRI); existiendo en la actualidad grupos de investigaciontrabajando sobre ellas. Sin embargo las tecnicas anteriores presentan bien el inconvenientede tener constantes de tiempo muy altas, al quedar su funcionamiento ligado al flujosanguıneo, caso de PET, fMRI e imagen optica; o bien requerir un equipamiento muycostoso, [Laitinen 03]: MEG, PET, fMRI.En la actualidad la electroencefalografıa esla tecnica que por precio y tiempo de reaccion consigue mejores resultados [Birch 03],[Birch 00], [Borisoff 04], [Pfurtscheller 00].

Figura 1.1: Representacion del sistema ICC

1.1 La tecnologıa de Interfaz Cerebro Computador. 3

1.1.1. Clasificacion de dispositivos ICC.

Investigadores en ICC han adoptado diferentes aproximaciones, en muchos casosnovedosas y unicas, para la deteccion de cambios voluntarios en la actividad cerebraldel sujeto, a partir del analisis de variaciones en los diferentes tipos de senaleselectroencefalograficas, entre los que se encuentran la desincronizacion y posteriorsincronizacion de ritmos cerebrales, potenciales evocados o actividad cortical de neuronasindividuales.

La actividad electroencefalografica incluye una gran variedad de patrones o ritmosdiferentes que son identificados por su frecuencia, localizacion, morfologıa y asociacioncon varios aspectos del funcionamiento cerebral [Jessell 91], [Baker 89], [Webster 04].

Se ha demostrado que las personas, y ciertos homınidos [Maynard 99], [Kennedy 97],pueden aprender a controlar la amplitud de varios de estos ritmos cerebrales,[Birbaumer 03], [Birbaumer 00], [Lauer 00], [Sheikh 03]. Ritmos μ y generacion dediferentes tipos de potenciales son producidos en la zona senso-motora del cortex cerebral,bien durante movimientos voluntarios, o bien cuando se imagina o prepara un movimiento,[Penny 00]. Tecnicas avanzadas de procesamiento de senal permiten la deteccion en lıneade este fenomeno, dando lugar a que con su aprendizaje razonablemente rapido, sepueda controlar el movimiento de un cursor sobre la pantalla de un computador. Lacombinacion de diferentes ritmos EEG puede ser empleada para controlar el movimientobidimensional de un cursor, [Wolpaw 00b]. Por otro lado, la estimulacion sensorial ypotenciales relacionados con la actividad motora asociada a movimientos reales o figurados,da lugar a una compleja y rica actividad electroencefalografica que involucra a una grancantidad de potenciales evocados que pueden ser usados en dispositivos de comunicaciony control basados en la tecnologıa ICC, dando lugar a diferentes clases dentro de las quecatalogar tanto a los dispositivos ICC como a las lıneas de investigacion de las que parten.

Desde un punto de vista fisiologico los dispositivos ICC se pueden clasificar en exogenoso endogenos, vease figura 1.2, en el caso de los sistemas exogenos al usuario del sistema se lesuministran estımulos externos y se analiza la respuesta cerebral a los mismos. Un ejemplodonde esta tecnica ha sido empleada con exito es con potenciales visuales evocados, P300, ysu empleo en sistemas para deletrear palabras, [Donchin 00]. Personas que sufren bloqueosen su capacidad de respuesta o inicio de actividad, pueden utilizar potenciales evocadoslentos2 para por ejemplo deletrear palabras o en labores de control, siendo necesario unproceso de aprendizaje condicionado.

Los dispositivos endogenos por el contrario, basan su funcionamiento en detectar yreconocer determinados patrones de ondas cerebrales ligados a la voluntad del usuario, sinque sea necesario proporcionar estımulos externos; un ejemplo en el que esta tecnica ha sidoutilizada con exito es con la deteccion de la desincronizacion y posterior sincronizacionde ritmos β o μ que se producen cuando el usuario imagina o planifica movimientos,[Scherer 04], [Wolpaw 03].

2Los potenciales evocados lentos son la suma de potenciales de activacion ultralentos en las dendritasde las neuronas corticales, surgen de diferentes capas del cortex cerebral.

4 Introduccion.

Otro tipo de clasificacion con base fisiologica, se realiza atendiendo a la utilizacion dedeterminadas estructuras cerebrales. Se catalogan como dispositivos ICC independienteslos que, como en el caso anterior, aprenden patrones de actividad con independenciade la causa que los origine, y dispositivos dependientes los que detectan la activacionde determinadas regiones del cerebro asociadas a salida de informacion del mismo, yası detectar o inferir la voluntad del usuario. Un ejemplo de este tipo de dispositivos ICCdependientes, serıan los que determinan la direccion de la mirada del usuario partiendodel analisis de potenciales visuales evocados, [Sutter 92]. En ambos casos es preciso que elusuario realice un proceso de aprendizaje y adaptacion al sistema, siendo por lo generalmas laborioso para el caso de dispositivos endogenos, [Wolpaw 07].

Un ultimo tipo clasificacion viene dado por el tipo de electrodos empleados, existenen este sentido dos grandes clases: electrodos superficiales que se colocan sobre elcuero cabelludo, y los implantables, [Hoogerwerf 94], [Isaacs 00], [Rousche 98]: epidurales,subdurales, intracorticales. Los electrodos implantables, usados con exito en tecnicas deestimulacion electrofuncional [Mahajan 98], presentan una mejor relacion senal ruido,ası como una mayor tasa en la velocidad de transferencia de informacion y una mejorresolucion espacial, ya que pueden detectar la activacion o desactivacion de gruposespecıficos de neuronas. Sin embargo presentan el inconveniente de requerir operacionquirurgica para su colocacion, y que con el tiempo la senal poco a poco va disminuyendo,debido al efecto de rechazo por parte del sistema inmunologico a elementos extranos, locual da lugar a que la relacion senal ruido vaya deteriorandose [Kipke 03], [Schmidt 88],[Williams 99]. Se ha demostrado que tanto animales, como pacientes humanos, conelectrodos implantados han sido capaces de controlar trenes de activacion de dos o masneuronas de la zona motora del cortex, controlando un dispositivo de comunicacion,[Robinson 00b]. Los electrodos superficiales presentan el inconveniente de una menorcalidad de la senal registrada, por lo que para detectar variaciones de potencial electrico esnecesario que el numero de neuronas implicadas sea varios ordenes de magnitud superiorque para el caso de electrodos implantables, siendo por tanto mayor la extension de laregion del cerebro involucrada; sin embargo presentan la ventaja de no requerir operacionquirurgica en su utilizacion.

Figura 1.2: Clasificacion de dispositivos ICC.

1.1 La tecnologıa de Interfaz Cerebro Computador. 5

1.1.2. Componentes de un dispositivo ICC.

Con independencia de la tecnica de adquisicion de senal encefalografica utilizada, y seacual sea la tipologıa del dispositivo en cuestion, todos los sistemas pueden enmarcarse enun diagrama de bloques semejante al que aparece en la figura 1.3, [Schalk 04], [Wolpaw 07],en cuyos bloques se considera:

Figura 1.3: Componentes de un sistema ICC.

6 Introduccion.

1. Adquisicion de senal encefalografica. En este bloque se contempla el proceso a travesdel cual se procede a realizar la adquisicion de senal cerebral. Comprende los procesosde amplificacion de senal, filtrado analogico, muestreo y cuantificacion.

En caso de utilizar un sistema electroencefalografico como sistema de adquisicion,para poder llegar a una aplicacion practica, la senal adquirida, del orden demicrovoltios, ha de ser filtrada de otras fuentes de perturbacion como ruido ambiente,actividad muscular y perturbaciones por movimiento, e incluso deben ir mas alla,puesto que deben permitir su empleo en ambientes ruidosos, aun en el caso enque las ordenes de mando sean dadas de forma poco frecuente, por lo que serequeriran algoritmos de deteccion robustos, en donde por ejemplo el efecto deventaneado sea considerado, [Wolpaw 02]. Debido a que es la senal captada la queporta los mensajes del usuario, el objetivo de su analisis es la maximizacion dela relacion senal frente al ruido, por lo que es preciso considerar las fuentes deruido mas importantes, [McFarland 97], estas pueden ser tanto extraneuronales:movimientos de los ojos, EMG, ruido electrico; como neuronales: cualquier otro tipode senales diferentes a las utilizadas para la comunicacion. La deteccion del ruidoy clasificacion presentan mayor dificultad cuando la senal de ruido es similar enfrecuencia, tiempo o amplitud a la senal deseada. Por ejemplo, analizando potencialesevocados lentos, se comprueba que su espectro de frecuencia se sobrepone con elespectro de movimiento de los ojos, igual ocurre cuando se analizan ritmos β y seproducen movimientos musculares. Es preciso por tanto, tener suficiente informacioncomo para permitir discriminar entre senal y ruido. La actividad muscular puedeenmascarar la caracterıstica de control EEG utilizada, incluso puede aparecer ruidono muscular por actividad refleja en aquellos usuarios con falta total de controlmuscular voluntario. En este caso, el ruido por causas no neuronales provoca unadegradacion en el rendimiento del dispositivo ICC, ya que disminuye la relacion senalruido. Es ası mismo importante distinguir entre diferentes caracterısticas neuronales.El ritmo α visual es una fuente de ruido, cuando se considera el ritmo μ comocaracterıstica de control. Metodos de filtrado temporal y espacial pueden ayudar enla distincion, senales de diferentes fuentes podrıan tener espectros frecuenciales ydistribuciones espaciales parecidas, [Florian 98]. Si el ruido, tanto neuronal como noneuronal, puede ser identificado en lınea durante el transcurso del funcionamiento,su impacto podrıa ser reducido o incluso eliminado. Por ejemplo un dispositivoICC controlado por potenciales corticales lentos, cuya entrada se vea contaminadapor movimientos oculares puede ser bien filtrada y restaurada, o bien rechazada,[Birbaumer 00]. Esta aproximacion puede dar lugar a que el usuario aprenda areducir la produccion de dicho ruido.

2. Preprocesamiento. Este bloque comprende las operaciones que se realizan sobre lasenal digitalizada, previas a la obtencion de los parametros que definen el segmentotemporal de senal analizado, por ejemplo: filtrado digital, conversion de dominiotemporal a dominio frecuencial, analisis de fase, etc.

1.1 La tecnologıa de Interfaz Cerebro Computador. 7

En cuanto a las tecnicas empleadas para procesar la senal existen numerosas opcionesdisponibles para el procesamiento de senal ICC. La decision del criterio a aplicarvendra dado por la comparacion de medidas de velocidad y precision en experimentosen lınea.

Metodos de procesamiento de senal son importantes en el diseno de sistemas ICC,pero no resuelven todos los problemas. Pueden mejorar las relacion senal ruido, perono pueden tratar directamente con los cambios de la senal, por lo que el desarrollo dela tecnologıa ICC depende del manejo apropiado de la interaccion adaptativa entreel usuario y el sistema, ası como en la seleccion del metodo de procesamiento desenal adecuado.

3. Extraccion de caracterısticas. Para cada segmento temporal de senal analizado seobtienen un conjunto de parametros que reunen la informacion mas relevante delmismo y que permiten caracterizarle, [Galan 07]. La estimacion de parametrosen modelos autorregresivos es un metodo util para describir la actividad deEEG, mostrandose valioso en aplicaciones de la tecnologıa ICC, [Pfurtscheller 00],[Penny 00]. Los modelos AR por lo general asumen procesos gaussianos, [Birch 00].Los residuos del modelo deben ser considerados y analizados debido a su graninfluencia en la estimacion de los parametros del modelo. La estimacion de maximaprobabilidad generalizada (GM) se muestra valiosa en aquellos casos en los queexiste una contaminacion aditiva de muestras fuera de la banda de consideracion.Este metodo se basa en el filtro de Kalman modificado. Ambos metodos producenresultados similares a la estimacion AR tıpica, cuando los datos observados sedistribuyen segun gaussianas. Algoritmos Bayesianos pueden analizar la certidumbreen la interpretacion de la voluntad del usuario por parte del sistema, [Penny 00]. Esposible parar la comunicacion cuando el valor de la certidumbre es inferior a un valorcrıtico, reduciendo errores en el rendimiento del sistema ICC.

4. Aprendizaje y clasificacion. En este bloque se consideran los mecanismos a travesde los cuales, durante la fase de entrenamiento, se aprenden determinados patronescerebrales. Con posterioridad, en la fase de funcionamiento “On-line”, los segmentosde senal cerebral son catalogados como pertenecientes a determinados patronescerebrales.

Es sin duda el componente crıtico de todo sistema de Interfaz Cerebro Computador,pues convierte la entrada electrofisiologica del usuario en una senal de mando quepermite controlar dispositivos externos. De su tasa de acierto depende la efectividaddel sistema, [Obermaier 01b], la cual a su vez depende de la interaccion entre loscontroladores adaptativos anteriormente mencionados: el usuario que codifica lasordenes al sistema ICC, y dicho sistema que reconoce las ordenes que hay en laentrada y las traduce en ordenes de control del dispositivo. En la actualidad seestan obteniendo velocidades de transferencia de informacion entre 5-25 bits/min,[Penny 99].

8 Introduccion.

Dispositivos de ICC diferentes utilizan diferentes algoritmos de traduccion,[Birbaumer 00], [Penny 00], [Muller 03b], basados en tecnicas lineales, [Garrett 03],en tecnicas bayesianas, [Penny 00], en redes neuronales, [Wang 04] y en ModelosOcultos de Markov; sin embargo hasta la fecha no se tiene constancia de que hayasido desarrollado un algoritmo de clasificacion que aune redes neuronales y modelosocultos de Markov, tal y como se hace en esta tesis.

Por algoritmos de traduccion se entienden una serie de calculos que transforman lascaracterısticas de la entrada derivadas del procesamiento de senal en comandos decontrol del dispositivo. Los algoritmos de traduccion adquieren la senal, extraenlas caracterısticas que refleja el estado actual del usuario. bien del EEG o dela actividad neuronal: individual o colectiva, y la transforman en comandos quedependen del dispositivo al que se aplican. Dispositivos de ICC diferentes utilizandiferentes algoritmos de traduccion, [Birbaumer 00], [Penny 00]. Cada algoritmo sepuede clasificar en terminos de tres caracterısticas clave: funcion de transferencia,capacidad de adaptacion y salida. La funcion de transferencia puede ser lineal, porejemplo analisis de discriminantes lineales, ecuaciones lineales; o no lineal: redesneuronales. El algoritmo puede ser o no adaptativo. Algoritmos adaptativos puedenutilizar sencillas reglas hechas a mano o utilizar algoritmos mas sofisticados deaprendizaje por computador. La salida del algoritmo puede ser discreta: seleccionde letras o iconos, o continua: movimiento del cursor. La gran diversidad de losalgoritmos de traduccion entre los grupos de investigacion se debe en parte a ladiversidad de su aplicacion en la practica. Sin embargo en todos los casos el objetivoes maximizar el rendimiento y utilidad para la aplicacion elegida.

Cada algoritmo se puede clasificar en terminos de tres caracterısticas clave: funcionde transferencia, capacidad de adaptacion y salida. La funcion de transferenciapuede ser lineal, por ejemplo analisis de discriminantes lineales, ecuaciones lineales;o no lineal: redes neuronales. El algoritmo puede ser o no adaptativo. Algoritmosadaptativos pueden utilizar sencillas reglas hechas a mano o utilizar algoritmosmas sofisticados de aprendizaje por computador. La salida del algoritmo puede serdiscreta: seleccion de letras o iconos, o continua: movimiento del cursor. La grandiversidad de los algoritmos de traduccion entre los grupos de investigacion se debeen parte a la diversidad de su aplicacion en la practica. Sin embargo en todos loscasos el objetivo es maximizar el rendimiento y utilidad para la aplicacion elegida.

5. Asociacion de dichas clases a ordenes de control de dispositivos externos. Este bloquees el encargado de realizar la traduccion de patrones cerebrales a comandos de controlde dispositivos externos.

Ademas de los bloques anteriores, en dispositivos ICC “On-line”, ha de existir unbloque que permita supervisar el funcionamiento del dispositivo por parte del usuario,como por ejemplo su activacion / desactivacion, o fase de funcionamiento en la quese encuentra: adquisicion de muestras iniciales, entrenamiento, funcionamiento on-line,adaptacion.

1.2 Aplicacion de la tecnologıa ICC. 9

1.2. Aplicacion de la tecnologıa ICC.

Como ya se ha indicado, los dispositivos ICC se basan en registrar y analizar laactividad cerebral, bien mediante el uso de tecnicas electroencefalograficas, o bien medianteotras tecnicas de deteccion.

En la actualidad esta tecnologıa se encuentra en fase de desarrollo, por lo queexisten demostradores tecnologicos propuestos por los diversos grupos de investigacion,por medio de los cuales es posible controlar el movimiento de un cursor en la pantallade un ordenador personal al objeto de poder seleccionar bien un icono o una letraentre un grupo de candidatos, dando lugar a aplicaciones de teclados de conceptos odeletreadores de palabras, [Wolpaw 07], [Wolpaw 02]. Sin embargo, aun no se ha llegadoa realizar una comercializacion masiva de ningun dispositivo de interfaz humana basadoen esta tecnologıa, razones para ello son tanto el coste relativamente elevado de disenoy fabricacion de dicho dispositivo, como la elevada dependencia actual del usuario parasu buen funcionamiento, sin olvidar que la tasa de transferencia de informacion obtenida,que aun siendo util en casos de personas con problemas de comunicacion, no es todavıalo suficientemente elevada como para poder ser alternativa a los dispositivos de interfaztradicionales. La discusion del diseno y desarrollo de dispositivos de interfaz basadosen tecnologıa ICC inevitablemente se centra en las posibles aplicaciones, su eficiencia,seguridad y coste de programas especıficos para aplicaciones particulares. Una vez que deforma general se de respuesta a preguntas iniciales como: ¿Con que eficacia se controla elmovimiento de un cursor? o ¿Cual es la velocidad con la que podemos seleccionar una letraentre veintiseis?, se podran considerar los fines a los que se puede destinar esta tecnologıaen la vida real, [Miner 98], [Sheikh 03], [Vidal 73], [McFarland 97].

Entre las diferentes tipologıas de dispositivos ICC los primeros en desarrollarse hansido los de tipo exogeno, basados en el control de la amplitud de una determinada bandade frecuencia en el registro del EEG en una zona cortical especıfica, por ejemplo ritmosμ o β en la zona sensomotora del cortex, [Kostov 00], [Penny 00], o potenciales evocadosante estımulos especıficos, ej. amplitud de los potenciales P300 producidos en respuesta aintermitencia de destello en matrices de letras, [Donchin 00].

Sin embargo desde el punto de vista del usuario son preferibles los dispositivos ICCendogenos, pues al no precisar de un entorno estructurado, es mayor la libertad de quese dispone tanto en cuanto a la eleccion del momento en que se genera el patron cerebralo idea asociada a un comando de dispositivo, como en cuanto a la seleccion de dichospatrones. Una aplicacion basada en un dispositivo ICC endogeno permitirıa al usuariomover el cursor a cualquier punto de un plano, mientras que un sistema exogeno limitarıala eleccion a las opciones mostradas en un monitor.

Por otro lado los desarrolladores deben evitar la tendencia de preajustar o preasignarlos parametros de las herramientas y su aplicacion, como si de un ejercicio de optimizacionse tratase. Cada dispositivo ICC debe optimizarse para cada usuario o grupo de usuarios.Al mismo tiempo, el proceso de optimizacion debe ser lo mas objetivo y estandar posible.

10 Introduccion.

Los objetivos deben ser claramente definidos, ası como las necesidades hacia las que vadestinado, deseos y motivadores primarios, aplicaciones y utilizacion por parte del usuario,para todo lo cual sera preciso el analisis comportamental del conjunto, incluido el usuario.El desarrollo de ICC no solo debe incorporar principios tecnicos y electrofisiologicos, sinoque tambien es preciso bases de aprendizaje bien definidas, [Florian 98], [Harrington 97].

Usuarios con una enfermedad progresiva, como por ejemplo Esclerosis LateralAmiotrofica, ELA, podrıan utilizar dispositivos ICC que particularizaran suscaracterısticas de entrada al usuario y su salida controlara un interfaz convencionalde comunicacion aumentada, [Reilly 99], [Isaacs 00]. De tal modo que segun avance laenfermedad, el usuario podrıa realizar una transicion suave, del uso del interfaz decomunicacion aumentada estandar al dispositivo ICC, [Jacques 94].

El desarrollo reciente y la aplicacion comercial de “Freehand Functional ElectricalStimulation system (FES)” en “Case Western Reserve University”, Cleveland OH.,demuestra las condiciones necesarias para el exito, [Lauer 00]. Estas condiciones incluyen:estabilizacion de todos los aspectos de diseno y documentacion, una poblacion de usuariosbien definida, protocolos de entrenamiento normalizados, demostracion de la viabilidad deaplicaciones especıficas, medida de caracterısticas de salida bien definidas que documentenadecuadamente el uso y eficiencia, asistencia regular en varios centros y la identificacionde centros de fabricacion y estrategia de comercializacion. Todo lo cual requiere lacolaboracion de los usuarios y el convencimiento por parte de los mismos de que latecnologıa empleada es util y segura. Es tambien precisa la cooperacion de profesionalesde centros de salud, los cuales deben convencerse de que la relacion beneficio / riesgo esfavorable, que la tecnologıa es segura y util, y que es igual o superior a las alternativasactualmente disponibles. Por ultimo es preciso convencer a las companıas de seguros, quea largo plazo la inversion realizada en este tipo de tecnologıa sera recuperada con creces.

Pacientes que esten paralizados, o con dano traumatico que afecte a la medulaespinal, o protesis en extremidades superiores, se podrıan beneficiar de la aplicacionde la tecnologıa ICC, siempre y cuando sea segura y efectiva. Para ser justificable, unsistema implantado debe ofrecer una sustancial ventaja funcional sobre la tecnologıa decomunicacion aumentada convencional o metodos ICC no invasivos.

Las areas de aplicacion en las que se propone la utilizacion de esta tecnologıa son:

1.2.1. Ciencia de la rehabilitacion.

El enfoque actual de las investigaciones en ICC se orienta principalmente hacia laciencia de la rehabilitacion, entendiendo por tal “el desarrollo de conocimiento corporal,recogido de una rigurosa investigacion clınica, permitiendo describir como la incapacidadmodifica funciones fisiologicas y anatomicas especıficas, y detalla los principios basicos porlos que funciones residuales o capacidades pueden ser medidas y utilizadas para recuperarfunciones en individuos con incapacidad”, [Robinson 93].

Las aplicaciones hacia las que se destinan los dispositivos ICC son neuroprotesis

1.2 Aplicacion de la tecnologıa ICC. 11

que permitan ha personas paralizadas comunicarse bien con el entorno que lesrodea, [Birbaumer 03], [Robinson 00a], [Birbaumer 00], o bien con un entorno simulado,[Bayliss 03], o mejorar su capacidad de movimiento ayudandose con dispositivos roboticos,por ejemplo el control de movimiento de protesis mecanicas de miembros perdidos, [Bai 01],[Birch 00], [Kositsky 03]. Del mismo modo se han desarrollado prototipos para el controlde sillas de ruedas motorizadas, [Birch 00], [Millan 03], [Millan 04], [Gerstner 04].

Ademas de su empleo en casos de paralisis asociados con accidentes traumaticos,Esclerosis Lateral Amiotrofica, [Leeb 05], u otras enfermedades neurodegenerativas, latecnologıa ICC ha sido propuesta como posible vıa de comunicacion afasia y otrosdesordenes de comunicacion, como autismo, haciendo que la persona autista interaccionecon entornos virtuales 3D, cuya complejidad aumenta progresivamente aproximandose ala real segun criterio del rehabilitador, [Birbaumer 00]. Mediante la prevencion de laszonas de lenguaje comprometidas de la zona del cortex temporal-frontal, y por mediodel mecanismo de plasticidad cerebral, [Ratey 03], [Bronzino 95b], [Jessell 91], se podrıanconcebir mecanismos de comunicacion, siendo una alternativa efectiva para pacientes queno puedan controlar el alfabeto, o un sistema de representacion pictorica.

Como bancos de demostracion se han desarrollado prototipos que permiten el controlunidimensional y bidimensional de un cursor en la pantalla de un computador, empleandolos resultados obtenidos en aplicaciones para deletrear palabras y teclados de conceptos,[Donchin 00], [Allison 03], [Bayliss 00], [Bianchi 03].

1.2.2. Teleoperacion de robots industriales.

En el campo de la teleoperacion de dispositivos se han hecho demostradorestecnologicos que evaluan la aplicabilidad de la tecnologıa ICC en la teleoperacion de robotsindustriales, [Chapin 99], [Taylor 03], [HONDA 09].

1.2.3. Sector militar.

El sector militar fue el que a traves de las investigaciones en bionica del Dr. J.J.Vidal,en la decada de los 70, dio lugar al nacimiento de esta tecnologıa, [Vidal 77].

En la actualidad la tecnologıa ICC, basando en el efecto de realimentacion neuronal3,se emplea en el entrenamiento avanzado de pilotos de combate para potenciar laconcentracion en misiones que requieren un alto nivel de alerta, ası como la gestion yevaluacion de riesgos en el menor tiempo posible, [NASA 08].

1.2.4. Sector del ocio y entretenimiento.

En este area, companıas como IBVA (http://www.ibva.com), proponen el empleo dedispositivos basados en tecnologıa ICC como medio para el desarrollo de actividades ludico-creativas, como la composicion de musica a traves del tratamiento de los ritmos cerebrales.

Ası mismo es de esperar que mediante la utilizacion de tecnicas basadas enNeurofeedback, se desarrollen dispositivos de uso personal, que permitan ser aplicadosjunto con tecnicas de relajacion al objeto de combatir los altos niveles de estres presentesen la sociedad actual.

3En ingles a esta tecnica se la denomina “Neurofeedback”

12 Introduccion.

1.3. Motivaciones de la tesis.

La presente tesis se enmarca dentro de la lınea que sobre bioingenierıa y tele-robotica seviene realizando por el Grupo de Robotica y Cibernetica de la Universidad Politecnica deMadrid, dando lugar a tesis como: [Ferre 97], [Penın 98], [Luengo 98], en el area de InterfazHombre Maquina y teleoperacion de dispositivos roboticos; o [Rocon 06], [Moreno 06], enel area de bioengenierıa en la aplicacion de exoesqueletos roboticos.

De manera particular esta tesis focaliza su centro de interes en el area de investigaciony desarrollo de interfaces avanzados entre seres humanos y maquinas, siendo sus resultadosaplicables en campos como la teleoperacion de dispositivos externos, robotica asistenciale ingenierıa de rehabilitacion.

1.3.1. Objetivos de la tesis.

Con esta tesis se pretende analizar la aplicabilidad actual de la tecnologıa deInterfaz Cerebro Computador, bajo el paradigma de sistema endogeno, empleando unnumero mınimo de electrodos superficiales localizados sobre aquellas zonas encefalicas conmayor poder de discriminacion, orientando su uso hacia aplicaciones de teleoperacion yrehabilitacion, para lo cual se consideran los siguientes objetivos:

Descripcion detallada de las bases fisiologicas en las que se basa la tecnologıa ICCen sus diferentes versiones.

Exposicion, analisis y evaluacion, de las diferentes tecnicas de adquisicion deactividad cerebral.

Comparacion de la capacidad de discriminacion de la senal electroencefalograficaregistrada cuando el usuario realiza los diferentes tipos de actividades cognitivaspropuestas.

Explicacion, aplicacion y evaluacion de los algoritmos de clasificacion empleados.

Evaluacion de esta tecnologıa en control de dispositivos externos genericos.

Influencia de la realimentacion de informacion al usuario sobre la capacidad dediscriminacion.

Desarrollo de un demostrador que permita evaluar la aplicabilidad de la tecnologıade Interfaz Cerebro Computador.

Evaluar la viabilidad de su utilizacion ambulante.

1.3 Motivaciones de la tesis. 13

1.3.2. Aportaciones de la tesis.

De la consecucion de los objetivos anteriores se derivan las principales aportaciones dela presente tesis:

Desarrollo de un demostrador, que siguiendo el paradigma de sistema endogeno,emplea solo dos canales electroencefalograficos, localizados respectivamente sobrelas zonas encefalograficas de ambos hemisferios cerebrales con mayor capacidad dediscriminacion: C3 y C4.

Realizacion de baterıas de experimentos, tanto fuera de lınea (“Off-line”) como enlınea (“On-line”), con usuarios reales, con cuyos resultados se puede analizar:

• La capacidad de discriminacion de las muestras de los registros electroencefa-lograficos, adquiridos mientras los usuarios realizaban las actividades cognitivaspropuestas.

• Analisis que el efecto de ventaneado de la senal electroencefalografica tienesobre su capacidad de discriminacion, para lo cual se han empleado los sietetipos de ventanas mas conocidos en procesamiento de senal [Proakis 97],[Oppenheim 96]: rectangular, triangular, Blackman, Hamming, Hanning, Kaisery Tukey; identificandose las que dan lugar a una mejor separabilidad.

• Identificacion de aquellas caracterısticas, basadas en componentes frecuenciales,con mayor capacidad de discriminacion.

• Obtencion, mediante la aplicacion de la tecnica de Analisis de DiscriminantesLineales,4, de la matriz de transformacion que permite una reduccion del espaciode caracterısticas entrada a un posterior clasificador. Analizando ası mismo, elefecto que dicha transformacion causa en la capacidad de discriminacion.

• Aplicacion a los clasificadores, que empleando la metodologıa de aprendizajesupervisado, mas comunmente empleados en el area de Inteligencia Artificial,como son:

◦ Clasificadores basados en redes neuronales de los tipos: PerceptronMulticapa (MLP), Funciones de Base Radial (RBF), Redes NeuronalesProbabilısticas (PNN), [Bishop 95], [Duda 01], [Ripley 96].

◦ Maquinas de Soporte de Vectores (SVM), [Cristianini 00], [Nabney 02].

• Analisis que la realimentacion de informacion al usuario, acerca de delresultado de clasificacion obtenido, tiene sobre la capacidad de discriminacionde actividades cognitivas.

Ası mismo, considerando los desarrollos que en la tecnologıa de ReconocimientoNatural del Habla se han llevado a cabo utilizando Modelos Ocultos de Markov,se ha desarrollado un novedos algoritmo de clasificacion bietapa que empleasecuencialmente redes neuronales de tipo RBF y Modelos Ocultos de Markov.

La ingente cantidad de datos obtenidos ha sido procesada y mostrada graficamente deforma resumida en las figuras del capıtulo 6.

4En ingles se define como: “Linear Discriminant Analysis (LDA)”.

14 Introduccion.

1.4. Estructura de la tesis.

La presente tesis se encuentra estructurada en siete capıtulos y dos apendices.En el primer capıtulo, como ya se habra podido leer, se realiza una definicion de la

tecnologıa de Interfaz Cerebro Computador, a la vez que se describen sus componentesfundamentales. Ası mismo se analizan los principales campos de aplicacion de estatecnologıa.

En el capıtulo segundo se realiza una exposicion sobre las bases fisiologicas en las que sebasa la tecnologıa de Interfaz Cerebro Computador, presentando las diferentes alternativastecnicas para el registro de la actividad cerebral. A continuacion se presenta un estado de latecnica haciendo una revision historica de los desarrollos llevados a cabo por los diferentesgrupos de investigacion a nivel mundial, concluyendo con las tendencias actuales. Porultimo se realiza una breve descripcion de las tecnicas empleadas en la tecnologıa ICC.

En el capıtulo tercero se describen las tecnicas de preprocesamiento de senal empleadas.Al igual que ocurre con la tecnologıa en vision artificial, antes de proceder a la clasificacionde una imagen, esta se somete a diferentes procesos como son: preprocesamiento, filtrado,extraccion de caracterısticas, y por ultimo clasificacion; la correcta adecuacion de la senalelectroencefalografica es determinante en la obtencion de los conjuntos de caracterısticasque representan de forma fiel al segmento de senal temporal considerado. En este capıtulose presenta la tecnica de ventaneado temporal de la senal, describiendo los diferentes deventanas de procesamiento empleados, cuya influencia sobre la capacidad de discriminaciony clasificacion de la senal EEG, sera posteriormente analizada.

En el capıtulo cuarto se describen los diferentes algoritmos de clasificacion consideradosen los experimentos llevados a cabo en el desarrollo de esta tesis, basado en la utilizacion deredes neuronales: MLP, RBF y PNN; Maquinas de Soporte de Vectores, y en el algoritmode clasificacion bietapa RBF-MOM. En ellos se hace uso tanto de tecnicas estadısticaspara la determinacion de la capacidad de discriminacion, como de la tecnica de Analisisde Discriminantes Lineales para la reduccion del espacio de caracterısticas original, a travesde la obtencion de la matriz de transformacion.

En el capıtulo quinto se describe la adaptacion de los algoritmos anteriores al contextoparticular de la tecnologıa ICC. Ademas se describe a nivel de analisis la aplicacionde demostracion, presentando los principales casos de uso, diagramas de secuencia ydiagramas de estructura de clases de analisis.

En el capıtulo sexto se realiza la presentacion, analisis, discusion y extraccion deconclusiones, de los resultados obtenidos tras el procesado del gran volumen de datosexperimentales conseguidos de la aplicacion practica de los conceptos expuestos en loscapıtulos anteriores.

Por ultimo, en el capıtulo septimo se exponen las conclusiones alcanzadas, valoracionde los objetivos iniciales, ası como futuras lıneas de investigacion y desarrollo a las que dalugar esta tesis.

En el apendice A se presenta consideraciones sobre el proceso de adquisicion de senal,mientras que el apendice B describe el concepto de matriz de confusion empleado enclasificacion.

Capıtulo 2

Estado de la tecnica.En este capıtulo se comienza dando unas nociones basicas de la fisiologıa del sistema

nervioso, necesarias para comprender los principios biologicos en los que se fundamentala tecnologıa de Interfaz Cerebro Computador, que si bien pueden ser innecesariaspara investigadores familiarizados con ciencias biologicas, pueden no serlo tanto parainvestigadores del area de las ingenierıas, menos familiarizados con las bases fisiologicasdel sistema nervioso.

Posteriormente se hace una revision de las tecnicas empleadas para la adquisicionde senal de la actividad cerebral, entre las que se encuentran la electroencefalografıa,magnetoencefalografıa y diversas tecnicas aplicadas en imagen medica como: imagencerebral por rayos X, imagen nuclear, tomografıa computerizada, imagen de resonanciamagnetica, tomografıa computerizada por emision individual de fotones (SPECT),tomografıa por emision de positrones (PET); a la vez que se analiza su aplicabilidad ala tecnologıa de Interfaz Cerebro Computador.

Seguidamente se analizan las referencias historicas sobre el desarrollo de la tecnologıaICC, para finalmente presentar el estado actual en el que se encuentra esta tecnologıa.

2.1. Fundamentos fisiologicos.

Debido a que las bases fisiologicas del sistema nervioso desempenan un papelfundamental en la tecnologıa ICC, en esta seccion se hace una exposicion de conceptosfisiologicos que aparecen a lo largo de la presente tesis. Los conceptos que se describen acontinuacion son:

Fisiologıa. Define brevemente el campo de investigacion de esta ciencia, a la vezque cita las diferentes investigaciones que sobre el Sistema Nervioso se han venidollevando a cabo a lo largo del tiempo.

La Neurona. Describe desde un punto de vista biologico este tipo de celula,presentando las caracterısticas que la hacen unica para ser la base del sistemanervioso.

El Sistema Nervioso. La agrupacion y especializacion de las neuronas dan lugar ala formacion de las diferentes estructuras que forman el sistema nervioso. En estesubapartado se presentan estas estructuras, ası como las particularidades que masrelevancia tienen en la tecnologıa ICC.

16 Estado de la tecnica.

2.1.1. Fisiologıa.

La fisiologıa es la ciencia que tiene por objeto el estudio de las funciones de losseres organicos. Su aplicacion al sistema nervioso es clave para comprender las diferentesvariantes que existen sobre ICC.

El estudio de la fisiologıa del sistema nervioso humano no es reciente, existen referenciasen las que sacerdotes del antiguo Egipto pretendıan reconocer a traves de la inspeccionvisual de la cabeza los instintos, sentimientos y hasta la capacidad intelectual de la personaen cuestion. La civilizacion griega adquirio y mejoro dichos conocimientos, dando lugar alnacimiento de ciencias como la Psicologıa, o a representaciones artısticas de dioses o heroes,en donde la configuracion de la cabeza estaba en armonıa con los atributos y facultadesque se querıan presentar al pueblo llano en sus formas mas palpables. Los escritos masantiguos acerca del particular son los de Platon o Aristoteles [Velazquez 97].

En el siglo IX de nuestra era, el fısico y medico Avicena investigo sobre la localizacion delas facultades cerebrales [Chinchilla 43]. Investigaciones que fueron retomadas por Albertoel Grande cuatrocientos anos despues, en el siglo XIII, quien dibujo una cabeza en laque represento el sitio en que radicaban las diferentes facultades humanas [Espinoza 03],coloco el sentido comun en la frente o en el primer ventrıculo, el juicio en el segundo, lamemoria y la fuerza motriz en el tercer ventrıculo.

Trabajos similares fueron realizados en Italia por Pedro de Montagna, quien en 1491publica su obra adornada con una lamina que representaba el sitio del sentido comun y laimaginacion dentro de la cabeza [Montaner 91].

Figura 2.1: Diagrama frenologico.

Poco despues, en 1562, Luis Dolei define el primer sistema de Frenologıa, definiendo talciencia como: “Doctrina psicologica segun la cual las facultades psıquicas estan localizadasen zonas precisas del cerebro y en correspondencia con relieves del craneo”. El examen deestos permitirıa reconocer el caracter y aptitudes de la persona. Sin embargo es Gail quienen 1781 popularizo este sistema [Colbert 98], [Segovia 38], perfeccionado posteriormentejunto con Spurzheim en 1804, con investigaciones acerca de la anatomıa y fisiologıa delsistema nervioso, y en particular del cerebro.

2.1 Fundamentos fisiologicos. 17

Posteriormente Descartes, Gardon, Willis, Boerhaave, Kant, Bonet, Vizq-d’Ayzr,publicaron trabajos que contribuyeron poderosamente a consolidar el metodo frenologico.

Aunque como ya se ha indicado los estudios relativos a la mente y sus capacidades, y porextension del sistema nervioso, no es una disciplina nueva, el relativo escaso conocimientoque sobre el mismo existe no se debe tanto a la falta de investigaciones o curiosidadcientıfica, sino mas bien debido a la gran complejidad de dicho sistema; complejidadque trabajos cientıficos como las investigaciones llevadas a cabo por el premio NobelSantiago Ramon y Cajal1 en 1905, sobre el sistema nervioso, han contribuido a esclarecer,[Barreno 02], [Pintado 77].

Se estima que en el cerebro humano existenaproximadamente unos 100 billones de neuronas[Jessell 91], cada neurona puede llegar a alcanzaralrededor de 2.000 conexiones o mas con otrasneuronas, y puede recibir del orden de 20.000entradas. Teorıas que describen los procesos asociadosa la memoria y al aprendizaje tratan de explicar,a traves de la Neuroplasticidad, los mecanismossubyacentes para el establecimiento de dichasconexiones [Bronzino 95b].

Desde que en 1929 Hans Berger demostrarala inherente naturaleza electrica del cerebro, dandocomienzo al nacimiento de la Electroencefalografıacomo tecnica de registro [Bronzino 95b], [Baker 89],[Webster 78], se ha venido investigando el modo deutilizar esta informacion para aumentar la base de

Figura 2.2: Neuronas. Ramon yCajal.

conocimiento, diagnostico de enfermedades, e incluso plantear nuevas vıas decomunicacion. Con la evolucion de las tecnicas radiologicas y la revolucion que hansupuesto las nuevas tecnologıas de imagen medica, en la forma de adquirir conocimiento[Barreno 97] con las que es posible ver en vivo dentro del cuerpo humano el funcionamientode determinados organos, se ha aumentado de igual forma las tecnologıas que puedenser empleadas a la hora de estudiar el funcionamiento del cerebro, y dado el caso,proponer nuevos sistemas de interfaz entre seres humanos y dispositivos mecanicos externosbasados en ellas. Entre las tecnologıas propuestas para este fin actualmente se cuentacon: Electroencefalografıa, Maganetoencefalografıa, Tomografıa por Emision de Positrones(PET), o la imagen de resonancia magnetica funcional (fMRI).

La segunda mitad del siglo XX, y en especial la decada de los 90, conocida comola decada del cerebro, se ha dedicado a la investigacion y estudio del cerebro humano,inspirando nuevos desarrollos en el campo de la Inteligencia Artificial, como es el caso delresurgimiento de las Redes Neuronales [Rich 94].

1Ramon y Cajal se hizo valedor en 1906 del premio Nobel de Fisiologıa y Medicina por sus trabajossobre el sistema nervioso “Histologıa del sistema nervioso del hombre y los vertebrados (1905)” [Cajal 05],en los que se descubren los mecanismos que gobiernan la morfologıa y los procesos conectivos de las celulasnerviosas.

18 Estado de la tecnica.

2.1.2. La neurona.

La unidad fundamental delsistema nervioso de los vertebradosy del hombre es la neurona, veanselas figuras 2.2 y 2.3, su capacidadde transferir informacion de unaparte del organismo a otra enforma de impulsos electroquımicosla distingue del resto de las celulas;desde un punto de vista abstracto esprobablemente la celula del cuerpomas variable atendiendo tanto a suforma como a su tamano.

Toda neurona esta compuestapor tres partes basicas: Figura 2.3: Neuronas.

Cuerpo de la celula. Tambien denominado soma. Es la parte mas gruesa, contienetodos los componentes necesarios de la celula, como el nucleo (contiene ADN),retıculo endoplasmatico y ribosomas (para sintetizar proteınas), y la mitocondria(para la transformacion de energıa). Si el nucleo muere, la neurona muere.

Axon. Proyeccion alargada en forma de cable, se encarga de transportar el mensajeelectroquımico a lo largo de toda la longitud de la celula. Dependiendo del tipo deneurona, los axones pueden estar recubiertos por fina capa de mielina, a modo deaislante. La mielina queda constituida principalmente por lıpidos o grasas, facilitandola rapida transmision del impulso nervioso a lo largo del axon. Neuronas mielinizadasse encuentran principalmente en los nervios perifericos, tanto sensores como motores,mientras que neuronas no mielinizadas se encuentran en el cerebro y la medulaespinal, constituyendo lo que se denomina sustancia gris.

Dendritas o terminaciones nerviosas. Estas pequenas prolongaciones arborescentesde la celula son las encargadas de realizar las conexiones con otras neuronas,permitiendo la comunicacion entre las mismas o la percepcion del entorno exterior.Las dendritas pueden existir tanto en uno como en ambos extremos de la neurona.Existen dos tipos de dendritas: apicales y basales.

La longitud de las neuronas es muy variable, puede ir desde unos pocos milımetros hastaalgunos decımetros, como en el caso de neuronas cerebrales y tactiles respectivamente. Deigual modo la forma tambien es muy variable dependiendo de la actividad que lleven a cabo,las neuronas motoras que controlan la contraccion muscular tienen el cuerpo de la celulaen un extremo, un axon largo en el medio y dendritas en el otro extremo; mientras quelas neuronas sensoras tienen dendritas en ambos extremos, conectados por largos axonescon el cuerpo en el medio. Las neuronas tambien varıan con respecto a sus funciones:

Neuronas sensoras o aferentes. Transportan senales desde zonas externas del cuerpo(periferia) hacia el sistema nervioso central.

2.1 Fundamentos fisiologicos. 19

Figura 2.4: Topologıa de la celula neuronal.

Neuronas motoras o eferentes. Transportan senales desde el sistema nervioso centralhacia las zonas externas del cuerpo: musculos, piel, glandulas.

Receptores. Son las encargadas de adquirir informacion del exterior, existendiferentes tipos en funcion de la naturaleza del estımulo que provoca su activacion:termico, lumınico, presion, presencia de compuesto quımicos; transformando dichainformacion en mensajes electroquımicos que son transmitidos por las neuronassensoras.

Interneuronas. Conectan varias neuronas con el cerebro y la medula espinal.

El punto de contacto entre dos neuronas se denomina sinapsis, es de especialimportancia en la transmision de informacion del sistema nervioso, ya que la informacionde una neurona pasa a otra a traves de los mismos. Este pequeno espacio que separa ambasneuronas consta de:

Terminacion pre-sinaptica, la cual contiene neurotransmisores, mitrocondria yorganulos celulares.

Terminacion post-sinaptica, formado por los lugares de recepcion de losneurotransmisores.

Hendidura sinaptica, espacio submicroscopico entre ambas terminaciones.

20 Estado de la tecnica.

Figura 2.5: Tipos de neuronas.

Mientras que en el interior de la neurona la transmision de informacion a lo largodel axon se realiza en forma de impulso electrico, entre neuronas es un proceso quımico,llevado a cabo en la sinapsis, el que transmite la informacion de una neurona a otra, obien a una celula muscular.

Transmision electrica. Se dice que una neurona esta polarizada cuando tiene una cargaelectrica negativa en el interior de la membrana celular respecto al exterior. Este efecto depolarizacion se debe a la libre circulacion de iones K+ a traves de la membrana celular,a la vez que moleculas grandes con carga negativa son retenidas dentro de la celula. Losiones Na+ se mantienen en el exterior de la celula mediante un proceso activo. Aunque enprincipio todas las celulas del cuerpo presentan esta diferencia de potencial, las neuronas sedistinguen en que al aplicar una corriente estimuladora, se provoca que los iones potasiopenetren dentro de la celula despolarizandola, tras un pequeno intervalo de tiempo laspropiedades de la membrana cambian haciendo que la celula sea permeable al Na+, queentra en ella con rapidez y origina una carga neta positiva en el interior de la neurona. Aeste efecto se le denomina potencial de accion. Una vez alcanzado este potencial en unazona de la neurona, este se propaga a lo largo del axon mediante un intercambio de iones enpuntos especıficos denominados nodulos de Ranvier. La amplitud del potencial de acciones autolimitada, debido a que una concentracion elevada de Na+ en el interior origina laexpulsion de la celula en primer lugar de iones K+ y despues de Na+, restableciendo lacarga negativa en el interior de la membrana celular, repolarizando la celula. El procesocompleto dura menos de una milesima de segundo. Despues de un breve lapso, llamado

2.1 Fundamentos fisiologicos. 21

Figura 2.6: Tipos de sinapsis. (a - Axoaxionica. b - Axodendrıtica . c - Axosomatica.)

periodo refractario, la neurona se encuentra en condiciones de repetir este proceso.Transmision quımica. Cuando el potencial de accion alcanza el extremo del

axon, este estimula en la celula unas pequenas vesıculas presinapticas que contienenneurotransmisores, los cuales son liberados en la hendidura sinaptica. El neurotransmisorse une a receptores especializados sobre la superficie de la neurona adyacente, provocandosu despolarizacion y la propagacion de su propio potencial de accion. La duracion deun estımulo procedente de un neurotransmisor esta limitada por su degradacion en lahendidura sinaptica y su recaptacion por la neurona que lo habıa elaborado.

Los potenciales de accion son producidos en las uniones sinapticas, pudiendose estaslocalizar a lo largo del axon (sinapsis axoaxionica), en el cuerpo de la neurona (sinapsisaxosomatica), o en las dendritas (sinapsis axodendrıtica), reflejando la comunicacion entreneuronas. Cuando un neurotransmisor se enlaza en un receptor de la terminacion post-sinaptica, se produce un cambio en la excitabilidad de la celula haciendo mas o menosprobable que se desencadene un potencial de accion. Si el numero de eventos excitatoriospost-sinapticos es lo suficientemente grande, se provocara un potencial de accion en lacelula y el mensaje se transmitira.

Es en este principio de produccion de potenciales post-sinapticos, por la actividadconjunta y sincronizada de un gran numero de neuronas, en los que se basa el registroelectroencefalografico.

22 Estado de la tecnica.

No todos los tipos de actividad neuronal tienen el mismo tipo de impacto sobre losregistros electroencefalograficos. Factores como la profundidad, orientacion y la simetrıaintrınseca de las conexiones en el cortex, presentan una marcada influencia sobre dichosregistros. Las celulas de mayor importancia en el neocortex son las de tipo piramidal. Esconocido que sus neurotransmisores son potentes transmisores excitatorios. Las celulaspiramidales reciben muchas entradas de celulas tipo estrella, que tambien son de tipoexcitatorio. Las celulas piramidales, a diferencia de otro tipo de neuronas, permiten quelos axones produzcan potenciales de accion, que transmiten informacion de una neuronaa otra, mientras que en las dendritas se pueden producir potenciales lentos, tanto detipo excitatorio como inhibitorio, que se suman al del axon. En el caso de las neuronaspiramidales, las dendritas apicales, con forma de eje alargado entre la region basal yla apical, pueden provocar potenciales de accion, que a su vez actuan para amplificarlos potenciales de accion producidos por las salidas de los sistemas sensorial, motor oautonomo. Por esta razon se considera que, las neuronas piramidales son las causantes dela porcion mas significativa de la senal electroencefalografica.

2.1.3. El Sistema Nervioso.

El Sistema Nervioso es el encargado de la recepcion de estımulos, la transmision deimpulsos nerviosos y la activacion de los musculos. Esta formado por neuronas que seagrupan para formar estructuras de orden superior como el encefalo, medula espinal,nervios o cadenas ganglionares.

Figura 2.7: Sistema Nervioso. Figura 2.8: Encefalo.

2.1 Fundamentos fisiologicos. 23

Desde un punto de vista anatomico, ver figura 2.7, en los vertebrados el sistema ner-vioso queda compuesto por el Sistema Nervioso Central, el Sistema Nervioso Periferico yel Sistema Nervioso Vegetativo o Autonomo [Ratey 03]. El primero queda compuesto porel encefalo y la medula espinal, mientras que el segundo queda compuesto por nervios cra-neales y espinales. El Sistema Nervioso Central esta inmerso en lıquido cefalorraquıdeo,envuelto dentro de una triple estructura de tejido fino a modo de bolsas, denominadasmeninges: Pia Madre (la mas externa), Duramadre (la intermedia) y Aracnoides (la masinterna); que previenen el contacto directo del encefalo y medula espinal con las estructu-ras oseas de proteccion, como es el caso del craneo y la espina dorsal, respectivamente.

El encefalo a su vez esta formado por: cerebro, cerebelo y tronco encefalico.

El cerebro es la parte mas voluminosa, ocupa casi la totalidad de la caja craneal;su parte superior se corresponde con la boveda craneal, y su parte inferior con elcompartimento anterior y medio de la base del craneo y cerebelo. Tiene forma ovoide,con la extremidad posterior mas ancha. Su peso en el hombre es de aproximadamente1Kgr.

El cerebelo es la parte inferior y posterior del encefalo, alojado en la fosa cerebralposterior junto al tronco del encefalo.

El tronco del encefalo esta compuesto por el mesencefalo, la protuberancia anulary el bulbo raquıdeo. Es el encargado de conectar el cerebro con la medula espinal,vease la figura 2.10.

La medula espinal es la prolongacion del encefalo, extendiendose por la columnavertebral; la misma la sustancia gris que forma el cerebro se encuentra en el interior yla blanca en el exterior.

Figura 2.9: Cabeza.

24 Estado de la tecnica.

Figura 2.10: Tronco encefalico.

Los nervios del Sistema NerviosoPeriferico emergen del sistema nerviosocentral y recorren todo el cuerpo,conteniendo axones de vıas neurales condistintas funciones y ganglios perifericos,que se encuentran en el trayecto delos nervios y que contienen cuerposneuronales, los unicos fuera del sistemanervioso central. Queda compuesto por 12pares de nervios craneales y 31 pares denervios espinales.

Nervios craneales. Los 12 pares de nervios craneales se proyectan directamente desdeel cerebro. Todos estos pares de nervios transmiten informacion sensorial procedentedel cuello y la cabeza hacia el sistema nervioso central y reciben ordenes motoraspara el control de la musculatura esqueletica de los mismos, controlando las funcionesmotoras de la cabeza, los ojos, la cara, lengua, laringe y los musculos que permitenla masticacion y la deglucion, vease la figura 2.11.

El decimo par, el nervio vago, se relaciona con funciones viscerales como el ritmocardiaco, la vasoconstriccion y la contraccion de los musculos lisos que se encuentranen las paredes de la traquea, del estomago y del intestino. La vision, la audicion, elsentido del equilibrio y el gusto estan mediados por los pares de nervios craneales II,VIII y VII, respectivamente.

Nervios espinales. Los nervios espinales salen desde las vertebras y se distribuyenpor las regiones del tronco y las extremidades. Se encargan de enviar informacionsensorial (tacto, dolor y temperatura) del tronco y las extremidades, ası como dela posicion y el estado de la musculatura y las articulaciones del tronco y lasextremidades hacia el sistema nervioso central; desde el mismo reciben ordenesmotoras para el control de la musculatura esqueletica que se conducen por la medulaespinal.

Los 31 pares de nervios estan interconectados, formando dos plexos: el braquial, quese dirige a las extremidades superiores, y el lumbar que alcanza las inferiores.

Los nervios craneales se extienden desde la cabeza y el cuello hasta el cerebro pasandoa traves de las aberturas del craneo; los nervios espinales o medulares estan asociadoscon la medula espinal y atraviesan las aberturas de la columna vertebral. Ambos tipos denervios se componen de un gran numero de axones que transportan los impulsos hacia el

2.1 Fundamentos fisiologicos. 25

Figura 2.11: Nervios craneales.

sistema nervioso central y llevan los mensajes de este hacia el exterior. Las primeras vıasse llaman aferentes y las ultimas eferentes. En funcion de la parte del cuerpo que alcanzan,a los impulsos nerviosos aferentes se les denomina sensitivos y a los eferentes, somaticos omotores viscerales. La mayorıa de los nervios son mixtos, es decir, estan constituidos porelementos motores y sensitivos.

El Sistema Nervioso Negetativo esta compuesto por grupos de fibras de neuronasmotoras que llevan los impulsos nerviosos a los organos que se encuentran en las cavidadesdel cuerpo, como el corazon, pulmones, estomago, intestinos, pancreas, hıgado, etc.,permitiendo su regulacion. El Sistema Nervioso Vegetativo se divide en dos secciones conuna funcion mas o menos antagonica y con unos puntos de origen diferentes al SistemaNervioso Central. Las fibras del Sistema Nervioso Vegetativo Simpatico se originan en laregion media de la medula espinal, unen la cadena ganglionar simpatica y penetran enlos nervios espinales, desde donde se distribuyen de forma amplia por todo el cuerpo. Lasfibras del Sistema Nervioso Vegetativo Parasimpatico se originan por encima y por debajode las simpaticas, tanto en el cerebro como en la parte inferior de la medula espinal. Estasdos secciones controlan las funciones de los sistemas respiratorio, circulatorio, digestivo yurogenital.

26 Estado de la tecnica.

2.1.4. El Cerebro.

El cerebro humano, comparado con el de los demas seres vivos, tiene un volumen yestructura tan diferenciados, que dan idea de la preeminente importancia que posee elcerebro para el total funcionamiento del organismo; incluso los mismos procesos psıquicosno pueden desarrollarse enteramente sin su integridad.

El cerebro esta dividido en dos hemisferios, separados por un surco medio profundo, lacisura interhemisferica, dichos hemisferios estan comunicados entre sı mediante el CuerpoCalloso, que se extiende desde el fondo de la cisura interhemisferica hasta la base cerebral.

La superficie se denomina corteza cerebral, esta formada por replegamientosdenominados circunvoluciones; su parte inferior presenta en su tercio posterior una formaarrinonada, separada del tercio anterior por la cisura de Silvio, que junto con la cisura deRolando y la occipital dividen cada hemisferio en los diferentes lobulos: frontal, parietal,temporal y occipital, vease la figura 2.12.

Subyacente a la misma se encuentra por arriba el cuerpo calloso y el quiasma optico,espacio perforado anterior, hipofisis, tuberculos mamilares y espacio perforado posterioren la base. En el interior del cerebro se encuentran una serie de cavidades, los ventrıculoscerebrales, que se comunican entre sı y estan llenos de lıquido cefalorraquıdeo.

En una seccion del cerebro es posible ver la sustancia gris y la sustancia blanca. Laprimera se caracteriza por una gran densidad de celulas nerviosas y comprende a la cortezacerebral y a diversos nucleos: talamo optico, hipotalamo, nucleo caudado, nucleo lenticular,y a la amıgdala. La sustancia blanca tiene, en su mayor parte, una estructura mas sencilla:fibras nerviosas sostenidas por un armazon de neuroglia; algunas de estas fibras conectanneuronas situadas en porciones similares de ambos hemisferios, otras unen distintas zonasde un mismo hemisferio, finalmente algunas se dirigen desde la corteza cerebral a centrosdel cerebro dispuestos en niveles inferiores y en otras porciones del sistema nerviosocentral. Aunque nada se ha demostrado sobre el modo en como se conectan en la cortezalos procesos neurologicos con los psıquicos, sı se ha observado que la lesion de ciertasareas de la corteza cerebral provoca la alteracion de funciones, lo que ha permitido quemuchas funciones motoras y sensoriales hayan sido asociadas a zonas especıficas de lacorteza cerebral, ver figura 2.12. Por lo general, estas areas aparecen en ambos hemisferioscerebrales y estan al servicio del lado opuesto del cuerpo.

Las areas de asociacion no estan bien definidas y se localizan sobre todo en la partefrontal de la corteza. Estan involucradas en funciones del pensamiento y emocionales, yrelacionan los estımulos recibidos desde los diferentes sentidos. Las areas del lenguaje sonuna excepcion: tanto el area de Wernicke, que esta relacionada con la comprension dellenguaje hablado, como el area de Broca, que gobierna la produccion del habla, han sidolocalizadas de forma precisa en la corteza.

El cerebro es un organo extraordinariamente vascularizado, como corresponde a susnecesidades metabolicas, de modo que cualquier accidente vascular (trombosis, embolia,hemorragia) reviste gran importancia por las lesiones y consecutivos trastornos funcionalesque origina.

2.2 Tecnicas para la adquisicion de actividad cerebral. 27

Figura 2.12: Distribucion de las funciones de la corteza cerebral.

2.2. Tecnicas para la adquisicion de actividad cerebral.

En esta seccion se describen la diferentes tecnicas que actualmente existen en lainvestigacion sobre actividad cerebral. Especial atencion se presta a la electroencefalografıacomo tecnica de adquisicion inicial, que asento las bases de conocimiento para posterioresestudios neurologicos, ası mismo se cita la magnetoencefalografıa y otras tecnicas deimagen cerebral, las cuales son de menor aplicabilidad en la tecnologıa ICC debido biena que su coste es prohibitivo, o bien a que las constantes de tiempo de los principiosfisiologicos en que se basan presentan valores de latencia muy elevados, constantes quegeneralmente estan asociadas al flujo sanguıneo, haciendolas impracticables para suutilizacion en dispositivos de interfaz entre personas y maquinas.

2.2.1. Electroencefalografıa.

La electroencefalografıa es la parte de la medicina que trata de la obtencion einterpretacion de registros graficos obtenidos por medio de electroencefalografos, estosdispositivos registran las corrientes electricas producidas por la actividad del encefalo[Baker 89].

28 Estado de la tecnica.

Para el registro de la actividad electrica del cerebro se pueden utilizar tres tiposde electrodos: superficiales, corticales e intracorticales. Cuando se emplean electrodossuperficiales el registro se denomina electroencefalograma (EEG), mientras que si loselectrodos se disponen sobre la superficie expuesta del cerebro al registro se denominaelectrocorticograma (ECoG), por ultimo, si se utilizan electrodos intracorticales seemplea el termino registro profundo para denominar a esta tecnica, [Webster 04]. Conindependencia del tipo de electrodo, las variaciones de potencial registradas representanla actividad de neuronas en las que se estan produciendo los correspondientes potencialesde accion y fluctuaciones de membrana.

2.2.1.1. Referencias historicas.

En 1875 en el Reino Unido, Richard Caton publico en el British Medical AssociationJournal el primer documento describiendo la actividad electrica espontanea del cortexcerebral en experimentos llevados a cabo con conejos y monos. Caton utilizo galvanometrosThomson, utilizados en telegrafıa [Webster 95].

Sin embargo no es hasta 1924, cuando el psiquiatra Hans Berger de la Universidadde Jena (Austria), realiza los primeros registros de actividad electrica del cortex cerebral,para ello utilizo un galvanometro de cuerda conectado a electrodos superficiales, con el quepodıa medir los irregulares y relativamente pequenos potenciales electricos (50 a 100μV )provenientes del cerebro [Webster 04].

El artıculo de Berger pasa desapercibido hasta que Adrian y Matthews, en 1934 en GranBretana, ası como Jasper y Carmichael en 1935 en Estados Unidos, revisan y confirmanlos resultados de Berger.

Entre 1924 y 1938 Berger establecio las bases para la aplicacion de laelectroencegalografıa, siendo el primero en utilizar el termino “electroencefalograma” paradescribir las variaciones de potencial electrico en el cerebro de los humanos. Ası mismodescubrio que las ondas registradas no eran completamente aleatorias, sino que por elcontrario mostraban cierta periodicidad y regularidad; Berger observo que durante elsueno se presentaba un patron de ondas sincronizadas de baja frecuencia (< 3Hz) ygran amplitud, mientras que en estado de vigilia el patron cambiaba a uno desincronizadode baja amplitud y mayor frecuencia; esto le permitio sugerir que la actividad cerebralcambiaba de un modo consistente y reconocible, cuando el estado del sujeto cambiaba,como por ejemplo del estado de relajacion al de alerta. Del mismo modo, despues de notarun marcado incremento en la amplitud de las ondas cerebrales registradas durante ataquesconvulsivos, Berger tambien dedujo que las ondas cerebrales se veıan afectadas en granmedida por condicionantes patologicos [Webster 04].

Una vez asentado y aceptado el concepto de “ondas cerebrales humanas”, el estudiode la actividad electroencefalografica quedo firmemente asentado. Una de las primerascontribuciones fue la identificacion de determinados ritmos en el EEG; ası a la oscilacionde aproximadamente 10 a 12 Hz registrada en los lobulos occipitales del cortex cerebral se le

2.2 Tecnicas para la adquisicion de actividad cerebral. 29

denomino “ritmo alfa”. Este ritmos desaparece cuando el sujeto se concentra, se muestraalerta o focaliza su atencion en objetos de su campo visual. No es hasta 1949 cuandoMoruzzi y Magoun establecen las bases fisiologicas de dichas observaciones, demostrandola existencia de caminos ampliamente distribuidos a traves del nucleo reticular centraldel tallo cerebral, que son capaces de ejercer una influencia de activacion sobre el cortexcerebral. A este sistema de activacion reticular se la ha llamado selector de respuestacerebral, debido a que alerta al cortex para focalizarse en ciertas piezas de informacionentrante, mientras que otras son descartadas [Webster 95].

2.2.1.2. Sistemas de referencia de posicionamiento de los electrodos.

Los electrodos superficiales se emplean junto con tecnicas de registro monopolares ydiferenciales. La figura 2.13 muestra ambas tecnicas con la conexion de un sistema decuatro canales a un sujeto [Webster 98], [Webster 95], [Webster 92].

En registros monopola-res uno de los terminalesactivos del amplificador seconecta al electrodo de re-ferencia, conectado al lobu-lo de la oreja. En los re-gistros diferenciales, los ter-minales de los amplificado-res se conectan entre pare-jas de electrodos en un or-den determinado. En ambostipos, la mitad de los canalesson conectados al hemisferioderecho y la otra mitad alhemisferio izquierdo, de estemodo la actividad electricade areas homologas del cere-bro pueden ser comparadasa simple vista. Figura 2.13: Tecnicas de registro monopolar y diferencial.

En electroencefalografıa clınica, 21 electrodos son aplicados a la cabeza del sujeto,dando lugar al denominado sistema electroencefalografico 10-20, tal y como se muestra enla figura 2.14, este sistema fue descrito por Jasper en 1958, quien superviso la reunion dela Federacion Internacional de Sociedades de EEG, la cual desarrollo esta localizacion deelectrodos como estandar [Webster 04].

El sistema 10-20 emplea marcas craneales como puntos de referencia para la localizacionde los electrodos. En conjunto, para examinar la actividad cerebral, se emplean 19electrodos superficiales distribuidos por la cabeza y 2 electrodos de referencia en los lobulosde las orejas. Para posicionar los electrodos primero se mide a lo largo de la lınea media la

30 Estado de la tecnica.

Figura 2.14: Sistema electroencefalografico 10 - 20.

distancia entre la union naso-frontal y la protuberancia occipital, a continuacion a lo largode esta lınea se marcan 5 puntos. El primer punto determina el polo frontal (Fp), el cualesta al 10 % de la distancia anterior y justo sobre la union naso-frontal. Ningun electrodose aplica sobre este punto de referencia, el cual se utiliza para medidas posteriores. Lospuntos de los electrodos frontal (Fz), central (Cz), parietal (Pz) y occipital (Oz) sobrela lınea media estan separados por el 20 % de la distancia entre la union naso-frontaly la protuberancia occipital medida desde el polo frontal (Fp). Mediante esta tecnica elelectrodo central (Cz) se localiza en la mitad de la distancia anterior. Un metodo similarde medida se emplea para posicionar dos filas de electrodos sobre los lados derecho eizquierdo de la cabeza. Los puntos coronales son marcados midiendo la distancia entrela depresiones justo en frente de cada oreja. La depresion se localiza facilmente antes deltragus y en la raız de la estructura osea zigomatica o pomulo, al 10 % de esta distanciamedida hacia arriba desde las depresiones se localizan los electrodos temporales (T4, T3)a cada lado de la cabeza. La posicion de los electrodos centrales (C4, C3) se localizanal 20 % de la distancia sobre los puntos temporales. La fila horizontal de posiciones deelectrodos mas baja se determina midiendo desde el polo frontal (Fp) a la protuberanciaoccipital, este procedimiento localiza los electrodos Fp2,F8, T4,T6 y O2 para el lado derechoy Fp1,F7,T3 y O1 para el lado izquierdo. Los electrodos restantes (F4,C4 y P4 en el ladoderecho y F3, C3, P3 en el izquierdo) son posicionados a lo largo de lıneas equidistantesentre la lınea temporal y la lınea media a lo largo de las lıneas coronarias frontal y parietalrespectivamente. Con el sistema 10-20 un numero par de electrodos se disponen en el ladoderecho e impar en el izquierdo. Los electrodos de la lınea media son designados mediante

2.2 Tecnicas para la adquisicion de actividad cerebral. 31

una Z (Fz , Cz, Pz). Existen huecos intencionados en el sistema de notacion por subındicesa fin de permitir el uso de otra localizacion de electrodos, la cual puede ser anadida conel mismo sistema de referencia [Webster 78].

Inicialmente para el registro encefalografico se utilizaban plumillas que registrabanla actividad encefalografica sobre papel continuo, que se desplazaba a una velocidadde registro estandar de 3cm/s y una sensibilidad de grabacion 7μV/mm [Bronzino 95b][Baker 89]. En la actualidad con objeto de incrementar la resolucion espacial se utilizansistemas de referencia que emplean 64 y 128 electrodos.

2.2.1.3. Actividad electroencefalografica normal.

Con electrodos superficiales aplicados a un ser humano adulto sano en estado derelajacion, se puede registrar una fluctuacion de la actividad electrica constante con unafrecuencia dominante alrededor de 10 Hz y una amplitud en el rango de 20 a 200 μV . Aesta actividad se la denomina ritmo alfa, variando su frecuencia entre 8 y 13 Hz, siendomas relevante en las areas occipital y parietal. El ritmo alfa aumenta su frecuencia con laedad, alcanza su forma adulta entre los 15 y los 20 anos de edad.

Se muestra mas promi-nente cuando los ojos se en-cuentran cerrados y en esta-do de relajacion. Se ha ob-servado que entre diferen-tes especies los patrones delritmo alfa varıan. El segui-miento visual de un obje-to, o la realizacion de acti-vidades mentales como ta-reas aritmeticas, disminu-yen o anulan el ritmo alfa[Jessell 91]. Aunque el ritmoalfa es el mas prominente enla actividad electrica, otrotipo de frecuencias tambiense encuentran presentes ensujetos humanos sanos, porejemplo el ritmo beta pre-senta actividad con un Figura 2.15: Electroencefalograma normal.

rango de frecuencias entre 18 y 30 Hz, y una menor amplitud. Es mas frecuente en laparte frontal del cerebro. Dependiendo del estado cerebral del sujeto, otros rangos defrecuencias mas elevadas y amplitudes han sido detectados. Con la finalidad de mejorar ladescripcion de las formas de onda y sus frecuencias, la comunidad cientıfica a desarrolladola terminologıa recogida en la tabla 2.1 [Jessell 91].

32 Estado de la tecnica.

Forma de onda Frecuencia (Hz) Consideraciones.Ritmo Alfa. 8 - 13 Zona parietal y occipital. Asociado a

estado de vigilia con sujeto relajadoMas prominente con los ojos cerrados.

Ritmo Beta. 18 - 30 Zona frontal y parietal.Se muestra mejor con Alfa bloqueado.

Delta. 1 - 3.5 Asociado a sueno normal. Presenteen ninos menores de un ano. En adul-tos se asocia con cerebros enfermos.

Teta. 4 - 7 Zona parietal y temporal.Prominente en ninos de 2 a 5 anos.

Sigma. 12 - 14 Se muestra durante el sueno.“Sleep spindle” Modulacion de onda senoidal parecida

a un eje de revolucion.Lambda. Transitorio. Evocacion visual. Onda occipital de

pequena amplitud, resultado del reco-nocimiento de una nueva imagen retinal.

Onda y pulso. 3 Pico abrupto en una onda, seguido deuna onda mas redondeada asociada concrisis de ausencia epileptica.

V Transitorio. Pulso de 150 a 250 milisegundosregistrado sobre la coronilla.

Complejo K Transitorio. Onda vertice seguida algunas veces deun pulso. Registrada durante el suenoy en respuesta a estımulos auditivos.

Ritmo Mu 8 - 12 Dominante en la zona central.Semeja media sinusoide.

Tabla 2.1: Terminologıa de formas de onda para EEG.

El electroencefalograma de cualquier persona se ve profundamente afectado por suestado cerebral. La figura 2.15 muestra los cambios que ocurren durante el sueno.Cuando el sujeto va a dormir, las componentes de alta frecuencia asociadas al estadode alerta o excitacion, ası como el ritmo alfa que predomina en estado de relajacion, sonreemplazadas por una secuencia de cambios cıclicos caracterısticos. La desviacion de estoscambios normales, a menudo indica la presencia de alguna patologıa cerebral [Webster 78][Baker 89] [Bronzino 95b].

2.2.1.4. Potenciales sensoriales evocados

Un estımulo efectivo entregado a un organo sensorial desencadena una respuestadetectable en la corteza cerebral. Aunque todos los organos sensitivos perifericos envıansu informacion a la corteza cerebral, es facil detectar la respuesta a estımulos auditivos,visuales o somatosensoriales, a traves de la disposicion de electrodos sobre las zonascorticales adecuadas, la figura 2.16 ilustra las areas del sistema somatosensorial [Baker 89].

En realidad el potencial sensorial evocado informa acerca de la integridad delorgano sensorial y el camino neurologico al cortex cerebral. Partes separadas del camino

2.2 Tecnicas para la adquisicion de actividad cerebral. 33

Figura 2.16: Localizacion somatosensorial.

neurologico pueden ser estudiadas a traves de la aplicacion de corrientes de estimulacionelectrica a nervios perifericos y medula espinal.

La figura 2.16 es una vista lateral del cerebro mostrando las dos cisuras masprominentes: la cisura de Rolando y la de Silvio. Anterior a la cisura de Rolandose encuentra el giro pre-central, el cual contiene las areas motoras primarias; detrasse encuentra el giro post-central que contiene las areas somatosensoriales; informacionsensorial de toda la superficie del cuerpo se encuentra dispuesta a lo largo de estatira sensorial. Penfield y Rasmussen, en 1950 [Baker 89], determinaron la distribuciontopografica de las sensaciones a lo largo del giro post-central en humanos y la representaroncomo un homunculo. Las partes del cuerpo del homunculo son dibujadas para representarel tamano del area sensora cortical correspondiente.

La deteccion optima de las respuestas somatosensoriales evocadas precisan que loselectrodos sean colocados en las areas corticales contralaterales adecuadas. Por ejemplo,los potenciales evocados debidos a estimulacion de la pierna derecha son detectadoscon electrodos dispuestos sobre el lobulo izquierdo, del mismo modo, los causados porestimulacion facial del lado derecho se muestran en la superficie lateral izquierda delcerebro hacia el lobulo temporal. La respuesta a estımulos visuales aparecen en la parteposterior del cortex (polo occipital). Potenciales evocados a estımulos auditivos se detectansobre la parte superior del lobulo temporal. La mayor parte de las sensaciones sonrepresentadas bilateralmente [Baker 89], [Ratey 03].

Para la deteccion de los potenciales evocados Dawson entre 1951 y 1954, [Baker 89],

34 Estado de la tecnica.

[Webster 78], introdujo la tecnica de promediado de senal, ya que aun disponiendo loselectrodos sobre las zonas adecuadas del craneo los registros que se obtienen no son clarosdebido a la actividad de base del cerebro, esta tecnica asume que el potencial evocadose encuentra temporalmente asociado al estımulo, mientras que la actividad de fondodel cerebro se trata como una senal aleatoria, el tiempo de retardo entre la apariciondel potencial evocado y la generacion del estımulo da lugar al criterio de denominacion,ası por ejemplo los potenciales evocados P300 son aquellos que se detectan transcurridosunos 300mseg desde que se provoca el estımulo hasta que se detecta el potencial.

En la actualidad con los convertidores analogico/digital y los micropocesadores estatecnica es facilmente realizable. El primer paso consiste en realizar un filtro paso bandade la senal electroencefalografica, de modo que solo es considerado el rango de frecuenciasadecuado, valores tıpicos de los filtros paso banda son de 0.25 - 25 Hz. Posteriormentela senal EEG se muestrea convirtiendola en digital, frecuencias de muestreo tıpicas son100 Hz o superiores. La resolucion de amplitud depende del numero de bits seleccionados,valores comunes son 8, 12 y 16 bits. Los potenciales evocados promediados son procesadospor la alineacion de muestras temporales despues del estımulo y sumadas sus amplitudesalgebraicamente. El potencial evocado surge de la actividad de fondo en proporcion alnumero de grabaciones estımulo - respuesta analizadas. Se demuestra que si la respuestaevocada es la senal (S) y el EEG de fondo tiene un ruido (R), la relacion senal ruido(S/R) es

√(n)(S/R), donde n es el numero de secuencias estımulo - respuesta analizadas.

Valores tıpicos son n = 100 o superiores.

Potenciales auditivos evocados.Los potenciales auditivos evocados son

la respuesta polifasica a un estımulo auditi-vo, pueden ser registrados en diferentes zo-nas del craneo, fig.2.17.

Debido a su naturaleza polifasica se haadoptado una nomenclatura estandar parasu estudio, fig.2.18. Segun las investigacio-nes de Picton [Baker 89], las ondas positi-vas I-VII se producen 10mseg. despues delestımulo. Las ondas primera y segunda re-presentan la activacion del nervio cocleary el nucleo auditivo. Las ondas posterioresidentifican la activacion del nucleo auditi-vo del tallo cerebral. La onda V es la massencilla de discriminar, la latencias de picovarıa entre los 5,5mseg. para estımulos de70 dB, hasta aproximadamente 9mseg. pa-ra estımulos cercanos al umbral auditivo.

Figura 2.17: Localizacion de potenciales auditivosevocados.

2.2 Tecnicas para la adquisicion de actividad cerebral. 35

En el intervalo entre 10 y 50 msegdespues del estımulo es posible registrar unaserie de potenciales a lo largo de ampliaszonas de la superficie del craneo, aunqueson difıciles de discriminar de los potencialesmusculares reflejos, representan potencialestalamicos y corticales tempranos.

Los potenciales de mayor duracion sonP1 (50mseg), N1 (100mseg), P2 (170mseg)y N2 (250mseg), componentes del poten-cial coronario, se encuentra ampliamentedistribuido sobre la zona fronto-central, re-gistrandose con mayor amplitud en Cz y Fz.

Potenciales somatosensoriales evocados.Los potenciales sensoriales evocados son lasrespuestas corticales a estımulos presenta-dos sobre la superficie del cuerpo. Tanto es-timuladores tactiles como electrodos super-ficiales son utilizados para estimular electri-camente los haces de los nervios sensores.

Conforme a las investigaciones de Picton,Figura 2.18: Componentes de los potencialesauditivos evocados.

[Baker 89], los potenciales sensoriales evocados se componen de las componentes descritasen la tabla 2.2

Componente. Tiempo de retardo. Comentario.0 15 mseg Onda de pico positiva temprana

asociada a la activacion de algunaestructura subcortical profunda.

1 19 mseg Mejor capacidad de registro en lazona somatosensorial primaria.

2 26 mseg Polaridad contraria a cada lado delsurco central.

4 Su origen es aun desconocido se5 considera que la activacion de areas6 sensoriales secundarias pueden ser

las causantes de estos potenciales.7 Equivalentes en morfologıa y distri-8 bucion a las componentes N1 y N2

de los potenciales auditivos evocados.

Tabla 2.2: Componentes potenciales sensoriales evocados.

36 Estado de la tecnica.

Figura 2.19: Potenciales sensoriales evocados.

Figura 2.20: Componentes de los potencialesvisuales evocados.

Potenciales visuales evocados.Los potenciales visuales evocados son la respuesta a estımulos visuales en forma de

destellos de luz o imagenes. Su registro se realiza con mas facilidad sobre la zona occipitalaunque otras areas tambien pueden ser utilizadas, si bien las formas de onda varıan.

Conforme a las investigaciones de Picton [Baker 89], los potenciales sensorialesevocados quedan compuestos por las componentes mostradas en la figura 2.20, en dondelas componentes I y III representa la actividad en el tracto genicular, mientras que lacomponente II representa la activacion de la corteza visual primaria.

La variabilidad de los tiempos de latencia dependen en gran media del sujeto, siendomas acusada en las ultimas componentes, rangos de latencia tıpicos van de los 60 a los 200milisegundos.

2.2 Tecnicas para la adquisicion de actividad cerebral. 37

2.2.2. Magnetoencefalografıa.

La magnetoencefalografıa es la parte de la medicina que trata de la obtencion einterpretacion de registros graficos obtenidos por magnetoencefalografos, estos dispositivosregistran los campos magneticos provocados por las corrientes electricas producidas porla actividad del encefalo.

La magnetoencefalografıa se basa en la deteccion de los campos magneticos, que seoriginan cuando se produce el movimiento de iones a traves de las membranas celulares,durante la activacion (despolarizacion) y recuperacion (repolarizacion) de las neuronas.

Ya que la naturaleza del principio en el que se basa la magnetoencefalografıa es elmismo que la electroencefalografıa, ambas reflejan el mismo tipo de evento, aunque cadauna suministra informacion en modo diferente. En el caso de la magnetoencefalografıaapenas se produce atenuacion del campo magnetico al atravesar la senal el tejido vivo,mientras que en el caso de la electroencefalografıa el voltaje medido es altamente atenuado.

Por otro lado la magnetoencefalografıa permite la determinacion de la localizacion yla direccion de la fuente bioelectrica activa, ya que el campo magnetico es direccional, sinque sea preciso el contacto directo entre el cuerpo y el dispositivo sensor, es decir, es unmetodo sin electrodos.

Sin embargo la intensidad del campo magnetico producido por las neuronas es muypequeno, ver figura 2.21, por lo que es necesario disponer de salas con aislamientomagnetico y emplear la tecnica de promediado de la senal adquirida para obtener unasadecuadas relaciones senal ruido [Baker 89].

2.2.2.1. Referencias historicas.

Antes de 1970, el registro de los campos magneticos producidos por la activaciony recuperacion de las neuronas en particular, y tejido vivo en general, se realizabacon bobinas con un gran numero de espiras, a partir de 1970 se empieza a utilizar eldispositivo superconductor de interferencia cuantica, “SQUID: superconducting quantuminterference device”, que tiene la capacidad de detectar campos magneticos muy sensibles,dicho dispositivo junto con la tecnica de promediado de senal permite la obtencion demagnetoencefalogramas muy claros [Baker 89].

Magnetogramas del nervio ciatico de ranas aislados fueron registrados por Seipel yMorrow en 1950, utilizando una bobina con 3.000 espiras, con dimensiones 2mm x 3mmx 6mm [Baker 89].

En 1963 Stratbucker registro los cambios de campo magnetico asociados al latido delcorazon de un cerdo de Guinea, utilizando una bobina en forma toroidal con 17.640 espiras.La aplicacion a humanos se realizo en 1965 por Baule y McFee, quienes introdujeron latecnica de bobinas paralelas, cada bobina contenıa 1∗106 espiras bobinadas sobre un nucleode ferrita, ver figura 2.22, ambas bobinas se conectaban en serie, proporcionando un voltajede pico de unos 30μV , proporcional a la tasa de variacion del campo magnetico. Safonoven 1967 utilizo la misma tecnica en una sala aislada magneticamente con paredes de

38 Estado de la tecnica.

Figura 2.21: Intensidad de campos bio-magneticos.

planchas de hierro de 1.5 pulgadas de grosor. Cohen en 1967 obtuvo magnetocardiogramasbastante aceptables con bobinas de 5 cm de longitud, 8 cm de diametro, de 200.000espiras, bobinadas sobre un nucleo de ferrita recubiertas por cilindros de laton a modode aislamiento electrostatico, dentro de una sala de 2,2m x 2,24m x 2,24m, aisladamagneticamente por planchas de molypermalloy en la parte externa y aluminio de 5mm

en la parte interna. El detector era montado en modo seguro en frente del torax del sujeto.

2.2 Tecnicas para la adquisicion de actividad cerebral. 39

Magnetoencefalogramaspromediados de camposmagneticos auditivos evo-cados han sido reportadospor el grupo de Dr. Harien 1980, junto con los po-tenciales auditivos evocados[Baker 89]. La figura 2.23ilustra los potenciales audi-tivos evocados registradospor un electrodo en Pz, y loscampos magneticos evocadosen las localizaciones P3 y F7,sobre el lado izquierdo de lacabeza.

Figura 2.22: Magnetocardiograma.

Figura 2.23: Magnetoencefalograma con campos magneticos auditivos inducidos.

40 Estado de la tecnica.

El estımulo consistıa en unpulso de frecuencia 1KHz de0,8seg de duracion presenta-do simultaneamente en ambosoıdos. El tiempo entre pulsosera de 4seg. El magnetoence-falograma muestra tres com-ponentes a 100 y 180 msegy la componente continua delcampo. La polaridad para di-chas componentes fue estudia-da en varios emplazamientossobre el hemisferio derecho alo largo de la cisura de Silvio,las cruces representan camposentrantes, los cırculos cerra-dos campos salientes. Se de-muestra que aunque el areaauditiva se extiende sobre ellobulo temporal, existen res-puestas corticales que se re-parten a todo lo largo del ce-rebro, tal y como demuestranlos potenciales auditivos evo-cados. Del mismo modo el Dr.Okada en 1981, realizo mag-netoencefalogramas de la res-puesta sensora evocada sobreel hemisferio cerebral izquier-do debida a la estimulaciondel nervio medio derecho

Figura 2.24: Magnetoencefalograma con campos magneticossensitivos inducidos.

utilizando pulsos de 1milisegundo de duracion con una frecuencia de repeticion de 1.9Hz.La figura 2.24 muestra las respuestas obtenidas en diferentes posiciones sobre el craneo alo largo de la cisura de Rolando, el registro comienza en la sien y se desplaza 1 cm haciaabajo. La localizacion cortical mostrada por los campos magneticos sensoriales evocados essimilar a la obtenida con los potenciales sensoriales evocados. A pesar de su utilizacion pormas de dos decadas, el futuro de la magnetoencefalografıa aun no se puede predecir, comoherramienta de investigacion es extremadamente util por su capacidad de localizar fuentesbioelectricas, pero el coste asociado para su implantacion es su principal desventaja en lamedicina clınica.

2.2 Tecnicas para la adquisicion de actividad cerebral. 41

2.2.3. Imagen cerebral mediante rayos X.

Los rayos X son ondas electromagneticas de longitud de onda muy corta, λ = 100nm,producidas cuando los electrones en rapido movimiento colisionan con sustancias a supaso. Son similares a los rayos de luz, con la excepcion de que su longitud de onda esuna diez milesima de la longitud de onda de la luz visible, debido a lo cual son capacesde penetrar sustancias muy densas, e impresionar pelıculas fotograficas creando imagenescon diferentes tipos de niveles de gris, denominadas radiografıas, esta caracterıstica la haceutil en diagnostico ya que diferencias en la densidad entre las diferentes estructuras delcuerpo producen imagenes que varıan en su intensidad de luz sobre la pelıcula de rayosX, de modo similar al negativo de una fotografıa. Estructuras densas como el hueso delcraneo aparecen blancas, mientras que aquellas areas rellenas de aire o lıquido, aparecennegras. En neurologıa su aplicacion principal es el diagnostico de enfermedades del cerebromediante el analisis de radiografıas.

La figura 2.25 muestra la estructurade un sistema de rayos X. Los electronesemitidos por un filamento incandescenteson acelerados hacia el anodo de tungstenoa +100 KV, emitiendo rayos X. Un filtrode aluminio detiene los rayos X de bajaenergıa, ya que no atravesarıan el cuerpopara formar la imagen. Como los rayosX son emitidos en todas direcciones, paraevitar danos al sujeto y al operador, sonapantallados a traves de un colimador,de modo que solo los que queden libresson los que dan lugar a la formacionde la imagen. Para evitar que radiacionsecundaria pueda danar la pelıcula seemplean unas rejillas en forma de persianaveneciana. Con objeto de aumentar elcontraste se emplean pantallas de fosforoque emiten gran cantidad de fotones porcada rayo X incidente. Ası mismo, parareducir la dosis de radiacion se puede

Tubo deRayos X

Filtro deAluminio

Colimador

Rejilla

Pantalla

Pelicula

Radiacionsecundaria

Radiacionprimaria

Cuerpo

Figura 2.25: Rayos X

emplear un intensificador de imagen. Los rayos X golpean una pantalla de fosforo enun tubo al vacıo, produciendo gran cantidad de fotones que estimulan un foto-catodoaumentando la emision de electrones, estos son acelerados hasta incidir sobre una pantallade fosforo a +25 kV, consiguiendose ası una buena calidad de imagen con baja dosis derayos X [Webster 78][Baker 89].

Aunque a traves de los rayos X es posible la deteccion de las estructuras internas delencefalo, no es detectable el funcionamiento del cerebro, por lo que no es aplicable en latecnologıa ICC.

42 Estado de la tecnica.

2.2.4. Imagen cerebral mediante imagen nuclear.

Los sistema de imagen nuclear se basan en la deteccion de radiacion producida porradio-isotopos2 cuando estos se descomponen para alcanzar la estabilidad. En generallos rayos gamma son utilizados para obtener imagenes de organos dando una indicacionde su funcionamiento. Equipos computerizados de deteccion de radiacion, en especiallos detectores de destellos, detectan los rayos gamma emitiendo un destello luminoso.El dispositivo de imagen suministra ası una imagen del organo considerado, dandoinformacion de su tamano, forma, posicion y actividad funcional. Esta tecnica se empleapara la visualizacion de organos y regiones internas que no se pueden ver utilizando rayosX. El espacio ocupado por lesiones y tumores, se muestran particularmente bien.

Para su aplicacion al paciente se le suministra un radio-farmaco por vıa oral ointravenosa, con un intervalo de tiempo suficiente que permita a la substancia radiactivaseguir su camino metabolico especıfico dentro del cuerpo y concentrarse en el tejidoespecıfico a ser estudiado. Un dispositivo de imagen registra la posicion y concentracionde la radiacion emitida por el radio-isotopo. En casi todos los casos, esta tecnica exponeal sujeto a menos radiacion que la que recibirıa llevando a cabo un procedimiento dediagnostico similar con rayos X. La medicina nuclear mejora a la anatomica, empleandouna busqueda con medicina nuclear, metastasis oseas se pueden diagnosticar con unperiodo de anticipacion de seis a doce meses antes que con las tecnicas radiograficasnormales; en scanners cerebrales se utiliza para el diagnostico de anormalidades patologicascomo tumores, aneurismas cerebro-vasculares y hematomas.

La figura 2.26 muestra una camara gamma tipo empleada en medicina nuclear.Los rayos gamma se produ-

cen en el organo en todas direccio-nes, los tubos del colimador ase-guran que solo la radiacion des-de las zonas de interes alcancenel detector NaI. La luz es detec-tada por mas de un tubo foto-multiplicador, sin embargo solo losincrementos relativos son utiliza-dos para mejorar la resolucion es-pacial. Un analizador electronicode amplitud de pulso seleccionaaquellos tubos que tiene la energıade rayo gamma adecuada.

La resolucion espacial de laimagen obtenida es alrededor del Figura 2.26: Camara Gamma

1% de las dimensiones de la imagen [Webster 78][Baker 89].Aunque esta tecnica, a diferencia de los rayos X, puede mostrar el funcionamiento del

cerebro, no es aplicable en la tecnologıa ICC debido a la necesidad de administrar un radiofarmaco al usuario y a las constantes de tiempo involucradas en el proceso.

2Un radio-isotopo es un atomo con un nucleo inestable. Con objeto de alcanzar la estabilidad el radio-isotopo emite uno o mas tipos de radiacion, el ejemplo mas comun es las partıculas alfa, beta y la radiacionelectromagnetica gamma.

2.2 Tecnicas para la adquisicion de actividad cerebral. 43

2.2.5. Imagen cerebral mediante tomografıa computerizada.

La figura 2.27 muestra un sistemade tomografıa computerizada de rayos X.Mide la atenuacion de rayos X paraleloscontenidos en un mismo plano. El procesose repite para otros planos cambiando elangulo. La informacion es procesada porun computador que genera una imagenbidimensional de la rebanada del cuerpoen estudio. Repitiendo el proceso conrebanadas consecutivas se crea una imagentridimensional. La figura 2.28 muestra elproceso de reconstruccion digital de laimagen mediante retro-proyeccion, en laque la atenuacion a lo largo de cadaplano es uniformemente asignada; por lotanto si existe una alta atenuacion enun pixel o elemento de la imagen, laasignacion desde los angulos consideradosaumenta mas que en los pixeles de sualrededor. Metodos iterativos aplicados ala imagen miden la atenuacion resultantey proyectan la nueva informacion. Comosubstancia de calibracion se utiliza elagua, ya que presenta un valor ceroen la tomografıa. Metodos analıticosemplean analisis espacial de Fourier otecnicas de convolucion. La tomografıacomputerizada puede generar imagenesde secciones cruzadas de estructurasanatomicas, sin superponer tejidos de unaen otra.

Figura 2.27: Tomografıa computerizada.

Figura 2.28: Tomografıa computerizada.

Sistemas mejorados de tomografıa computerizada utilizan multiples medidassimultaneas y tubos de rayos X que rotan cada 2 segundos. La tomografıa computerizadasuministra imagenes de tejidos blandos dentro del cerebro que no es posible conseguircon radiografıas convencionales, ya que los rayos X quedan bloqueados por la densidaddel craneo. El paciente se coloca dentro del centro de un toroide, rodeado por scannerstomograficos. La tomografıa es empleada en el diagnostico de tumores cerebralescomo neoplasmas, infartos cerebrales, desplazamiento o crecimiento ventricular, atrofiascorticales (decrecimiento del tamano del cerebro), aneurismas cerebrales, hemorragias yhematomas intracraneales y malformaciones arteriovenosas. Sin embargo tambien tienelimitaciones, la resolucion espacial y de contraste limitan a la tomografıa en su habilidadpara distinguir tejido normal del patogeno, por ejemplo si un tumor dentro del cuerpotiene una atenuacion semejante a la del agua, no sera detectado [Webster 78][Baker 89].

44 Estado de la tecnica.

2.2.6. Imagen cerebral: MRI.

La imagen de resonancia magnetica, MRI: Magnetic Resonance Imaging, suministraimagenes bidimensionales que son secciones de la concentracion de isotopos H1 en objetostridimensionales. El sujeto es colocado a lo largo del eje Z dentro de un potente campomagnetico de aproximadamente 2T . El spin de los electrones de H1 precesan a lasfrecuencias de Larmor de 42,57MHz/T . El campo magnetico es perturbado para producirun pequeno gradiente magnetico a lo largo del eje Y . En la figura 2.29 se muestra que solohay una seccion para cada frecuencia particular de Larmour. Bobinas de radio frecuenciadispuestas alrededor pulsan a dicha frecuencia, provocando la excitacion de las partıculasde la seccion. Tras una rapida perturbacion del campo magnetico, a lo lardo del eje X, unreceptor de radio frecuencia mide la relajacion a lo largo de la lınea del eje Z ortogonala ambos campos. El campo magnetico a lo largo del eje Z puede ser modificado paraproducir nuevas lıneas adicionales de adquisicion. El sistema es similar a la tomografıacomputerizada y la senal es procesada en modo similar [Webster 78][Baker 89].

Los puntos fuertes de MRI incluyen:sensibilidad al flujo sanguıneo, ajusteelectronico del plano de la imagen(en contraposicion a otras tecnicas queutilizan ajuste fısico, como la tomografıacomputerizada), no emplea radiacionionizante, solo magnetismo y ondas deradio; y alta resolucion en tejidos blandos.

Los puntos flacos de MRI son:contraindicacion en caso de implantes dedispositivos medicos y placas metalicasen pacientes, tiempo de adquisicion dela imagen prolongado y coste elevado;factores que junto con las constantes detiempo involucradas al flujo sanguıneohacen muy complicado su empleo en latecnologıa ICC.

Seccionen el eje x

Seccionen el eje y

Lineaseleccionada

z

y x

Figura 2.29: En MRI, la bobina de radio frecuenciaexcita las secciones en el eje Y . Un receptor de RFmide la secciones en el eje X.

Figura 2.30: MRI tejidos blandos

2.2 Tecnicas para la adquisicion de actividad cerebral. 45

2.2.7. Imagen cerebral: SPECT.

En la tomografıa computerizada por emision individual de fotones3, un sistemasimilar al de la camara gamma rota alrededor del sujeto. Los rayos gamma provenientesdel sujeto son recogidos en modo similar al utilizado en la tomografıa computerizada,aunque en este caso varias secciones son obtenidas al mismo tiempo, mostrando laactividad que se produce en el interior de la zona de interes. Mediante SPECT es posibleobservar anomalıas no observables con los sistemas convencionales de rayos X o camaragamma [Webster 78][Baker 89]. El elevado coste de equipamiento y la necesidad de laadministracion de un radio-farmaco son los principales inconvenientes para la aplicacionde esta tecnica en la tecnologıa ICC.

2.2.8. Imagen cerebral: Tomografıa por Emision de Positrones (PET).

Algunos isotopos producen positrones que reaccionan con los electrones emitiendo dosfotones a 511 keV en direcciones opuestas. La figura 2.31.a muestra los dos detectoresdispuestos en lados opuestos del sujeto. Los detectores determinan si ambos destellosson coincidentes y tienen niveles de energıa cercanos a 511 keV. Parejas adicionales dedetectores, fig.2.31b y c permiten una rapida operacion. La reconstruccion de la imagenes similar a la empleada en la tomografıa computerizada.

La principal ventaja del PET es que la mayorıa de los radio-isotopos utilizados 15O,13N , 11C y 18F , pueden ser compuestos como metabolitos. Por ejemplo, CO puede serhecho con 11C. Si una porcion del cerebro se encuentra activada, el incremento del flujode sangre transporta el isotopo hasta ella, apareciendo en la imagen. Funcionamientosanormales, tumores, ataques y otro tipo de anomalıas pueden ser mapeados de este modo.Por ejemplo, medidas del metabolismo de FDG (glucosa-fluordeoxyglucosa) se empleapara determinar el crecimiento de tumores. La deteccion de tumores tempranos es posibleantes de que se produzcan cambios estructurales detectables mediante MRI o CT, ya quepequenas cantidades de FDG pueden ser visualizadas [Webster 78], [Baker 89].

Figura 2.31: Tomografıa por Emision de Positrones

3SPECT: Single-photon emission computed tomography.

46 Estado de la tecnica.

2.3. Referencias historicas sobre la tecnologıa ICC.

Con el descubrimiento de la naturaleza electroquımica del sistema nervioso en generaly del cerebro en particular, y la descripcion de la electroencefalografıa por parte del Dr.Hans Berger en 1929, [Bronzino 95a], comienzan las primeras especulaciones acerca delempleo de esta tecnica como vıa de comunicacion y control, a fın de permitir al cerebroactuar sobre el entorno sin la utilizacion del sistema nervioso periferico o los musculos4.

Las investigaciones llevadas a cabo en la tecnologıa ICC han sido divididas en dosgrandes grupos, denominandose experimentos fuera de lınea a aquellos en los que seproduce una primera etapa de adquisicion de la informacion para proceder a continuacion asu posterior analisis; y experimentos en lınea a aquellos que procesan, lo mas rapidamenteposible, pequenos paquetes de informacion para interactuar con el entorno en el menortiempo posible, buscandose idealmente una actuacion e interaccion continua entre elusuario y el entorno.

En el primer caso quedan englobadas todas aquellas investigaciones cuyo objetivo esla investigacion neurologica: zonas cerebrales en las que la relacion senal adquirida ruidopresenta un ındice mayor, grupo de actividades con mayor poder de discriminacion, etc.El segundo grupo engloba aquellos experimentos en los que se busca el desarrollo dedispositivos de comunicacion.

Las primeras investigaciones se centraron en la utilizacion de senales electroencefa-lograficas espontaneas, al usuario se le entrenaba en el control de estas caracterısticas,normalmente ritmo α, con el objetivo de manejar desde trenes de juguete a juegos deluces. Un ejemplo tıpico de esta etapa es el que realizo el Dr. Dewan en 1967, empleo bio-realimentacion para entrenar voluntarios en la modificacion de sus ritmos α occipitalescon el objetivo de codificar mensajes en Morse.

En 1970 varios cientıficos desarrollaron sistemas de comunicacion sencillos, que erancontrolados por el registro de actividad electrica en la cabeza del usuario. A principiosde dicha decada la “Advanced Research Projects Agency (ARPA)” del Ministerio deDefensa de Estados Unidos, mostro interes en tecnologıas que permitieran un mayor gradode inmersion e interaccion entre personas y computadoras incluyendo las denominadasaplicaciones “bionicas”.5 El Dr. George Lawrence propuso y dirigio un programa queinicialmente se centraba en la auto-regulacion y biorealimentacion cognitiva. Se analizaronaquellas tecnicas que mejoraran el rendimiento de los operarios, especialmente lascapacidades militares de personal involucrado en tareas que tenıan una carga mentalelevada. La investigacion produjo ciertos avances en biorealimentacion, pero apenasse avanzo en los objetivos inicialmente establecidos. Bajo la denominacion de “bio-cibernetica” se establecio una nueva direccion, siendo esta la principal fuente derecursos para la investigacion en bionica. Una de las directrices de este programa fuela evaluacion de la posibilidad de utilizar senales biologicas, que serıan analizadas entiempo real por un computador, con el objetivo de controlar vehıculos, armamentou otros sistemas. El proyecto de mayor exito fue liderado por el Dr. Jacquies Vidal,

4La figura 2.33, al final de este capıtulo, se muestra el desarrollo de la tecnologıa ICC5Bionica: Disciplina que se ocupa de la aplicacion tecnologica de las funciones y estructuras biologicas

de los animales.

2.3 Referencias historicas sobre la tecnologıa ICC. 47

director de “Brain Computer Interface Laboratory” en UCLA. Mediante la utilizacionde estimulacion visual generada por computador y procesamiento avanzado de senal, losresultados de la investigacion demostraron que potenciales visuales evocados, consideradosindividualmente, permitirıan un canal de comunicacion por el cual un operario podrıacontrolar el movimiento de un cursor a traves de un laberinto bidimensional [Vidal 73][Vidal 77].

Estas primeras investigaciones revelaron la importancia de la distincion entresistemas de control que usaran actividad electroencefalografica y aquellos que usabanelectromiogramas, recogiendo la actividad muscular a nivel de cuero cabelludo o musculosfaciales.

El incremento en la potencia de calculo de los computadores en las ultimas dosdecadas, ha permitido a los investigadores la implementacion de complejos algoritmos deprocesamiento y reconocimiento de senal, usando como senales de control tanto PotencialesEvocados6 como Potenciales Relativos a Eventos7.

En 1988 los doctores Farwell y Donchin de la Universidad de Illinois utilizaron latecnica de Potenciales Relativos a Eventos P300 para el control de una maquina de escribirvirtual [Donchin 00], [Wolpaw 00a], [Krusienski 00], [Sellers 06]. El teclado matricial serepresentaba en una pantalla de ordenador. Al voluntario se le pedıa que escribiera unapalabra, mientras que las fila y columnas del teclado eran resaltadas de forma aleatoria,cuando se resaltaba la fila o la columna en la que se encontraba la letra deseada se producıaun P300. El dispositivo utilizaba un unico electrodo dispuesto sobre el cortex parietal (esla zona con mayor respuesta P300 en personas adultas). Un algoritmo de deteccion de picoidentificaba cuando se producıa un potencial P300. El sistema tenıa una velocidad mediade comunicacion de 2.3 caracteres por minuto, lo cual corresponde a un canal con unacapacidad de 0.2 bits/segundo.

En 1990 el Dr. Keirn y el Dr. Aunon, en la Universidad del Estado de Colorado, llevarona cabo una serie de experimentos para analizar que tipo de actividades cognitivas podrıanser diferenciadas, mediante la senal electroencefalografica. El objetivo a largo plazo erala utilizacion de aquellas actividades que mejor senal proporcionaban para el control desistemas ICC. Inicialmente se identificaron tareas en los hemisferios izquierdo y derecho,por lo que una caracterıstica de discriminacion util fue la relacion de asimetrıa de lapotencia espectral. Se dispusieron seis electrodos en las zonas izquierda, central derecha,parietal y occipital, del cortex cerebral. La estimacion de la densidad espectral de potenciafue obtenida mediante el empleo de la transformada rapida de Fourier (FFT). Trabajosposteriores demostraron que el empleo de metodos Auto-Regresivos (AR) ofrecıan mejoresresultados. La relacion de asimetrıa fue aplicada en un clasificador cuadratico bayesiano,obteniendose diferenciacion entre estado de reposo y cada uno de los siguientes estados:rotacion mental de figuras geometricas, multiplicaciones matematicas, composicion mentalde cartas y cuenta visual. La exactitud de discriminacion obtenida se encontraba entre un80 % y un 90 %.

6Denominacion inglesa: Evoked Potentials EP’s7Denominacion inglesa: Event-Related Potentials ERP’s

48 Estado de la tecnica.

En 1993, investigadores del Hospital Universitario Nacional de Taiwan repetıan elexperimento anterior, pero utilizando redes neuronales de Kohonen como clasificador delas diferentes actividades. Indicaron que eran capaces de diferenciar dichas tareas conmayor exactitud.

En 1995 el grupo del Dr. Anderson analizo los datos recogidos por Keirn y Aunon,utilizando un clasificador basado en redes neuronales. Se centraron en la tarea demultiplicacion e investigaron con que precision la podıan discriminar de la actividad basede estado relajado. Implementando una red neuronal del tipo perceptron multicapa en unsistema con procesamiento en paralelo y utilizando coeficientes AR como caracterısticade entrada, fueron capaces de clasificar los datos con un 91 % de exactitud [Garrett 03][Muller 03b].

Ası mismo, el Dr. McMillan y el Dr. Calhoun, en “Wright-Patterson Air Force Base”utilizaron Potenciales Evocados Visuales (VEP) para controlar el balanceo en un simuladorde vuelo [Middendorf 00]. Dos electrodos, en la zona del cortex visual, fueron utilizadospara registrar la respuesta de estado continuo frente a luz sinusoidal modulada a unafrecuencia de 13.25 Hz. Un amplificador en lazo cerrado medıa de forma continua lamagnitud de la componente electroencefalografica en 13.25 Hz. Si su magnitud superabaun determinado umbral, el simulador de vuelo se balanceaba hacia la derecha. Por elcontrario si su magnitud era inferior a otro nivel de umbral, se balanceaba hacia laizquierda. Los voluntarios que se sometieron a las pruebas en el simulador, al cabo de12 h de entrenamiento, fueron capaces de responder correctamente el 80 % de las veces, enuna secuencia aleatoria de blancos derecha/izquierda. En otro experimento, independientedel anterior, utilizaron la misma tecnica VEP para controlar la flexion de la rodilla a travesde estimulacion electrica externa. El estimulador fue conectado en la superficie anteriordel muslo, sobre el musculo femoral. Tres voluntarios sanos se entrenaron durante 5 h enla utilizacion del interfaz. Se les propuso flexar la rodilla en uno de tres angulos diferentes,para despues volverla a dejar en su posicion de reposo, perpendicular al suelo. El 96 %de las propuestas fueron alcanzadas, se empleaban unos 5 seg. de media en la extensioncompleta de la pierna, y un promedio de 6 seg. en la vuelta a su posicion de reposo.

En el “New York State Department of Health” en 1993 el Dr. McFarland y Dr.Wolpaw entrenaron voluntarios en el control de la amplitud de sus ritmos μ8 para elcontrol de la posicion de un cursor en la pantalla de un computador, [Wolpaw 00b].Se utilizaron dos electrodos dispuestos sobre el area senso-motora primaria del cortexcerebral izquierdo abarcando la cisura central. Con estos dos electrodos se obtenıa uncanal de senal electroencefalografica, que convenientemente tratada mediante el algoritmode FFT implementado en un DSP, suministraba la componente de 9 Hz en tiempo real,que era utilizada para controlar proporcionalmente el movimiento vertical del cursor enla pantalla. Los blancos, de tamano constante, se desplazaban de izquierda a derecha auna altura elegida al azar, el tiempo empleado por el blanco en recorrer el ancho de lapantalla era de 8 seg. Al voluntario se le indico que moviera el cursor, en el lado derecho

8El ritmo μ es el ritmo α (9Hz) que se registra sobre la zona motora del cortex.

2.3 Referencias historicas sobre la tecnologıa ICC. 49

de la pantalla, para interceptar el blanco. Se entrenaron cuatro voluntarios durante unperiodo de algunas semanas. El que mejor lo hizo consiguio interceptar el blanco el 75 %de las veces, mientras que el que peor resultados obtuvo lo hacıa el 39 %. Estos datoscorresponden a un canal de comunicacion con una capacidad de 0.125 bit/sec (en el mejorde los casos). Experimentos posteriores comunicados en 1994, utilizaban dos electrodosen el lado derecho y otros dos en el lado izquierdo en la zona senso-motora del cortex,dando lugar a dos canales ERD9, el ritmo μ en cada hemisferio fue capturado utilizandouna banda de frecuencia centrada en 10Hz con una anchura de 5Hz, con una periodicidadde 200 mseg. Ambos valores fueron convertidos en movimientos horizontales y verticalesdel cursor, mediante el empleo de ecuaciones lineales, los coeficientes de dichas ecuacionesse actualizaban al cabo de cada intento. La tarea propuesta fue la direccion del cursordesde el centro de la pantalla del computador hacia una de las esquinas del monitorelegidas al azar. La prueba finalizaba cuando el cursor alcanzaba el blanco de tamanofijo. Se entrenaron cinco voluntarios durante un periodo de 6 a 8 semanas. El voluntariocon mejores resultados consiguio el 70 % de los blancos, a una velocidad media de 26 porminuto, lo cual corresponde a una tasa de transferencia de informacion de 0.9 bits/seg.

Hiraiwa, Shimohura y Tohunaga en el “NTT Human Interface Laboratories”, enJapon, utilizaron un sistema electroencefalografico de 12 electrodos, para estudiar lascaracterısticas espacio temporales de los potenciales de generacion asociados con lapronunciacion de una entre cinco sılabas japonesas. Se tomaban dos registros de laactividad electroencefalografica previas a la pronunciacion de la sılaba, para ser utilizadasen la subsiguiente clasificacion empleando una red neuronal entrenada mediante la tecnicade “backpropagation”. Dieciseis de treinta nuevas sılabas eran correctamente clasificadas.Ası mismo tambien se investigaron potenciales de generacion asociados a movimientos de“joystick”. En este caso, utilizando la misma tecnica, 23 de 24 nuevos movimientos deljoystick fueron correctamente reconocidos.

En 1992, el grupo del Dr. Pfurtscheller de la Universidad de Graz en Austriaestudio los ritmos μ asociados con el movimiento de los dedos ındice derecho eizquierdo [Scherer 04], [Pfurtscheller 03], [Blankertz 04], [Rupp 06]. A los voluntarios seles instruyo para que presionaran un pulsador con el dedo ındice. Una pista un segundoantes de producirse el movimiento indicaba que dedo debıa de ser utilizado. Durante estesegundo, 30 electrodos dispuestos en una matriz rectangular sobre la zona seso-motoradel cortex cerebral registraban la actividad electroencefalografica (ERD) que precedıa almovimiento. Posteriores analisis de la informacion adquirida han demostrado que doselectrodos en las zonas C3 y C4 son suficientes para obtener buenos resultados. Latransformacion de Hilbert, aplicada a las senales electroencefalograficas, ha demostradoser el mejor metodo para la extraccion de caracterısticas. Dando lugar a una precisionen la clasificacion de aproximadamente el 90 %, comparada con el 70 % u 80 % que seconsigue con el metodo de potencia espectral. Posteriormente se ha demostrado que redesneuronales trabajando sobre modelos autorregresivos dan lugar a resultados similares.

9ERD: Event-Related Synchronizations or Desynchronizations (ERS/ERD)

50 Estado de la tecnica.

Este experimento demostro que utilizando unicamente dos electrodos, se podrıa controlarel movimiento bidimensional de un cursor.

Al ano siguiente, este mismo grupo mostro su sistema ICC en lınea, basado en detectarpotenciales de generacion en dos electrodos sobre las zonas C3 y C4 de cortex senso-motor. Un voluntario fue entrenado durante cuatro sesiones de media hora, la actividadde entrenamiento consistio en el movimiento horizontal de un cursor en pantalla. Elprocedimiento de adquisicion de la senal fue el siguiente:

1. Un pitido prepara al usuario para el comienzo de la actividad.2. Un segundo despues se indica la direccion objetivo, mostrando un cuadrado en la

zona izquierda o derecha de la pantalla.3. Al cabo de otro segundo, aparece un cursor en el medio de la pantalla, indicando

que el usuario debe presionar el pulsador adecuado.Una sesion de grabacion queda compuesta por unos ochenta intentos. En cada sesion

la senal del segundo en el que se planifica el movimiento es procesada para obtenerlos valores espectrales de potencia. Utilizando estos datos y la direccion de movimientoactual, se produce el aprendizaje de la asociacion de movimientos planificados conmovimientos reales. Tras una sesion de entrenamiento el clasificador predice un 70 % demovimientos correctamente, al cabo de cuatro esta cifra se incrementa hasta un 85 %. Locual demuestra que el usuario modifica su senal electroencefalografica mediante el empleode biorealimentacion.

En 1994 el grupo del Dr. Pfurtscheller mostro como movimientos de los dedos ındicederecho e izquierdo, movimientos del pıe y de la lengua podıan ser identificados mediantesus ERD’s. Aplicaron el hecho de que movimiento de los dedos o mano son acompanadospor el bloqueo del ritmo μ y por un corto retardo del ritmo γ (30-40Hz ERS). Emplearonocho electrodos dispuestos en una matriz rectangular sobre la zona senso-motora yrealizaron la estimacion de potencia espectral en las siguientes bandas para cada senal: 10-12 Hz (dedos y lengua), 30-33 Hz (dedos del pie), 38-40Hz(dedos y lengua). La estimacionse realizaba cada 250 mseg.

Este trabajo llevo al diseno del segundo sistema ICC en Graz, con el cual controlartres tipos diferentes de movimientos. La senal ERD asociada con el movimiento de losdedos ındice derecho e izquierdo o del pie derecho fue registrada en tres canales EEGbipolares (6 electrodos sobre la zona del cortex senso-motora). La estimacion de potenciaespectral se calculaba para cada muestra con una duracion de 250 mseg. Estas medidaseran concatenadas cada segundo, para formar un vector que era clasificado por el algoritmode aprendizaje. Cuatro voluntarios fueron entrenados en el uso del dispositivo en cuatrosesiones de 90 min. durante un periodo de dos semanas. Cada sesion consistio en cuatrobloques de 60 pruebas con un descanso de cinco minutos entre bloques. Cuando laindicacion desaparece, al cabo de 1.25 seg, el voluntario presiona el pulsador con su dedoındice derecho, izquierdo, o mueve los dedos del pie derecho hacia arriba. Las senaleselectroencefalograficas son clasificadas por el sistema en el siguiente segundo. Los datosdel primer segundo son utilizados para entrenar el clasificador, mientras que en la cuartasesion no se muestran los resultados. En las sesiones segunda y tercera, en las que si existerealimentacion de resultados se consigue una exactitud del 81 %, sin embargo en la cuartala cifra baja al 77 %.

2.4 Estado actual de la tecnologıa. 51

2.4. Estado actual de la tecnologıa.

Las investigaciones anteriores han resuelto una gran cantidad de problemas, como porejemplo la discriminacion de actividad electromiografica de la electroencefalografica, pesea que a nivel de cuero cabelludo la primera es de mayor amplitud que la segunda enla misma localizacion, y la comunicacion basada en EMG puede llegara enmascarar lacomunicacion basada en EEG. Para realizar una correcta discriminacion de ambas fuepreciso realizar analisis espectral y topografico. Este trabajo inicial tambien sirvio paraesclarecer la distincion entre sistemas de comunicacion basados en EEG que dependıan delcontrol muscular (por ejemplo potenciales visuales evocados dependen de la direccion de losojos) y aquellos que no dependıan del control muscular (actividad figurativa, imaginativao matematica), estableciendose una primera discriminacion entre sistemas ICC exogenosy endogenos. Estas distinciones fueron las que dieron lugar a la actual definicion deltermino Interfaz Cerebro Computador ICC como “aquel sistema de comunicacion queno depende de los canales cerebrales de salida habituales, sistema nervioso periferico ymusculos” [Wolpaw 00a]. Definicion que justifica el interes actual que la tecnologıa ICCha suscitado entre los diversos grupos de investigacion en interfaces hombre-maquina anivel mundial, y las posibilidades que como nueva tecnologıa de comunicacion aumentadaofrece su aplicacion en campos como la tecnologıa de la rehabilitacion, teleoperacion dedispositivos robotizados, sector militar o industria del ocio expuestos en la seccion 1.2 delcapıtulo 1.

La proliferacion que en los ultimos anos se ha producido en los grupos de investigacionen la tecnologıa ICC y la gran variedad en los tipos de senal de entrada, algoritmosde traduccion, salidas y otras caracterısticas de los dispositivos basados en ICC, hamotivado el aumento de la diversidad de criterios tanto en la consideracion de las areasprioritarias de desarrollo para la mejora de la tecnologıa ICC, como en el establecimiento deprocedimientos de medida y comparacion de resultados. Mientras que diferentes sistemasse ajustan mejor para diferentes aplicaciones, medidas de rendimiento estandar son utilescomo bancos de pruebas de proposito general, con el cual seguir el desarrollo de latecnologıa ICC. Una medida estandar en los sistemas de comunicacion es la velocidadde transferencia de informacion o cantidad de informacion transmitida por unidad detiempo10. Esta depende tanto de la velocidad, como de la exactitud, [Shannon 75],[Pierce 80].

En la figura 2.32 se muestra la relacion entre exactitud y transferencia de informacionpara diferentes valores de posibles elecciones N:2,4,8,16,32. La velocidad de transferenciade informacion se muestra en bits/min cuando se realiza un total de doce pruebas, valoressemejantes se observan en diferentes dispositivos ICC [Birbaumer 00], [Pfurtscheller 00],[Wolpaw 00b].

10En terminologıa inglesa se denomina “Bit Rate”

52 Estado de la tecnica.

Se observa por ejemplo, que lavelocidad de transferencia de undispositivo ICC que seleccione entredos valores con un 90 % de exactitudes el doble que la obtenida con un80 %, e igual a la que se consigue concuatro posibles candidaturas con un65 %.

La enorme importancia de la exac-titud en la velocidad de comunicacionno ha sido valorada convenientementeen las publicaciones relacionadas conICC. Mientras que la efectividad decada dispositivo ICC depende consi-derablemente de la aplicacion a la quese destina, la utilizacion de la veloci-dad de comunicacion ofrece una medi-da objetiva para comparar diferentesdispositivos y medir mejoras.

Figura 2.32: Velocidad de transferencia de informacionen bits/min, variando el numero de posibles eleccionesN={2, 4, 8, 16 o 32}.

Por otro lado ya que dependiendo del tipo de tecnica de analisis empleada existenareas del cortex cerebral en las que se refleja una gran cantidad de informacion, mientrasque en otras, la informacion buscada esta oculta entre el ruido captado11, son necesariosensayos clınicos controlados en varios grupos de usuarios con la finalidad de determinarque metodos de adquisicion ICC son los que mejor se ajustan a cada grupo de usuarios. Enla actualidad solo se disponen de datos ICC de personas con incapacidades neuromotorasseveras. Con el Dispositivo de Traduccion de Pensamiento (TTD) [Birbaumer 00], queutiliza potenciales corticales lentos (SCP’s), y con el sistema Wadsworth ICC, que utilizaritmos μ y β [Wolpaw 00b], han sido evaluados en un numero pequeno de usuarios conesclerosis lateral amiotrofica, dano traumatico, dano de la medula espinal, paralisis cerebralo amputacion. El objetivo de estos estudios es la comparacion del rendimiento de losdiferentes sistemas ICC y sus diferentes entradas electrofisiologicas, ası como evaluardiferentes procedimientos de entrenamiento, controlando el efecto placebo [Harrington 97].

Ası pues con el objeto de unificar criterios y procedimientos de comparacion, en losultimos anos se han realizado diferentes concursos sobre ICC, focalizadas en la resolucionincremental de los problemas que aparecen en la aplicacion de esta tecnologıa, ası en el ano2001 se celebro el primer concurso centrado en la estandarizacion de diferentes tecnicas declasificacion; viendose la gran disparidad tanto en los registros de senal considerados, comoen las tecnicas y criterios de clasificacion empleados, se realizo en 2003 un segundo concursocentrado en el empleo de los ritmos μ y β, ası como potenciales evocados tempranos yde tipo P300, analizandose la senal electroencefalografica previa a la materializacion de

11Por ejemplo el control con potenciales lentos es pobre en las zonas parietales [Rockstroh 89] y losritmos μ quedan estrechamente limitados a la zona senso-motora del cortex cerebral.

2.4 Estado actual de la tecnologıa. 53

movimiento de los dedos de ambas manos, y considerandose como caracterısticas de la senala sus componentes espectrales. El tercer concurso se realizo al ano siguiente, centrando susesfuerzos en la discriminacion de imaginacion de movimiento de diferentes partes del cuerpocomo dedos de las manos, pies, o de la lengua, frente a otro tipo de tareas cognitivas comola composicion mental de un escrito, rotacion de figuras, o la imaginacion de navegacionentre dos puntos en un entorno conocido; se analizo la influencia que sobre la extraccion decaracterısticas y los diferentes clasificadores, presentaba la estabilidad en el tiempo de losregistros de senal EEG empleados en el aprendizaje. El cuarto concurso se celebro en el ano2008 centrando sus esfuerzos en la realizacion practica de dispositivos ICC, analizando losproblemas de clasificacion continua de senal EEG sin disponer de una estructura de prueba,considerando los artefactos debidos a movimiento ocular, clasificacion de los movimientosde la muneca considerando senal magnetoencefalografica e incremento de la granuralidadde resolucion espacial en ECoG.

La mayorıa de los conjuntos de datos para entrenamiento y test fueron adquiridosen sesiones con escasa separacion temporal entre las mismas, lo que unido a la libreeleccion de los electrodos y caracterısticas considerados en la clasificacion, de lugar atasas de clasificacion optimistas, superiores a las obtenidas en aplicaciones en escenariosreales. Sin embargo, a pesar de este inconveniente, los concursos realizados sobre ICCaportan el principal marco de comparacion para la evaluacion de las diferentes tecnicas declasificacion.

Debido a que el funcionamiento de ICC depende de que el usuario codifique suvoluntad en las caracterısticas de la senal, que el sistema mide y traduce a sus salidasde control, el progreso del mismo tambien depende de la mejora de los metodos deentrenamiento. Trabajos en desarrollo evaluan el efecto del entrenamiento y analizandiferentes estrategias utilizadas por los usuarios. Por ejemplo algunos protocolos pidenque el usuario emplee imaginacion de movimientos muy especıficos u otra tarea mentalpara producir las caracterısticas que el sistema EEG utilizara como senales de control[Pfurtscheller 00] [Penny 00]. Sin embargo otros sistemas permiten mas libertad al usuarioen la decision de que movimientos imaginar [Wolpaw 00b]. El analisis de similitudes ydiferencias, entre la adquisicion de control ICC y la adquisicion de destreza motora ono-motora convencional, podrıa conducir a la mejora de los metodos de entrenamiento.Ası mismo tambien deben ser considerados aspectos mentales del individuo como porejemplo: motivacion, fatiga, frustracion. El analisis de los informes de usuario deben sercuidadosamente analizados para extraer las conclusiones correctas [Roberts 89].

Por otro lado, teniendo en cuenta el procedimiento de adquisicion de la senal cerebral,el interes actual se centra principalmente en la aplicacion a sistemas de registro a nivel decuero cabelludo, ya que es la opcion con mayor disponibilidad de uso. En tecnologıasinvasivas, como puede ser el caso de electrodos conicos [Kennedy 00], o cadenas demicroelectrodos intracorticales [Levine 00], [Chapin 99], los algoritmos existentes requierende evaluacion adicional, siendo probable que se desarrollen otros nuevos. La actividadrecogida en el EEG refleja la actividad de grandes poblaciones de neuronas corticales.

54 Estado de la tecnica.

Si las caracterısticas extraıdas de esta actividad suministraran medios de comunicacioneficaces, deben existir dos o mas estados discernibles que reflejen las intenciones del usuario,y que se acomoden al dominio y limitaciones de la aplicacion. La tecnologıa ICC puedeemplear una caracterıstica individual: amplitud de una banda de frecuencia especıfica endeterminada zona del cerebro, o bien una combinacion de multiples caracterısticas, bienen el dominio temporal o frecuencial, por ejemplo potenciales corticales lentos, ritmos μ,etc.; producidos por multiples procesos fisiologicos. Las necesidades de la aplicacion elegidason determinantes en la seleccion de los algoritmos de traduccion, que proporcionen unaadecuada combinacion de velocidad y precision. Debido a que el cerebro humano es uncontrolador altamente adaptativo que se basa en metodos predictivos y realimentacion dela informacion, es aconsejable y tal vez esencial, que los algoritmos de traduccion tambiendispongan de esta capacidad de adaptacion, ej. [McFarland 97] permite la adaptacioncontinua del valor de la amplitud media y/o varianza de las caracterısticas de EEG.

El desarrollo actual de las tecnicas ICC requiere que se reconozca que el objetivo no esunicamente la observacion de la actividad cerebral, mediante diferentes tecnicas como EEGo registros intracorticales, y mediante ellos determinar la intencion del usuario, sino queel interfaz de control cerebral debe ser entendido como un nuevo canal de salida cerebral,y al igual que los canales normales: nervios y musculos, es preciso enlazar las capacidadesadaptativas del cerebro que ajustan dicha salida y ası obtener el maximo rendimiento.Por lo que actualmente se esta investigando sobre el desarrollo de dispositivos ICC losuficientemente flexibles como para usar diferentes caracterısticas de senal EEG comomecanismo de control. Un dispositivo basado en ICC podrıa utilizar potenciales corticaleslentos, ritmos μ o β , potenciales P300, o actividad de unidades neuronales independientes,bien individualmente o bien de forma conjunta [Schalk 04], siendo esta flexibilidad la quesuministrara un considerable avance practico. La consecucion de exito en la utilizacion deestos dispositivos es en esencia una nueva destreza, que consiste mas que en un apropiadocontrol muscular en el apropiado control de la actividad electroencefalografica.

A parte de lo anterior, es preciso tener en cuenta que a excepcion de los sistemas quedependen del control muscular [Vidal 73], [Vidal 77], [Middendorf 00], [Sutter 92], y laposible excepcion de sistemas basados en potenciales evocados P300 [Donchin 00], la granmayorıa de los dispositivos basados en ICC dependen de la actividad electroencefalografica,y por tanto de su modo de aprendizaje llevado a cabo mediante procedimientos de condi-cionamiento operativo. Por lo que el analisis comportamental del fenomeno de aprendizajey del ambiente es importante. Dicho analisis requiere un extenso conocimiento de la teorıade aprendizaje, experiencia en su aplicacion clınica y entender como una determinadadiscapacidad neurologica puede influir en el aprendizaje. Sin embargo, la mayorıa de losdispositivos actuales han sido desarrollados por ingenieros u otros grupos con orientaciontecnica semejante, con experiencia limitada en principios y metodos comportamentales.Aunque capacidades intelectuales y cognitivas de alto nivel no sean probablemente esen-ciales para el uso con exito de ICC [Holzapfel 98], si es preciso un mayor grado de atenciona cuestiones como: seleccion de respuesta optima, tipos y cronogramas de reforzamiento,condiciones de respuesta estımulo; que son esenciales a la hora de perfilar cualquier com-portamiento.

2.4 Estado actual de la tecnologıa. 55

Los usuarios, controlando y eligiendo las caracterısticas electrofisiologicas, puedenseleccionar el mensaje a comunicar y observar la salida del sistema, de forma simultanea.Lo cual requiere la division de la atencion, pudiendo comprometer el control de lasenal de entrada. Varios estudios indican que dicha division es posible [Birbaumer 00],[Kumlbler 01], [Perelmouter 99], [Miner 98], mas presenta el inconveniente de eliminar lacapacidad de automatizacion de la respuesta cerebral, como potenciales corticales lentos oritmos μ. El problema se podrıa solucionar utilizando conmutacion de respuesta subcorticalo bien reduciendo el tamano de las regiones corticales que producen la entrada utilizadapor el sistema ICC.

Al igual que en todo dispositivo de comunicacion, las entradas al dispositivo ICC sonconjuntos de senales, que reflejan la actividad cerebral, las cuales deben ser transformadaspor el algoritmo de traduccion en ordenes.

Previamente se ha de tener en cuenta la metodologıa utilizada para medir dichassenales. Las caracterısticas de las senales pueden venir dadas en el dominio frecuencial[como por ejemplo ritmos μ o β que se suceden en zonas especıficas del cortex], o bien porcaracterısticas en el dominio temporal [como potenciales corticales lentos, potenciales P300o el potencial de accion de neuronas corticales individuales [Birbaumer 00], [Kennedy 00]].Esta metodologıa incluye el tipo de electrodos a nivel de cuero cabelludo, su colocacion, elfiltrado espacial y temporal, ası como otros metodos de procesamiento de senal empleadosen la extraccion y medicion de sus caracterısticas. La sencillez en la distincion entre senalesy como estas reflejan aspectos especıficos de la fisiologıa y anatomıa del sistema nerviosodepende de las caracterısticas de senal que se consideren. Esta distincion es importantedebido a que dichas caracterısticas son el reflejo de la fisiologıa y la anatomıa del sistemanervioso, y no solo el resultado de unos metodos de analisis, y de ahı el continuo empenoen la consideracion del problema de espurios o artefactos, como la actividad EMG, queafecta a las caracterısticas que definen a la senal.

56 Estado de la tecnica.

Figura 2.33: Evolucion temporal del desarrollo de la tecnologıa ICC.

Capıtulo 3

Adquisicion y procesamiento desenal EEG.

En este capıtulo se presentan las tecnicas de adquisicion y procesamiento de senalelectroencefalografica, previas al empleo de las diferentes tecnicas de clasificacion descritasen el capıtulo 4. Las tecnicas de adaptacion y procesamiento de senal utilizadas incluyen:

1. Acondicionamiento de la senal electroencefalografica.2. Muestreo y cuantificacion.3. Normalizacion y enventanado.4. Transformacion de la senal del espacio temporal al espacio frecuencial.5. Obtencion del vector de caracterısticas.6. Deteccion de artefactos.

La senal electroencefalografica considerada proviene de dos canales; el canal 1 registrala senal en las proximidades de C31, mientras que el canal 2 registra la senal en lasproximidades de C4; ambos canales son de tipo diferencial, empleando dos electrodosequidistantes a los puntos de referencia mencionados, separados una distancia de 3 cm, taly como se muestra en la figura 3.1. Con objeto de poder detectar los artefactos causadospor el parpadeo, un tercer canal se encarga de registrar la actividad mioelectrica en lasproximidades de la comisura del ojo izquierdo; un cuarto canal, al que no se han conectadoelectrodos, se emplea para la estimacion del nivel de ruido presente durante la adquisicionde la senal; el electrodo de referencia de masa del bio-amplificador queda dispuesto sobreel mastoide derecho [Bronzino 95b], la figura 3.2 muestra el conexionado electrico entre elusuario y el bio-amplificador. El procedimiento experimental seguido para la preparaciondel usuario y equipamiento se presenta en el capıtulo 5.

1La denominacion proviene del sistema internacional de referencia electroencefalografico 10-20.

58 Adquisicion y procesamiento de senal EEG.

Figura 3.1: Colocacion de los electrodos.

����

��

����

��

��

����

Canal 1

Canal 2

Canal 3

Vcc−+

Figura 3.2: Esquema de conexionado electrico.

3.1 Acondicionamiento de la senal electroencefalografica. 59

3.1. Acondicionamiento de la senal electroencefalografica.

El acondicionamiento de la senal considera tanto las medidas de aislamiento electricodel usuario respecto a la red electrica, como la amplificacion y filtrado de la senal adquirida[Bronzino 95b], [Rubio 00], [Webster 04].

Como se ha indicado en la seccion 2.2.1 y 2.2.1.3, la senal electroencefalograficase caracteriza por tener un rango de amplitud del orden del centenar de microvoltiosy un rango en frecuencia comprendida entre los 0,4Hz y los 60Hz, sin embargo elrango de frecuencia mas comun detectado en condiciones de consciencia se presentaentre los 4Hz a 25Hz [Webster 04],[Webster 98],[Rubio 00]. Por este motivo, con objetode poder detectar y clasificar actividades cognitivas es necesario amplificar y filtrar lasenal electroencefalografica [Baker 89], para lo que se utiliza un bio-amplificador con unaganancia de G = 10000 y ancho de banda de 0 − 60Hz. La figura 3.3 muestra la senaltıpica registrada durante una sesion experimental, en donde por claridad, para diferenciarla evolucion temporal de cada canal, a cada uno de ellos le ha sido anadida una componentecontinua de valor igual al de su cardinal.

Figura 3.3: Registro de senal tıpico.

Tras la amplificacion de la senal electroencefalografica, se procede a su filtradoanalogico [Proakis 97], aplicando tanto un filtro de rechazo de banda tipo Notchsintonizado a 50Hz, como un filtro paso alto que elimina todas aquellas componentesfrecuenciales inferiores a 0,4Hz. El filtro de rechazo de banda minimiza el ruido y artefactoselectromagneticos causados por la red de suministro electrico; mientras que el filtro pasoalto minimiza artefactos de acoplamiento superficial entre el electrodo y la epidermis delcuero cabelludo en la zona de disposicion de los electrodos.

60 Adquisicion y procesamiento de senal EEG.

3.2. Muestreo, cuantificacion y codificacion de la senal

EEG.

Para poder identificar los patrones de senal electroencefalografica, asociados las aactividades cognitivas, es necesario proceder a la digitalizacion y caracterizacion de lasenal analogica previamente capturada, amplificada y filtrada.

El proceso de digitalizacion comprende tanto el muestreo, como la cuantificacion y lacodificacion de la senal, para lo que se emplea una tarjeta de adquisicion de datos.

El teorema de Nyquist relativo a muestreo de senal indica que, para evitar el efectode ’aliasing’ y poder recuperar la forma de la senal original a partir de las muestrastomadas, el muestreo debe realizarse a una frecuencia superior al doble de la componentefrecuencial de la senal mas alta [Proakis 97], [Areny 93], [Oppenheim 96], teniendo encuenta que la senal electroencefalografica tras el filtrado analogico se convierte en senalde banda limitada, con componentes frecuenciales comprendidas entre 0,4Hz y 60Hz, ellımite de frecuencia inferior para el muestreo es de 120Hz, en los experimentos descritos enel capıtulo 5 se emplea una frecuencia de muestreo Fs = 384Hz con la finalidad operativade proporcionar tres bloques independientes de 128 muestras cada uno, por cada segundo.Cada uno de estos bloques constituye una ventana de analisis que, tras su caracterizacion,procedera a ser clasificada.

Mediante el proceso de cuantificacion se determina el valor de la amplitud de la senalen cada instante de muestreo. Un convertidor analogico / digital de 12 bits de resolucion,embebido en la tarjeta de adquisicion, se encarga de realizar dicha cuantificacion, siendoel rango del margen maximo de excursion de senal considerado de 10V pp, por lo que elerror de cuantificacion obtenido es igual o inferior a: ε = 10V pp

212 = 2, 44mV

Por ultimo mediante la codificacion, se representa en formato binario con complementoa dos el valor de salida del cuantificador.

3.3. Normalizacion y ventaneado.

Con la finalidad de poder analizar y comparar registros de senales de sesiones diferenteses necesario proceder a la normalizacion de las muestras, evitando de este modo quela variacion de la impedancia de los electrodos diera lugar a resultados de clasificacionerroneos.

El proceso de normalizacion de las muestras que componen cada ventana de analisisconsiste en la substraccion del valor medio y la division entre el valor de desviacion tıpica,obteniendose de este modo por el teorema central del lımite [Pena Sanchez 86], un conjuntode muestras que se aproximan a una distribucion normal de valor medio nulo y desviaciontıpica la unidad.

μ =∑N

i=1 xi

N; σ2 =

(x − μ)2

N; x′ =

x − μ

σ(3.1)

3.3 Normalizacion y ventaneado. 61

Por otro lado, la consideracion de un bloque de 128 muestras consecutivas de senal esequivalente a contemplar la senal original, de duracion ilimitada, a traves de una ventanade extension semejante a la de la ventana de analisis, vease la figura 3.4

t

y(t) Señal original.

Ventana.

Señal ventaneada.

Figura 3.4: Procedimiento de ventaneado de la senal.

Esta operacion es equivalente a la convolucion en el espacio frecuencial de latransformadas de la senal electroencefalografica original y la ventana de preprocesamientoempleada [Oppenheim 96], [Proakis 97].

Como la caracterizacion de la senal electroencefalografica se realiza en el dominofrecuencial, es preciso analizar la influencia que dicha convolucion tiene sobre latransformada en frecuencia de la senal, ya que como caracteriza el efecto de derrame enfrecuencia [Oppenheim 96], [Proakis 97], cuando una senal formada por componentes debaja frecuencia se convoluciona con una ventana temporal de bordes afilados, se da lugara que en la transformada en frecuencia de la senal resultante aparezcan componentesfrecuenciales mayores a las existentes en la senal original, causadas por los lobulossecundarios de la transformada de la senal de la ventana de preprocesamiento empleada,vease figura 3.8.

Por tal motivo en la baterıa de experimentos realizados en el desarrollo de esta tesisse consideran los tipos de ventanas descritos en la tabla 3.1, cuyas representacionestemporales y frecuenciales se muestran en las figuras 3.5 a 3.7 2.

2M : longitud en numero de muestras de la ventana de procesamiento.Io : funcion de Bessel modificada de primera clase de orden cero.α : numero real arbitrario que determina la forma de la ventana. Por defecto α = 0,5.

62 Adquisicion y procesamiento de senal EEG.

Secuencia temporal: h(n), 0 ≤ n ≤ M − 1.

Ventana rectangular. h(n) = 1.

Ventana triangular o de Bartlett. h(n) = 1 − 2|n−M−12

|M−1 .

Ventana de Hanning. h(n) = 12(1 − cos( 2πn

M−1)).

Ventana de Hamming. h(n) = 0,54 − 0,46cos( 2πnM−1 ).

Ventana de Blackman. h(n) = 0,42 − 0,5cos( 2πnM−1 ) + 0,08cos( 4πn

M−1 ).

Ventana de Kaiser. h(n) =Io

»α

q(M−1

2)2−(n−M−1

2)2

Io[α(M−12

)].

Ventana de Tukey. h(n) = 12

[1 + cos(n−(1+α)(M−1)/2

(1−α)(M−1)/2 π)]

α(M−1)2 ≤ |n − M−1

2 | ≤ M−12 .

Tabla 3.1: Tipos de ventanas de preprocesamiento considerados.

Figura 3.5: Ventanas de preprocesamiento Rectangular y Triangular.

3.3 Normalizacion y ventaneado. 63

Figura 3.6: Ventanas de preprocesamiento: Blackman, Hamming y Hanning.

Figura 3.7: Ventanas de preprocesamiento: Kaiser y Tukey.

Figura 3.8: Efecto de derrame frecuencial.

64 Adquisicion y procesamiento de senal EEG.

3.4. Transformacion de la senal del espacio temporal al

espacio frecuencial.

Tal y como se ha indicado en la seccion 2.2.1.3 las caracterısticas intrınsecas de lasenal electroencefalografica como son su baja amplitud, escasa discriminacion espacial,alta sensibilidad frente a ruidos tanto de caracter externo como interno, no permiten quemediante la caracterizacion temporal de la misma se pueda discriminar mas alla del estadogeneral en el que se encuentra el cerebro, y aun en estos estados se han terminado poridentificar a traves de componentes frecuenciales de la senal [Jessell 91].

Ası pues, para poder distinguir entre los diferentes tipos de actividades mentales quese proponen como medio de interfaz cognitivo de un dispositivo ICC es necesario realizaruna caracterizacion frecuencial de las mismas [Rubio 00], [Bronzino 95b], [Barreno 97],[Baker 89]. Por esta razon, cada ventana de analisis de 27 muestras de senal adquiridasen el tiempo temporal se transforma al dominio frecuencial, para lo que se aplica laTransformada de Fourier, ec.3.2, implementada por medio del algoritmo de transformadarapida de Fourier (FFT), ec.3.3.

X(F ) =∫ +inf

−infx(t)e−j2πkFotdt (3.2)

Considerando que el muestreo se realiza a una frecuencia de 384 Hz y haciendo lasuposicion de senal periodica, la ecuacion anterior se puede expresar como:

ck =1N

N−1∑n=0

x(n)e−j2πkn/N (3.3)

Los coeficientes de Fourier, ck, proporcionan la descripcion de x(n) en el dominio de lafrecuencia, representando la amplitud y la fase asociada a cada componente frecuencial.

Considerando que cada bloque dispone de 128 muestras, y que la frecuencia de muestreoes de Fs = 384Hz, la resolucion frecuencial obtenida sera de: Δf = 384Hz

128 = 3Hz.Debido a que la informacion mas relevante se encuentra en la amplitud de las

componentes frecuenciales, en los experimentos descritos en el capıtulo 5 no se considerala informacion relativa al angulo de fase de dichas componentes frecuenciales, por loque la atencion se centra en la estimacion espectral de potencia de cada una de lasventanas de analisis consideradas. Procedimiento semejante se realiza en los trabajos deS.J. Roberts y W.D. Penny [Penny 00], o C. Neuper [Pfurtscheller 00]. Estudios realizadospor el equipo de Dr. G. Pfurtscheller de la Universidad de Graz (Austria) han demostradoque en sistemas con un mayor numero de electrodos el analisis de la diferencia de faseentre los mismos permite una mejor identificacion de los patrones cognitivos empleados[Blankertz 04], [Scherer 04].

Por otro lado, teniendo en cuenta las propiedades de la Transformada de Fourier y quela senal electroencefalografica en el dominio temporal solo tiene componentes reales, en elespectrograma se produce el efecto de reflexion en el valor de la frecuencia de Nyquist, porlo que la informacion relevante de la senal se puede encontrar analizando solo la primeramitad de las componentes frecuenciales.

3.5 Obtencion del vector de caracterısticas. 65

3.5. Obtencion del vector de caracterısticas.

Como se ha indicado con anterioridad, cada ventana de analisis, N = 128 muestras,queda descrita por su vector de caracterısticas. En todos los experimentos descritos enel capıtulo 5, este vector se genera a partir del valor medio de potencia de las bandasfrecuenciales consideradas segun la tabla 3.2.3

Este metodo de obtencion de caracterısticas tiene presente que el rango de frecuenciasmas comun en cerebros humanos sanos se da de los 6 a los 40 Hz, por lo que se considerantodas aquellas componentes frecuenciales entre 6 y 38 Hz.

Indice FFT. Frecuencia. Denominacion.1 0 - 2 No considerada.2 3 - 5 No considerada.3 6 - 8 θ.4 9 - 11 α1.5 12 - 14 α2.

6 - 7 15 - 20 β1.8 - 10 21 - 29 β2.11 - 13 30 - 38 β3.14 - 64 39 - 192 No considerada.

Tabla 3.2: Determinacion del vector de caracterısticas.

Por otro lado, el numero decaracterısticas se establece en seis,con la finalidad de poder compararlos resultados obtenidos con lospresentados en estudios semejantespor otros grupos de investigacion[Penny 00], [Pfurtscheller 00].

3.6. Deteccion de artefactos.

En analisis y procesamiento de senal se entiende por artefacto a todo aquel efecto que,siendo externo a la fuente originaria de la senal, causa variaciones indeseadas en la misma,pudiendo llegar a corromperla [Proakis 97].

Las fuentes de artefactos en procesamiento de senal electroencefalografica pueden sertanto externas como internas al sistema de adquisicion. Fuentes externas son por ejemplo,el caso de ruido electrico inducido por perturbaciones electromagneticas provocadas porequipos electronicos externos, o perturbaciones en la tension de alimentacion del conversoranalogico / digital causada por fluctuaciones en la red de suministro electrico. Fuentesinternas de artefactos son variaciones de la senal provocadas por actividad mioelectricaen la zona de colocacion de los electrodos, o variaciones provocadas por la variacion de laimpedancia en la interfase del electrodo con la piel por leve desplazamiento relativo entrelos mismos [Areny 93].

Tal y como se indica en al comienzo de este capıtulo, en los experimentos descritos enel capıtulo 5, uno de los canales de senal se emplea para adquirir la senal en la comisura delojo izquierdo, con la finalidad de detectar si la senal electroencefalografica registrada en

3La denominacion de las bandas frecuenciales se basa en el sistema estandar neurologico.

66 Adquisicion y procesamiento de senal EEG.

los otros dos canales ha podido ser modificada por la actividad electromiografica debida amovimientos de los ojos. Ası mismo con independencia del analisis de la actividad ocular,la propia senal electroencefalografica es sometida a un proceso de deteccion de artefactos,en donde se considera que la ventana de analisis en consideracion tiene artefactos sila diferencia en el valor de amplitud entre una muestra y su inmediata anterior esnula o excede en dos veces el valor de desviacion tıpica de dicha ventana de analisis.Este procedimiento es similar a la tecnica estadıstica de ’Bootstraping’ empleada en laidentificacion y extraccion de muestras anomalas del conjunto de muestras bajo estudio[McLachlan 04], [Pena Sanchez 86].

Si el numero de veces que se detectan artefactos en una ventana de analisis es superior atres, dicha ventana no se considera como valida para la posterior fase de clasificacion. Paraevitar que dicha ventana pueda modificar los resultados obtenidos del resto de ventanasde analisis de la sesion experimental considerada, su vector de caracterısticas es sustituidopor el valor medio del resto de vectores de caracterısticas obtenidos de ventanas de analisisvalidas de dicha sesion experimental. Una posible alternativa que causarıa un menorimpacto podrıa ser la sustitucion del vector de caracterısticas de la ventana de analisiscon artefactos por la media de los vectores de caracterısticas asociados a las ventanas deanalisis inmediatamente anterior y posterior.

Actualmente en el estudio de la deteccion y clasificacion de patrones cerebralesasociados a enfermedades nerviosas (como por ejemplo la epilepsia), basado en elempleo de EEG, se han propuesto algoritmos que permiten la deteccion, identificaciony supresion de artefactos, sin embargo estos algoritmos requieren disponer de la senalelectroencefalografica completa, lo que les hace inviables para su uso en aplicaciones On-Line con un numero reducido de muestras [Tome 07].

Capıtulo 4

Tipologıa de clasificadores.

En este capıtulo se describen las diferentes tecnicas de clasificacion empleadas paradistinguir los registros de senal EEG, los cuales han sido adquiridos cuando el sujeto realizalas actividades cognitivas propuestas en los experimentos del capıtulo 5, los resultados yconclusiones obtenidas de su aplicacion se presentan en el capıtulo 6.

Las tecnicas utilizadas se enumeran a continuacion, presentandose segun su orden deaparicion cronologica y por complejidad creciente, llegandose ası para este capıtulo alsiguiente listado de contenidos:

1. Tecnicas estadısticas.Comparacion de poblaciones.Analisis de Discriminantes Lineales.

2. Redes neuronales.Perceptron multicapa: MLP.Funciones de base radial: RBF.Red neuronal probabilıstica: PNN.

3. Modelos ocultos de Markov: HMM.

4. Maquina de soporte de vectores: SVM.

Las tecnicas estadısticas permiten fijar el marco con el que realizar el analisis dela capacidad de discriminacion entre las poblaciones de muestras electroencefalograficasde actividad cerebral mediante las pruebas bilaterales de comparacion de poblaciones;mientras que por su parte mediante la tecnica de Analisis de Discriminantes Linealesse define la metodologıa a emplear para la reduccion de la dimension del espacio decaracterısticas original a traves de la combinacion lineal de las mismas.

Tras presentar las tecnicas empleadas para el analisis de la capacidad de discriminacionse procede a describir los clasificadores empleados basados en diferentes tipos de tecnologıascomo son: redes neuronales de aprendizaje supervisado (MLP, RBF y PNN), modelosocultos de Markov (HMM), y maquinas de soporte de vectores (SVM).

68 Tipologıa de clasificadores.

4.1. Metodos estadısticos : Comparacion de dos poblacio-

nes.

4.1.1. Introduccion.

La Estadıstica es la rama de las Matematicas que utiliza grandes conjuntos de datosnumericos para obtener inferencias basadas en el calculo de probabilidades. En Estadısticaa la teorıa encargada de contrastar hipotesis, dentro de un marco en el que existeincertidumbre o variabilidad en el valor numerico de magnitud, se la denomina contrastede hipotesis; a traves de esta se comparan las predicciones generadas por las hipotesiscon los datos observados en la realidad, si la comparacion queda dentro de un margende error admisible la hipotesis propuesta, H0, se mantiene como metodo explicativo delproceso real que genera las observaciones, si por el contrario, la discrepancia entre losdatos observados y los predichos por H0 excede el margen de error admisible, la hipotesispropuesta debe ser rechazada en favor de una hipotesis alternativa, H1, por lo general mascompleja, que explique mejor las observaciones. Ası pues, el contraste de hipotesis es unproceso iterativo, en el que la hipotesis propuesta, H0, nunca se considera completamenteprobada, sino que es aceptada o rechazada como valida en funcion de los datos observados.Si junto con el contraste hipotesis se considera la cuantificacion del efecto del mismo, y enespecial de sus errores, se llega a la teorıa de la decision.

Hipotesis inicial Ho Predicciones

Proceso real Observaciones

d( θo ; θ )

Funcion de discrepancia :

Nivel de significacion : α

SiAceptar

Ho?

No

Comparacion.

Calcular nivel

critico p del

contraste

Buscar hipotesis

alternativa H1

Ho explica el proceso

real dentro del margen

de error aceptable.

Figura 4.1: Proceso contraste de hipotesis.

La hipotesis H0 se elige deacuerdo a un principio de simplicidad cientıfica, solo se deberechazar un modelo simple en favor de otro de mayor complejidad cuando la evidencia afavor del segundo sea mas fuerte que la del primero1, ya que la hipotesis mas simple esmas facil de contrastar empıricamente y encontrar sus deficiencias, a la vez que permiteaprender de las observaciones con mayor seguridad y rapidez.

Los tipos de hipotesis estadısticas o suposiciones que determinan, parcial o totalmente,la distribucion de probabilidad de una o varias variables aleatorias se pueden clasificarsegun que:

1Tambien conocido como principio de la Navaja de Ockham: “en igualdad de condiciones la solucionmas sencilla es probablemente la correcta”.

4.1 Metodos estadısticos : Comparacion de dos poblaciones. 69

Especifiquen un valor concreto o un intervalo para los parametros de unavariable. Para lo que se construiran intervalos de confianza, teniendo una respuestasatisfactoria en terminos de estimacion.

Establezcan la igualdad de las distribuciones de dos o mas variables2. Por logeneral se requiere de un diseno experimental que asegure la homogeneidad de lascomparaciones.

Determinen la forma de la distribucion de una variable. A traves de un contraste noparametrico que debe realizarse dentro de la fase de validacion del modelo.

La metodologıa del contraste de hipotesis fue desarrollada por R.A.Fisher, J.Neymany E.S.Pearson entre 1920 y 1933, [Pena Sanchez 86]. Las etapas de dicha metodologıa sesintetizan en:

1. Definicion de la hipotesis a contrastar H0, y la hipotesis alternativa H1. Los casosmas importantes de contrastes parametricos son:

H0 simple (θ = θ0) y H1 bilateral (θ �= θ0).H0 compuesta (θ ≤ θ0) y H1 unilateral (θ > θ0).

2. Definicion de la medida de discrepancia entre los datos observados de la realidad,X, y la hipotesis H0. Para contrastes parametricos la discrepancia puede expresarsecomo una funcion del valor del parametro especificado por H0 y el valor estimadode los datos observados: {θ, d(θ0; θ)}. Cuando H0 es aceptada, la discrepancia ha detener una distribucion conocida, de modo que sea posible asociar una discrepanciagrande a una probabilidad de ocurrencia pequena.

3. Definir la region de discrepancia entre θ y θ0 bajo la que se considera aceptable H0

o atribuible al azar, y aquella bajo la que se considera inadmisible.

4. Proceder a la adquisicion de muestras del proceso real, calcular el estimador θ y ladiscrepancia d(θ0; θ). Si esta es pequena, aceptar H0; en caso contrario rechazar H0

y aceptar H1.

La hipotesis alternativa H1 influye en la forma en la que se mide la discrepancia, encontrastes bilaterales el signo de la desviacion entre θ y θ0 es irrelavante, por lo que sesuelen considerar medidas de la forma:

d1 = |θ0 − θMV

σMV| (4.1)

En donde θMV es el estimador de maxima verosimilitud de θ y σMV su desviacion tıpica,obteniendose ası para muestras grandes una distribucion conocida:

P (d1 ≤ a|H0) = P (|z| ≤ a) = P (−a ≤ z ≤ a) (4.2)

en donde z se distribuye segun una normal N(0, 1).2Cada variable queda representada estadısticamente por una poblacion de muestras.

70 Tipologıa de clasificadores.

Si por el contrario el contraste es unilateral el signo de la desviacion si que esimportante, lo que conduce a medidas del tipo:

d2 =

{0 si θMV ≤ θ0θMV −θ0

σMVsi θMV ≥ θ0

(4.3)

en donde para d2 positiva las probabilidades se calculan de nuevo con la distribucionnormal estandar.

La realizacion de un contraste implica dividir el rango de discrepancias que puedenobservarse cuando H0 es acaptada en dos regiones, region de aceptacion de H0 y regionde rechazo, de modo tal que, siempre y cuando H0 sea cierta, discrepancias grandestienen asociado niveles de probabilidad de ocurrir pequenos, α = {0,05; 0,01; 0,001};esta cantidad a su vez puede interpretarse como la probabilidad asumible de rechazar H0

cuando esta es cierta, a la cual tambien se la denomina nivel de significacion α, o ErrorTipo I.

Nivel de significacion (α) = P (rechazar H0|H0 es cierta)

Con la determinacion del nivel de significacion y conocida la distribucion de la funcionde medida de discrepancia d(θ0; θ) cuando H0 es aceptada, las regiones de rechazo yaceptacion quedan fijadas.

P (d > dc|H0 es cierta) = α ⇒{

d > dc Region de rechazo.d ≤ dc Region de aceptacion.

La region de rechazo sera d > dc, ya que discrepancias mayores de dc tienen unaprobabilidad de ocurrir menor que α, si H0 es considerada cierta, quedando como zona deaceptacion la complementaria d ≤ dc.

Debido a que la determinacion de un nivel de significacion α puede considerarseciertamente arbitrario, y que con el resultado solo del test no es posible diferenciar elgrado de evidencia que, con las observaciones obtenidas, se consigue a favor o en contrade H0, es decir la significatividad estadıstica del contraste, es preferible utilizar el NivelCrıtico p del contraste, como la probabilidad de obtener una discrepancia mayor o igualque la observada en la muestra, cuando H0 es cierta.

p = P (d ≥ d|H0) (4.4)

Hay que destacar que el valor de p no se fija a priori, sino que se fija a partir de lasobservaciones realizadas. Cuanto menor sea p, menor sera la credibilidad de H0. Ası puesla aceptacion o rechazo de H0 dependera de:

La opinion a priori que se tenga se su validez.

Las consecuencias de sus errores.

La evidencia aportada por la muestra.

4.1 Metodos estadısticos : Comparacion de dos poblaciones. 71

El nivel de significacion se fija en funcion de los dos primeros, mientras que el nivel crıticopone de manifiesto el tercero.

A parte del nivel de significacion, o Error Tipo I, existe el complementario, Error TipoII, o la probabilidad de aceptar H0 cuando esta es falsa:

β(θ) = P (aceptar H0|θ)

denominada funcion o curva caracterıstica del contraste. En el caso de H0 se verifica que:

β(θ0) = P (aceptar H0|θ0) = 1 − α

β(θ) contiene la informacion mas relevante del contraste, ya que determina la probabilidadde aceptar H0 para cada valor del parametro θ. En su lugar tambien se emplea la curva depotencia que indica la probabilidad complementaria de rechazar H0 para cada valor delparametro θ.

Potencia(θ) = P (rechazar H0|θ)

Ante dos contrastes que tengan medidas de discrepancia distintas pero con igual nivelde significacion, se escogera el que tenga menores probabilidades de error tipo II, o lo quees lo mismo, el que sea mas potente.

4.1.2. Descripcion del test de contraste de la igualdad de dospoblaciones.

Como se ha indicado anteriormente, el contraste de igualdad de distribuciones dedos o mas variables es un tipo de contraste de hipotesis en el que se requiere un disenoexperimental, que asegure la homogeneidad de las comparaciones.

La comparacion de dos poblaciones son un conjunto de tests, empleados en estadıstica,para determinar si existe evidencia que permita afirmar que las observaciones realizadasprovienen de poblaciones diferentes H1; o si por el contrario se debe mantener que losconjuntos de las diferentes muestras provienen de una misma poblacion H0.

En caso de rechazo de la hipotesis de partida, es decir existe evidencia de que lasobservaciones obtenidas provienen de poblaciones diferentes, es factible plantear tantola determinacion de la capacidad de discriminacion entre dichas poblaciones, ası comoplantear un sencillo clasificador que asigne la pertenencia de una nueva observacion a lapoblacion que se encuentre mas cercana.

Entre los contrastes existentes para la comparacion de dos poblaciones los masimportantes son:

1. Comparacion de dos poblaciones con medias y varianzas iguales, cuyas muestras setoman de forma independiente.

2. Comparacion de la igualdad de varianza de dos poblaciones.

3. Comparacion de la igualdad de la media de dos poblaciones con varianzas diferentes,cuyas muestras se toman de forma independiente.

72 Tipologıa de clasificadores.

Para los siguientes apartados se emplearan las siguientes definiciones:n1 : tamano de muestras de la primera poblacion.n2 : tamano de muestras de la segunda poblacion.σ1 : varianza de la primera poblacion.σ2 : varianza de la segunda poblacion.S1 : estimacion de la varianza de la primera poblacion.S2 : estimacion de la varianza de la segunda poblacion.F : distribucion de Fisher.T : distribucion de Student.

4.1.2.1. Comparacion de la igualdad de la media de dos poblacioneshomocedasticas y muestras independientes.

La hipotesis nula, H0, mantiene la igualdad del valor de la media de ambas poblaciones,mientras que la hipotesis alternativa, H1, indica su desigualdad de forma bilateral.

Ho : μ1 − μ2 = Δ vs. H1 : μ1 − μ2 �= Δ (4.5)

La varianza de ambas poblaciones es igual, poblaciones homocedasticas, aunquedesconocida.

TExp =(X1 − X2) − (μ1 − μ2)√

S( 1n1

+ 1n2

)(4.6)

En donde S es la pseudo-varianza conjunta de ambas poblaciones S1 y S2.

S =(n1 − 1) ∗ S1 + (n2 − 1) ∗ S2

n1 + n2 − 2(4.7)

La region de aceptacion de Ho es:

TTeo = t(n1+n2−2,1−α2) (4.8)

Si |TExp| ≤ TTeo entonces Ho es aceptada, en caso contrario se aceptara H1, quedandoHo rechazada.

4.1.2.2. Comparacion de la igualdad de varianza de dos poblaciones.

Para comparar que dos poblaciones normales tienen varianzas proporcionales seplantean las siguientes hipotesis.

Ho :σ1

σ2= R vs. H1 :

σ1

σ2�= R (4.9)

La igualdad de varianzas viene dada cuando R = 1.

4.1 Metodos estadısticos : Comparacion de dos poblaciones. 73

Considerando que:

(n1 − 1)S1

σ1� χ2

n1−1

(n2 − 1)S2

σ2� χ2

n2−1 (4.10)

1n1−1

(n1−1)S1

σ1

1n2−1

(n2−1)S2

σ2

=σ2

σ1

S1

S2

� Fn1−1,n2−1 (4.11)

De donde bajo la consideracion de aceptacion de H0:

FExp =1R

S1

S2

� Fn1−1,n2−1 (4.12)

La zona de aceptacion de H0 es:

ateo = F (1 − α

2)n1−1,n2−1 (4.13)

bteo = F (1 − α

2)n1−1,n2−1 (4.14)

ateo ≤ FExp ≤ bteo (4.15)

4.1.2.3. Comparacion de la igualdad de la media de dos poblacionesheterocedasticas y muestras independientes.

Tanto la hipotesis nula, H0, como la alternativa, H1, son equivalentes a las del apartado4.1.2.1.

Ho : μ1 − μ2 = Δ vs. H1 : μ1 − μ2 �= Δ (4.16)

Aunque en este caso, tras realizar el test de comparacion de varianzas, la igualdad de lamisma en ambas poblaciones debe ser descartada.

TExp =(X1 − X2) − (μ1 − μ2)√

S1n1

+ S2n2

� tf (4.17)

En donde f es el numero de grados de libertad calculados con la formula de Welch[Pena Sanchez 86]:

f =( S1

n1+ S2

n2)2

1n1+1( S1

n1)2 + 1

n2+1 ( S2n2

)2− 2 (4.18)

En este caso la zona de aceptacion de Ho es:

TTeo = t(f,1−α2) (4.19)

Si |TExp| ≤ TTeo entonces Ho es aceptada, en caso contrario se asume que las poblacionestienen diferente valor medio.

74 Tipologıa de clasificadores.

4.1.3. Procedimiento operacional.

Como se ha indicado anteriormente, el contraste de dos poblaciones permite concluirsi hay evidencia estadıstica de diferencia entre dichas poblaciones a traves del nivel designificacion, α, y las regiones de rechazo y aceptacion de H0, y en caso de existir taldiferencia evaluar como es de significativa dicha evidencia a traves del nivel crıtico p delcontraste.

Esta tecnica ha sido empleada en las investigaciones llevadas a cabo, como pasoprelimiar al desarrollo de algoritmos de clasificacion, con la finalidad de determinar si, enlos registros electroencefalograficos llevados a cabo durante el desarrollo de las actividadescognitivas propuestas, existe evidencia estadıstica que permita concluir que son diferentes,y por tanto es factible la realizacion de un clasificador.

Hasta donde el autor de la presente tesis tiene conocimiento, diferentes clasificadoreshan sido propuestos por los diferentes grupos que investigan sobre BCI, pero hasta[Martınez 06] no ha sido publicado ningun estudio sobre la capacidad de discriminacionde las actividades cognitivas desde un punto de vista estadıstico.

Por otro lado, a traves del nivel crıtico p del contraste es posible determinar quecaracterısticas, de las extraıdas de cada segmento de analisis, presentan mejor capacidadde discriminacion, o que tipo de tecnica de preprocesamiento permite resaltar mejor lasdiferencias entre las actividades cognitivas propuestas.

Ası pues, el procedimiento operacional seguido, cuyos resultados se recogen en laseccion 6.1, ha sido:

1. Definicion del protocolo experimental, recogido en el apartado 5.6.1, y que proponecomo actividades cognitivas:

Calculo matematico.

Imaginacion de movimiento.

Relax.

2. Desarrollo de los experimentos y registro de la actividad electroencefalografica.

3. Preprocesamiento “Off-Line”, descomponiendo el registro en ventanas de analisisde duracion t = 1/3s, sin solapamiento entre las mismas. A cada una de estasventanas de analisis se le aplica las diferentes ventanas de procesamiento descritasen el apartado 3.3, extrayendo por cada ventana de analisis preprocesada un vectorde caracterısticas de seis componentes, tal y como se indica en la tabla 4.1.

4. Descripcion estadıstica de las muestras de caracterısticas de cada poblacion, asociadaa cada una de las actividades cognitivas consideradas. De este modo, por cadaactividad cognitiva y ventana de analisis se obtiene un vector de media y varianzade caracterısticas de dimension seis.

4.1 Metodos estadısticos : Comparacion de dos poblaciones. 75

Componente Denominacion. Banda de frecuencia considerada (Hz).1 θ. 6 - 82 α1. 9 - 113 α2. 12 - 144 β1. 15 - 205 β2. 21 - 296 β3. 30 - 38

Tabla 4.1: Vector de caracterısticas.

5. Realizacion del test de contraste de varianzas, realizando una comparacion dos a doslas poblaciones de los vectores de caracterısticas, con la finalidad de determinar silas poblaciones consideradas son homocedasticas o heterocedasticas.

6. Realizacion del test de contraste de la igualdad de dos poblaciones para cada una delas parejas de poblaciones analizadas, teniendo en cuenta el resultado anterior delcontraste de varianza asociado a la pareja de poblaciones considerada.

7. Analisis de los resultados de los tests determinando si, para las caracterısticasconsideradas de la pareja de actividades cognitivas analizadas, existe evidenciaestadısitica de su diferencia en funcion del tipo de ventana de filtrado utilizada,en caso de que la diferencia existiera se determina el nivel crıtico p del contraste conla finalidad de elegir aquellas componentes del vector de caracterısticas que mayorpoder de discriminacion presentan.

La figura 4.2 representa el proceso seguido.En el apartado 5.6.1 se muestra el diagrama de actividad asociado a la implementacion

del procedimiento de comparacion de poblaciones. Por su parte en el apartado 6.1,se presentan analizan y discuten los resultados obtenidos de la aplicacion de esteprocedimiento, llegandose a las conclusiones de que es posible discriminar entre lasdiferentes actividades cognitivas, a la vez que la ventana de procesamiento de Tukey escon la que mejor capacidad de discriminacion se obtiene.

76 Tipologıa de clasificadores.

Figura 4.2: Procedimiento operacional.

4.2 Metodos estadısticos: Analisis por discriminantes lineales. 77

4.2. Metodos estadısticos: Analisis por discriminantes

lineales.

4.2.1. Introduccion.

La tecnica basada en el Analisis de Discriminantes Lineales3 (LDA), es empleadatanto en Estadıstica como en Inteligencia Artificial bajo los paradigmas de AprendizajeAutomatico4 [Bishop 95] [Rich 94] y Reconocimiento de Patrones [Ripley 96], con lafinalidad de hallar la combinacion de caracterısticas que separan de forma optima doso mas clases de objetos o eventos, realizandose aplicaciones entre otros campos en:posicionamiento, gestion de produccion, investigacion de mercados, reconocimiento facialo mercadotecnia.

Las caracterısticas de entrada consideradas, p, son variables continuas, x ∈ Rp,mientras que la salida es una variable cualitativa, y ∈ C ⊂ N , [Ripley 96], en casode emplear variables de entrada cualitativas esta tecnica se convertirıa en Analisis porCorrespondencia de Discriminantes (DCA)5.

El resultado puede ser empleado bien como clasificador lineal, o bien de forma mascomun como tecnica para reducir la dimension del espacio de entrada, antes de procedera la clasificacion de las muestras [Duda 01], [Cristianini 00], [Nabney 02].

Esta tecnica se aproxima a otras tecnicas estadısticas como: analisis de la varianza6

(ANOVA) [Pena Sanchez 86], analisis mediante tecnicas de regresion, analisis porcomponentes principales7 (PCA) [Martinez 01], o analisis factorial [Pena Sanchez 86];ya que todas ellas tienen como factor comun la expresion de la variable objetivo, odependiente, como combinacion de las variables independientes. Sin embargo la tecnicade LDA se diferencia tanto del analisis por regresion como del analisis de la varianza enque su resultado, al indicar pertenencia de la muestra analizada a una determinada clase,y ∈ Ci, es de tipo cualitativo o discreto, en lugar de cuantitativo o continuo. Ası mismo sediferencia de la tecnica PCA en que LDA modela de forma explıcita la diferencia entre lasclases de datos, mientras que en PCA tal consideracion no es tenida en cuenta. Por ultimo,LDA se diferencia del analisis factorial en que desde el principio se ha de determinar cualesson las variables objetivo o de clases, y ∈ Ci, y cuales las variables independientes x ∈ Rn,o caracterısticas, por lo tanto no se trata de un metodo de interdependencia, en dondeuna variable independiente puede ser expresada como combinacion de la variable objetivoy del resto de las variables independientes [McLachlan 04], [Friedman 89].

3En ingles se la denomina “Linear Discriminant Analysis”.4En ingles se denomina Machine Learning.5En ingles se denomina “Discriminat Correspondence Analysis”.6En ingles se denomina “ANalysis Of VAriance”.7En ingles se denomina “Principal Component Analysis”

78 Tipologıa de clasificadores.

4.2.2. Referencia historica.

La tecnica LDA fue desarrollada por R.A.Fisher, C.Rao y J.G.Bryan, [Ripley 96], comometodo de clasificacion, a traves del cual una nueva observacion x podıa ser asignada auna de entre dos o mas clases Ci, constituıdas por conjuntos de observaciones previas a lasque se denomina conjunto de entrenamiento.

R.A.Fisher publica en 1936 el artıculo titulado: “The use of multiple

measurements in taxonomic problems” [Fisher 36], a partir del cual se genera unafamilia de metodos de clasificacion conocidos como Discriminantes Lineales de Fisher, loscuales permiten llegar a criterios de clasificacion en los que la asignacion de una nuevaobservacion, x, a una clase concreta, Ci, es solo funcion de la combinacion lineal de lanueva observacion y las muestras ya conocidas del conjunto de entrenamiento, asumiendodeterminadas restricciones como:

Las muestras de cada clase se distribuyen segun una funcion de distribucion normal8

Ci � N(μi, σi).

Las poblaciones presentan varianzas semejantes9. σ = σi = σj /i �= j

Aunque originalmente R.A.Fisher, en su artıculo inicial, realiza una descripcionligeramente diferente, en la que dichas restricciones no son necesarias.

Para el caso de clasificacion entre dos clases o binaria, la conclusion es inmediata, sinembargo para el caso de clasificacion multiple a lo largo del tiempo se han desarrolladodiferentes tecnicas que pueden ser empleadas, entre las que destacan uno contra todos yclasificacion por parejas [Ripley 96].

En el primer caso los puntos de una clase son asignados a un grupo, mientras quetodos los demas, el resto, se asignan a otro; posteriormente se aplica la tecnica declasificacion LDA. En este metodo de clasificacion se emplean tantos clasificadores comoclases consideradas, siendo el resultado final la combinacion de los mismos.

En el caso de clasificacion por parejas se crea un clasificador por cada pareja de clases,dando lugar a

(n2

)clasificadores diferentes, al igual que en el caso anterior el resultado

final se genera como combinacion de los clasificadores anteriores.

4.2.3. Discriminacion lineal clasica.

Sea v una observacion para la cual x es el vector de p caracterısticas asociado, endonde:

v =⇒ x ∈ X ⊂ Rp

Sea X ⊂ Rp el espacio de caracterısticas de entrada; K ⊂ N el numero de Ci clasesdiferentes consideradas, i = {1, 2, ...,K}.

8Restriccion facilmente asumible a traves del Teorema Central del Lımite. Esta restriccion puede sercomprobada a traves del test de Kolmogorov-Smirnof. [Pena Sanchez 86]

9Esta restriccion puede ser comprobada a traves del test de homocedasticidad. [Pena Sanchez 86]

4.2 Metodos estadısticos: Analisis por discriminantes lineales. 79

Se pueden identificar tres formas distintas en las que la aproximacion de una funcion,f , puede ser empleada como clasificador.

f : Rp f−→ C ⊂ N (4.20)

1. Tomando fk( x) = p(k| x) = E[I(Y = k|X = x)]; k = {1, 2, . . . ,K} y f( x) = (fk(x)).El teorema de Bayes selecciona el maximizador de fk( x), definiendo la clase objetivo,tk, como el k-esimo vector unitario. Aplicando que

‖f( x) − tK‖ = −2fk( x) + 1 + ‖f( x)‖2 (4.21)

es la norma del vector, (f( x) − tK), el teorema de Bayes conduce a seleccionar elpatron mas proximo a f( x), lo que a su vez lleva a diferentes modos de aproximarf( x) por f( x; θ) basandose en elegir θ de modo tal que la prediccion del conjunto deentrenamiento sea tan cercana a las clases objetivo como sea posible.

2. Dietterich y Bakiri [Ripley 96] codifican las clases objetivo tK en el espacio Z ={0, 1}m, con m > K, de modo tal que las clases queden claramente separadas,procediendo posteriormente al aprendizaje de la funcion de clasificacion f( x)

f : Rp f−→ Z = {0, 1}m (4.22)

El clasificador selecciona la clase objetivo mas cercana en Z a la prediccion f(x) parauna nueva muestra. La codificacion actual se realiza empleando codigos correctoresde error, y la distancia es L∞. Esta aproximacion se puede considerar como elentrenamiento de un clasificador para m pseudo-clases que posteriormente sonmapeadas a las K clases reales.

3. La aplicacion del teorema de Bayes maximiza logP (k|x), a la vez que el modelologıstico multiple es un modelo lineal para estas funciones logarıtmicas deprobabilidad a posteriori. Variantes con menor fundamento pero ampliamente usadasson modelos logısticos independientes para cada clase, que se comparan contra elresto o contra las clases de referencia [Ripley 96].

Una aproximacion alternativa consiste en asignar las n muestras del conjunto deentrenamiento a g grupos de observaciones, los cuales a su vez son asignados a las K

clases objetivo.

v =⇒ x ∈ X ⊂ Rp f1−→ G f2−→ C ⊂ NSi el clasificador se basa en seleccionar el mejor grupo, se estara empleando

implıcitamente un clasificador basado en estructura de coste que penaliza la eleccionincorrecta del grupo mas que la clase, ya que aunque se elige la clase que tiene mayorprobabilidad a posteriori, esta se obtiene como suma de las probabilidades a posteriori decada uno de los grupos que la forman.

80 Tipologıa de clasificadores.

Asumiendo que la funcion de probabilidad para las observaciones de cada grupo sedistribuyen segun una funcion normal Xj � N( μj,Σ), la aplicacion del teorema de Bayesasigna una nueva observacion al grupo para el cual

−2logP (j|x) = (x− μj)Σ−1(x − μj)′ − 2logπj + Cte (4.23)

sea menor10. Expandiendo la expresion anterior se obtiene:

−2logP (j|x) = −2xΣ−1 μ′j + μ′

jΣ−1 μ′

j − 2logπj + Cte + xΣ−1x′ (4.24)

expresion que es lineal en el termino x mas un termino cuadratico que no depende dela clase, ya que el objetivo es maximizar P (j|x) o lo que es lo mismo minimizar 4.24, sedeberan maximizar igualmente los terminos lineales:

LDAj = 2xΣ−1 μ′j − μ′

jΣ−1 μ′

j + 2logπj (4.25)

De este modo el espacio de caracterısticas, X = Rp, queda pues dividido porhiperplanos, o lo que es lo mismo por discriminantes lineales, con lo que la comparacionpuede realizarse en un espacio de dimension K − 1. El criterio de decision se convierteen aplicar un umbral sobre el producto escalar del vector de caracterısticas de la nuevaobservacion y los que representan a las observaciones anteriores.

Para el caso especial de considerarse clasificacion binaria, comparando las cantidadesLDA2 con LDA1 se obtendrıa como funcion de clasificacion LDA2 − LDA1, eligiendo elsegundo grupo si y solo sı el valor obtenido es positivo.

En la practica, los valores μj y Σ, son estimaciones obtenidas de las muestras queforman los conjuntos de entrenamiento, estimadas por mj y W , en donde W es la matrizde covarianza entre grupos, en caso de que la hipotesis de igualdad de varianza entre laspoblaciones fuese erronea se utilizarıan las varianzas de cada grupo de forma independienteobteniendose un clasificador de tipo QDA11.

4.2.4. Discriminante lineal de Fisher.

Como se ha indicado anteriormente el metodo LDA es una tecnica de preprocesamientoque encuentra la matriz de transformacion W que separa de manera optima dos o masclases, es decir considera la maximizacion de la siguiente ecuacion:

J(W ) =W T SBW

W TSW W(4.26)

10Al primer termino de la derecha de la ecuacion se le conoce como distancia de Mahalanobis entre elvector de caracterısticas �x y el valor medio del grupo Xj = �μj

11Quadratic Discriminant Analysis

4.2 Metodos estadısticos: Analisis por discriminantes lineales. 81

en donde SB es la matriz de dispersion entre clases y Sw es la matriz de dispersion intrınsecaa cada clase, la definicion de ambas matrices es:

SB =∑

c

Nc(μc − x)(μc − x)T (4.27)

SW =∑

c

∑i∈c

(xi − μc)(xi − μc)T (4.28)

μc =1

Nc

∑i∈c

xi (4.29)

x =1N

∑i

xi =1N

∑c

Ncμc (4.30)

siendo Nc es el numero de muestras para la clase c.Debido a que J es invariante al escalado de vectores, W → αW , es posible elegir una

W tal que el denominador sea W T SW W = 1. Por lo que el problema de maximizar J setransforma en el siguiente problema de optimizacion considerando restricciones:

minW −12W TSBW (4.31)

s.t. W TSW W = 1 (4.32)

el cual corresponde con la lagrangiana12:

LP = −12W T SBW +

12λ(W T SW W − 1) (4.33)

Con la siguiente solucion:

SBW = λSW W ⇒ S−1W SBW = λW (4.34)

Donde se puede observar que se trata de un problema de resolucion de autosistemasgeneralizados, utilizando el hecho de que la matriz SB es simetrica positiva, puede

ser escrita como S12BS

12B , en donde S

12B se construye a partir de su descomposicion por

autovalores como: SB = UΛUT → S12B = UΛ

12 UT . De donde definiendo V = S

12BW se

obtiene:

S12BS−1

W S12BV = λV (4.35)

que es un problema de un autosistema con una matriz simetrica positiva S12BS−1

W S12B, con

soluciones λk como autovalor y Vk como autovector, dando lugar a la solucion:

W = S− 1

2B V (4.36)

Introduciendo esta solucion en la funcion objetivo J(W ) 4.26, se encuentra que la solucionbuscada que maximiza dicha funcion objetivo es la que tiene los autovalores mayores.

12En la cual se ha introducido por conveniencia el factor 1/2, sin que ello de lugar a una perdida degeneralidad

82 Tipologıa de clasificadores.

4.2.5. Procedimiento operacional.

En el presente estudio la tecnica de Analisis Discriminante Lineal no ha sido aplicadadesde el punto de vista de clasificador, sino como metodo para reducir la dimensiondel vector de caracterısticas de entrada y separar linealmente de forma optima laspoblaciones de muestras de senal electroencefalografica asociadas a cada actividad mental,para posteriormente proceder a evaluar la capacidad de discriminacion obtenida, cuyosresultados se recogen en el capıtulo 6. A continuacion se describe el procedimientooperacional llevado a cabo para implementar el metodo LDA descrito con anterioridad.

1. Obtencion de muestras de cada actividad mental.Xa Calculo matematico.Xb Imaginacion de movimiento.Xc Relajacion.

2. Definicion estadıstica de todas las poblaciones.

Xa μa = E[xa] Sa = E[(xa − μa)(xa − μa)T ] (4.37)

Xb μb = E[xb] Sb = E[(xb − μb)(xb − μb)T ] (4.38)

Xc μc = E[xc] Sc = E[(xa − μc)(xc − μc)T ] (4.39)

3. Calculo de las matrices de dispersion entre clases (Between) e intrınsecas a cadaclase (Within),(eq. 4.27 & 4.28).

4. Aplicacion del criterio de optimizacion LDA (eq.4.35).

5. Calculo de la matriz de transformacion, W (eq.4.36), formada por los auto-vectores,Vk, cuyos autovalores con valor absoluto superior a 1 ∗ 10−4 ordenados de mayor amenor.

6. Transformacion del conjunto de muestras.

Xa ⇒ X ′a = W T ∗ Xa (4.40)

Xb ⇒ X ′b = W T ∗ Xb (4.41)

Xc ⇒ X ′c = W T ∗ Xc (4.42)

En el apartado 5.6.2 se muestra el diagrama de actividad asociado a la implementaciondel procedimiento de Analisis por Discriminantes Lineales. Por su parte en el apartado6.2, se presentan analizan y discuten los resultados obtenidos de la aplicacion de esteprocedimiento, llegandose entre otras a la conclusion de que es posible reducir la dimensiondel espacio de caracterısticas, a la vez que se mantiene la capacidad de discriminacion entrelas diferentes actividades cognitivas.

4.3 Clasificadores basados en redes neuronales. 83

4.3. Clasificadores basados en redes neuronales.

Tras la descripcion de las pruebas de contraste de igualdad de poblaciones, empleadaspara determinar si existe evidencia de diferencia estadıstica entre las poblaciones demuestras electroencefalograficas, adquiridas cuando el usuario lleva a cabo las actividadescognitivas propuestas, y describir la tecnica de Analisis Lineal de Discriminantes con la quecomprobar la posibilidad de reducir la dimension del espacio original de caracterısticas, sinque por ello se pierda la capacidad de discriminacion de dichas actividades cognitivas; enesta seccion se describen los diferentes tipos de clasificadores basados en redes neuronalesque han sido considerados en la presente tesis:

Perceptron multicapa.(MLP).

Red neuronal con funciones de base radial (RBF).

Redes Neuronales Probabilısticas (PNN).

De modo general, con las muestras adquiridas en los diferentes experimentos, paracada uno de los clasificadores desarrollados se realizan las siguientes operaciones:

1. Lectura de las muestras asociadas a cada una de las diferentes actividades mentales:

Calculo matematico.Imaginacion de movimiento.Relax.

2. Realizacion de ventanas de analisis de 128 muestras.

3. Deteccion de artefactos. Se considera artefacto cuando una muestra se diferencia dela anterior en mas de tres desviaciones tıpicas del conjunto de muestras de la ventanade analisis.

4. Normalizacion de la senal.

5. Aplicacion de la ventana de procesamiento. Las ventanas consideradas son 13:

Rectangular.

Triangular.

Blackman.

Hamming.

Hanning.

Kaiser.

Tukey.13Vease el apartado 3.3

84 Tipologıa de clasificadores.

6. Aplicacion de un filtro Butterworth pasa banda con frecuencias de corte inferior defi = 4Hz y frecuencia de corte superior fs = 40Hz.

7. Obtencion de la estimacion espectral de potencia utilizando la FFT.

8. Calculo del vector de caracterısticas, obtenido para cada una de las ventas de analisisde 128 muestras de la senal.

9. En un nuevo bucle, y tras el procesamiento de las 21 ventanas de analisis quese obtienen por sesion, vease 3.5, se identifican aquellas ventanas que presentanartefactos, reemplazandose su vector de caracterısticas por el valor medio del restode las ventanas de analisis sin artefactos.

10. Agrupacion de los resultados para cada canal: C3’-C3” y C4’-C4”.

Cada clasificador aplica el siguiente procedimiento al conjunto de vectores decaracterısticas extraıdo con anterioridad:

1. Determinacion de los conjuntos de datos empleados para aprendizaje(50 %), prueba(25 %) y validacion (25 %).

2. Obtencion de la matriz de normalizacion para el conjunto de datos de aprendizaje.

3. Aplicacion del Analisis de Componentes Principales al conjunto de datos deaprendizaje para reducir la dimension del espacio de entrada14.

4. Entrenamiento de la red neuronal con el conjunto de datos de aprendizaje.

5. Aplicacion del conjunto de datos de prueba a la red neuronal, si el error de testes inferior al error objetivo el proceso de aprendizaje se considera valido, en casocontrario se procede a entrenar nuevamente la red neuronal.

6. Aplicacion del conjunto de datos de validacion a la red neuronal con el objetivo deestimar el error de ejecucion.

7. Aplicacion de la red neuronal al conjunto de datos y registro de resultados.

8. Obtencion de las matrices de confusion asociadas a cada experimento.

14La aplicacion de la tecnica de Analisis de Discriminantes Lineales permite concluir que es factiblerealizar una reduccion del espacio de original de caracterısticas de entrada sin perder la capacidad dediscriminacion, sin embargo los resultados obtenidos de su aplicacion indican que de las dos posiblesproyecciones ( tengase en cuenta que se consideran tres actividades cognitivas) solo una se muestrasignificativa, por lo que como tecnica alternativa se ha optado por procesar los vectores de caracterısticasa traves de la tecnica de Analisis de Componentes Principales, manteniendo el 90% de la variabilidad delos datos como valor explicativo, mientras que el 10% restante se atribuye a ruido.

4.3 Clasificadores basados en redes neuronales. 85

4.3.1. Clasificador Perceptron Multicapa MLP.

4.3.1.1. Definicion.Las redes neuronales de tipo perceptron multicapa, tambien denominadas redes de

propagacion hacia delante15 [Ripley 96], son redes compuestas por dos o mas capas deunidades basicas de computacion o neuronas, vease figura 4.3, que combinan linealmente

Figura 4.3: Arquitectura de una red neuronal tipo perceptron multicapa.

las componentes del vector de entrada, aplicando diferentes ponderaciones a cadacomponente, para despues a traves de una funcion altamente no lineal, denominadafuncion de activacion, transformar dicha combinacion lineal en la salida de la neurona[Bishop 95], vease figura 4.4. Originalmente fue F. Rosenblatt en la decada de 1960quien considero como unidad de computacion basica al perceptron, dando lugar a ladenominacion de este tipo de redes neuronales [Ripley 96]. Sin embargo, la mayorıa deaplicaciones practicas que utilizan redes neuronales de tipo MLP emplean neuronas quedifieren de la definicion perceptron, debido a que la falta de continuidad de la funcionescalon empleada en el mismo dificulta el proceso de aprendizaje [Freeman 93]. Lasneuronas que no proporcionan directamente la salida se denominan neuronas ocultas.La unica restriccion en su arquitectura es que las conexiones que se establezcan entre lasneuronas no den lugar a bucles de realimentacion, de tal modo que la informacion fluyadesde las entradas de la red hacia las salidas, lo que justifica su denominacion de redes depropagacion hacia delante. De esta forma se asegura que la salida de la red se pueda calcularcomo funcion explıcita de las entradas y los pesos o parametros de la misma [Bishop 95][Ripley 96]. Las redes neuronales de tipo MLP con dos capas pueden aproximar cualquierfuncion continua [Bishop 95].

15En ingles a este tipo de redes se las conoce indistintamente como feed-forward networks o MLP: MultiLayer Perceptron

86 Tipologıa de clasificadores.

4.3.1.2. Descripcion matematica.

Tal y como se establece en la definicion anterior la salida de la j-esima unidad ocultase obtiene como ponderacion de la combinacion lineal de los valores de entrada, junto conel termino asociado a la desviacion:

aj =d∑

i=1

w(1)ji xi + w

(1)j0 =

d∑i=0

w(1)ji xi (4.43)

En donde w(1)ji representa al peso de ponderacion de la primera capa que conecta la

entrada i con la neurona oculta j, y w(1)j0 representa al termino que considera la desviacion

de dicha neurona, termino que puede ser considerado de forma implıcita incluyendo unavariable de entrada extra, denominada x0, cuyo valor se fija a x0 = 1, obteniendose laecuacion 4.43

El resultado o activacion de la neurona j-esima se obtiene transformando el resultadode la ecuacion 4.43 a traves de la funcion g(.):

zj = g(aj) (4.44)

Los tipos de funciones de activacion mas comunmente considerados son los de:

Funcion escalon o umbral.

g(a) ={

0 si a < 0.1 si a ≥ 0.

(4.45)

Aplicaciones de la funcion escalon. Mediante la funcion escalon es posible aprendercualquier tipo de funcion booleana si se utilizan entradas binarias, lo que desde unpunto de vista practico da lugar a la creacion de plantillas; mientras que si se utilizanentradas continuas es posible aprender fronteras de decision, con aplicacion directaa la clasificacion de patrones.

Figura 4.4: Representacion perceptron.

4.3 Clasificadores basados en redes neuronales. 87

Funciones sigmoideas.

• Funcion de activacion sigmoidea logıstica.

g(a) =1

1 + e−a(4.46)

• Tangente hiperbolica.

g(a) =ea − e−a

ea + e−a(4.47)

Aplicaciones de la funcion sigmoidea. La salida de la funcion de activacion sigmoideaqueda dentro del rango (0, 1), lo que permite que pueda ser interpretada desde unpunto de vista probabilıstico. Por su parte, la aplicacion de la funcion hiperbolicapermite una convergencia mas rapida del algoritmo de entrenamiento que elconseguido con la funcion logıstica.

Funciones lineales.

g(a) = Ka (4.48)

Aplicaciones de la funcion lineal. Utilizada por lo general en neuronas en la capa desalida cuando se precisa que la salida no quede restringida a funciones de clase, porejemplo en aplicaciones en las que se requiere aproximar la salida de una funcion yes necesaria la extrapolacion de resultados.

−10 −8 −6 −4 −2 0 2 4 6 8 10−1.5

−1

−0.5

0

0.5

1

1.5Funciones de activación.

F. EscalónF. LogísticaF. Tangente hiperbólicaLineal

Figura 4.5: Funciones de activacion.

88 Tipologıa de clasificadores.

Las salidas de la red neuronal se obtienen transformando los resultados de las neuronasde la capa oculta a traves de la capa de salida, obteniendose la siguiente ecuacion paracada una de las k-esimas unidades de salida:

ak =M∑

j=1

w(2)kj zj + w

(1)k0 =

M∑j=0

w(2)kj zj (4.49)

yk = g(ak) (4.50)

En donde g(.) representa la funcion de activacion de la neurona de salida, resaltando queno tiene por que ser el mismo tipo de funcion que el empleado para las neuronas de lacapa oculta.

Combinando las ecuaciones 4.43, 4.44, 4.49 y 4.50 se obtiene la expresion explıcita dela funcion representada en el diagrama de la figura 4.6 [Bishop 95][Ripley 96]:

yk = g

(M∑

j=0

w(2)kj g( d∑

i=0

w(1)ji xi

))(4.51)

Hay que destacar que si las funciones de activacion de las neuronas de salida sonlineales g(a) = a, la expresion anterior se convierte en un caso especial de funcion dediscriminacion lineal generalizado, en el que las funciones de base son obtenidas de lasfunciones zj definidas por 4.43 y 4.44, siendo la principal diferencia que los pesos deponderacion al ser adaptativos cambian durante el proceso de entrenamiento [Bishop 95].

Figura 4.6: Arquitectura general de una red MLP.

4.3 Clasificadores basados en redes neuronales. 89

4.3.1.3. Procedimiento de entrenamiento.

Mediante el proceso de entrenamiento, los pesos de las neuronas que determinan lared, son modificados con el objetivo de minimizar la funcion de error elegida16. En todoslos casos se emplea un paradigma de entrenamiento supervisado, pues es preciso evaluarel error cometido por la red, entendido tal como la diferencia entre el valor deseado y elproporcionado por la red ante un determinado vector de entrada. Los tipos de funcionesde error mas comunes son:

Error cuadratico.

E =N∑

i=1

(yi − yi)2 (4.52)

Error logıstico.

E =N∑

i=1

(yilog(yi

yi) + (1 − yi)log(

1 − yi

1 − yi)) (4.53)

Propagando la evaluacion y minimizacion de la funcion de error hacia las capas deentrada17 es posible obtener la direccion en que deben ser modificados los pesos de lasneuronas. Para la minimizacion del error se utilizan metodos de optimizacion numericacomo el descenso del gradiente [Fuente O’Connor 93], o bien otros procedimientos deoptimizacion mas avanzados; para lo cual es necesario evaluar la derivada de la funcionde error con respecto a los pesos de las neuronas, disponer de funciones de activaciondiferenciables facilita la propagacion del error hacia las capas de entrada, sin embargopara el caso de funciones de activacion de tipo escalon esta propagacion del error no esfactible ya que no son continuas en el punto de decision, dando lugar a lo que se conocecomo problema de asignacion de credito 18.

Tras determinar la direccion de modificacion, la cantidad en la que esta se realizaqueda determinada a traves del parametro Δ, dando lugar a la ecuacion 4.54, conocidacomo regla Δ generalizada.

wt1ij = wt0

ij − ΔδE

δwij(4.54)

Durante el proceso de aprendizaje los parametros de la red pueden ser modificados biencuando se presenta y evalua cada nuevo patron del conjunto de entrenamiento, compuesto

16La definicion de una red neuronal de tipo MLP implica la determinacion del numero de capas a emplear,ası como el numero de neuronas a utilizar en cada capa.

17Tecnica conocida como propagacion hacia atras, ’Back-propagation’ en ingles.18Credit assignment problem, si una neurona de salida produce una respuesta erronea cuando a la red

neuronal se le presenta el vector de entrada asociado, no hay forma de determinar cual de las neuronasde la capa oculta es responsable de la generacion del error, de modo tal que no se puede determinar quepesos se han de ajustar y por cuanto.

90 Tipologıa de clasificadores.

por el vector de entrada y salida objetivo, o bien una vez que todos los patrones deentrenamiento han sido presentados y evaluados, las necesidades computacionales en cadacaso son diferentes, ya que en el primer caso se obtiene una convergencia mas lenta perorequiere menos memoria que el segundo, ya que trabaja directamente sobre los parametrosde la red; no siendo preciso, como en el segundo caso, almacenar las modificaciones a aplicaruna vez han sido procesados todos los patrones del conjunto de entrenamiento.

El proceso de modificacion de los parametros de la red se itera, bien hasta que se alcanzaun error total inferior al permitido, o bien hasta que se alcanza un numero maximo deciclos.

Con el objetivo de evitar el sobre-aprendizaje del conjunto de entrenamiento, lo queocasionarıa una mala generalizacion, se emplean varias tecnicas:

Descomposicion del conjunto de patrones disponibles en conjunto de entrenamiento,validacion y test. Con el conjunto de entrenamiento se modifican los parametros dela red, con el conjunto de validacion se determina el error esperado, mientras quecon el conjunto de test se determina la capacidad de generalizacion.

Definicion de la red neuronal de menos a mas. Comenzando con un numero reducidode neuronas en la capa oculta, se procede a realizar el proceso de entrenamiento,evaluando los errores obtenidos con los conjuntos de entrenamiento, validacion ytest. El numero de neuronas en la capa oculta se incrementa paulatinamente hastaque se obtienen niveles de error aceptables. El disponer de un numero reducido deneuronas en la capa oculta, en comparacion con el numero de patrones presentesen el conjunto de entrenamiento, indica que los parametros de cada neurona se veninfluidos por mas de un patron, asegurando cierta capacidad de generalizacion.

Detencion del proceso de aprendizaje en un numero relativamente bajo deiteraciones, de modo tal que no se permite a los parametros de la red alcanzar valoresdefinitivos causados por el efecto de memorizacion de los patrones del conjunto deentrenamiento; por lo general el ındice que error asociado a esta tecnica tambien esalto.

4.3.1.4. Evaluacion de las derivadas de la funcion de error.

Cada una de las neuronas de una red neuronal de tipo MLP realiza la combinacionlineal de las entradas empleando la formula:

aj =∑

i

wjizi (4.55)

en donde zi es la activacion de una neurona en una capa precedente, o una entrada, queconecta con la neurona j, wji es el peso asociado a dicha conexion, el sumatorio se aplicaa todas las neuronas o entradas que se conectan a la neurona j. La suma es transformadapor la funcion de activacion no lineal g(.) para dar lugar a la salida zj .

zj = g(aj) (4.56)

4.3 Clasificadores basados en redes neuronales. 91

El objetivo es determinar los valores apropiados para los pesos de la red a travesde la minimizacion de la funcion de error elegida, la cual podra ser expresada comosumatorio de los errores obtenidos con cada uno de los n patrones que forman el conjuntode entrenamiento.

E =∑n

En (4.57)

Teniendo en cuenta que la ecuacion de error En se puede expresar como funciondiferenciable de las variables de salida:

En = En(y1, . . . , yc) (4.58)

Por cada patron se dispone del correspondiente vector de entrada y la activacion decada una de las neuronas de la red a traves de la aplicacion sucesiva de las ecuaciones 4.55y 4.56, a este proceso se le denomina propagacion hacia delante ya que se trata del flujode informacion a traves de la red.

Considerando la evaluacion de la derivada de la funcion de error En respecto a lospesos wij :

δEn

δwij=

δEn

δaj

δaj

δwij(4.59)

Teniendo en cuenta 4.55 se obtiene:

δaj

δwij= zi (4.60)

y aplicando la notacion

δj ≡ δEn

δaj(4.61)

se obtiene:

δEn

δwij= δjzi (4.62)

Ecuacion que indica que la derivada buscada se obtiene multiplicando el valor δ de laneurona de salida por el valor z de la neurona de entrada, por lo que solo sera precisocalcular el valor δj para cada neurona de la red y aplicar la ecuacion 4.62. Para las neuronasde salida la evaluacion de δk es inmediata, obteniendose:

δk ≡ δEn

δak= g′(ak)

δEn

δyk(4.63)

Para las neuronas de la capa oculta se obtiene:

δj ≡ δEn

δaj=∑

k

δEn

δak

δak

δaj(4.64)

92 Tipologıa de clasificadores.

en donde el sumatorio se efectua sobre todas las neuronas a las que la neurona j envıaconexiones. Sustituyendo la definicion de δ de la ecuacion 4.61 en 4.64 se obtiene lasiguiente formula de back-propagation:

δj = g′(aj)∑

k

wkjδk (4.65)

que indica que el valor de δ para una neurona oculta se obtiene propagando hacia atras losvalores de δ′s desde las neuronas superiores, como las derivadas de las funciones de salidason conocidas, aplicando de forma recursiva 4.65 se obtienen los δ′s de todas las neuronasde la capa oculta. Ası pues los pasos a seguir para evaluar la derivada de la funcion deerror En con respecto a los pesos son:

1. Aplicacion de un vector de entrada xn a la red y propagar hacia delante, utilizandolas ecuaciones 4.55 y 4.56, para hallar la activacion de todas las neuronas de la red.

2. Evaluar δk para todas las neuronas de salida utilizando 4.63.3. Propagar hacia atras los δ′s utilizando 4.65 para obtener δj de cada una de las

neuronas ocultas.4. Utilizar 4.62 para evaluar las derivadas requeridas.La derivada total del error se obtiene repitiendo los pasos anteriores para cada uno de

los patrones que forman el conjunto de entrenamiento y realizando su suma:

δE

δwij=∑n

δEn

δwij(4.66)

Cuando es necesario evaluar la sensibilidad de la salida, yk, ante los valores de entradasxi es posible emplear el metodo de propagacion hacia atras para el calculo de la matrizjacobiana 4.67.

Jki ≡ δyk

δxi(4.67)

Ası mismo este metodo es util cuando es preciso evaluar la segunda derivada del errorcon respecto a los pesos de la red, matriz hessiana:

H ≡ δ2E

δwjiδwlk(4.68)

Cuyos elementos desempenan papeles importantes en muchos aspectos del calculoneuronal, entre los que se incluyen:

1. Algoritmos de optimizacion no lineal empleados durante la fase de entrenamiento.2. Base para un rapido proceso de reentrenamiento de redes neuronales progresivas,

empleando pequenos cambios en el conjunto de entrenamiento [Bishop 95].3. Identificacion de los pesos menos significativos, como parte de algoritmos de poda.4. Asignacion de margenes de error de las predicciones realizadas.5. Calculo de parametros de regularizacion a partir de autovalores de la matriz hessiana.

6. El determinante de la matriz hessiana se puede utilizar como medida de comparacionde las probabilidades relativas de diferentes modelos de redes neuronales.

4.3 Clasificadores basados en redes neuronales. 93

4.3.1.5. Implementacion del clasificador basado en red neuronal de tipo MLP.

En la implementacion de los clasificadores basados en este tipo de red neuronal, se hanutilizado los siguientes parametros:

Algoritmo de aprendizaje: Levenberg-Marquardt (Backpropagation).Numero de neuronas en la capa oculta: 60.Funcion de activacion en las neuronas de la capa oculta:

tansig(x) =2

1 + e−2x− 1 (4.69)

Numero de neuronas en la capa de salida: 3.Funcion de activacion en las neuronas de la capa de salida:

logsig(x) =1

1 + e−x(4.70)

Error objetivo = 1e−5.Numero maximo de iteraciones en el proceso de aprendizaje = 400.Max. fallo = 5.Mem. reduc. = 1.Min. grad. = 1e−10.μ = 1e−3.μdec = 0,1.μinc = 10.μmax = 1e−5.

La capa de salida queda compuesta por tres neuronas, ya que son tres las actividadesconsideradas en el resultado de la clasificacion, el rango de salida de su funcion deactivacion, logsig, queda restringido a [0, 1], lo que permite indicar de forma sencilla,con un valor proximo a la unidad, la asignacion de un nuevo candidato a una de las clasesconsideradas.

En la capa oculta se han considerado 60 neuronas, para conseguir esta cifra se realizo unanalisis considerando la influencia que el numero de neuronas en la capa oculta ejercıa sobreel resultado final de la clasificacion, se observo que con valores proximos a 60 neuronas enla capa oculta se obtenıan mejores resultados de clasificacion correcta que los conseguidoscon un numero de neuronas inferior a 40 o superior a 80. El numero de entradas no esdirectamente igual a la dimension del vector de caracterısticas, N = 6, ya que se observacierta correlacion entre las mismas, mediante el empleo de PCA (Principal ComponentAnalysis) se ha mantenido el 90 % de la variabilidad de los vectores de caracterısticasderivados de las muestras tomadas, el 10 % restante queda atribuıdo a ruido, por lo quepara la gran mayorıa de las pruebas el numero de componentes ha quedado en N = 4.

En el apartado 5.6.3 se describe el diagrama de actividad asociado al empleo declasificadores basados en redes neuronales, mientras que por su parte en el apartado 6.3 sepresentan, analizan y discuten los resultados obtenidos de la aplicacion de los clasificadoresbasados en los anteriores tipos de redes neuronales.

94 Tipologıa de clasificadores.

4.3.2. Clasificador basado en red neuronal de tipo RBF.

4.3.2.1. Descripcion redes neuronales de funciones de base radial.

Las redes neuronales de tipo RBF son modelos no parametricos, que comprenden todosaquellos modelos de redes neuronales, en los que la funcion de activacion de las neuronasde la capa oculta tiene como variable de entrada la distancia entre el vector propuesto yun vector prototipo propio de cada neurona [Ripley 96].

La topologıa de una red neuronal de tipo RBF se muestra en la figura 4.7.

Figura 4.7: Arquitectura de una red neuronal tipo RBF.

Las redes neuronales de tipo RBF se emplean entre otras aplicaciones como:aproximadores de funciones, regularizadores, interpolacion ruidosa, estimacion defunciones de densidad, teorıa de clasificacion optima, funciones potenciales [Bishop 95].

Debido a la gran multitud de aplicaciones, los metodos de entrenamiento utilizadoscon las redes neuronales de tipo RBF han llegado a ser sustancialmente mas rapidos quelos empleados en el entrenamiento de las redes neuronales de tipo perceptron multicapa;esto en parte es debido al procedimiento de entrenamiento en dos fases derivado de lainterpretacion dada a la forma de representacion interna de las neuronas de la capa oculta.En la primera fase, los pesos de las funciones de base radial que corresponden a las neuronasde la capa oculta se determinan mediante metodos no supervisados, mas rapidos que losmetodos supervisados al considerar solo los vectores de entrada de los patrones del conjuntode entrenamiento y no tener que considerar los valores asociados de la salida [Nabney 02],en una segunda etapa de entrenamiento se determinan los pesos de las neuronas de lacapa de salida, lo que implica la solucion de un problema lineal, empleandose metodos deresolucion rapidos, eficientes y optimizados [Ripley 96] [Rich 94].

4.3 Clasificadores basados en redes neuronales. 95

4.3.2.2. Descripcion de la tecnica de interpolacion exacta.

Los metodos basados en funciones de base radial tienen su origen en tecnicas deinterpolacion exacta de un conjunto de puntos en un espacio multidimensional (Powell1987)[Bishop 95], donde se requiere que cada vector de entrada sea asociado de formaexacta con su correspondiente vector de salida.

La tecnica de interpolacion exacta considera la asociacion de un espacio de entradan-dimensional, X, en un espacio de salida de una unica dimension, t, para lo cual seprecisa de un conjunto de datos compuesto por N vectores de entrada xn, junto con suscorrespondientes valores destino tn; quedando por tanto el objetivo de esta tecnica enencontrar la funcion h(x) que cumpla:

h(xn) = tn, n = 1, ..., N (4.71)

La aproximacion de funcion de base radial introduce un conjunto de N funciones debase, una por cada vector de entrada, que toman la forma φ(||x − xn||) en donde φ(.) esuna funcion no lineal que depende de la distancia ||x − xn||, siendo esta por lo general ladistancia euclıdea entre x y xn. La salida de la red es la combinacion lineal de las funcionesde base que realizan la asociacion.

h(x) =∑n

wnφ(||x − xn||) (4.72)

Ecuacion que tiene la misma forma que una funcion de discriminacion lineal generalizada[Bishop 95]. Las condiciones de interpolacion pueden expresarse en forma matricial como:

ΦW = t (4.73)

W = Φ−1t (4.74)

En donde t ≡ (tn), W ≡ (wn), y la matriz cuadrada Φ tiene como elementos φnn′ =φ(||xn − xn′ ||). Se ha demostrado que para grandes familias de funciones φ(.), la matrizΦ es no singular, siempre que se suministren datos de entrada diferentes [Bishop 95].Cuando los pesos de la ecuacion 4.72 se introducen en los valores de 4.74, la funcionh(x) representa una superficie continua diferenciable que pasa exactamente por cadauno de los puntos considerados. Estudios teoricos y practicos realizados por Powell en1987 [Bishop 95], dentro del problema de interpolacion exacta demuestran la relativainsensibilidad a la forma precisa de la funcion no lineal φ(.). Diferentes tipos de funcioneshan sido consideradas, siendo la mas comun la campana de Gauss

φ(x ) = e−x2

2σ2 (4.75)

En donde σ es el parametro que controla la suavidad de la funcion de interpolacion. Lacampana de Gauss es una funcion de base localizada con la propiedad de φ → 0 cuando|x | → ∞.

96 Tipologıa de clasificadores.

Figura 4.8: Funcion de activacion, φ(x) = e− x2

2σ2

Otra funcion de base con la misma propiedad es la funcion

φ(x) = (x2 + σ2)−α, α > 0 (4.76)

Sin embargo no es preciso que las funciones sean localizadas, otras posibles elecciones son:

φ(x) = x2ln(x) (4.77)

φ(x) = (x2 + σ2)β , 0 < β < 1 (4.78)

φ(x) = x3 (4.79)

φ(x) = x (4.80)

Todas ellas tiene la propiedad de que φ → ∞ cuando x → ∞, por otro lado hay quetener en cuenta que aunque la funcion φ(x) = x sea lineal en x, no lo es en x, ya quex = ||x − xn||.

La generalizacion a funciones de salida multivariable es inmediata. Cada vector deentrada xn debe ser mapeado exactamente a un vector de salida tn, el cual tiene porcomponentes tnk , lo cual da lugar a:

hk(xn) = tnk , n = 1, ...., N (4.81)

en donde hk(x) son obtenidas por superposicion lineal de las mismas funciones de baseque las utilizadas para el caso de salida univariable.

hk(x) =∑n

wknφ(||x − xn||). (4.82)

4.3 Clasificadores basados en redes neuronales. 97

El peso de los parametros se obtiene de forma analoga a la ecuacion 4.74:

wkn =∑n′

(Φ−1)nn′tn′

k (4.83)

en donde la misma matriz Φ−1 se utiliza para cada funcion de salida.La asociacion realizada por las funciones de base radial consigue que la funcion de salida

pase exactamente por los puntos de datos suministrados como datos de aprendizaje, si elconjunto de datos de entrenamiento de que se dispone es ruidoso, como salida de la redneuronal se obtendran valores con variaciones muy bruscas y comportamiento oscilatorio,sin embargo la funcion de interpolacion deseada tıpicamente presenta una salida massuavizada, promediando los datos de entrada afectados de ruido. Una limitacion adicionaldel procedimiento de interpolacion exacta proviene de la necesidad de disponer de tantasfunciones de base como patrones en el conjunto de datos de entrenamiento, esto provocaque para grandes conjuntos de datos sea muy costosa la evaluacion de la asociacion entreentradas y salidas.

4.3.2.3. Definicion matematica de las redes neuronales de tipo RBF.

Las limitaciones anteriores dan lugar a la consideracion y propuesta de una serie demodificaciones al procedimiento de interpolacion exacta, originando el modelo de redesneuronales de base radial [Bishop 95], obteniendose una funcion de interpolacion massuave en la cual el numero de funciones de base es determinado por la complejidad de laasociacion a realizar, esta serie de modificaciones es:

1. El numero de funciones de base, M , no tiene por que ser igual al numero de patronesen el conjunto de datos de entrenamiento, N , siendo por lo general mucho menor.

2. Los centros de la funciones de base no estan constrenidos a los vectores de entradade los patrones, sino que por el contrario la determinacion de la posicion adecuadade los centros se considera como parte del proceso de entrenamiento.

3. En lugar de tener un parametro comun que determina la zona de influencia de cadafuncion base, σ, a cada funcion base se le asocia su propio parametro, σj , cuyo valortambien se determina durante el proceso de entrenamiento.

4. Dentro del termino de combinacion lineal de la entradas se incluye un parametroasociado a la desviacion. Este parametro compensa la diferencia entre el valor mediode los datos del conjunto de entrenamiento de las funciones base de activacion y elvalor medio correspondiente de las salidas.

Realizando las modificaciones anteriores al procedimiento de interpolacion exacta sellega a la siguiente expresion para las redes neuronales de funciones de base radial:

yk(x) =M∑

j=1

wkjφj(x) + wk0. (4.84)

98 Tipologıa de clasificadores.

Para el caso de la funcion de base Gaussiana se obtiene:

φj(x) = e− ||x−μj ||2

2σ2j (4.85)

en donde x es el vector de entrada n-dimensional con elementos xi, y μj es el vector quedetermina el centro de las funciones de base φj con elementos μji.

Por lo general topologıas con mas de una capa oculta no son consideradas a efectospracticos, Hartman en 1990 [Bishop 95] demostro que con la superposicion lineal defunciones de base Gaussiana localizadas, es posible obtener una aproximacion a cualquierfuncion de forma universal, posteriormente Park en 1991 [Bishop 95] demostro que conrestricciones mas suaves en la forma de las funciones tambien es posible conseguir de formauniversal aproximaciones a funciones, por otro lado Girosi [Bishop 95] demostro que lasredes de funciones de base radial tienen la propiedad de aproximacion optima, aunqueestas demostraciones no ofrecen procedimientos practicos para la construccion de redesneuronales, son de gran importancia como base teorica en la que las aplicaciones practicasconfıan.

Para el caso de matriz de covarianza arbitraria Σj se obtiene:

φj(x) = e−12(x−μj )′Σ−1

j (x−μj) (4.86)

Considerando que las matrices de covarianza Σj son simetricas, cada funcion de basetiene d(d + 3)/2 parametros independientes ajustables, en donde d es la dimension delespacio de entrada, en comparacion con los d+1 parametros independientes de las funcionesde base radial de la ecuacion 4.85, en la practica se busca un equilibrio entre usar unnumero pequeno de funciones de base con muchos parametros ajustables, muy flexibles, yun numero mayor de funciones de base menos flexibles.

4.3.2.4. Entrenamiento de la red neuronal.

Como se ha indicado con anterioridad, las funciones de base pueden ser interpretadasde modo tal que los pesos de la primera capa, es decir los parametros que controlanlas funciones de base, puedan ser determinados mediante tecnicas de entrenamiento nosupervisadas. Lo que conduce a un proceso de entrenamiento basado en dos etapas, en laprimera las entradas del conjunto de entrenamiento, Xn, son utilizadas para determinarlos parametros de las funciones de base: μj y σj, para las funciones Gausianas esfericas;mientras que en la segunda etapa manteniendo las funciones de base se determinan lospesos de la capa de salida.

Debido a que existe un numero menor de funciones de base que patrones, por lo generalno sera posible determinar un conjunto de pesos que consiga ajustar la salida de la funcionde forma exacta a los patrones presentados [Freeman 93].

4.3 Clasificadores basados en redes neuronales. 99

Teniendo en cuenta que la salida de la red neuronal queda dada por la ecuacion:

yk(x) =M∑

j=0

wkjφj(x) (4.87)

y(x) = Wφ (4.88)

en donde en la ecuacion 4.87, φ0, es la funcion de base extra que comprende el terminode desviacion, la ecuacion 4.88 representa la expresion anterior en notacion matricial,en donde W = (wkj) y φ = (φj); como las funciones de base se consideran fijas,la determinacion de los pesos de la capa de salida se realiza, como en el caso de lasredes neuronales de tipo MLP, minimizando la funcion de error elegida, para el caso declasificacion es factible considerar la suma de errores cuadraticos, ecuacion 4.89.

E =12

∑n

∑k

(yk(xn) − (tnk))2 (4.89)

en donde tnk es el valor objetivo de la salida de la unidad k cuando a la red se le presenta elvector de entrada xn. La determinacion de la solucion se obtiene a traves de las ecuacioneslineales:

Φ′ΦW′ = Φ′T (4.90)

en donde (T)nk = tnk y (Φ)nj = φj(xn). El valor de los pesos de las neuronas de la redviene dados por:

W′ = Φ†T (4.91)

en donde Φ† representa la pseudo-inversa de Φ. En la practica se utiliza la descomposicionpor valores singulares para evitar matrices mal condicionadas.

4.3.2.5. Aplicacion en clasificacion

A diferencia de la clasificacion por hiperplanos realizada con las redes neuronales detipo MLP, la clasificacion obtenida con las redes neuronales de tipo RBF se basa enfunciones de kernel locales.

El objetivo de los clasificadores es modelar la probabilidad a posteriori p(x|Ck) paracada una de las Ck clases consideradas siendo conocida la probabilidad a priori p(x|Ck).Aplicando el teorema de Bayes:

P (Ck|x) =p(x|Ck)P (Ck)

p(x)(4.92)

=p(x|Ck)P (Ck)∑k′ p(x|C′

k)P (C′k)

(4.93)

100 Tipologıa de clasificadores.

Figura 4.9: Comparacion clasificacion MLP vs RBF.

Que puede ser interpretado como una red de funciones de base con funciones denormalizacion dada por:

φk(x) =p(x|Ck)∑

k′ p(x|C′k)P (C′

k)(4.94)

Siendo la capa oculta de conexion, la que enlaza dichas funciones con las salidas, atraves de los correspondientes pesos con valor P (Ck). Las salidas de esta red representala aproximacion a las probabilidades a posteriori.

Por lo general una unica funcion de kernel por cada clase no suele producir buenosresultados para la representacion de las funciones de densidad de probabilidad de cada clasep(x|Ck), por lo que se emplean mezclas que juntan varias funciones para modelizar cadauna de las funciones de densidad de probabilidad asociadas a cada clase. Con el objetivode aumentar la eficiencia computacional, reduciendo el numero de parametros ajustablesen el modelo, se opta por utilizar un conjunto de M funciones de base, etiquetadas conun ındice j, para representar todas las funciones de densidad condicional, dando lugar a:

p(x|Ck) =M∑

j=1

p(x|j)P (j|Ck) (4.95)

Que sustituıdo en las ecuaciones anteriores da a su vez lugar a:

p(x) =∑

k

p(x|Ck)P (Ck) =M∑

j=1

p(x|j)P (j) (4.96)

en donde se han definido las probabilidades a priori para las funciones de base:

P (j) =∑

k

P (j|Ck)P (Ck) (4.97)

Por lo que considerando las probabilidades a posteriori, y sustituyendo las ecuaciones4.96 y 4.97 en 4.92 se obtiene:

P (Ck|x) =

∑Mj=1 P (j|Ck)p(x|j)P (Ck)∑M

j′=1 p(x|j′)P (j′)P (j)P (j)

=M∑

j=1

wkjφj(x) (4.98)

4.3 Clasificadores basados en redes neuronales. 101

en donde en la ecuacion 4.98 representa una red de funciones de bases, en la que la funcionbase de normalizacion esta dada por:

φj(x) =p(x|j)P (j)∑M

j′=1 p(x|j′)P (j′)= P (j|x) (4.99)

y los pesos de la segunda capa son:

wkj =P (j|Ck)P (Ck)

P (j)= P (Ck|j) (4.100)

por lo que la activacion de la funciones de base pueden ser interpretada como laprobabilidad a posterior de la presencia de las caracterısticas correspondientes en el espaciode entrada, y los pesos pueden ser interpretados de igual forma como la pertenencia a cadaclase, dada la presencia de dichas caracterısticas.

4.3.2.6. Implementacion del clasificador basado en red neuronal de tipo RBF.

En la implementacion de los clasificadores basados en este tipo de red neuronal, se hanutilizado los siguientes parametros:

Numero de neuronas ocultas: Determinado por el algoritmo de aprendizaje a travesde un proceso iterativo que permite el crecimiento dinamico de la cantidad deneuronas ocultas empleadas.

El algoritmo de entrenamiento inicialmente crea la red con un numero reducido deneuronas en la capa oculta, con cada iteracion se ajustaran los pesos de las neuronasy se guarda aquel vector de entrada que causa el menor error, se evalua el errorglobal de la red para la iteracion actual, si el error es superior al fijado se anadeuna nueva neurona en la capa oculta utilizando como valores de partida los delvector anteriormente guardado, a continuacion se procede a repetir el proceso deaprendizaje. El algoritmo finaliza cuando el error global presentado por la red esinferior al error objetivo, o en la capa oculta se han alcanzado tantas neuronas comovectores hay en el conjunto de entrenamiento.

Funcion de activacion de las neuronas ocultas:

φ(x) = e−x2x = b(w − p) (4.101)

Constante de extension, b = 0.25 (Determina la zona de influencia de cada neurona19.

Numero de neuronas de salida: 3. Tantas como clases consideradas.

Como conclusion principal, tal y como puede extraerse del apartado 6.3, losclasificadores basados en este tipo de redes neuronales presentan elevados porcentajesde clasificacion correcta, cercanos a los conseguidos con los clasificadores basados en redesde tipo PNN, pero con una mejor capacidad de generalizacion, lo que les hace preferiblesa estos ultimos.

19El valor de esta constante se obtuvo tras un analisis previo en donde se utilizaron diferentes valores enel intervalo [0.1 - 1], el mayor numero de clasificaciones correctas se obtuvo para un valor de la constantede amplitud de 0.25.

102 Tipologıa de clasificadores.

4.3.3. Clasificador basado en red neuronal de tipo PNN.

4.3.3.1. Redes neuronales probabilısticas.

Las redes neuronales probabilısticas son metodos no parametricos, basados en latecnica de interpolacion exacta [Bishop 95], en los que la clasificacion se realiza asignandola muestra candidata a aquella clase cuya probabilidad de observacion es mas elevada[Ripley 96].

fk(x) = P (k|x) (4.102)

La topologıa de una red neuronal de tipo PNN se muestra en la figura 4.7.

Figura 4.10: Arquitectura de una red neuronal tipo PNN.

La denominacion de este tipo de redes neuronales se debe a Specht [Ripley 96], quienacuno este nombre para referirse a metodos en los que empleando la tecnica de dejaruno fuera como metodo de validacion cruzada, empleaba las siguientes ecuaciones deprobabilidad para realizar la clasificacion.

Pj(x) =1nj

∑i

K(x− xi) (4.103)

En donde K(x − y) representa la funcion nucleo o kernel que expresa una medida de laproximidad entre x e y, mientras que el subındice [i] indica el grupo de entrenamientoi-esimo. La ecuacion 4.103 puede ser interpretada como el promediado de las funcioneskernel centradas en el valor de representacion de cada clase, lo cual da lugar a:

P (k|x) =πkPj(x)∑k πkPj(x)

=πknk

∑[i]=k K(x− xi)∑

iπ[i]=k

n[i]K(x − xi)

(4.104)

En caso de que las probabilidades a priori sean estimadas por:

Pk =nk

n(4.105)

4.3 Clasificadores basados en redes neuronales. 103

La ecuacion 4.104 se simplifica a:

P (k|x) =

∑[i]=k K(x− xi)∑i n[i]K(x − xi)

(4.106)

Este tipo de redes neuronales se asemeja a las redes neuronales de tipo RBF, en queambas utilizan funciones de base radial en las neuronas de la capa oculta, como medio paraestimar la distancia entre un nuevo vector de entrada y los vectores patrones propuestosdurante la fase de entrenamiento. Sin embargo las redes neuronales probabilısticas sediferencian de las RBF en que, las neuronas de la capa de salida suma las contribucionespara cada clase produciendo un vector de probabilidades, el cual es procesado a traves deuna funcion de transferencia de tipo competitivo, en la que la salida selecciona el valormaximo de dichas probabilidades, asignando un 1 a dicha clase y un 0 a todas las demas.

Por otro lado, el algoritmo empleado en la fase de entrenamiento tambien es diferente,ya que aunque en ambos casos queda encuadrado dentro de la clasificacion de algoritmode entrenamiento supervisado en dos etapas, para el caso de redes neuronales PNN enla primera etapa se crean tantas neuronas en la capa oculta como patrones se empleanen el conjunto de entrenamiento, procedimiento derivado de la tecnica de interpolacionexacta; en la segunda fase se procede a definir los pesos de las neuronas de la capa desalida minimizando una funcion de error del tipo:

E =n∑

i=1

||yi − ti|| (4.107)

4.3.3.2. Implementacion del clasificador basado en red neuronal de tipo PNN.

En la implementacion de los clasificadores basados en este tipo de red neuronal, se hanutilizado los siguientes parametros:

1. Constante de extension, b = 0.25.2. Numero de neuronas en la capa oculta = tantas como parejas vector de entrada -

clase a la que pertenece, tenga el conjunto de entrenamiento.3. Numero de neuronas en la capa de salida = 3. Tantas como clases consideradas.

Al igual que ocurre con la red RBF la capa oculta se construye a partir de neuronasde base radial, durante la fase de aprendizaje se adquiere la localizacion de los vectoresdel conjunto de entrenamiento, las neuronas de la capa de salida, tantas como clasesindependientes se consideran, memorizan la asignacion de las salidas de las funciones deactivacion a cada una de las clases presentadas, la ultima parte de la capa de salida quedaformada por unidades de tipo competitivo, de forma tal que el vector de entrada presentadose asigna a la neurona cuyo valor de activacion sea mas alto.

Como conclusion principal, tal y como puede extraerse del apartado 6.3, losclasificadores basados en este tipo de redes neuronales son los que presentan mayoresporcentajes de clasificacion correcta, aunque ası mismo presentan una menor capacidadde generalizacion que los clasificadores basados en redes neuronales de tipo RBF.

104 Tipologıa de clasificadores.

4.4. Clasificador bietapa basado en Modelo Oculto de

Markov y RBF.

4.4.1. Descripcion Modelo Oculto de Markov.

Un Modelo Oculto de Markov (MOM)20, es una representacion estadıstica de la senal oproceso observado, dentro de un marco doblemente estocastico, que consta de un procesode Markov de parametros desconocidos y no observables, y un proceso observado cuyosvalores son dependientes estocasticamente de los estados ocultos [Rabiner 89]. Se asumeque la senal observada puede ser caracterizada como un proceso parametrico aleatorio, yque los parametros del proceso estocastico pueden ser determinados o estimados de formaprecisa y bien definida.

Un proceso estocastico se llamade Markov o cadena de Markov deprimer orden, si conocido el presente,el futuro no depende del pasado; dadauna variable estocastica q(t − 1) laprobabilidad de transicion en el instantet se define como P (qt = σt|qt−1 = σt−1).

Una cadena de Markov se defineformalmente con la dupla (Q,A), dondeQ = {1, 2, ..., N} son los N posiblesestados de la cadena y A = [aij ]NxN esla matriz de transicion del modelo dondese cumple:

0 ≤ aij ≤ 1 1 ≤ i, j ≤ N (4.108)N∑

j=1

aij = 1 1 ≤ i ≤ N (4.109) Figura 4.11: Representacion Modelo Oculto de Markov.

Las probabilidades de transicion y emision dependen del estado actual y no del pasado.

P (qt = j|qt−1 = i, qt−2 = k, ...) = P (qt = j|qt−1 = i) = aij(t) (4.110)

Formalmente un Modelo Oculto de Markov discreto de primer orden se define por la5-tupla λ = {Z,Q,A,B, π}. En donde:

Z = {V 1, V 2, ..., V m}. Es el alfabeto o conjunto discreto de M sımbolos. Lossımbolos observados se corresponden con la salida fısica del sistema que se modela.

Q = {1, 2, ..., N}. Es el conjunto finito de N estados. Aunque por lo general losestados estan ocultos, para muchas aplicaciones practicas a menudo existe alguntipo de significacion fısica asociada al estado o conjunto de estados del modelo.

En la figura 4.11 se representan por los cırculos S1 a S4.20En literatura inglesa se denomina “Hidden Markov Models (HMM)” o “Probabilistic functions of

Markov chains.”

4.4 Clasificador bietapa basado en Modelo Oculto de Markov y RBF. 105

A = [aij ]NxN . Es la matriz de probabilidades de transicion de estados. Por lo generallos estados estan interconectados de forma que un estado pueda ser alcanzado desdecualquier otro (modelos ergodicos), sin embargo no es el unico tipo de modelo, existenotros tipos de modelos de interconexion en los que solo se permiten evoluciones haciaestados de ındice superior, utiles para modelizar secuencias temporales.

En la figura 4.11 se representa por los parametros a11 a a44, al lado de las flechasdiscontinuas que conectas los estados.

B = (bj(Qt))NxM . Es la matriz de probabilidades de emision de sımbolos.

bj(k) = P (vk, t|qt = Qj), 1 ≤ j ≤ N (4.111)

1 ≤ k ≤ M

En la figura 4.11 se representa por las flechas continuas B1(O) a B4(O).

π = (π1, π2, ..., πN ). Es el vector de probabilidades de estado inicial.

πi = P (q1 = Qi), 1 ≤ i ≤ N. (4.112)

Los parametros de un MOM se expresan por: λ = {A,B, π}.La primera cuestion en la definicion de un MOM es decidir con que se corresponden

los estados del modelo y cuantos estados han de considerarse.Existen tres tipos de problemas basicos o canonicos asociados al diseno de los MOM

[Rabiner 89]:

1. Primer problema. Dados los parametros del modelo, λ, calcular la probabilidad deuna secuencia de observaciones, O, en particular. Este problema se resuelve con elalgoritmo de “adelante-atras”, vease apartado 4.4.2.2. Se puede interpretar tambiencomo un ındice de como el modelo se ajusta a la secuencia dada.

Un ejemplo de aplicacion de este problema serıa: dado un MOM con cinco estados,N = 5, que representan respectivamente la pronunciacion de los numeros del unoal cinco, y que ha sido entrenado con la secuencia O = {′1′,′ 2′,′ 3′,′ 4′,′ 5′,′ 4′,′ 2′},T = 7, calcular la probabilidad con la que este modelo producirıa la secuenciainversa O = {′2′,′ 4′,′ 5′,′ 4′,′ 3′,′ 2′,′ 1′}.

2. Segundo problema. Datos los parametros del modelo, λ, encontrar la secuencia masprobable de estados ocultos, Q, que puedan haber generado una secuencia de salidadada. Este problema se resuelve con el algoritmo de Viterbi [Forney 73]. Trata dedescubrir la parte oculta del modelo.

Siguiendo con el modelo del ejemplo anterior una aplicacion de este problema serıadeterminar la secuencia de estados que da lugar a la secuencia inversa.

106 Tipologıa de clasificadores.

3. Tercer problema. Dada una secuencia de salida o un conjunto de tales secuencias, O,encontrar los parametros del modelo oculto de Markov, λ, que maximizan P (O|λ).Este problema se resuelve con el algoritmo de Baum-Welch [Nabney 02]. A lasecuencia de observaciones usadas para ajustar los parametros del modelo se ladenomina secuencia de entrenamiento.

Un ejemplo de la aplicacion de la resolucion de este problema serıa la determinacionde los parametros del modelo de los ejemplos anteriores a partir de la secuencia deobservaciones: O = {′1′,′ 2′,′ 3′,′ 4′,′ 5′,′ 4′,′ 2′}.

Aunque la base teorica de los MOM fue establecida a finales de la decada de los sesentay principio de los setenta [Baum 66], [Baum 70], [J. 75], no fue hasta dos decadas despuescuando, tras realizarse publicaciones de diversos tutoriales y desarrollo de aplicacionesutilizando MOM en revistas de ingenierıa, empezaron a popularizarse y a utilizarse comomodelizadores de senal, sistemas de prediccion, sistemas de reconocimiento e identificacion,clasificadores, etc., encontrandose su principal campo de aplicacion en sistemas dereconocimiento del habla [Rabiner 89], [Allen 77], [Cox 00], [Juang 91], [S.E.; 83].

Mas proximas en el tiempo son la aplicacion de los MOM en la identificacion defuerzas en aplicaciones de teleoperacion de sistemas robotizados [Herreo 98], ası como en laidentificacion y caracterizacion de senales cerebrales [Chiappa 06], [Rezek 00], [Zhong 02],siendo aplicados en el desarrollo de la tecnologıa de Interfaz Cerebro Computador en laidentificacion y clasificacion de los patrones de senal electroencefalografica asociados ala imaginacion de movimiento [Guger 99], [Neuper 01], [Obermaier 01a], [Muller 03a]. Laidea basica es la creacion de modelos temporales de los ritmos μ y β que permitan laidentificacion, aprendizaje y posterior reconocimiento de los cambios que se producen enla senal cerebral cuando se realizan diferentes actividades cognitivas como la planificacionde movimientos, la realizacion de un calculo matematico, u otro tipo de tarea mentalcon elevada capacidad de discriminacion. En todos los casos, tal y como se haindicado en el apartado 1.1.2, la senal electroencefalografica es filtrada, procesada paraextraer sus caracterısticas definitorias (potencia de determinadas bandas frecuenciales,coeficientes adaptativos de modelos autorregresivos, etc.) las cuales son introducidas enlos correspondientes MOM’s. Por cada actividad mental se genera y entrena un MOMdiferente, comparandose posteriormente la probabilidad con la que nuevas secuencias deobservacion serıan generadas por cada uno de ellos, la nueva secuencia de observacion seasigna a aquel modelo, y por tanto actividad mental, cuya probabilidad de generacion sea lamas alta. Los MOM muestran cierta mejora de clasificacion sobre analisis de discriminacionlineal [Mardia 79].

Las principales ventajas de los MOM son dos:

1. Poseen una estructura matematica muy rica, de la que se desprende que puedan serusados en una gran cantidad de aplicaciones.

2. Los resultados practicos obtenidos son muy proximos a los deseados.

4.4 Clasificador bietapa basado en Modelo Oculto de Markov y RBF. 107

4.4.2. Solucion a los problemas canonicos.

4.4.2.1. Solucion al primer problema.

El objetivo es calcular la probabilidad de una secuencia de observaciones O ={O1, O2, ..., OT }, dado un modelo λ. El modo mas directo de efectuarlo es enumerandotoda posible secuencia de longitud T .21

Considerando una secuencia de estados Q = {q1, q2, ..., qT }. La probabilidad de lasecuencia de observaciones O para la anterior secuencia de estados viene expresada por 22:

P (O|Q,λ) =T∏

t=1

P (Ot|qt, λ) (4.113)

Desarrollando la expresion anterior se obtiene:P (O|Q,λ) = bq1(O1) · bq2(O2) · . . . · bqT

(OT ) (4.114)

La probabilidad de la secuencia de estados Q, dado el modelo λ, se puede expresar como:P (O|Q,λ) = πq1aq1q2aq2q3 . . . aqT−1qT

(4.115)

La probabilidad conjunta de O y Q, es decir, de que O y Q ocurran simultaneamente esel producto de las dos ecuaciones anteriores:

P (O,Q|λ) = P (O|Q,λ)P (Q|λ) (4.116)

Por lo que la probabilidad de O, dado el modelo λ, se obtiene sumando esta probabilidadconjunta sobre todas las posibles secuencias de q posibles estados:

P (O|λ) =∑∀Q

P (O|Q,λ)P (Q|λ) = . . .

=∏

q1,q2,...,qT

πq1bq1(O1)aq1q2bq2(O2) . . . aqT−1qTbqT

(OT ) (4.117)

El calculo de probabilidad utilizando este metodo implica 2TNT calculos [Rabiner 89],para cada t existen N posibles estados que se pueden alcanzar, en los ejemplos delapartado anterior N = 5 y la longitud de la secuencia T = 7, por lo que hay NT posiblessecuencias de estados, y por cada secuencia 2T operaciones, siendo mas exactos se necesitan(2T − 1)NT multiplicaciones y NT − 1 sumas, por lo que para la resolucion del ejemplodel primer problema del apartado anterior se necesitarıan (2 ∗ 7 − 1) ∗ 57 = 1,015,625multiplicaciones y 57 − 1 = 78,124 sumas.

Puede comprobarse que el procedimiento directo, para cadenas de observacionesobtenidas en aplicaciones practicas23 excede la capacidad de computo de las computadorasactuales, por lo que se hace necesario un algoritmo de calculo mas eficiente, el cual sedenomina “adelante-atras”.

21Notese que T es el numero de observaciones.22Se asume la independencia de observaciones.23Por ejemplo en aplicaciones de reconocimiento de palabras habladas cada estado podrıa modelar la

pronunciacion de una letra, lo que da lugar a N = 27, con palabras de seis letras, T = 6, se obtendrıan4,65109 operaciones.

108 Tipologıa de clasificadores.

4.4.2.2. Algoritmo “adelante-atras”.

La idea de este algoritmo es que en cada instante de tiempo, t, existen solo N posiblesestados en los que se puede encontrar el modelo, en lugar de los NT causados por laanterior consideracion implıcita de la longitud de la cadena, vease figura 4.12.

Se define la variable hacia delante, αt(i) como:

αt(i) = P (O1, O2, . . . , Ot, qt = Si|λ) (4.118)

Es la probabilidad de que se de la secuencia de observaciones O hasta el instante t, yque el sistema se encuentre en el estado Si, dado el modelo λ. Para evaluarla se utiliza elsiguiente procedimiento inductivo:

1. Inicializacion:

α1(i) = πibi(O1) 1 ≤ i ≤ N (4.119)

2. Induccion:

αt+1(j) =[ N∑

i=1

αt(i)aij

]bj(Ot+1) 1 ≤ t ≤ T − 1; 1 ≤ j ≤ N (4.120)

3. Terminacion:

P (O|λ) =N∑

i=1

αT (i) (4.121)

El primer paso inicializa las probabilidades hacia delante como la probabilidad conjuntade encontrarse el sistema en el estado Si y que se de la observacion O1, vease figura 4.12.

El estado j puede alcanzarse en el instante t + 1 desde N posibles estados. Ya queαt(i) es la probabilidad conjunta de que O1 . . . Ot sean observados, y que el estado en elinstante t sea Si, αt(i)aij es la probabilidad conjunta de que O1 . . . Ot sean observados, yde que el estado Sj sea alcanzado a traves del estado Si en el instante t+1. Sumando esteproducto para todos los posibles estados se obtendra la probabilidad de estar en el estadoSj en el instante t + 1 teniendo en cuenta las observaciones realizadas.

Conociendo el estado Sj, αt+1 se obtendra teniendo en cuenta la observacion Ot+1, ymultiplicando su probabilidad por la suma de probabilidades αt(i)aij anteriores.

Por ultimo, la probabilidad P (O|λ) se obtiene como la suma de las variables haciadelante terminales, es decir αT (i).

En este caso, el numero de calculos necesarios es del orden de N2T . Siendo mas exactosson necesarias N(N+1)(T −1)+N multiplicaciones y N(N−1)(T−1) sumas [Rabiner 89],para el caso del ejemplo anterior se tendrıan 5 · (5 + 1) · (7− 1) + 5 = 185 multiplicacionesy 5 · (5 − 1) · (7 − 1) sumas.

4.4 Clasificador bietapa basado en Modelo Oculto de Markov y RBF. 109

Figura 4.12: Algoritmo “adelante-atras”. Procedimiento hacia delante.

Figura 4.13: Algoritmo “adelante-atras”. Procedimiento hacia atras.

Aunque en la solucion del primer problema no se utilizan las variables hacia atras, silo son en la solucion del tercer problema. Por semejanza con la descripcion realizada, suexplicacion se realiza a continuacion.

Se define la variable hacia atras, βt(i) como:

βt(i) = P (Ot+1, Ot+2, . . . , OT , qt = Si|λ) (4.122)

Es la probabilidad de que se de la secuencia parcial de observaciones desde el instantet + 1 hasta el final, dado el estado Si en el instante t y el modelo λ. De modo analogoal seguido para la evaluacion de las variables hacia delante se emplea el siguienteprocedimiento inductivo:

1. Inicializacion:

βT (i) = 1 1 ≤ i ≤ N (4.123)

2. Induccion:

βt(i) =N∑

j=1

aijbj(Ot+1)βt+1(j) t = T − 1, T − 2, . . . , 1; 1 ≤ i ≤ N (4.124)

El paso de inicializacion arbitrariamente iguala βT (i) a uno. El paso de induccion tieneen cuenta que para estar en el estado Si en el instante t, utilizando las observacionesfuturas, hay que considerar todos los posibles estados Sj en el instante t + 1, al igual quelas transiciones aij , ası como la observacion Ot+1 en el estado Sj, vease figura 4.13.

110 Tipologıa de clasificadores.

4.4.2.3. Solucion al segundo problema.

La solucion del segundo problema implica la definicion de la funcion de optimizacion autilizar. Debido a la multiplicidad de criterios que pueden aplicarse, la solucion no es unica.Una posible eleccion es la de maximizar la probabilidad de encontrarse en un determinadoestado en un instante t dada la secuencia de observaciones obtenida, o lo que es equivalentea maximizar la probabilidad P (qt = Si|O,λ).

Este criterio de optimizacion individualizada, en la que no se tienen en cuenta losestados anteriores,puede llevar a obtener secuencias de estados que en la practica no pueden darse debidoa que las probabilidades de transicion entre ellos, aij, son nulas. Esto es ası debido a queimplıcitamente se busca el estado mas probable en cada instante, sin tener en cuenta laprobabilidad de aparicion de secuencias de estados.

Con la finalidad de evitar el inconveniente anterior, la solucion a este problemaempleada con mayor frecuencia modifica el criterio de optimizacion, buscando aquellasecuencia de estados que maximiza:

P (Q|O,λ) ≡ P (Q,O|λ) (4.125)

El algoritmo utilizado para su busqueda esta basado en metodos de programaciondinamica, denominandose “algoritmo de Viterbi” [Forney 73]. Para encontrar la secuenciade estados Q, que maximiza la probabilidad anterior, dada la secuencia de observacionesO, se define previamente la variable:

δt(i) = maxq1,q2,...,qt−1P (q1q2 . . . qt = Si, O1O2 . . . , Ot|λ) (4.126)

Siendo la probabilidad mas alta a lo largo de una secuencia, en el instante t, teniendo encuenta las primeras t observaciones, y termina en el estado Si. Por induccion se tiene que:

δt+1(j) = [maxiδt(i)aij ]bj(Ot+1) (4.127)

Para poder recuperar la secuencia de estados, es necesario guardar el argumento quemaximiza la ecuacion 4.127, para cada t y j, empleandose para tal fin la matriz Ψt(j). Lospasos a realizar para encontrar la secuencia de estados es:

1. Inicializacion:

δ1(i) = πibi(O1)

Ψ1(i) = 0 1 ≤ i ≤ N (4.128)

2. Induccion:

δt(j) =[max1≤i≤N (δt−1(i)aij)

]bj(Ot) 2 ≤ t ≤ T (4.129)

Ψt(j) = argmax1≤i≤N (δt−1(i)aij) 1 ≤ j ≤ N (4.130)

4.4 Clasificador bietapa basado en Modelo Oculto de Markov y RBF. 111

3. Terminacion:

P ∗ = max︸︷︷︸1≤i≤N

(δT (i)) (4.131)

q∗T = argmax︸ ︷︷ ︸1≤i≤N

(δT (i)) (4.132)

4. Obtencion de la secuencia:

q∗t = Ψt+1(q∗t+1) t = T − 1, T − 2, . . . , 1 (4.133)

El algoritmo de Viterbi se muy semejante al “procedimiento hacia delante”, siendo laprincipal diferencia el proceso de maximizacion que aparece en la ecuacion 4.129 en lugarde la suma que se produce en la ecuacion 4.120

4.4.2.4. Solucion al tercer problema.

No existe algoritmo conocido que halle analıticamente el modelo que maximiza laprobabilidad de la secuencia observada. De hecho, dada cualquier secuencia finita deobservaciones como datos para el entrenamiento, no existe una manera optima de estimarlos parametros del modelo. Sin embargo se puede elegir un λ = (A,B, π) tal que P (O|λ)alcanza un maximo local utilizando un procedimiento iterativo conocido como algoritmode Baum-Welch.24

El metodo se basa en un procedimiento de reestimacion (actualizacion iterativa ymejora) de los parametros del modelo. Se define la variable:

εt(i, j) = P (qt = Si, qt+1 = Sj |O,λ) (4.134)

como la probabilidad de estar en el estado Si en el instante t, y en el Sj en el t + 1, dadoel modelo λ y la secuencia de observaciones O; desarrollandola se obtiene:

εt(i, j) =P (qt = Si, qt+1 = Sj |O,λ)

P (O|λ)= αt(i)aijbj(Ot+1)βt+1(j)

P (O|λ) = . . .

=αt(i)aijbj(Ot+1)βt+1(j)∑N

i=1

∑Nj=1 αt(i)aijbj(Ot+1)βt+1(j)

(4.135)

Tal y como se puede ver graficamente en la figura 4.14.Definiendo γt(i) como la probabilidad de estar en el estado Si en el instante t dada

la secuencia de observaciones y el modelo, se relaciona facilmente con ε a traves de laecuacion:

γt(i) =N∑

j=1

εt(i, j) (4.136)

24Tambien conocido como algoritmo de Esperanza-Maximizacion.

112 Tipologıa de clasificadores.

Figura 4.14: Representacion de la obtencion de εt(i, j).

Realizando el sumatorio de cada uno de los valores que representa la ecuacion anteriorpara todo instante t, se obtiene la esperanza del numero de veces que va a ser alcanzado elestado Si a lo largo del tiempo, o lo que es lo mismo, el numero de transiciones hechas desdeel estado Si. De forma semejante, si se realiza el sumatorio de εt(i, j) para todo instantet, lo que se obtiene es la esperanza de transiciones desde el estado Si al Sj. Expresando loanterior formalmente:

T−1∑t=1

γt(i) ≡ esperanza del numero de transiciones desde Si

T−1∑t=1

εt(i, j) ≡ esperanza del numero de transiciones desde Si a Sj

Con las formulas anteriores se puede obtener un metodo para la reestimacion de losparametros de un Modelo Oculto de Markov:

πi = γ1(i) (4.137)

aij =∑T−1

t=1 εt(i, j)∑t=1 T − 1γt(i)

(4.138)

bj(k) =

∑T−1t=1,Ot=νk

γt(j)∑T−1t=1 γt(j)

(4.139)

4.4 Clasificador bietapa basado en Modelo Oculto de Markov y RBF. 113

La ecuacion 4.137 indica la esperanza del numero de veces que se va a encontrar elmodelo en el estado Si en el instante inicial. La ecuacion 4.138 es el cociente entre laesperanza del numero de transiciones desde el estado Si al Sj y la esperanza del numerode transiciones que se producen desde el estado Si. Por ultimo la ecuacion 4.139 es elcociente entre la esperanza del numero de veces que se encuentra en el estado Sj y se dala observacion νk, y la esperanza del numero de instantes en el estado Sj.

Utilizando el modelo actual, λ = {A,B, π}, para calcular un modelo nuevo, λ ={A, B, π}, Baum y su equipo [Baum 66], [Baum 70], [J. 75], probaron que:

1. El modelo inicial, λ, define un punto crıtico de la funcion de coste P (O|λ) en el casode que λ = λ.

2. El modelo λ, es mejor que el λ en el sentido en que P (O|λ) > P (O|λ), es decir, quela probabilidad de producir la secuencia de observaciones sea mayor con λ que conλ.

De este modo, reiterando el proceso descrito por el sistema de ecuaciones 4.137 a 4.139,se mejora el modelo ya que se aumenta la probabilidad de que la secuencia de observacionessea producida por el modelo, hasta llegar a un lımite. Al resultado ası obtenido se ledenomina estimacion de maxima verosimilitud del Modelo Oculto de Markov.

Las ecuaciones de reestimacion de parametros se pueden obtener maximizando, a travesde metodos de optimizacion por restricciones, la funcion auxiliar de Baum en la variableλ:

Q(λ, λ) =∑Q

P (Q|O,λ)log[P (O,Q|λ)] (4.140)

Al igual que con las funciones de reestimacion, Baum y su equipo [J. 75], probaron quela maximizacion de Q implica aumentar la verosimilitud:

maxλ[Q(λ, λ)] ⇒ P (Q|λ) ≥ P (Q|λ) (4.141)

Las formula de reestimacion se pueden interpretar como la implementacion del metodoestadıstico de Esperanza - Maximizacion, EM. El paso de esperanza serıa el calculo de lafuncion Q, y el de modificacion serıa el de maximizacion.

En cada iteracion se cumplen las restricciones estocasticas:

N∑i=1

πi = 1 (4.142)

N∑j=1

aij = 1 1 ≤ i ≤ N (4.143)

M∑k=1

bj(k) = 1 1 ≤ j ≤ N (4.144)

114 Tipologıa de clasificadores.

4.4.3. Densidades de observacion continuas en MOM.

Hasta ahora las observaciones consideradas pertenecen a un conjunto finito de sımbolosdiscretos, lo que permite utilizar una funcion de probabilidad discreta para describirlas.Para el caso de que las observaciones sean senales continuas, y con la finalidad de evitarperdida de informacion, serıa preciso modificar los modelos para que puedan trabajar condensidades de probabilidad continuas.

La estructura de la funcion de densidad de probabilidad es una combinacion lineal delas funciones de densidad de probabilidad multidimensional:

bj(O) =M∑

m=1

cjmΩ(O,μjm, Ujm) 1 ≤ j ≤ N (4.145)

En donde O es el vector de observaciones, Ω es cualquier funcion de probabilidadalgorıtmico-concava (por lo general una gaussiana) o con simetrıa elıptica, con vectorde medias μjm y matriz de covarianzas Ujm, mientras que cjm son los coeficientes deponderacion de las funciones Ω sujetos a las siguientes restricciones estocasticas:

M∑m=1

cjm = 1 1 ≤ j ≤ N (4.146)

cjm ≥ 0 1 ≤ j ≤ N, 1 ≤ m ≤ M (4.147)

Asegurando que la funcion de densidad de probabilidad queda normalizada:∫ ∞

−∞bj(x)dx = 1 1 ≤ j ≤ N (4.148)

En este caso las formulas de reestimacion son:

cjk =∑T

t=1 γt(j, k)∑Tt=1

∑Mk=1 γt(j, k)

(4.149)

μjk =∑T

t=1 γt(j, k)Ot∑Tt=1 γt(j, k)

(4.150)

Ujk =∑T

t=1 γt(j, k)(Ot − μjk)(Ot − μjk)T∑Tt=1 γt(j, k)

(4.151)

γt(j, k) =αt(j)βt(j)∑N

j=1 αt(j)βt(j)· cjkΩ(Ot, μjk, Ujk)∑M

m=1 cjkΩ(Ot, μjk, Ujk)(4.152)

En donde γt(j, k) es la probabilidad de estar en el estado Sj en el instante t, teniendo encuenta el k−esimo componente de la combinacion lineal, ver ecuacion 4.152. Del mismomodo que para el caso discreto, la ecuacion de reestimacion para cjk es la relacion entrela esperanza del numero de veces que el modelo se encuentra en el estado Sj utilizando lacomponente k−esima de la combinacion y la esperanza del numero de veces que el sistemase encuentra en el estado Sj. Para mujk se ponderan los sumandos del numerador de laformula para cjk con el valor de observaciones, hayandose la esperanza de la observacionque proporciona el k−esimo componente de la combinacion. De igual modo se procede conUjk.

4.4 Clasificador bietapa basado en Modelo Oculto de Markov y RBF. 115

4.4.4. Tipos de Modelos Ocultos de Markov

En la modelizacion de secuencias temporales empleando Modelos Ocultos de Markov,la consideracion a priori de las posibles transiciones entre los estados del modelo simplificala resolucion de los problemas canonicos anteriores, por ejemplo en aquellos casos donde lasintaxis subyacente de generacion de la cadena de observaciones provoque un determinadoorden de aparicion de las mismas, dando lugar a que en la matriz de probabilidades detransicion de estados, determinados elementos sean nulos.

Dependiendo de las restricciones de transicion entre estados, se presentan los diferentestipos de modelos que se describen a continuacion:

4.4.4.1. Modelo ergodico.

El caso mas comun de modelo es elergodico, vease figura 4.15, en este modelocualquier estado puede ser alcanzado desdecualquier otro; lo que se traduce en que todoelemento aij de la matriz A es estrictamentepositivo.

4.4.4.2. Modelo izquierda-derecha.

Sin embargo se han encontrado otrostipos de modelos que describen mejordeterminados tipos de senales temporalesque el modelo ergodico. Uno de ellos es eldenominado modelo izquierda-derecha. Tienela peculiaridad de que a medida que el tiempoaumente, el modelo o bien se mantiene en el Figura 4.15: Esquema del modelo ergodico.

mismo estado, o bien el ındice del estado se incrementa. No se tiene en cuenta de maneraexplıcita el tiempo, pero tiene la ventaja de modelar bien senales cuyas propiedadescambian con el tiempo. Sus coeficientes tiene como propiedad:

aij = 0 j < i (4.153)

Es decir, no se permiten transiciones a estados cuyos ındices sean menores que el actual.El estado inicial tiene la propiedad:

πi ={

0 i �= 11 i = 1

(4.154)

En la figura 4.16 se muestra una representacion grafica de lo que serıa este modelosuponiendo que lo componen cuatro estados.

116 Tipologıa de clasificadores.

Figura 4.16: Esquema del modelo izquierda-derecha.

Ası mismo es habitual imponer a este tipo de modelos un mayor numero de restriccionespara evitar cambios grandes en los ındices del estado:

aij = 0 j > i + Δ,Δ ∈ N. (4.155)

En el caso del ultimo estado se tendra que:

aNN = 1 (4.156)

aNi = 0 i < N (4.157)

4.4.4.3. Modelo rutas paralelas.

Otro tipo de modelo derivado del anterior y bastante comun es el de rutas paralelas,vease figura 4.17. Se basa en la interconexion de modelos izquierda-derecha, presenta unamayor flexibilidad cumpliendo las restricciones de los anteriores.

Figura 4.17: Esquema del modelo rutas paralelas.

4.4.4.4. Modelo de entrada salida.

Hasta el momento se ha tratado con modelos probabilısticos en los que en cada instantede tiempo, t, se observa una variable, vt, generada desde un estado discreto oculto, qt,el cual evoluciona segun una dinamica de Markov; sin embargo existe una variante demodelos probabilısticos derivados de los anteriores, denominados modelos de entrada-salida25 aplicados en clasificacion, en donde para cada intervalo de tiempo, t ∈ 1, . . . , T ;

25La denominacion anglosajona de los mismos es “Input-Output Hidden Markov Model, IOHMM”

4.4 Clasificador bietapa basado en Modelo Oculto de Markov y RBF. 117

existe una variable yt que depende tanto del estado oculto en el que se encuentra el modelo,qt, como de una variable de entrada observable, xt, [Bengio 96].

La variable de entrada representa el proceso observado, por lo que en la practicapuede existir cierto preprocesamiento asociado al mismo; mientras que la variable de salidarepresenta las clases.

La distribucion conjunta de estado y variables de salida condicionadas a las variablesde entrada vienen dada por:

P (q1:T , y1:T |x1:T ) = P (y1|x1, q1)P (q1|x1)T∏

t=2

P (yt|xt, qt)P (qt|xt, qt−1) (4.158)

Cuya representacion grafica se muestra en la figura 4.18 [Lauritzen 96].

Figura 4.18: Esquema del modelo entrada-salida.

Por lo tanto se comprueba que un Modelo Oculto de Markov de entrada-salida quedadefinido por la probabilidad de transicion de estado P (qt|xt, qt−1) y la probabilidad deemision P (yt|xt, qt); siendo la principal diferencia con los MOM’s tradicionales el vincularfuncionalmente estas funciones de probabilidad con la variable de entrada xt, para locual se puede utilizar tecnicas de optimizacion no lineal [Lauzon; 01], en donde la funcionde distribucion de probabilidad de la transicion de estado dependiente de la variable deentrada xt se modela como:

p(qt = i|xt, qt−1 = j) =ezi∑k ezk (4.159)

En donde:

zk =W∑

j=0

wkjf( U∑

i=0

ujixit

)(4.160)

Siendo f una funcion no lineal.

118 Tipologıa de clasificadores.

La distribucion de la funcion probabilidad de emision p(yt = c|xt, qt = j) se modelade forma semejante, observese el paralelismo con las redes neuronales tipo perceptronmulticapa [Bishop 95]. El denominador en la ecuacion 4.159 asegura que la funcion dedistribucion queda correctamente normalizada.

Este modelo permite especificar para cada instante de tiempo, t, la clase yt. Deforma alternativa, es posible asignar una sola etiqueta a todas aquellas secuencias deentrenamiento que, siendo de tamano T , provienen de una misma clase.26

4.4.4.5. Clasificacion continua utilizando Modelos Ocultos de Markov deentrada-salida.

En este tipo de modelo, por cada secuencia de entrada, xt, de duracion T , se deseaobtener la clase o patron al que mas se aproxima; por lo que las secuencias utilizadasdurante el proceso de entrenamiento llevan asociada informacion de la clase a la quepertenecen, formando el binomio: (xt, yt), por lo que la funcion de probabilidad objetivoen forma logarıtmica es:

L(λ) = log

M∏m=1

P (ym1:T |xm

1:T , λ) (4.161)

En donde λ representa a los parametros del modelo, y m representa la m−esimasecuencia del conjunto de entrenamiento.

Una vez fijados los parametros del modelo λ, se asignara una nueva secuenciaentrenamiento a la clase c∗ de modo tal que:

c∗ = argmaxCP (y1 = C, . . . , yT = C|λ) (4.162)

Una aproximacion comun para maximizar la funcion de probabilidad, considerandolos parametros del modelo λ, es mediante el algoritmo de Esperanza - Maximizacion(EM) [McLachlan 97][Nabney 02]. Sin embargo el paso de Maximizacion no puedeser llevado a cabo en forma cerrada debido a las limitaciones de las funciones dedensidad de probabilidad asociadas a las transiciones y emisiones, por lo que se utilizauna variante de dicho algoritmo, denominada Algoritmo de Expectacion-MaximizacionGeneralizado,GEM, [McLachlan 97], en el que para la iteracion i−esima se realizan lossiguientes pasos:

1. Paso de Expectacion. Resuelve la ecuacion:

Q(λ, λi−1) = E(logP (q1:T , y1:T |x1:T , λ))P (q1:T ,y1:T |x1:T ,λi−1) (4.163)

26Todas aquellas secuencias menores de T son separadas bien para su descarte final o bien para formaruna secuencia de tamano apropiado.

4.4 Clasificador bietapa basado en Modelo Oculto de Markov y RBF. 119

2. Paso de Maximizacion. Modifica el valor de los parametros del modelo λ de modoque:

Q(λi, λi−1) ≥ Q(λ, λi−1) (4.164)

De este modo se asegura que la semejanza no decrezca en cada iteracion y que lasecuencia de modelos {λi} converge a un mınimo local λ∗.

La ecuacion 4.163 puede expresarse como:

Q(λ, λi−1) =T∑

t=1

E(log(P (yt|xt, qt, λ)))P (q1:T ,y1:T |x1:T ,λi−1) +

+T∑

t=2

E(log(P (qt|xt, qt−1, λ)))P (qt−1:T |x1:T ,y1:T ,λi−1) +

+E(log(P (q1|x1, λ)))P (q1|x1:T ,y1:T ,λi−1) (4.165)

En donde se observa que el paso de Expectacion necesita conocer P (qt|x1:T , y1:T , λi−1) yP (qt−1:T |x1:T , y1:T , λi−1), siendo ambas probabilidades marginales una forma de inferenciadel modelo, la cual se puede obtener a traves de las formulas 4.166, [Bengio 96]

Recursion hacia delante.

P (qt|x1:t, y1:t) ∝ P (qt, yt|x1:t, y1:t−1) =

= P (yt|x1:t, qt, y1:t−1)P (qt|x1:t, y1:t−1) =

= P (yt|x1:t, qt)∑qt−1

P (qt−1:t|x1:t, y1:t−1) =

= P (yt|xt, qt)∑qt−1

P (qt|x1:t, qt−1, y1:t−1)P (qt−1|x1:t, y(1 : t − 1)) =

= P (yt|xt, qt)∑qt−1

P (qt|xt, qt−1)P (qt−1|x1:t−1, y(1 : t − 1)) (4.166)

En donde la constante de proporcionalidad se determina por normalizacion.

Recursion hacia atras. Calcula p(qt, y1:T |x1:T ) en funcion de p(qt+1|x1:T , y1:T )

P (qt|x1:t, y1:t) =∑qt+1

P (qt:t+1|x1:t, y1:t) =

=∑qt+1

P (qt|x1:t, qt+1, y1:t)P (qt+1|x1:t, y(1 : t)) =

=∑qt+1

P (qt|x1:t+1, qt+1, y1:t)P (qt+1|x1:t, y(1 : t)) (4.167)

120 Tipologıa de clasificadores.

El termino P (qt|x1:t+1, qt+1, y1:t) puede calcularse como:

P (qt|x1:t+1, qt+1, y1:t) ∝ P (qt:t+1|x1:t+1, y1:t) =

= P (qt+1|x1:t+1, qt, y1:t)P (qt|x1:t+1, y(1 : t)) =

= P (qt+1|xt+1, qt)P (qt|x1:t, y(1 : t)) (4.168)

En donde como en el caso anterior la constante de proporcionalidad se determinapor normalizacion.

La actualizacion de los parametros del modelo se realiza utilizando el metodo dedescenso del gradiente [Bishop 95][Nabney 02]

λi = λi−1 + αδQ(λ, λi−1)

δλ

∣∣∣λ=λi−1

(4.169)

En donde α es el parametro de entrenamiento, que puede ser determinado utilizandoun conjunto de validacion. Las derivadas de logP (yt|qt, xt, λ), logP (qt|qt−1, xt, λ) ylogp(q1|x1, λ) con respecto a los parametros del modelo se calculan empleando la reglade la cadena (algoritmo de propagacion hacia atras [Rabiner 89]).

El procedimiento de entrenamiento descrito obliga a especificar la clase a la quepertenece cada una de las secuencias de entrada, optimizando la funcion objetivo:

log

M∏m=1

P (ym1 = cm, . . . , ym

T = cm|xm1:T , λ) (4.170)

En donde cM es la etiqueta de clase correcta. Durante la fase de test se calcula P (y1 =c, . . . , yT = c|x1:T , λ) para cada una de las clases, asignandose la secuencia x1:T a aquellaclase que presente el valor de probabilidad mas alto. Idealmente la distancia entre laprobabilidad de clasificar la secuencia en la clase correcta y clasificaciones incorrectas seincrementa en las iteraciones realizadas durante la fase de entrenamiento. La probabilidadde asignacion incorrecta viene dada por:

logM∏

m=1

C∑im=1,im �=cm

P (ym1 = im, . . . , ym

T = im|xm1:T , λ) (4.171)

Sin embargo, cuando se especifica la misma clase para varias secuencias de entrada sefuerza a que los recursos del modelo sean empleados para aprender esta caracterıstica,con la consecuencia de que el modelo se centra en aprender la prediccion de la mismaclase para cada intervalo de tiempo t, en lugar de centrarse en la clase que se predice.Para solucionar este problema o bien se reconsidera la funcion objetivo a maximizar, unaalternativa serıa:

log

M∏m=1

P (ym1 = cm, . . . , ym

T = cm|xm1:T , λ)∑C

im=1 P (ym1 = im, . . . , ym

T = im|xm1:T , λ)

(4.172)

o bien se utiliza el procedimiento de entrenamiento mostrado a continuacion.

4.4 Clasificador bietapa basado en Modelo Oculto de Markov y RBF. 121

4.4.4.6. Clasificacion de punto final utilizando Modelos Ocultos de Markovde entrada-salida.

Para evitar el problema de entrenamiento del metodo de clasificacion continua,existe un procedimiento alternativo en el que se asigna una misma clase a un todo unconjunto de secuencias de entrenamiento que provengan del mismo patron. El algoritmo deentrenamiento concatena las secuencias propuestas asignando una unica etiqueta de salidade tal modo que t �= T lo que implica que P (yt|x1:T ) = P (yt|x1:t), o lo que es lo mismo,informacion futura de la secuencia de entrada no es considerada en la determinacion de laprobabilidad a posteriori de la clase. En este caso, el entrenamiento maximiza la siguientefuncion de semejanza logarıtmica:

L(λ) = logM∏

m=1

P (ymT |xm

1:T , λ) (4.173)

Al igual que en el caso anterior, una vez entrenado el modelo, una nueva secuenciade entrada puede ser aplicada con la finalidad de encontrar la clase a la que con mayorprobabilidad pertenecerıa.

De forma analoga al procedimiento anterior se utiliza el algoritmo GEM en ladeterminacion de los parametros del modelo.

1. Paso de Expectacion. Resuelve la ecuacion:

Q(λ, λi−1) = E(logP (q1:T , yT |x1:T , λ))P (q1:T |x1:T ,yT ,λi−1) (4.174)

2. Paso de Maximizacion. Modifica el valor de los parametros del modelo λ de modoque:

Q(λi, λi−1) ≥ Q(λ, λi−1) (4.175)

La ecuacion 4.175 puede expresarse como:

Q(λ, λi−1) = E(log(P (yT |xT , qT , λ)))P (qT |x1:T ,yT ,λi−1) +

+T∑

t=2

E(log(P (qT |qT−1, xT , λ)))P (qt−1:T |x1:T ,yT ,λi−1) +

+E(log(P (q1|x1, λ)))P (q1|x1:T ,yT ,λi−1) (4.176)

En donde se observa que el paso de Expectacion necesita conocerP (qt|x1:T , yT , λi−1) y P (qt−1:T |x1:T , y1:T , λi−1), las cuales pueden ser calculadas comosigue:

P (qt|x1:T , yT ) ∝ P (qT , yt|x1:T ) =

= P (yT |xT , qT )∑qT−1

P (qT |xT , qT−1)P (qT−1|x1:T−1) (4.177)

122 Tipologıa de clasificadores.

En donde P (qt|x1:t), (t < T ) se obtiene la siguiente iteracion hacia delante:

P (qt|x1:t) =∑qt−1

P (qt|xt, qt−1)P (qt−1|x1:t−1) (4.178)

Mientras que P (qt|x1:T , yT se obtiene a traves de la iteracion hacia atras:

P (qt|x1:T , yT ) =∑qT−1

P (qT |x1:T , qt+1yT )P (qt+1|x1:T−1, yT ) =

=∑qt+1

P (qt|x1:t+1, qt+1)P (qt+1|x1:T , yT ) (4.179)

En donde:

P (qt|x1:T+1, qt+1) ∝ P (qt:t+1|x1:t+1) =

= P (qt+1|xt, qt)P (qt|x1:t) (4.180)

4.4.5. Consideraciones practicas en la implementacion de ModelosOcultos de Markov.

En las secciones anteriores se ha considerado tanto la teorıa basica como distintasvariaciones en la estructura del Modelo Oculto de Markov. En esta seccion se describebrevemente los problemas practicos mas importantes a resolver en la implementacion deModelos Ocultos de Markov, como son: el escalado, la consideracion de multiples secuenciasde observacion, la estimacion de los parametros iniciales del modelo, el efecto de secuenciasde datos insuficientes, o la eleccion del tipo de modelo. Estos problemas se han tenido encuenta en la toolbox de Matlab utilizada en la realizacion de los experimentos, veaseapartado 5.6.4.

4.4.5.1. Escalado.

Considerando las formulas de reestimacion se observa que son sumatorios que contienenterminos de la forma:

t−1∏s=1

aqsqs+1

t∏s=1

bqs(Os)

Ya que tanto a como b son terminos menores a 1, se comprueba que cuando t alcanzavalores altos, por ejemplo 10 o mas, cada termino α tiende exponencialmente a cero; concadenas de longitud suficiente el calculo de αt(i) llega a exceder el rango de precisionde cualquier computadora, incluso empleando doble precision, de lo que se deduce quela unica forma razonable de realizar el calculo de los parametros del modelo implique laincorporacion de un proceso de reescalado.

El metodo basico de escalado consiste en multiplicar αt(i) por un coeficiente de escalaindependiente de i, es decir que solo dependa de t, con el objetivo de mantener el valorescalado de αt(i) dentro del rango dinamico de calculo de la computadora para 1 ≤ t ≤ T .Procedimiento semejante se realiza con los coeficientes βt(i).

4.4 Clasificador bietapa basado en Modelo Oculto de Markov y RBF. 123

4.4.5.2. Multiples secuencias de observacion.

En el caso de modelos izquierda-derecha es preciso utilizar mas de una secuencia deobservacion en la estimacion de los parametros debido a las restricciones en ellos impuestas,ya que la naturaleza transitoria de los estados dentro del modelo solo permite un numerolimitado de observaciones.

Denominando el conjunto de las K secuencias observadas como:

O = [O(1), O(2), . . . , O(k)] (4.181)

Y asumiendo que cada secuencia de observacion es independiente del resto de secuencias,el objetivo es ajustar los parametros del modelo λ que maximicen:

P (O|λ) =K∏

k=1

P (O(k)|λ) =K∏

k=1

Pk (4.182)

Como las formulas de reestimacion se basan en la frecuencia de ocurrencia de losdiferentes eventos, las formulas de reestimacion con multiples secuencias de observacionse modifican anadiendo juntas las frecuencias de ocurrencia individual de cada secuencia,obteniendose:

aij =

∑Kk=1

1Pk

∑Tk−1t=1 αk

t (i)aijbj(O(k)t+1)β

kt+1(j)∑K

k=11

Pk

∑Tk−1t=1 αk

t (i)βkt (j)

(4.183)

bj(l) =

∑Kk=1

1Pk

∑Tk−1t=1,Ot=xt

αkt (j)βk

t (j)∑Kk=1

1Pk

∑Tk−1t=1 αk

t (j)βkt (j)

(4.184)

No siendo preciso reestimar πi ya que:

π1 = 1, πi = 0, i �= 1 (4.185)

4.4.5.3. Estimacion de los parametros iniciales.

Desde un punto de vista teorico, las ecuaciones de reestimacion proporcionan valorespara los parametros del modelo que corresponden con un maximo local de la funcion desemejanza; por lo que es importante elegir los parametros iniciales de modo tal que estemaximo local coincida con el maximo global.

Por regla general no existe un metodo directo, sin embargo la experiencia demuestraque tanto inicializacion aleatoria (sujeta a las restricciones estocasticas, como a que losvalores iniciales sean distintos de cero) como estimaciones iniciales uniformes de π y A

son validas para dar reestimaciones utiles de dichos parametros en la gran mayorıa de lasaplicaciones. Sin embargo para los parametros asociados a estimacion de observaciones B

una buena estimacion inicial es importante para el caso de sımbolos discretos y esencialen el caso de observaciones continuas. Estas estimaciones iniciales se pueden conseguirmediante: segmentacion manual de secuencias de observacion en estados que promedianobservaciones entre los mimos, segmentacion y promediado de observaciones a traves demetodos de que maximicen la semejanza, metodos de programacion dinamica como k-means y clustering.

124 Tipologıa de clasificadores.

4.4.5.4. El efecto de datos de entrenamiento insuficientes.

Otro problema asociado con el entrenamiento de MOM’s, vıa metodos de reestimacionde parametros, es que la secuencia de observaciones empleada es finita, por lo que a menudosuele haber un numero insuficiente de ocurrencias para los diferentes eventos del modelo,[Jelinek 80], [Rabiner 89].

Una solucion podrıa ser aumentar el tamano del conjunto de las secuencias deobservacion, lo cual no siempre es posible. Otra solucion serıa reducir el tamano delmodelo, considerando bien menos estados, bien menos sımbolos observables por estado, obien anadiendo restricciones adicionales; aunque lo anterior siempre es posible a menudoexisten consideraciones fısicas que fundamentan la eleccion del tamano del modelo. Unatercera solucion es interpolar el conjunto de estimacion de parametros de un modelo conotro conjunto de parametros de un modelo para el cual existe una cantidad adecuada dedatos de entrenamiento[Jelinek 80]. La idea es disenar simultaneamente ambos modelos,de modo que existan suficientes datos para estimar los parametros del modelo menor einterpolar las estimaciones de parametros de los dos modelos.

λ = ελ + (1 − ε)λ′ (4.186)

En donde λ representa los parametros del modelo completo, λ′ representa al modeloreducido, y ε es el coeficiente de ponderacion entre ambos modelos, de este modo si sedispone de un numero elevado de secuencias de entrenamiento ε → 1, mientras que si porel contrario el numero es reducido ε → 0 [Jelinek 80]

4.4.5.5. Eleccion del modelo.

Uno de los puntos mas importantes en la implementacion de MOM’s es la eleccion dela arquitectura del modelo:

Tamano: numero de estados que se consideran.

Tipo: ergodico, izquierda-derecha, rutas paralelas, entrada-salida, etc.

Conjunto de sımbolos de observacion: discreto o continuo; funciones de modelizacionsimples o mezcla de multiples F .

Eleccion de la parametrizacion de las funciones de observacion.

Desafortunadamente no existe una unica solucion o metodo que de forma sencilla yteoricamente correcta indique como se han de realizar estas elecciones. En la mayorıa de loscasos dependeran tanto del tipo de senal que se modele, ası como del ambito del problema;en algunas aplicaciones el tamano del modelo, aun siendo oculto, puede representar estadoscon cierta significacion fısica; en otros casos la consideracion temporal de la senal puededar lugar a que ciertas topologıas sean mas adecuadas que otras, al igual que ocurre conla eleccion de las funciones y parametros asociados a la modelizacion de las observaciones.

4.4 Clasificador bietapa basado en Modelo Oculto de Markov y RBF. 125

4.4.6. Descripcion del algoritmo de clasificacion bietapa.

En los apartados anteriores se ha descrito la base teorica y consideraciones practicasasociadas a la aplicacion de los Modelos Ocultos de Markov en el estudio de secuenciastemporales.

Aunque dichas tecnicas has sido aplicadas con exito en el area de reconocimiento delhabla mediante patrones temporales, su aplicacion en la tecnologıa de Interfaz CerebroComputador no es inmediata, debido a las caracterısticas intrınsecas que diferencianla senal de voz de la senal electroencefalografica, las cuales dan lugar a que, para sucaracterizacion, se prefieran patrones frecuenciales a los temporales.

Por tal motivo en esta tesis se propone un nuevo clasificador que aune la capacidadde identificacion y reconocimiento de las redes neuronales de tipo RBF, descrita en elapartado 4.3.2, con la capacidad de modelizacion de secuencias propia de los ModelosOcultos de Markov.

La figura 4.19 representa el diagrama de bloques del clasificador propuesto. En else puede observar como, la clasificacion de la senal electroencefalografica introducida,proviene de evaluar la probabilidad con la cual diferentes modelos ocultos de Markovgenerarıan la secuencia de asignaciones, proporcionada por la red neuronal, asociada a lasenal electroencefalografica.

Los modelos ocultos de Markov, tantos como actividades mentales entre las quese quiere discriminar, son previamente entrenados con secuencias de asignacionesprovenientes de dichas actividades cognitivas. La secuencia de asignaciones sonproporcionadas por una red neuronal, la cual recibe datos de senal tras ser preprocesados,normalizados y extraıda la combinacion de caracterısticas de la senal, tal y como se exponeen los subapartados siguientes.

4.4.6.1. Entrenamiento de la red neuronal.

La red neuronal considerada es de tipo RBF, Funcion de Base Radial. Esta categorıa deredes neuronales se caracterizan por su capacidad de interpolacion, ası como por aprenderla region del espacio de entrada en la que se presentan las muestras a aprender, vease elapartado 4.3.2.4. La funcion de activacion utilizada tiene la siguiente expresion:

φ(x) = e−(x2); x = (wp − pp)sc (4.187)

La figura 4.20 muestra la arquitectura de red neuronal empleada.Las neuronas de la capa oculta, durante la fase de entrenamiento, se encargan de

aprender la localizacion de los vectores de entrada; mientras que en la fase de utilizacion,ante la presentacion de un nuevo vector de entrada, calcula la distancia entre este y laslocalizaciones de posiciones aprendidas, los resultados de las funciones de activacion de lasneuronas mas cercanas al vector propuesto seran mas altos a los mostrados por neuronasmas alejadas, el parametro sc controla la amplitud de la zona de influencia de cada neurona.

126 Tipologıa de clasificadores.

Figura 4.19: Algoritmo de clasificacion bietapa.

De estudios previos se concluye que este tipo de red neuronal presenta un mejorcomportamiento que otros tipos de redes neuronales como por ejemplo MLP o PNN[Martınez 08].

Para el proceso de aprendizaje se consideran vectores de caracterısticas provenientesde la senal EEG, capturada cuando el usuario realiza una de las diferentes actividadesmentales entre las que se quiere discriminar. De toda la poblacion de caracterısticasdisponible por experimento, el 75 % se emplea para formar el conjunto de entrenamiento,mientras que el 25 % restante se emplea para el conjunto de validacion. Tras ladeterminacion de los conjuntos de aprendizaje y validacion se obtienen las constantesque permiten definir la normalizacion de los datos de entrada, posteriormente se obtieneuna matriz de transformacion con objeto de reducir la dimension del espacio de entrada dela red neuronal [Martınez 07] [Martınez 08], dicha matriz permite proyectar los vectores de

4.4 Clasificador bietapa basado en Modelo Oculto de Markov y RBF. 127

Figura 4.20: Arquitectura de la red neuronal RBF.

caracterısticas en la direccion de los ejes sobre los que mejor se discriminan las actividadescognitivas consideradas. Esta matriz de proyeccion se calcula de modo tal que el 90 % dela variabilidad de las caracterısticas se mantenga, el 10 % restante de la variabilidad seatribuye a ruido.

El proceso de entrenamiento permite el crecimiento dinamico del numero de neuronasde entrada que conforman la red neuronal de modo que se minimice el efecto de sobre-aprendizaje, en la etapa de salida se utilizan tantas neuronas como actividades cognitivasa discriminar. Por lo que los parametros definitorios de la red neuronal y su proceso deaprendizaje son: sc (define la zona de influencia de cada neurona de la red), el numerode actividades cognitivas a discriminar, y el error objetivo de entrenamiento (goal). Elbloque asignador que sigue a la red neuronal en la figura 4.19, se encarga de evaluar lascomponentes del vector de salida de la red, detectar el que es mayor y si su valor es superiora un determinado nivel de umbral δ, asignar la senal recibida al orden del componentemayor del vector; si por el contrario resulta que ninguna de las componentes supera el valorde umbral, la senal introducida no sera asignada a ninguna de las actividades propuestas.Una vez entrenada la red neuronal, cuando se introduce un vector de caracterısticas nuevo,la actividad cognitiva que haya presentado muestras de aprendizaje mas proximas al vectorde entrada presentado tendra un nivel de activacion mas alto, y la salida correspondientetendra un valor mayor al de las otras actividades mentales, vease fig.4.21.

4.4.6.2. Entrenamiento de los Modelos Ocultos de Markov.

Para el entrenamiento de los modelos ocultos de Markov se vuelven a emplear lasmuestras de senal EEG tal y como se muestra en la figura 4.22.

Para cada una de las actividades cognitivas se procede a entrenar un modelo con lassiguientes caracterısticas:

Numero de estados ocultos: 4Numero de objetos diferentes observables: 4

128 Tipologıa de clasificadores.

Figura 4.21: Entrenamiento de la red neuronal RBF.

Figura 4.22: Entrenamiento de los MOM’s.

Para el entrenamiento se utilizan cadenas de nueve elementos de longitud. En unexperimento previo con muestras sinteticas se concluyo que la mayor tasa de clasificacionescorrectamente identificadas se conseguıa con cadenas de longitud de nueve elementospara la arquitectura del modelo propuesto. Tras el entrenamiento las probabilidadesde transicion entre estados y de observacion de los objetos quedan definidas. Medianteel algoritmo de Viterbi es posible determinar con que probabilidad una secuencia esproporcionada por un modelo.

4.4.6.3. Empleo del clasificador bietapa.

La implementacion del algoritmo de clasificacion descrito en esta seccion se describeen el apartado 5.6.4, a la vez que los resultados obtenidos de su utilizacion por variosvoluntarios se presentan en el apartado 6.4, la conclusion mas significativa que se obtieneen dicho apartado es que la capacidad de aprendizaje que se obtiene con este clasificador essuperior a la obtenida con un clasificador basado en redes neuronales de tipo RBF, aunquecon el tamano del conjunto de datos utilizado para el aprendizaje el clasificador tiende alsobre-aprendizaje de dicho conjunto, por lo que su capacidad de generalizacion no es todolo optima que cabrıa esperar atendiendo a los resultados de la fase de aprendizaje.

4.5 Clasificador basado en Maquina de Soporte de Vectores. 129

4.5. Clasificador basado en Maquina de Soporte de

Vectores.

4.5.1. Introduccion a las Maquinas de Soporte de Vectores.

Bajo la denominacion de Maquinas de Soporte de Vectores, MSV27, se englobaa un conjunto de metodos de aprendizaje supervisado, pertenecientes a la familia declasificadores lineales generalizados, aplicables tanto en problemas de clasificacion comode regresion [Cristianini 05b], [Burges 98], [Ivanciuc 07].

Su estructura se basa en una red estatica de nucleos,28 los cuales operan sobre vectoresde caracterısticas que han sido transformados a un espacio de dimension mayor a la delespacio de caracterısticas original [Cristianini 05a], [Gunn 98], [Gunn 03].

Las MSV’s se emplean tanto en aplicaciones de clasificacion como en regresion, sucaracterıstica mas importante es su buena capacidad de generalizacion, basada en ladeterminacion del hiperplano que da lugar a la maxima distancia de separacion entrelos vectores transformados [Cristianini 05b],[Castro 03]. Esta distancia de separacion seobtiene mediante la construccion de dos hiperplanos paralelos al hiperplano de separacionoptima, localizados a ambos lados del mismo y que contengan al menos a uno de losvectores transformados, denominado vector soporte, vease fig.4.23; se asume que cuantomayor sea esta distancia, mejor sera la capacidad de generalizacion del clasificador[Burges 98].

Hiperplano de separacionoptima

´ ´

1U

Rn

2

1

Φ ( . )

X

X Rm

m < n

2U

H1

H0

H2

Margen

Espacio de caracteristicastransformadoEspacio de caracteristicas original´

´

Figura 4.23: Funcionamiento MSV.

Las operaciones que realiza una MSV en clasificacion son [Gunn 98] [Cristianini 05a]:

Transformacion de los datos o vectores de caracterısticas de entrada a un espacio demayor dimension a traves de una funcion Φ.

27En ingles la denominacion es “Support Vector Machine (SVM).”28Tambien denominados como “Kernels”

130 Tipologıa de clasificadores.

El objetivo es formular el problema de modo que el procedimiento de clasificaciontransforme implıcitamente los datos operando con funciones kernel, K.

Calculo del hiperplano optimo que maximiza la distancia entre las clasesconsideradas. Si los datos son linealmente separables, el hiperplano obtenidomaximiza el margen de separacion, a la vez que minimiza la funcion de penalizacionque considera las clasificaciones incorrectas.

Las MSV’s representan la extension a modelos no lineales del algoritmo desarrolladoen 1963 por Vapnik y Lerner [Vapnik 63], basado en la teorıa de aprendizaje estadısticode Reconocimiento de Patrones, utilizando la dimension de Vapnik-Chervonenkis,(V C),como evaluador de la complejidad de dicho algoritmo [Chervonenkis 74].

En un corto intervalo de tiempo se han desarrollado numerosas aplicaciones basadasen MSV en campos como [Ivanciuc 07]:

Farmacologıa: empleandose para el diseno de medicamentos en la discriminacionentre inhibidores y desinhibidores, o en la prediccion de propiedades biologicas, fısicasy quımicas de los mismos.

Quimiometrıa: en la optimizacion de separacion cromatografica, o en la prediccionde la concentracion de compuestos a traves de muestras de analisis espectral.

En sensores: aplicandose a la prediccion cualitativa y cuantitativa de sus medidas.

Ingenierıa quımica: usandose en la modelizacion y deteccion de fallos de procesosindustriales.

En minerıa de datos: para el reconocimiento automatico de informacion cientıfica.

En clasificacion de senal EEG se ha aplicado en experimentos “Off-line” para el controlde dispositivos externos; obteniendose, para el mejor de los casos y bajo condiciones delaboratororio, tasas de clasificacion correcta cercanas al 95 % [Nicolau 08] y [Sarcinelli 09].

4.5.2. Descripcion del clasificador lineal optimo.

El clasificador lineal optimo se basa en la seleccion del hiperplano, H0, que actuandocomo frontera de separacion entre las clases consideradas, maximiza la distancia a losejemplares mas proximos de dichas clases, denominandose a estos datos “vectores soporte”,sobre los mismos se dispondran dos hiperplanos, H1 y H2, paralelos al hiperplano H0, ohiperplano de separacion optima.

Los clasificadores basados en MSV se caracterizan por su buena capacidad degeneralizacion, directamente relacionada con la distancia entre los hiperplanos H1 yH2, o margen; ası como por minimizar el efecto de sobre-aprendizaje del conjunto deentrenamiento, del que son suceptibles otros metodos de aprendizaje como es el caso declasificadores basados en redes neuronales[Bishop 95], ya que con las MSV’s durante elproceso de entrenamiento solo se aprenden los vectores soporte, vease figura 4.24.

4.5 Clasificador basado en Maquina de Soporte de Vectores. 131

Hiperplano optimo´

MargenVectoressoporte

Figura 4.24: Seleccion del hiperplano optimo.

4.5.3. Descripcion del problema de optimizacion lineal.

Dado un conjunto de datos o vectores de entrada x ∈ Rn de las diferentes clases y ∈ N,

se desea encontrar el valor de los parametros del hiperplano: {w, b}, que da lugar a lamayor separacion del hiperplano a dichas clases.

Matematicamente se obtiene la expresion recogida en la ecuacion 4.188.

wxi + b ≷ yi /

{yi = 1 ∀xi ∈ Ci = Ayi = −1 ∀xi ∈ Ci = B

⇒ (4.188)

⇒ ∃(w∗, b∗) / w∗x + b∗ = 0 Hiperplano optimo

Aunque para el desarrollo formal se empleen solo dos clases: {A,B}, las conclusionesson extrapolables para el caso de multiples clases bajo el paradigma de uno contra uno, ouno contra todos, generando tantos clasificadores como clases.

El mejor hiperplano, para la clasificacion de nuevos datos, es aquel cuya distancia deseparacion a los vectores vecinos de ambas clases sea maxima.

Al hiperplano, H0, ası obtenido se le denomina hiperplano de separacion optima, para elcual el margen es maximo. Este margen se obtiene como la distancia entre dos hiperplanos,H1 y H2, paralelos a H0, que contienen al menos a un vector de cada clase, denominadosvectores soporte.

La expresion matematica de H1 y H2 se muestra en las ecs.: 4.189 y 4.190.H1 : wx− b = 1 (4.189)

H2 : wx− b = −1 (4.190)

Si los vectores de entrada son linealmente separables, es posible elegir dos hiperplanos entrelos que no haya datos y maximizen la distancia entre ellos [Cristianini 05b], [Burges 98],[Gunn 98].

132 Tipologıa de clasificadores.

Ya que geometricamente el vector w es perpendicular al hiperplano que define, y ladistancia del hiperplano al origen del sistema de coordenadas viene dada por la ec. 4.191.

d =b

|w| (4.191)

Utilizando las ecs. 4.189 y 4.190 se obtiene que la distancia entre H1 y H2 es:

d =2|w| (4.192)

Por lo que el objetivo de maximizar la distancia de separacion entre ambos hiperplanoses equivalente a minimizar |w|. A la vez que la solucion propuesta debe evitar que hayavectores de entrada dentro de la region entre ambos hiperplanos, ec. 4.193.

yi(wxi − b) ≥ 1, 1 ≤ i ≤ n. (4.193)

Todo lo cual da lugar a la expresion del siguiente problema de optimizacion 29:

Minimizar Ω(w) = 12 |w|2 (4.194)

Considerando la restriccion yi(wxi − b) ≥ 1, 1 ≤ i ≤ n. (4.195)

Para el cual, en su resolucion, se utiliza el metodo de los multiplicadores de Lagrange,dando lugar a la siguiente funcion lagrangiana, ec. 4.196.

L(w, b, α) =12wT w −

N∑i=1

αi[yi(wT xi + b) − 1] (4.196)

Cuya resolucion en el punto optimo da lugar al sistema de ecuaciones 4.197 y 4.198,resoluble si los datos son linealmente separables, asegurando que el mınimo encontrado esun mınimo global.

δLδw

= 0 → w =N∑

i=1

αiyixi (4.197)

δLδb

= 0 → w =N∑

i=1

αiyi = 0 (4.198)

Observese la analogıa de la ecuacion 4.197 con la solucion del perceptron.Las ecuaciones anteriores dan lugar a:

wT w = wTN∑

i=1

αiyixi =N∑

i=1

N∑j=1

αiαjyiyjxixj (4.199)

Que sustituyendo en la ec.4.196 hacen que la funcion a maximizar Q(α) sea:

J(w, b, α) = Q(α) =N∑

i=1

αi − 12

N∑i=1

N∑j=1

αiαjyiyjxixj (4.200)

29El factor 12

se introduce por conveniencia para el desarrollo posterior.

4.5 Clasificador basado en Maquina de Soporte de Vectores. 133

Estando sujeta a las restricciones:

N∑i=1

αiyi = 0 (4.201)

αi ≥ 0 i = 1, ..., N.

En donde se puede demostrar que solo los αi correspondientes a vectores soporte sondistintos de cero.

De todo lo cual se deduce que el hiperplano de separacion optima, H0, solo dependede los vectores soporte provenientes del conjunto de entrenamiento.

Una vez hayados los valores α∗i se obtienen los coeficientes del hiperplano:

α∗i ⇒ w∗ =

N∑i=1

α∗i yixi → b∗ = 1 − w∗T xs (4.202)

4.5.4. Margen blando.

En el analisis anterior se considera que en la region comprendida entre los hiperplanosH1 y H2 no han de existir vectores, ni que estos pudieran ser erroneamente clasificados.Esta consideracion es muy exigente para su aplicacion en casos practicos, lo que motivo queen 1995 Corinna Cortes y Vladimir Vapnik propusieran una nueva idea de margen maximo[Vapnik 95], a la que denominaron “Margen Blando” la cual, para el caso en que no esposible encontrar un hiperplano de separacion optimo, H0, seleccionara aquel hiperplanoque separando los vectores de entrada tan limpiamente como fuera posible, permitieraerrores de clasificacion a la vez que maximiza la distancia al resto de los datos que hansido correctemante identificados, vease la figura 4.25. Esta nueva variante introduce unnuevo conjunto de variables, denominadas “variables de holgura”: hi, i = {1, ..., N}, quepermiten ponderar el grado de desclasificacion de cada vector, tal que:

yi(wT xi + b) ≥ 1 − hi, i = 1, . . . , N (4.203)

En donde:

hi ≥ 0 ∀i ⇒{

0 ≤ hi ≤ 1 → clasificacion correcta.hi > 1 → clasificacion incorrecta.

(4.204)

Originando que la nueva funcion objetivo, Ω(w, h), contenga un termino que penalizaa las variables de holgura, convirtiendose la optimizacion en un balance entre el mayormargen y el error de penalizacion.

En caso de que la funcion de penalizacion sea lineal, la funcion objetivo (ec.4.194) setransforma en:

Minimizar Ω(w, h) = 12 |w|2 + C

∑Ni=1 hi (4.205)

Considerando la restriccion yi(wxi − b) ≥ 1, 1 ≤ i ≤ n. (4.206)

134 Tipologıa de clasificadores.

Siguiendo un proceso de resolucion semejante al seguido con anterioridad, da lugara que en el problema dual las variables de ajuste desaparezcan, manteniendose solo laconstante C como restriccion adicional en los multiplicadores de Lagrange, la cual controlael compromiso entre complejidad del modelo y el numero de datos no separables, estaconstante se especifica empıricamente mediante procedimiento de validacion cruzada.

1

1

h

h

j

i

w

Figura 4.25: Separacion lineal: margen blando.

Funciones de penalizacion no lineales tambien han sido propuestas, sobre todo enaquellos casos donde es preciso minizar el efecto de muestras anomalas; presentan elinconveniente de aumentar la complejidad de la resolucion del problema de optimizacion,pues se tiende a perder la convexidad, siendo mas complejo encontrar una solucion global.

4.5.5. Descripcion del clasificador no lineal.

Hasta ahora se ha descrito un algoritmo de clasificacion lineal, a excepcion de lamodificacion de margen blando, lo que da lugar a que el numero de aplicaciones practicasdel mismo sea reducido. Esto motivo que, para aquellos problemas de clasificacion deconjuntos de datos no separables linealmente, Bernhard Boser, Isabelle Guyon y VladimirVapnik, propusieran en 1992 [Vapnik 92] un nuevo tipo de clasificador, que tras latransformacion a traves de una funcion no lineal Φ(.) de los conjuntos de datos originalesa conjuntos de datos en espacios de caracterısticas transformados, de dimension superior ala del espacio de caracterısticas original, y separables linealmente, emplearan el algoritmode determinacion de hiperplano optimo, H0, como metodo de separacion de dichosconjuntos. De este modo, aunque el clasificador se base en un hiperplano en el espaciode caracterısticas transformado, este puede ser no lineal en el espacio de caracterısticasoriginal.

4.5 Clasificador basado en Maquina de Soporte de Vectores. 135

El algoritmo resultante es formalmente similar al descrito con anterioridad, con ladiferencia de que el producto escalar de vectores original es reemplazado por una funcionde kernel K no lineal.

Descrito matematicamente, el procedimiento aplica una transformacion no lineal, Φ(.),a los datos de entrada transformandolos a un espacio de dimension superior:

Rn Φ−−−−→ R

m, m > n

en el cual es posible realizar una separacion lineal de los datos transformados.

Figura 4.26: Separacion no lineal.

Por lo que, teniendo en cuenta el desarrollo del procedimiento de optimizacion linealanterior y la consideracion realizada para margen blando, la funcion objetivo a minimizar,Ω(w, h), es equivalente a la considerada en la ec. 4.205:

Ω(w, h) =12wT w + C

N∑i=1

hi (4.207)

Teniendo en cuenta que en las restricciones equivalentes a la ec. 4.206, la funcion detransformacion Φ(x) sustituye al vector de datos x, se da lugar a:

yi(wT Φ(xi) + b) ≥ 1 − hi, i = 1, . . . , N (4.208)

hi ≥ 0 ∀i

Obteniendose los parametros del hiperplano {w, b} en el nuevo espacio decaracterısticas R

m.Hay que tener en cuenta que la transformacion explıcita, Φ(x), es costosa en caso

de que m sea elevada, por lo que se buscan alternativas para no tener que realizar latransformacion explıcita de cada dato, dando lugar a las denominadas funciones KernelK, mencionadas en 4.5.1.

136 Tipologıa de clasificadores.

4.5.5.1. Funcion Kernel K.

Teniendo en cuenta que en la ecuacion 4.200 de la formulacion dual, aparece solamenteel producto escalar de los datos, y que su equivalente para el caso de clasificacion no linealserıa la ecuacion 4.209.

Q(α) =N∑

i=1

αi − 12

N∑i=1

N∑j=1

αiαjyiyjΦ(xi)T Φ(xj) (4.209)

El objetivo es encontrar una funcion en la que el producto escalar de lastransformaciones de cada dato, Φ(x), sea igual a la transformacion del producto escalarde los datos, lo cual origina que no sea preciso transformar explıcitamente los datos deentrada para resolver el problema de optimizacion o entrenamiento de las MSV, ni quesea preciso el conocimiento exacto de la expresion de la funcion Φ(x).

K(xi · xj) = Φ(xi) · Φ(xj) (4.210)

A modo de ejemplo [Castro 03], [Cristianini 05a], sea a = (a1, a2):

Φ(a) = (a21, a

22,√

2a1a2,√

2a1,√

2a2, 1) (4.211)

El producto escalar de Φ(a) · Φ(b) sera:

Φ(a) · Φ(b) = a21b

21 + a2

2b22 + 2a1b1a2b2 + 2a1b1 + 2a2b2 + 1 = . . . (4.212)

= (a1b1 + a2b2 + 1)2 = (aTb + 1)2

De donde se deduce que una posible funcion kernel, K(a · b), asociada a Φ(a) serıa:

K(a · b) = (aTb + 1)2 = Φ(a)Φ(b) (4.213)

El teorema de Mercer indica si una funcion kernel cumple la propiedad de productoescalar y por tanto es util para una MSV [Cristianini 05b]

K(u,v) =∞∑m

amΦm(u)Φm(v), am ≥ 0 (4.214)

∫ ∫K(u,v)g(u)g(v)dudv > 0, g ∈ L2 (4.215)

Este teorema no indica sin embargo como construir las funciones Φ(x). La tabla 4.2recoge los tipos de funciones kernel mas utilizados [Gunn 98].

Las funciones compuestas por sumas y/o productos de funciones kernel tambien sonfunciones kernel [Cristianini 05b], [Burges 98], [Gunn 98].

4.5.6. Comparacion entre Maquinas de soporte de Vectores y RedesNeuronales.

La tabla 4.3 presenta una comparacion cualitativa entre clasificadores basados enMaquinas de Soporte de Vectores y Redes Neuronales Artificiales.

4.5 Clasificador basado en Maquina de Soporte de Vectores. 137

Tipo MSV. Funcion kernel. Comentario.

Polinomica. (xT y + 1)p El valor de p lo especifica el usuario.

RBF Gaus-sianas.

e−(|x−xi|2

2σ2 ) El valor de σ lo especifica el usuario y escomun a todas las funciones kernel

RBF Expo-neciales.

e−(|x−xi|2σ2 ) El valor de σ lo especifica el usuario y es

comun a todas las funciones kernel

Perceptronde 2 capas

tanh(β0xT xi + β1) Solo ciertos valores de β son validos

Serie deFourier.

sin(N+ 12)(x−y)

sin( 12(x−y))

El valor de N lo especifica el usuario.

Splines.∑N

r=0 xryr+ El orden de la curva k y el numero∑Ns=1(x − τs)k+(y − τs)k+ de los N puntos localizados en τs lo especifica

el usuario.

B splines. B2N+1(x − y) El valor de N lo especifica el usuario.

Tabla 4.2: Funciones Kernel.

MSV. Redes neuronales.Las funciones Kernel transforman losdatos de entrada a espacios de dimensionmuy superior.

Las capas ocultas transforman los datos aespacios de cualquier dimension.

El espacio de busqueda tiene solo unmınimo global.

El espacio de busqueda tiene multiplesmınimos locales.

El entrenamiento es muy eficiente. El entrenamiento es costoso.Clasificacion eficiente. Clasificacion eficiente.Se disena la funcion Kernel y el parametrode coste C.

Se disena el numero de capas ocultas ynodos.

Buen funcionamiento en problemas tipo. Buen funcionamiento en problemas tipo.Comportamiento muy robusto para gene-ralizacion, menor necesidad de heurısticospara entrenamiento.

Precisan controlar el sobre-aprendizaje.

Tabla 4.3: Comparacion entre SVM y Redes Neuronales.

138 Tipologıa de clasificadores.

4.5.7. Implementaciones.

Tal y como se puede dedudir de la secciones anteriores, los parametros del hiperplanode separacion optima, H0, se obtienen tras la resolucion de un problema de optimizacion;actualmente existen diferentes tipos de algoritmos especializados en la rapida resolucionde problemas de optimizacion aplicados a MSV.

Para el desarrollo del clasificador empleado en los resultados del capıtulo 6 se hanvalorado tres conjuntos de herramientas, “Toolboxes”, de distribucion gratuita paraMatlab:

1. Matlab Support Vector Machine Toolbox. Disponible en [Gunn 05]:

http://www.isis.ecs.soton.ac.uk/resources/svminfo/

2. SVM and Kernel Methods Matlab Toolbox. Disponible en [Canu 05]:

http://asi.insa-rouen.fr/ensignants/arakotom/toolbox/index.html

3. LIBSVM – A Library for Support Vector Machines. Disponible en [Chang 07]:

http://www.csie.ntu.edu.tw/cjlin/libsvm/

Eligiendose la segunda opcion por ser eficiente, disponer de una interfaz clara yadecuada documentacion, hay que destacar que junto con la primera opcion tambien sesuministran abundantes ejemplos.

La implementacion del algoritmo de clasificacion descrito en esta seccion se describeen el apartado 5.6.5, a la vez que los resultados obtenidos de su utilizacion por variosvoluntarios se presentan en el apartado 6.5, la conclusion mas significativa que se obtieneen dicho apartado es que los clasificadores basados en Maquinas de Soporte de Vectores queutilicen Kernels polinomicos de orden 4 o 5 presentan mejores resultados que los basadosen Kernels gaussianos.

Capıtulo 5

Procedimientos experimentales yaplicacion de demostracion.

En este capıtulo se describen las actividades cognitivas propuestas a modo deinterfaz, ası como los protocolos de preparacion del usuario y del equipo de adquisiciony procesamiento, que han sido empleados en la realizacion de los procedimientosexperimentales a cuyos resultados se les aplican las diferentes tecnicas de clasificacionpresentadas en el capıtulo 4. Por ultimo se presenta una propuesta de arquitectura parael empleo de la tecnologıa ICC en un dispositivo generico que ha sido implementada en laaplicacion de demostracion.

5.1. Protocolo preparacion del usuario.

Para que el registro de senal electroencefalografica presente una menor sensibilidad aperturbaciones causadas por ruido y artefactos, es preciso que sobre el usuario se realicenlas siguientes actividades:

1. Limpieza de la zona de cuero cabelludo sobre la que se dispondran los electrodos.El objetivo de esta actividad es mejorar la conductividad electrica de la zona,eliminando celulas de piel muerta, grasa y suciedad.

2. Aplicacion de gel conductor. Mediante la utilizacion de un gel conductor se aumentala conductividad en la zona de contacto del electrodo con la piel, lo que da lugar aregistros de senal con mayor amplitud.

3. Colocacion de los electrodos. Tal y como se ha indicado en el capıtulo 3, los electrodosse disponen en las proximidades de C3 y C4, dando lugar a dos canales diferenciales.

4. Medida de impedancia entre cada electrodo y el electrodo de referencia de masa delamplificador. Cuanto menor sea la impedancia de la fuente de origen de la senalmuestreada, mayor sera su inmunidad frente a perturbaciones causadas por ruidoelectromagnetico, por lo que se comprueba que la impedancia entre los electrodosactivos de los canales y el electrodo de referencia de masa del bio-amplificador seainferior a 4KOhms.

140 Procedimientos experimentales y aplicacion de demostracion.

Figura 5.1: Localizacion de los electrodos.

La eleccion de C3 y C4 como punto de localizacion de los electrodos se debe a que comodemuestran las investigaciones del equipo del Dr.S.J.Roberts [Penny 00] [Sykacek 03], oDr.J.Millan: [Babiloni 00], [Gerstner 04], [Millan 03]; es en esta zona encefalica en donde seregistran niveles de senal electroencefalografica mas altos, cuando se comparan actividadescognitivas en las que se ven involucrados ejercicios de imaginacion con ejercicios deplanificacion y realizacion de movimiento. Es ası mismo en esta zona donde se produceuna mejor deteccion de ritmos μ [Birch 00] [Lauer 00] [Pineda 00], relacionados con lospotenciales de desincronizacion y posterior sincronizacion asociados a la realizacion demovimiento, lo cual ha sido empleado por el equipo del Dr. Wolpaw para el desarrollo desu dispositivo ICC: [Wolpaw 07],[Wolpaw 02],[Wolpaw 00b], [Wolpaw 03].

Investigaciones realizadas por el equipo del Dr. Pfurtscheller, dirigidas hacia lalocalizacion de patrones geometricos de actividad cerebral cuando se realizan diferentestipos de tareas mentales, [Pfurtscheller 00], [Scherer 04], [Pfurtscheller 03]; ası comoası los trabajos de Dra.C.Neuper y Dr. N Bribaumer: [Obermaier 01b], [Blankertz 04],[Hinterberger 04], [Birbaumer 03], corroboran las localizaciones de los electrodos C3 y C4

como unas de las que mas capacidad de discriminacion poseen.

5.2. Descripcion del equipo de adquisicion y procesamiento.

El equipo de adquisicion y procesamiento se compone de los siguientes dispositivos, enlos que se ajustan los parametros indicados.:

Electrodos superficiales tipo Au-Cu. Impedancia entre el electrodo activo N y elelectrodo de referencia de masa del bio-amplificador: ZN ≤ 4KOhms.

Bio-amplificador. Modelo: g.BSamp Fabricante: g.tec. Filtro Notch de rechazo debanda sintonizado a 50 Hz. Filtro paso alto sintonizado a 0.5 Hz. [Guger 05].

Acumulador. Modelo: Akkupack. Fabricante: g.tec

Tarjeta de adquisicion. Modelo: PCI-MIO-16 E-4. Fabricante: National Instrument.Frecuencia de muestreo: Fs = 384Hz. Bloque de muestras considerado: N = 128.[Instruments 01]

PC para procesamiento de senal e interfaz con el usuario.

5.3 Descripcion de las actividades cognitivas. 141

Figura 5.2: Componentes del sistema.

Una vez realizado el conexionado y puesta en marcha de los elementos se procede aobservar la evolucion temporal de los cuatro canales de senal adquiridos:

Canal 1: Corresponde a los electrodos dispuestos en C ′3 y C ′′

3 .Canal 2: Corresponde a los electrodos dispuestos en C ′

4 y C ′′4 .

Canal 3: Electrodos dispuestos para registrar la actividad ocular.Canal 4: Canal sin electrodos conectados, permite tener una estimacion del nivel deruido interno presente en el bio-amplificador.

Tras la inspeccion temporal de la senal de cada uno de los canales se procede a observar laestimacion espectral de potencia de los mismos, se comprueba que la activacion del filtroNotch provoca una reduccion significativa de la componente presente en 50 Hz.

5.3. Descripcion de las actividades cognitivas.

Los dispositivos basados en la tecnologıa ICC endogenos parten de la hipotesis de queactividades cognitivas diferentes dan lugar a patrones de ondas electroencefalograficasdistintos, los cuales tras ser caracterizados e identificados permiten el control deldispositivo externo asociado.

Se ha escogido el siguiente conjunto de actividades cognitivas a efectos de podercomparar los resultados con los obtenidos por otros grupos de investigacion donde seutilizan actividades cognitivas equivalentes [Penny 00], [Perelmouter 00], [Cincotti 03].

Actividad matematica. Al usuario se le instruye para que piense en una operacionmatematica sencilla que necesite de su concentracion, por ejemplo la resta sucesivade un numero primo a una cantidad elevada.Imaginacion de movimiento. Al usuario se le indica que debe imaginar que mueve susextremidades superiores, en particular la mano derecha, pero sin que llegue a realizarel movimiento propiamente dicho. Un ejemplo serıa imaginar que esta tocando unaguitarra.Relax. En esta actividad al usuario se le sugiere que mantenga la mente en blanco,relajandose todo lo que pueda.1

1Resaltar que la parametrizacion e identificacion de la actividad de relax es novedosa, permitiendo unamejor identificacion y posterior clasificacion de los patrones de senal electroencefalografica asociados a lasactividades cognitivas.

142 Procedimientos experimentales y aplicacion de demostracion.

5.4. Descripcion del protocolo para el procedimiento Off-

line.

Mediante el proceso experimental “Off-line” se adquieren registros de senalelectroencefalografica mientras el usuario realiza las actividades cognitivas propuestas,sin que el sistema proporcione realimentacion de la tasa de discriminacion alcanzada.

En la figura 5.3 se presenta el flujograma de desarrollo del experimento.

Figura 5.3: Flujograma procedimiento “Off-line”.

5.4 Descripcion del protocolo para el procedimiento Off-line. 143

La finalidad de esta fase experimental es obtener un conjunto de registros de senalelectroencefalografica con el que verificar que, para el usuario considerado, es posiblediscriminar entre las actividades cognitivas propuestas, y a su vez puedan ser utilizadospara el entrenamiento de los clasificadores.

En cada sesion experimental el supervisor del experimento introduce en el sistema elnumero de replicas a realizar, Nrep

2 , y el numero de actividades cognitivas consideradasNact

3

Cada replica queda compuesta por tantos registros de senal electroencefalografica comonumero de actividades cognitivas se consideren, Nact. La duracion de cada registro es desiete segundos. Considerando que la frecuencia de muestreo es de FS = 384Hz y que cadaventana de analisis tiene una extension de N = 27 = 128 muestras, por cada registro seobtienen NW = 21 ventanas de analisis. Para cada replica, el sistema presenta en pantalla,de forma aleatoria, la actividad cognitiva en la que debe pensar el usuario. La adquisicionde senal comienza tras cinco segundos de presentacion del aviso de la actividad cognitivaen la que concentrase.

Durante el desarrollo del experimento el usuario se encuentra sentado en frente de lapantalla del sistema de adquisicion, a una distancia de 50 cm, con las manos en posicionvisible para el supervisor del experimento, quien comprueba que no se produce movimientoalguno de las mismas. El resto de dispositivos electronicos cercanos al experimento sondesconectados para evitar posibles perturbaciones.

2Por defecto se considera Nrep = 10.3Por defecto se considera Nact = 3.

144 Procedimientos experimentales y aplicacion de demostracion.

5.5. Descripcion del protocolo para el procedimiento On-

line.

En el proceso experimental“On-line” al usuario se le reali-menta informacion del proceso declasificacion de la senal adquiri-da en el instante inmediatamen-te anterior. En pantalla se mues-tra el icono objetivo, en formade cuadrado, dispuesto aleatoria-mente en la parte izquierda o enla derecha; un cursor, en formade rombo, se desplaza horizontal-mente dependiendo del resultadode la clasificacion.La figura 5.4 presenta el flujogra-ma de desarrollo del experimen-to. Se emplean las mismas acti-vidades cognitivas que en el pro-cedimiento “Off-line”, utilizandolos registros de senal previamenteadquiridos para entrenar un cla-sificador basado en redes neuro-nales de tipo RBF. El supervisordel experimento indica el nume-ro de actividades cognitivas con-sideradas, Nact, y el numero dereplicas a realizar, Nrep, ası mis-mo se realiza la asociacion de ac-tividad cognitiva con el sentidode movimiento, comunicandoseloverbalmente al usuario. La dura-cion del experimento es de sie-te segundos, presentando el iconoobjetivo con una antelacion decinco segundos. En cada replicael sistema presenta el icono obje-tivo aleatoriamente en la derechao en la izquierda de la pantalla.

Figura 5.4: Flujograma procedimiento “On-line”.

5.6 Procedimientos experimentales de clasificacion. 145

5.6. Procedimientos experimentales de clasificacion.

En esta seccion se muestran los diagramas de actividad [Arlow 05] empleados en losprocedimientos de aplicacion de las diferentes tecnicas de clasificacion presentadas en elcapitulo 4, cuyos resultados se recogen en el capıtulo 6.

En la figura 5.5 se muestra el diagrama asociado al procesamiento de los registros desenal electroencefalografica, que permite obtener los vectores de caracterısticas a partir delas muestras de senal EEG adquiridas.

Figura 5.5: Procedimiento de procesamiento registros EEG.

146 Procedimientos experimentales y aplicacion de demostracion.

5.6.1. Contraste estadıstico de poblaciones.

La figura 5.6 repre-senta el diagrama deactividad empleado enel procedimiento experi-mental que implementael contraste estadısticode poblaciones.

Observese que el pro-cedimiento se realizapara cada tipo diferen-te de ventana de pro-cesamiento, recuperan-do los vectores de ca-racterısticas a ellas aso-ciados. Para cada canalelectroencefalografico serealizan contrastes inde-pendientes de las po-blaciones de cada com-ponente del vector decaracterısticas, conside-rando parejas de activi-dades cognitivas, lo queda lugar a que el proce-so se reitere N veces:

N =(

32

)·2·7·6 = 252

Figura 5.6: Procedimiento estadıstico de comparacion de poblaciones.

5.6 Procedimientos experimentales de clasificacion. 147

5.6.2. Analisis Discriminante Lineal.

La figura 5.7 repre-senta el diagrama de ac-tividad asociado a laimplementacion del ex-perimento basado en latecnica de Analisis Dis-criminatorio Lineal.

Al igual que en el ca-so anterior, el procedi-miento experimental serealiza con los vectoresde caracterısticas obte-nidos tras el procesa-miento de las muestrasde senal electroencefa-lografica con cada unode los diferentes tipos deventas de procesamien-to.

Ası mismo, paradeterminar la poten-cia de discriminacionobtenida, con cadatipo de ventana deprocesamiento cuandose aplica la tecnicaLDA, se utiliza elcontraste estadısticode poblaciones sobre elvector de caracterısticastransformado.

Figura 5.7: Procedimiento de aplicacion de la tecnica LDA.

148 Procedimientos experimentales y aplicacion de demostracion.

5.6.3. Clasificadores basados en redes neuronales.

La figura 5.8 representa eldiagrama de actividad asocia-do al experimento que empleaclasificadores basados en re-des neuronales de tipo MLP,RBF y PNN. Por cada ti-po de clasificador se realizandos implementaciones, una deellas considera redes neuro-nales independientes por ca-da canal electroencefalografi-co, mientras que la segundaemplea una unica red neuro-nal que considera de formaconjunta ambos canales.

Figura 5.8: Procedimiento de aplicacion de clasificadores basadosen redes neuronales.

5.6 Procedimientos experimentales de clasificacion. 149

5.6.4. Clasificador bietapa RBF-MOM

La figura 5.9 representa el dia-grama de actividad de la implemen-tacion del experimento basado enel empleo del clasificador bietapaRBF-MOM.

La implementacion consta decuatro bloques principales. En elprimero se genera el conjunto de da-tos que se emplearan para el entre-namiento y prueba, considerando lostres tipos de actividades cognitivas.Como procedimiento de validacionse emplea el metodo de validacioncruzada, por lo que del total de se-siones de datos una de ellas se re-serva para validacion, empleando elresto para el entrenamiento, el pro-cedimiento se replica seleccionandosecuencialmente la sesion empleadapara validacion.

En el segundo bloque se realizael entrenamiento del preclasificadorbasado en redes neuronales de ti-po RBF. Posteriormente se proce-de al entrenamiento de tres modelosocultos de Markov, uno por activi-dad cognitiva considerada, partien-do de secuencias de preclasificacionde 9 elementos proporcionadas porel preclasificador RBF.

Por ultimo en el cuarto bloquese prueba el conjunto de vectoresde caracterısticas reservado para elproceso de validacion cruzada.

Figura 5.9: Procedimiento de aplicacion del clasificadorbietapa RBF-MOM.

150 Procedimientos experimentales y aplicacion de demostracion.

5.6.5. Clasificador basado en Maquinas de Soporte de Vectores.

La figura 5.10 representael diagrama de actividad dela implementacion del expe-rimento que emplea el clasi-ficador basado en Maquinasde Soporte de Vectores. Aligual que en los apartados an-teriores, en una primera eta-pa se realiza la carga de datosprovenientes de las activida-des cognitivas consideradas.

Posteriormente se proce-de a la determinacion de losparametros del kernel y de-terminacion de los conjuntosde datos para entrenamientoy prueba.

Se continua con el entre-namiento del clasificador, ba-sado en tres sub-clasificadoresbajo el paradigma de uno con-tra uno, ya que es mas selec-tiva que la comparacion unocontra el resto.

Por ultimo se realiza laprueba de rendimiento y guar-dado de datos.

Figura 5.10: Procedimiento de aplicacion del clasificador basado enMSV.

5.7 Descripcion de arquitectura dispositivo ICC. 151

5.7. Descripcion de arquitectura dispositivo ICC.

En esta seccion se presenta la propuesta de arquitectura a nivel de analisis para undispositivo ICC, la cual ha sido empleada en una aplicacion para deletrear palabrasen un sistema informatico basado en entorno PC. Se ha escogido esta aplicacion porsu utilidad casi directa por personas que padecen algun tipo de sındrome de bloqueo.Hay que resaltar que este tipo de aplicacion, basada en la utilizacion de un paradigmade ICC endogeno y en el empleo de solo dos canales electroencefalograficos, precisa deusuarios entrenados y altamente motivados, pues deletrear correctamente una palabraa traves de en un algoritmo de decision por dicotomıa requiere un numero elevado declasificaciones correctamente concatenadas, lo que significa un nivel de concentracionelevado. La definicion de la aplicacion se realiza empleando UML, [Ambler 05], [Arlow 05],[Pilone 05], [Rumbaugh 00b], [Rumbaugh. 00a], [Rumbaugh. 99].

5.7.1. Identificacion de actores.

En la aplicacion para deletrear palabras se han identificado dos actores.

Usuario. Persona encargada de controlar la aplicacion a traves de sus patronescerebrales endogenos, asociados a las actividades cognitivas propuestas.

Controlador. Persona a cargo de realizar los protocolos de preparacion del usuarioy del sistema, ası como supervisar el correcto funcionamiento de la aplicacion y lapuesta en marcha / apagado del sistema.

5.7.2. Descripcion de casos de uso.

Los casos de uso indi-can como se va a compor-tar la aplicacion desde elpunto de vista de los ac-tores, se trata pues de ladescripcion de la funcio-nalidad requerida al sis-tema. Desde un punto devista de analisis se consi-deran solo los casos de usoclaves para los actores, taly como se muestra en lafigura 5.11.

Figura 5.11: Casos de uso de la aplicacion.

152 Procedimientos experimentales y aplicacion de demostracion.

5.7.2.1. Deletrear palabra.

Condiciones iniciales:

Los procedimientos de preparacion de usuario y equipo han sido llevados a cabo yel sistema funciona correctamente.

La aplicacion presenta en pantalla una ventana semejante a la mostrada en la figura5.12, en donde en la parte superior aparecen letras del alfabeto, mientras que en laparte inferior se muestran caracteres numericos, ası como las secuencias de controlde “Espacio” y “Fin”. En la parte izquierda se muestra el cursor controlado porel usuario. En la parte central se muestran mensajes de aviso para el usuario. Porultimo, inmediatamente debajo de la secuencia de caracteres, en la parte inferior semuestran los caracteres seleccionados.

La asociacion de movimiento vertical del cursor con las actividades cognitivas, se harealizado conforme a la eleccion del usuario.

El usuario ha identificado tanto la palabra que desea deletrear, como la primera letrade dicha palabra.

Figura 5.12: Interfaz de la aplicacion demostrador.

5.7 Descripcion de arquitectura dispositivo ICC. 153

Flujo principal del caso de uso:

1.a El usuario realiza la actividad cognitiva asociada al desplazamiento del cursor, quelo acerca a la mitad que contiene el caracter que se desea escribir.

2.a La aplicacion procede a realizar registros de senal electroencefalografica siguiendoel protocolo del procedimiento “On-line”, apartado 5.5, y desplaza el cursorverticalmente segun el patron cognitivo identificado. Tras N desplazamientossucesivos en el mismo sentido, el cursor se posiciona sobre el grupo de caractereselegido.4

3.a El paso 2.a. se repite hasta que el cursor se posiciona sobre el grupo de caracteressuperior o inferior.

4.a Si el grupo de caracteres alcanzado queda compuesto por mas de un elemento, laaplicacion procedera a presentar la primera mitad en la parte superior y la segundaen la inferior.5 Si el numero de caracteres seleccionado es impar, la primera mitadtendra un caracter menos que la segunda. El cursor se reposicionara en el centro dela ventana y se volvera al punto 1.a.

4.b En caso de que el grupo de caracteres alcanzado quede compuesto por un unicoelemento, este sera el caracter seleccionado, pasando a mostrarlo en la zona en laque se deletrea la palabra elegida.

La aplicacion procedera a reposicionar el cursor en la zona central de la ventana,mostrara el alfabeto en la parte superior y la secuencia numerica en la parte inferior,tras lo cual se volvera al punto 1.a.

Postcondiciones.La aplicacion permanecera activa mostrando los caracteres seleccionados hasta que el

supervisor decida finalizarla.Las muestras de senal electroencefalografica adquiridas, ası como el procesamiento de

las mismas y las selecciones llevadas a cabo seran almacenadas en los correspondientesficheros.

Flujos alternativos.

2.b Si el registro de actividad electroencefalografica no puede clasificarse comoperteneciente a alguna de las actividades cognitivas asociadas a movimiento delcursor, o su nivel de certeza en el reconocimiento es inferior a un determinado valorde umbral, el cursor no se desplazara.

4N sera configurable, siendo su valor por defecto N = 3.5La seleccion de los caracteres se realiza por dicotomıa.

154 Procedimientos experimentales y aplicacion de demostracion.

5.7.2.2. Puesta en marcha del sistema.

Condiciones iniciales:La preparacion del usuario se ha realizado conforme a lo indicado en el apartado 5.1.

El supervisor realiza la puesta en marcha del sistema, verificando el correctofuncionamiento de los componentes segun se describe en el apartado 5.2.

Flujo principal del caso de uso:1.a El supervisor inicia la aplicacion.2.a La aplicacion solicita del supervisor los parametros de la sesion:

Identificacion de usuario.Numero de sesion.Numero de actividades cognitivas.Identificacion de las actividades cognitivas.Numero de replicas consideradas.

3.a El supervisor introduce los parametros de configuracion de la sesion.4.a El sistema crea una estructura de ficheros para almacenar las muestra de senal

electroencefalografica adquiridas, procesamiento de las mismas, ası como los datosde clasificaciones a las que dieran lugar y estructuras de datos de aprendizaje de losclasificadores.

5.a La aplicacion procede a comunicar que en N6 segundos se va a efectuar la adquisicionde registros de senal EEG relacionada con la actividad cognitiva propuesta. En laparte central de la ventana se mostrara la cuenta atras de tiempo para comienzo dela adquisicion de muestras.

6.a La aplicacion procede a la captura de muestras de senal electroencefalografica, segunse ha descrito en el apartado 5.4. Los registros de actividad electroencefalografica sealmacenaran en la estructura de datos del experimento.

7.a La aplicacion procede a extraer y guardar el conjunto de vectores de caracterısticasde los registros de senal efectuados.

8.a Con la poblacion de vectores de caracterısticas obtenidos se procede a entrenaral clasificador, tras lo cual se indica al supervisor el porcentaje de clasificacionescorrectas obtenido. La parametrizacion del clasificador se almacenara en la estructurade datos del experimento.

9.a El supervisor decide si con el porcentaje de clasificacion obtenido se procede conel caso de uso de “Deletrear palabra”, o se procede a repetir el caso de uso actualdevolviendo el control al punto 2.a, o bien se finaliza la aplicacion.

Postcondiciones.El sistema guarda tanto la informacion de los registros de senal electroencefalografica,

como las estructuras de datos que definen el entrenamiento del clasificador.

Flujos alternativos.4.b Si el sistema detecta que la identificacion de la sesion ya existe, procede a

comunicarselo al supervisor, devolviendo el control al punto 2.a, para evitar lacorrupcion de datos de sesiones anteriores.

6N sera configurable, por defecto se consideran 5 segundos.

5.7 Descripcion de arquitectura dispositivo ICC. 155

5.7.2.3. Finalizacion de la aplicacion.

Condiciones iniciales:

Se ha realizado la puesta en marcha del sistema segun el caso de uso 5.7.2.2.

Flujo principal del caso de uso:

1.a El supervisor decide finalizar la aplicacion, comunicandolo a traves de la consola dela aplicacion.

2.a La aplicacion procede a finalizar el proceso de adquisicion de muestras de senalelectroencefalografica. Guardando los ultimos registros de senal que no hubieransido almacenados.

3.a La aplicacion procede a cerrar los flujos de datos de la tarjeta de adquisicion.

4.a La aplicacion deja de realizar clasificaciones. Guardando la ultima clasificacion noalmacenada.

5.a La aplicacion comunica la finalizacion de la aplicacion al usuario y cierra la ventanade dialogo.

Postcondiciones.La aplicacion queda finalizada y la informacion asociada a la sesion realizada alma-

cenada en la estructura de ficheros, creada por el caso de uso Puesta en marcha del sistema.

Flujos alternativos.

1.b El usuario procede a seleccionar “Fin” como caracter a deletrear.

5.7.3. Estructura de clases de analisis.

Mediante el diagrama de clases de analisis se identifican y relacionan los componentesque representan una abstraccion de conceptos en el dominio de la aplicacion. Se trata puesde una representacion estatica de todos aquellos elementos y relaciones estructurales entrelos mismos, que se van a utilizar para llevar a cabo la funcionalidad descrita en los casosde uso.

La arquitectura de dispositivo ICC propuesta, mostrada en la figura 5.13, se basa enel empleo del patron del modelo de tres capas [Larman 03], diferenciando entre la capa deinterfaz de la aplicacion con los actores, la capa que representa la logica de la aplicaciony la que considera el almacenamiento de datos.

Se han considerado los siguientes tipos de datos:

Datos Sesion: datos identificativos de la sesion en curso.

Registro EEG: considera la agrupacion de muestras de senal EEG que constituyenuna ventana de analisis.

Vector Caracterısticas: representa el vector de componentes frecuenciales obtenidode una ventana de analisis.

156 Procedimientos experimentales y aplicacion de demostracion.

Clasificacion: actividad cognitiva a la que se asocia el vector de caracterısticassuministrado.

Cad Caract Deletreados: representa a la cadena de caracteres seleccionados por elusuario.

Cad Caract Inferior: conjunto de caracteres alfanumericos dispuestos en la parteinferior de la ventana.

Cad Caract Superior: conjunto de caracteres alfanumericos dispuestos en la partesuperior de la ventana.

Cadena Aviso: representa al mensaje textual que se comunica al usuario.

Las clases de analisis identificadas han sido:

Tarjeta de Adquisicion: clase perteneciente a la capa de interfaz, encargada derepresentar la tarjeta de adquisicion desde el punto de vista Software. Sus funcionesclave son: configuracion, adquisicion de muestras y generacion de Registro EEG. Taly como se indica en el apartado 3.2, se consideran ventanas de analisis de duracion13s, con una frecuencia de muestreo de Fs = 384Hz.

Procesamiento Senal EEG: clase perteneciente a la capa de logica de la aplicacion,se encarga de extraer los vectores de caracterısticas frecuenciales a partir de losregistros de senal electroencefalografica, segun lo indicado en el apartado 3.5.

Clasificador: clase perteneciente a la capa de logica de la aplicacion, encargada deaprender y reconocer los patrones cerebrales del usuario asociados a las actividadescognitivas consideradas, vease apartado 5.3. Tras el analisis de los resultados delos experimentos de la seccion 5.6, presentados en el capıtulo 6, se ha optado porimplementar una version de clasificador basada en redes neuronales de tipo RBF, yotra en MSV.

Ventana Dialogo Usuario: clase perteneciente a la capa de interfaz, encargada dela comunicacion con el usuario, gestionando el movimiento del cursor en pantalla,presentacion de secuencia de caracteres y avisos.

Consola Supervisor: es el interfaz con el supervisor, muestra avisos y opciones; puntode entrada para parametros de configuracion y selecciones.Grabador Datos: clase perteneciente a la capa de almacenamiento de datos, seencarga de guardar la informacion de la sesion en curso.

Control: clase encargada de la secuenciacion de funciones de cada una de las clasesanteriores, es en esta clase en donde reside la logica de la aplicacion.

5.7 Descripcion de arquitectura dispositivo ICC. 157

Figura 5.13: Interfaz de la aplicacion demostrador.

158 Procedimientos experimentales y aplicacion de demostracion.

5.7.4. Realizacion de los Casos de Uso.

La realizacion de los Casos de Uso muestran como interactuan las instancias de lasclases de analisis para realizar la funcionalidad del sistema. Representan la Vista Dinamicadel comportamiento del sistema, identificando a alto nivel las relaciones entre las clases deanalisis, operaciones y atributos.

La descripcion de la Realizacion de los Casos de Uso se lleva a cabo mediantelos Diagramas de Interaccion, de entre los cuatro tipos existentes7se han escogido losdiagramas de secuencia como vıa de documentacion de la aplicacion de demostracion,debido a su facilidad de comprension, ası en las figuras 5.15 a 5.16 se muestra la realizacionde los casos de uso anteriores con las clases de analisis consideradas.

Figura 5.14: Diagrama de secuencia del caso de uso Puesta en marcha del sistema.

7UML 2.0 reune los diagramas de: Secuencia, Comunicacion, Tiempo y Vision de Interaccion, dentrodel tipo de Diagramas de Interaccion.

5.7 Descripcion de arquitectura dispositivo ICC. 159

Figura 5.15: Diagrama de secuencia del caso de uso “Deletrear palabra”.

160 Procedimientos experimentales y aplicacion de demostracion.

Figura 5.16: Diagrama de secuencia del caso de uso Finalizacion de la aplicacion.

Capıtulo 6

Analisis y discusion de losresultados experimentales.

En este capıtulo se presentan, analizan y discuten los resultados obtenidoscon los clasificadores descritos en el capıtulo 4, empleando los registros de senalelectroencefalografica adquiridos a traves de los procedimientos experimentales descritosen el capıtulo 5, que a su vez aplican las tecnicas de adquisicion y procesamiento de senaldescritas en el capıtulo 3.

Tras analizar y comprobar que existe evidencia de diferencia estadıstica entre laspoblaciones de los vectores de caracterısticas, obtenidos cuando los sujetos de losexperimentos realizan las actividades cognitivas propuestas, se procede a comprobar quedicha diferencia estadıstica se mantiene aplicando la tecnica de Analisis DiscriminativoLineal, lo que permite proceder a la reduccion de la dimensionalidad del espacio de entradaen clasificadores basados en redes neuronales de los tipos MLP, RBF y PNN. Finalmentese analizan y discuten los resultados obtenidos con clasificadores de mayor complejidad,como clasificadores bietapa basados en redes neuronales y modelos ocultos de Markov,ası como clasificadores basados en maquinas de soporte de vectores.

Como conclusion, el analisis de los resultados experimentales obtenidos muestra quelos ındices de clasificacion mas altos se obtienen con maquinas de soporte de vectores, conKernels polinomicos de orden 4, empleando las ventanas de procesamiento de Tukey.

6.1. Resultados del metodo estadıstico de comparacion de

poblaciones.Mediante los experimentos basados en la comparacion estadıstica de poblaciones,

procedimiento descrito en el apartado 4.1.2, se pretende determinar si existe evidenciaestadıstica que permita diferenciar entre los registros de senal electroencefalograficarealizados cuando el sujeto lleva a cabo actividades cognitivas diferentes, valorandocuantitativamente los siguientes puntos:

Actividades cognitivas que ofrecen mayor poder de discriminacion.Tipo de ventana de procesamiento que da lugar a una mejor discriminacion.Identificacion de las componentes del vector de caracterısticas que presentan mayortasa de discriminacion.Influencia del canal electroencefalografico en la capacidad de discriminacion.

162 Analisis y discusion de los resultados experimentales.

6.1.1. Presentacion de resultados.

Las figuras 6.1 y 6.2 que se muestran a continuacion resumen los resultados obtenidosen 10 sesiones experimentales, realizadas con un mismo voluntario en dıas diferentes,siguiendo los procedimientos operacional y experimental descritos en los apartados 4.1.3y 5.6.1 respectivamente. Por cada canal se representa una pareja de figuras, en cuyoeje de abscisas se muestra la comparacion entre las diferentes actividades cognitivasempleadas. Para cada caso se han aplicado los siete tipos de ventana de procesamientoconsiderados: rectangular, triangular, Blackman, Hamming, Hanning, Kaiser y Tukey; enel eje de ordenadas se muestra el porcentaje de veces que cada ventana de procesamientoha mostrado diferencia estadıstica significativa, (p < 0,05); junto a su nombre, en la partesuperior, se muestra el promedio de caracterısticas estadısticamente significativas.1 Porultimo, inmediatamente encima de la barra identificaba de cada ventana, se muestran lascomponentes del vector de caracterısticas que han resultado significativas.

6.1.2. Analisis.

El analisis de las figuras 6.1 y 6.2 muestra la existencia de diferencia estadıstica, entrelas poblaciones de caracterısticas extraıdas de la muestras de senal electroencefalografica,cuando el usuario realiza diferentes actividades cognitivas.2 Ası mismo se observa que,siendo el voluntario analizado diestro, la mayor capacidad de discriminacion se obtiene enel segundo canal electroencefalografico, asociado a C4’ - C4” (hemisferio cerebral derecho),lo que muestra una elevada lateralidad cerebral.

Estudiando cada una de las comparaciones de parejas de actividades cognitivas seobserva que:

Comparando “Calculo matematico” con “Imaginacion de movimiento”, vease ladosuperior izquierdo de las figuras 6.1 y 6.2, se comprueba que las ventanas deprocesamiento de tipo Tukey, Kaiser y rectangular, son las que presentan mayorevidencia de diferencia estadıstica en la comparacion de las poblaciones de losvectores de caracterısticas en ambos hemisferios. Ası mismo se observa que para todoslos tipos de ventanas de procesamiento, las componentes del vector de caracterısticascon mayor poder de discriminacion son β1 y β2.

Analizando “Calculo matematico” frente a “Realizacion de movimiento”, vease zonasuperior central de las figuras 6.1 y 6.2, se observa que las ventanas de procesamientocon mayor numero de componentes significativas son las de Blackman, Hanning yTukey, ya que presentan caracterısticas significativas tanto en el hemisferio izquierdocomo en el derecho. Por otro lado las componentes con mayor relevancia en ladiscriminacion de actividades son α1 y α2.

1Este valor es equivalente a la suma de caracterısticas que muestran diferencia estadıstica, divido porel numero de veces que el experimento ha sido replicado, N = 10.

2Notese que a efectos experimentales se ha considerado tanto la “Imaginacion de movimiento” comola “Realizacion de movimiento”, aunque esta ultima actividad no deba ser considerada en dispositivos deInterfaz Cerebro Computador.

6.1 Resultados del metodo estadıstico de comparacion de poblaciones. 163

Figura 6.1: Resultados de la comparacion de actividades cognitivas en el canal 1.

Analizando “Calculo matematico” frente a “Relax”, vease parte superior derecha delas figuras 6.1 y 6.2, se observa que las ventanas de procesamiento mas significativasson las de Tukey y rectangular; mientras que las componentes del vector decaracterısticas con mayor poder de discriminacion son β1 seguida de β2 y β3.

Del estudio de “Imaginacion de movimiento” frente a “Relax”, vease parteinferior izquierda de las figuras 6.1 y 6.2, se observa que la ventana rectangular

164 Analisis y discusion de los resultados experimentales.

Figura 6.2: Resultados de la comparacion de actividades cognitivas en el canal 2.

6.1 Resultados del metodo estadıstico de comparacion de poblaciones. 165

es la que mejor capacidad de discriminacion presenta, mostrando tanto diferenciaestadıstica significativa en ambos hemisferios cerebrales, como un mayor promediode componentes significativas del vector de caracterısticas, 1.3 para el hemisferioizquierdo y 1.6 para el derecho. Ası mismo se comprueba que con independenciade la ventana de procesamiento, el hemisferio derecho, canal 2, presenta unamejor capacidad de discriminacion entre ambas actividades cognitivas, siendolas componentes del vector de caracterısticas mas relevantes: θ, β1 y β2, conindependencia de la ventana de procesamiento; mientras que para el canal 1,hemisferio izquierdo, las caracterısticas mas significativas obtenidas con una ventanade procesamiento de tipo rectangular son: α2, β1, β2 y β3.

La pareja de actividades que mejor capacidad de discriminacion presenta es“Imaginacion de movimiento” frente a “Realizacion de movimiento”, vease zonainferior central de la figura 6.2. Para todos los tipos de ventanas de procesamientoaplicadas a la senal electroencefalografica proveniente del canal 2, las caracterısticasmas significativas son: θ, α1, α2, β1; seguidas de β2 y β3.

Por ultimo, realizando la comparacion entre diferentes sesiones de “Relax”, veaseparte inferior derecha de las figuras 6.1 y 6.2, aparecen diferencias significativasentre poblaciones para las caracterısticas α2 y β2 del canal 2, y β1 β2 del canal 1.

6.1.3. Discusion.

Tras el analisis de la capacidad de discriminacion de las diferentes actividades cognitivaspropuestas, considerando los registros EEG realizados sobre ambos hemisferios cerebrales,se confirma que en todos los casos el hemisferio derecho muestra mayor capacidad dediscriminacion que el izquierdo. Investigaciones en Neurologıa indican que el hemisferioizquierdo es calculador, comunicativo y capaz de construir planes complicados, mientrasque por su parte el derecho es causante de pensamientos creativos, integrales y holısticos,siendo mas emotivo y conceptual [Alarcon 00], [Gazzaniga 92], [Jessell 97]. La razon deque el hemisferio izquierdo se muestre menos discriminativo puede deberse a que sunivel de actividad pueda llegar a enmascarar la diferencia ente las actividades cognitivaspropuestas; a este respecto son de especial relevancia los resultados obtenidos en lacomparacion de las actividades de “Realizacion de movimiento” con “Imaginacion demovimiento”, en donde el hemisferio izquierdo (canal 1: C3’-C3”), no muestra ningunacaracterıstica significativa, mientras que para el hemisferio derecho (canal 2: C4’-C4”) esla pareja de actividades con mayor capacidad de discriminacion.

De la inspeccion de los resultados de la comparacion por parejas de las actividadescognitivas propuestas, se obtiene la siguiente lista, ordenada de mayor a menor capacidadde discriminacion:

1. “Imaginacion de movimiento” frente a “Realizacion de movimiento”.

2. “Calculo matematico” frente a “Realizacion de movimiento”.

3. “Calculo matematico” frente a “Imaginacion de movimiento”.

4. “Calculo matematico” frente a “Relax”.

5. “Imaginacion de movimiento” frente a “Relax”.

166 Analisis y discusion de los resultados experimentales.

Del analisis de las ventanas de procesamiento, los mejores resultados se obtienen conlas ventanas de Tukey, Kaiser y rectangular. Las dos primeras son las que menos distorsionen frecuencia ocasionan sobre la senal que enmarcan. Por su parte la ventana rectangular,al tener una extension igual al numero de datos considerados en la FFT, N = 27, minimizael efecto de fuga en el dominio frecuencial, ya que considera que la senal, es la repeticionperiodica de la ventana de analisis considerada. El resto de las ventanas suavizan los bordesde la ventana de analisis en el dominio temporal, aunque en menor grado, obteniendoselos peores resultados con la ventana de tipo triangular o de Bartlett.

En la comparacion de la actividad de “Relax” en sesiones diferentes, zona inferior de-recha de las figuras 6.1 y 6.2, se detectan falsos positivos debido a la captacion de ruido enla senal electroencefalografica de entrada. Observese que la ventana de Tukey no muestradiferencia para el hemisferio izquierdo, detectandose solo la componente α2, en el hemis-ferio derecho, como falso positivo.

Considerando las caracterısticas que presentan una mejor capacidad de discriminacion,se observa que la banda mas significativa comprende a las componentes α2, β1 y β2,observandose una mayor significacion en aquellas componentes cercanas a la zona deinfluencia del ritmo μ, en las comparaciones que involucran actividades en las que seemplea imaginacion o realizacion de movimiento.

6.1.4. Conclusiones.

Del analisis y discusion de los resultados de las pruebas presentadas en el apartado6.1.2, empleando tests estadısticos de comparacion bilateral de poblaciones, descritos enla seccion 4.1, se obtienen las siguientes conclusiones:

1. Un clasificador que discriminara entre actividad matematica e imaginacion demovimiento deberıa considerar en la fase de filtrado y acondicionamiento de lasenal electroencefalografica ventanas de tipo Tukey y considerar al menos lascaracterısticas α2, β1 y β2. Es importante destacar que la ventana de Tukey minimizael numero de falsos positivos, por lo que es mas robusta que otros tipos de ventanas.

2. En los test llevados a cabo, el canal localizado en C4’-C4” es mas significativo queel formado por C3’-C3”.

6.2 Resultados obtenidos aplicando la tecnica LDA. 167

6.2. Resultados obtenidos aplicando la tecnica LDA.

Una vez demostrada la evidencia de la diferencia estadıstica entre las poblaciones decaracterısticas provenientes de la senal electroencefalografica, cuando el usuario lleva acabo diferentes actividades mentales, el siguiente paso para el desarrollo de un clasificadorICC en lınea, es la determinacion automatica del conjunto caracterısticas y combinacionde las mismas, que da lugar a una mejor capacidad de discriminacion, para lo cual seemplea la tecnica LDA expuesta en el apartado 4.2. Es ası mismo de interes, evaluar elefecto que la realimentacion de la informacion hacia el usuario tiene sobre dicha capacidadde discriminacion, por lo que para la realizacion de este estudio se han utilizado losprocedimientos experimentales “Off-line” y “On-line” descritos en los apartados 5.4 y5.5. El objetivo del procedimiento experimental “Off-line” es la adquisicion de muestrasde senal electroencefalografica del usuario, cuando este realiza las actividades cognitivasindicadas a modo de entrenamiento, por su parte el procedimiento “On-line” considera larealimentacion de informacion al usuario mientras este realiza dichas actividades. 3

6.2.1. Presentacion de resultados.

Debido a que se consideran solo tres tipos de actividades cognitivas, la aplicacion dela tecnica LDA da lugar a que solo dos de los autovalores sean significativos (> 1 ∗ 10−4),con sus autovectores asociados, ocasionando que la aplicacion de esta tecnica proyecte losvectores de caracterısticas de dimension 6 en un espacio bidimensional {X1,X2}, a travesde la aplicacion de los coeficientes de ponderacion recogidos en la matriz de transformacionW , manteniendo las propiedades intrınsecas de cada actividad cognitiva, vease apartados4.2.4 y 4.2.5.

Las figuras 6.3 a 6.14 resumen los resultados de los tests estadısticos de comparacionbilateral de diferencias, entre las poblaciones de caracterısticas transformadas 4 {X1,X2},tras la aplicacion de la tecnica LDA, considerando los paradigmas experimentales“Off-line” y “On-line”. Para cada canal (C3’-C3” y C4’-C4”) y tipo de ventana deprocesamiento, se muestra el nivel crıtico, p, asociado a cada contraste bilateral de lasactividades cognitivas analizadas. Al objeto de mostrar la dispersion de resultados, serepresenta el valor de la moda mediante un cuadrado (C3’-C3”) y un triangulo (C4’-C4”),y el de los percentiles 15 y 85 mediante una lınea vertical.

Las muestras de senal provienen de los procedimientos experimentales descritos en elcapıtulo 5, llevados a cabo sobre cinco voluntarios varones, diestros y sanos, de edadescomprendidas entre los 27 y 35 anos.

3Los resultados, analisis y conclusiones acerca de LDA han sido presentados en [Martınez 07] y[Martinez 09].

4Vease el apartado 4.1 del capıtulo 4.

168 Analisis y discusion de los resultados experimentales.

Figura 6.3: Off-line. Calculo matematico vs Imaginacion de movimiento. Proyec. sobre X1.

Figura 6.4: Off-line. Calculo matematico vs Relax. Proyec. sobre X1.

6.2 Resultados obtenidos aplicando la tecnica LDA. 169

Figura 6.5: Off-line. Imaginacion de movimiento vs Relax. Proyec. sobre X1.

Figura 6.6: On-line. Calculo matematico vs Imaginacion de movimiento. Proyec. sobre X1.

170 Analisis y discusion de los resultados experimentales.

Figura 6.7: On-line. Calculo matematico vs Relax. Proyec. sobre X1.

Figura 6.8: On-line. Imaginacion de movimiento vs Relax. Proyec. sobre X1.

6.2 Resultados obtenidos aplicando la tecnica LDA. 171

Figura 6.9: Off-line. Calculo matematico vs Imaginacion de movimiento. Proyec. sobre X2.

Figura 6.10: Off-line. Calculo matematico vs Relax. Proyec. sobre X2.

172 Analisis y discusion de los resultados experimentales.

Figura 6.11: Off-line. Imaginacion de movimiento vs Relax. Proyec. sobre X2.

Figura 6.12: On-line. Calculo matematico vs Imaginacion de movimiento. Proyec. sobre X2.

6.2 Resultados obtenidos aplicando la tecnica LDA. 173

Figura 6.13: On-line. Calculo matematico vs Relax. Proyec. sobre X2.

Figura 6.14: On-line. Imaginacion de movimiento vs Relax. Proyec. sobre X2.

174 Analisis y discusion de los resultados experimentales.

6.2.2. Analisis.

De los contraste bilaterales llevados a cabo con un nivel de significacion α = 2,5%,α = 1 − p, representados en las figuras 6.3 a 6.8 para X1, se observa que:

En la mayorıa de los casos, la hipotesis nula H0, que mantiene la igualdad de laspoblaciones de las caracterısticas asociadas a las actividades cognitivas, debe serrechazada para ambos tipos de experimentos.Ası mismo, los niveles crıticos p, de los contrastes obtenidos en las comparacionesde “Calculo matematico” frente a “Imaginacion de movimiento”, son menores paralos experimentos “On-line” que los obtenidos para los experimentos “Off-line”, enambos canales; mientras que la dispersion de los resultados es similar en ambos casos.En los voluntarios analizados, de forma general el canal C4’-C4”, asociado alhemisferio derecho, presenta una mejor capacidad de discriminacion que C3’-C3”, excepto en la comparacion realizada para experimentos “On- line” entre lasactividades cognitivas “Calculo matematico” e “Imaginacion de movimiento”, endonde se observa un cambio de tendencia, vease figura 6.6.La mayor potencia de contraste se obtiene en la comparacion entre “Imaginacionde movimiento” y “Relax”, seguido de “Calculo matematico” y “Relax”, el menorde ellos se da para la comparacion entre “Calculo matematico” e “Imaginacion demovimiento.”

El mismo tipo de analisis para X2, figuras 6.9 a 6.14, muestra que la diferencia apenasaperece en los experimentos “Off-line” y en ningun caso para los experimentos “On-line”,p < 0,975.

6.2.3. Discusion.

Por lo general, para los dos tipos de experimentos, todas las ventanas de filtradomuestran evidencia de diferencia estadıstica entre las actividades cognitivas propuestas;los mejores resultados, representados por niveles crıticos p mas altos y menor dispersion,son obtenidos para X1 con las ventanas de Tukey y Kaiser. De los resultados numericos seobserva que cuanto mayor es la magnitud del autovalor, caso de X1, mayor es la aportacionde una de las componentes del vector de caracterısticas original, normalmente en la bandade frecuencia β, por el contrario, cuanto menor es el autovalor, mayor es la contribuciondel resto de los componentes del autovector.

Ası mismo se observa que, la presencia de artefactos es mayor para los experimentos“On-line” que para los experimentos “Off-line”.

Por otra parte, para los sujetos analizados, se confirma que le hemisferio derechopresenta una capacidad de discriminacion superior a la del hemisferio izquierdo, exceptocuando, empleando las actividades cognitivas de “Calculo matematico” e “Imaginacion demovimiento”, al sujeto se le realimenta informacion sobre el resultado de la clasificacion;lo que confirma lo indicado en el apartado 6.1.3 acerca de la especializacion delfuncionamiento de cada hemisferio.

6.2 Resultados obtenidos aplicando la tecnica LDA. 175

6.2.4. Conclusiones.

Del analisis y discusion de los resultados de las pruebas presentadas en el apartado6.2.2, basado en la utilizacion de la tecnica de Analisis Discriminatorio Lineal, se obtienenlas siguientes conclusiones:

1. Estadısticamente se ha probado que a traves del uso de la tecnica LDA es posiblereducir la dimensionalidad del espacio de caracterısticas de entrada original, a lavez que la capacidad de discriminacion entre las actitividades cognitivas propuestasse mantiene, permitiendo ası el control de dispositivos externos por medio de laasociacion de dichas tareas a comandos del dispositivo.

2. De los resultados de experimentos “On-line” y “Off-line” llevados a cabo con cincovoluntarios se concluye que, la realimentacion del resultado de la clasificacion alusuario provoca una disminucion de la capacidad de discriminacion, pero sin llegar acomprometer su uso en dispostivos ICC en lınea, conclusiones tambien confirmadasen [Pineda 03].

3. Se demuestra que las ventanas de procesamiento de tipo Tukey y rectangular mejoranla capacidad de discriminacion entre las actividades cognitivas consideradas.

176 Analisis y discusion de los resultados experimentales.

6.3. Resultados obtenidos con clasificadores basados en

redes neuronales.

Despues de comprobar que es posible discriminar entre poblaciones de caracterısticas,provenientes de muestreo de senal electroencefalografica adquiridas cuando el usuariorealiza las actividades cognitivas propuestas, habiendo sido reducida la dimensionalidaddel espacio de caracterısticas original, el siguiente paso es determinar la tecnologıa yestructura del clasificador que presente una mayor tasa de aciertos con menor variabilidad.Para tal fin, en este apartado se muestran los resultados obtenidos con clasificadoresbasados en redes neuronales de tipo: Perceptron Multicapa (MLP), redes neuronalesbasadas en Funciones de Base Radial (RBF) y Redes Neuronales Probabilısticas (PNN);descritas respectivamente en los apartados: 4.3.1, 4.3.2 y 4.3.3. A efectos de comprobarsi la estructura interna del clasificador influye en el resultado final de la clasificacion,se han considerado dos modalidades de clasificadores para cada tipo de red neuronal,en la primera modalidad el clasificador consta de dos redes neuronales independientes,procesando cada una de ellas el flujo de vectores de caracterısticas que proviene delcanal electroencefalografico considerado (C3’-C3” o C4’-C4”); mientras que en la segundamodalidad, el clasificador consta de una unica red neuronal que procesa de forma conjuntaambos flujos de vectores de caracterısticas.

Considerando el efecto de sobre-aprendizaje, las redes neuronales fueron entrenadassiguiendo lo expuesto en los apartados: 4.3.1.3, 4.3.2.4 y 4.3.3.

6.3.1. Presentacion de resultados.Las figuras siguientes resumen los resultados obtenidos, con cinco voluntarios, tras la

aplicacion de los clasificadores una vez han sido entrenados con las muestras adquiridas.En el eje de ordenadas se muestran los porcentajes de clasificaciones correctas obtenidos delas matrices de confusion, vease apendice B, aplicadas a cada uno de los tres clasificadores.Notese que la escala ha sido divida a efectos de apreciar la dispersion de los resultados.En el eje de abcisas se muestran los diferentes tipos de ventanas de preprocesamientoconsiderados.

A efectos de mostrar la dispersion en los valores obtenidos, para cada clasificador ytipo de ventana de procesamiento se muestra una barra con los porcentajes de clasificacionmaximo, mınimo y valor de la mediana. Ası mismo se representan los resultados obtenidospara las dos modalidades de clasificadores.

6.3 Resultados obtenidos con clasificadores basados en redes neuronales. 177

Figura 6.15: Sujeto A. Canal 1. Clasificaciones correctas.

Figura 6.16: Sujeto A. Canal 2. Clasificaciones correctas.

178 Analisis y discusion de los resultados experimentales.

Figura 6.17: Sujeto A. Canal 1 y 2. Clasificaciones correctas.

Figura 6.18: Sujeto B. Canal 1. Clasificaciones correctas.

6.3 Resultados obtenidos con clasificadores basados en redes neuronales. 179

Figura 6.19: Sujeto B. Canal 2. Clasificaciones correctas.

Figura 6.20: Sujeto B. Canal 1 y 2. Clasificaciones correctas.

180 Analisis y discusion de los resultados experimentales.

Figura 6.21: Sujeto C. Canal 1. Clasificaciones correctas.

Figura 6.22: Sujeto C. Canal 2. Clasificaciones correctas.

6.3 Resultados obtenidos con clasificadores basados en redes neuronales. 181

Figura 6.23: Sujeto C. Canal 1 y 2. Clasificaciones correctas.

Figura 6.24: Sujeto D. Canal 1. Clasificaciones correctas.

182 Analisis y discusion de los resultados experimentales.

Figura 6.25: Sujeto D. Canal 2. Clasificaciones correctas.

Figura 6.26: Sujeto D. Canal 1 y 2. Clasificaciones correctas.

6.3 Resultados obtenidos con clasificadores basados en redes neuronales. 183

Figura 6.27: Sujeto E. Canal 1. Clasificaciones correctas.

Figura 6.28: Sujeto E. Canal 2. Clasificaciones correctas.

184 Analisis y discusion de los resultados experimentales.

Figura 6.29: Sujeto E. Canal 1 y 2. Clasificaciones correctas.

6.3 Resultados obtenidos con clasificadores basados en redes neuronales. 185

6.3.2. Analisis.

De los resultados anteriores se extraen las siguientes consideraciones:

Los clasificadores basados en redes neuronales de tipo PNN o RBF presentan unporcentaje de clasificaciones correctas del 84 %, frente al 33 % obtenido con losclasificadores basados en redes neuronales de tipo MLP.

Estabilidad de resultados. En todos los casos el procedimiento se replico tres veces.Con clasificadores basados en PNN o en RBF se obtuvo siempre la misma matrizde confusion, vease apendice B, mientras que con clasificadores basados en MLP seobtuvieron matrices de confusion diferentes para cada replica.

Los clasificadores basados en PNN dan lugar a porcentajes de clasificacionescorrectas mas altos que los obtenidos con los clasificadores basados en RBF, sinembargo por contra tambien muestran una mayor dispersion.

Clasificadores con redes neuronales distintas, una para cada canal electroencefa-lografico, proporcionan mejores resultados que aquellos que consideran una unicared neuronal que procesa conjuntamente ambos vectores de caracterısticas.

Considerando los tipos de ventanas de preprocesamiento, los ındices dediscriminacion mas altos y menor dispersion se obtienen para las ventanas de tipoKaiser, Tukey y rectangular.

Un clasificador que emplee en su estructura dos redes neuronales diferentes, una porcada canal, conectadas a un bloque que pondere las salidas de ambas redes, permiteobtener mejores porcentajes de clasificacion correcta que otros clasificadores basadosen una sola red neuronal, que fusione los vectores de caracterısticas de ambos canalesen uno solo.

Se observa que el empleo de ventanas de Kaiser, Tukey y rectangular, da lugar a unincremento en el porcentaje de clasificaciones correctas, a la vez que disminuye sudispersion, lo cual esta en lınea con lo expuesto en 6.1.3 acerca del tipo de ventanade procesamiento.

6.3.3. Discusion.

Con los vectores de caracterısticas considerados, basados en la estimacion espectralde potencia de las bandas frecuenciales: θ, α1, α2, β1, β2 y β3; los clasificadores basadosen redes neuronales de tipo probabilıstico (PNN) o en funciones de base radial (RBF),presentan mejores resultados que los clasificadores basados en redes neuronales de tipoPerceptron Multicapa (MLP), tanto desde el punto de vista de porcentanjes correctosde clasificacion, como en estabilidad de los mismos, conclusion similar se presenta en[Garrett 03]. Este comportamiento se explica por la funcion de distribucion de probabilidadde los vectores de caracterısticas, y la mayor capacidad de interpolacion de las redesneuronales de tipo PNN o RBF, que la obtenida con las redes de tipo MLP.

186 Analisis y discusion de los resultados experimentales.

Ası mismo, en lınea con lo discutido en los apartados 6.1.3 y 6.2.3, se observa que losresultados obtenidos con el clasificador basado en redes RBF presenta mejores resultadospara el hemisferio derecho que para el izquierdo.

Por otro lado, la variabilidad de resultados entre los clasificadores basados en redesneuronales de tipo PNN y los basados en redes neuronales de tipo RBF, se debe no tanto ala estructura intrınseca de ambas redes neuronales, muy proximas entre sı, tal y como puedeverse en los apartados 4.3.2 y 4.3.3, sino al proceso de aprendizaje y numero de neuronasconsiderados en la capa oculta. Mientras que para las redes neuronales RBF el numero deneuronas se determina incrementalmente mediante el proceso de aprendizaje, para las redesneuronales PNN este numero se determina a partir del numero de elementos consideradosen el conjunto de entrenamiento, dando lugar a que las redes neuronales de tipo PNNtengan mas neuronas en la capa oculta que las redes neuronales de tipo RBF, lo que a suvez provoca un mayor sobre-aprendizaje del conjunto de entrenamiento, caraterizado porun porcentaje mayor en el numero de clasificaciones correctas sobre dicho conjunto, perotambien una menor capacidad de generalizacion sobre los conjuntos de validacion y test.

6.3.4. Conclusiones.

Del analisis y discusion de los resultados de las pruebas realizadas con cinco voluntarios,presentados en el apartado 6.3.2, empleando clasificadores basados en redes neuronalesdescritos en la seccion 4.3, se obtienen las siguientes conclusiones:

1. Es factible la discriminacion entre las actividades cognitivas propuestas, empleandolos registros de senal electroencefalografica provenientes de los canales C3’-C3” yC4’-C4”.

2. Es preferible el empleo de un clasificador en cuya arquitectura se empleen dos redesneuronales diferentes, especializadas respectivamente en cada uno de los dos canalesde senal electroencefalografica, siendo sus resultados evaluados en un ponderadorque otorgue mayor peso a la red asociada al hemisferio derecho.

3. Se recomienda la utilizacion de ventanas de procesamiento de Tukey o Kaiser, yaque dan lugar a un porcentaje mayor de clasificaciones correctas.

6.4 Resultados obtenidos con clasificadores bietapa basados en redes neuronales yModelos Ocultos de Markov. 187

6.4. Resultados obtenidos con clasificadores bietapa basa-

dos en redes neuronales y Modelos Ocultos de Markov.

En la seccion anterior se mostraron los resultados de clasificacion conseguidos condiferentes topologıas y arquitecturas de redes neuronales. En esta seccion se presentan,analizan y discuten los resultados obtenidos tras la aplicacion del clasificador bietapa,descrito en el apartado 4.4.6, a las muestras de senal electroencefalografica provenientesde seis sesiones realizadas con cinco voluntarios diestros, siguiendo el procedimientoexperimental “Off-line” del capıtulo 5.

Como se describe en el apartado 4.4.6, el clasificador implementado emplea en unaprimera etapa de clasificacion una red neuronal de tipo RBF, ya que como se muestra enel punto 6.3.2 anterior, esta da lugar a un elevado porcentaje de aciertos, semejante almaximo obtenido con las redes neuronales de tipo PNN, pero con menor dispersion. Enuna segunda etapa se compara la secuencia de preclasificaciones proveniente de la etapaanterior con tres modelos de Markov, entrenados cada uno de ellos con secuencias depreclasificaciones provenientes de cada una de las actividades cognitivas, la presecuenciaes asignada a la actividad cognitiva cuyo Modelo Oculto de Markov de lugar a una mayorprobabilidad de observacion.5 Ası mismo, considerando los analisis anteriores acerca de lainfluencia del tipo de ventana de preprocesamiento en la clasificacion, veanse apartados6.1.2 y 6.2.2, en la implementacion del clasificador se han empleado ventanas de tipo Tukey.Una primera estimacion del efecto de entrenamiento en el usuario puede ser extraıda dela comparacion de los resultados de las dos sesiones realizadas por el mismo voluntario.

6.4.1. Presentacion de resultados.

Con objeto de comprobar el funcionamiento del algoritmo de clasificacion propuestoy la influencia que sobre el mismo tienen los parametros de umbral de asignacion, λ,ası como la variable que determina la zona de influencia de cada neurona de entrada de lared neuronal, Sc, se procede a utilizar las muestras de senal EEG adquiridas de las sesionesde prueba con los voluntarios del modo siguiente:

6.4.1.1. Evaluacion de la capacidad de aprendizaje.Con un subconjunto de las muestras de senal EEG adquiridas se procede a

entrenar el algoritmo con los siguientes valores: λ = {0,55; 0,65; 0,8}, Sc = {0,5; 0,95}.La determinacion del valor de los parametros viene fijada por los maximos que sedetectan despues de una busqueda extensiva sobre la senal del primer voluntario. Conposterioridad al entrenamiento se vuelve a procesar la misma senal a traves del clasificador,comparandose la clasificacion obtenida con la proporcionada durante el proceso deaprendizaje, en todos los casos se obtiene un reconocimiento correcto del 100 %.

5La longitud de la cadena de preclasificaciones ha sido determinada en 9 elementos, tras experimentarcon cadenas sinteticas de longitudes diferentes y entrenar tres Modelos Ocultos de Markov, semejantes alos empleados en el clasificador.

188 Analisis y discusion de los resultados experimentales.

6.4.1.2. Evaluacion de la capacidad de generalizacion.

Ante el buen comportamiento de la capacidad de aprendizaje se opta por utilizar elmetodo de validacion cruzada, en el que el entrenamiento se hace con nueve sesiones,todas menos una de las sesiones de senal EEG disponible, dejando la sesion no utilizadapara la evaluacion del comportamiento del algoritmo, el proceso se realiza tantas vecescomo sesiones disponibles existen, seleccionando en cada ocasion una sesion de evaluaciondiferente. Las tablas siguientes muestran los resultados obtenidos para cada voluntario enfuncion de los citados parametros: λ y Sc.

Para cada combinacion de los mismos, el proceso entero se replica 3 veces. En la filasuperior se muestra el numero de identificaciones correctas, en la fila inferior se muestra eltanto por ciento de mejora que se obtiene al compararlo con un clasificador equiprobable.

Tabla 6.1: Resultados voluntario AL01.

Sc = 0,5 Sc = 0,95 Sc = 0,5 Sc = 0,95λ = 0,65 λ = 0,55 λ = 0,55 λ = 0,80

94 103 103 94 81 87 93 92 87 86 97 814 % 14 % 14 % 4 % -10 % -3 % 3 % 2 % -3 % -4 % 8 % -10 %

Tabla 6.2: Resultados voluntario RO01.

Sc = 0,5 Sc = 0,95 Sc = 0,5 Sc = 0,95λ = 0,65 λ = 0,55 λ = 0,55 λ = 0,80

103 97 92 118 109 118 97 87 86 117 106 11014 % 8 % 2 % 31 % 21 % 31 % 8 % -3 % -4 % 30 % 18 % 22 %

Tabla 6.3: Resultados voluntario JA01.

Sc = 0,5 Sc = 0,95 Sc = 0,5 Sc = 0,95λ = 0,65 λ = 0,55 λ = 0,55 λ = 0,80

106 97 110 87 90 107 99 106 107 98 108 9918 % 8% 22 % -3 % 0 % 19 % 10 % 18 % 19 % 9 % 20 % 10 %

Tabla 6.4: Resultados voluntario DA01.

Sc = 0,5 Sc = 0,95 Sc = 0,5 Sc = 0,95λ = 0,65 λ = 0,55 λ = 0,55 λ = 0,80

109 102 104 83 92 92 106 91 110 86 87 9221 % 13 % 15 % -8 % 2% 2% 18 % 1 % 22 % -4% -3 % 2 %

Tabla 6.5: Resultados voluntario RA01.

Sc = 0,5 Sc = 0,95 Sc = 0,5 Sc = 0,95λ = 0,65 λ = 0,55 λ = 0,55 λ = 0,80

106 97 110 87 90 107 99 106 107 91 76 9918 % 8 % 22 % -3 % 0 % 19 % 10 % 18 % 19 % 1 % -15 % 10 %

Tabla 6.6: Resultados voluntario RA02.

Sc = 0,5 Sc = 0,95 Sc = 0,5 Sc = 0,95λ = 0,65 λ = 0,55 λ = 0,55 λ = 0,80

102 102 98 102 107 114 103 105 96 116 99 9813 % 13 % 8 % 13 % 19 % 26 % 14 % 16 % 6% 29 % 10 % 9%

6.4 Resultados obtenidos con clasificadores bietapa basados en redes neuronales yModelos Ocultos de Markov. 189

6.4.2. Analisis.

De los resultados obtenidos de la aplicacion del algoritmo de clasificacion propuesto seobserva que:

1. La capacidad de aprendizaje es superior a la que se obtiene con una red neuronal detipo RBF, 100 % de reconocimiento del conjunto de aprendizaje.

2. La variabilidad en los valores de clasificacion de las replicas es debida al empleo demodelos ocultos de Markov, tanto en la fase de aprendizaje como durante la fase declasificacion posterior.

3. Los ındice de clasificacion mas altos se dan para valores de Sc = 0,5 y λ = 0,65;aunque se observa una gran dependencia con respecto al usuario y su experienciaen la utilizacion del sistema. La discrepancia de resultados entre RA1 y RA2 seexplicada por el proceso de aprendizaje en la utilizacion del dispositivo, la sesionRA1 es previa a RA2.

4. Los resultados de las pruebas de validacion cruzada son mejores que los obtenidoscon un clasificador equiprobable.

6.4.3. Discusion.

La dispersion de maximos en los valores de clasificaciones correctas obtenidos enlas pruebas de validacion cruzada, indican que la combinacion de los parametros λ

y Sc es dependiente del usuario, por lo que para un dispositivo ICC que utilice unalgoritmo de este tipo, se deberıa prever al menos una fase de sintonizacion que permitieraajustar estos parametros. Si bien es cierto que el algoritmo se comporta mejor que unclasificador equiprobable, su comportamiento no es todo lo optimo que cabrıa esperarconsiderando su capacidad de aprendizaje, observandose un sobre-aprendizaje del conjuntode entrenamiento. El tamano del conjunto de datos de entrenamiento es determinanteen los resultados obtenidos en la fase de ejecucion. El efecto de sobre-aprendizaje seminimizarıa aumentando el conjunto de datos disponibles para el entrenamiento.

6.4.4. Conclusiones.

Del analisis y discucion anteriores, empleando clasificadores bietapa basados en redesneuronales de tipo RBF y Modelos Ocultos de Markov descritos en la seccion 4.4.6, seobtienen las siguientes conclusiones:

1. La informacion contenida en la secuencia de asignaciones mejora la capacidad declasificacion, siendo los modelos ocultos de Markov una tecnica valida para laextraccion y utilizacion de dicha informacion.

2. Los parametros de ajuste del algoritmo, λ y Sc, han de modificarse en funciondel usuario, ya que influyen notoriamente en la capacidad de generalizacion yclasificacion del algoritmo, por lo que se precisa un proceso previo de optimizacionque determine el valor de dichos parametros.

190 Analisis y discusion de los resultados experimentales.

6.5. Resultados obtenidos con clasificadores basados en

Maquinas de Soporte de Vectores.

En esta seccion se presentan, analizan y discuten, los resultados obtenidos conclasificadores basados en Maquinas de Soporte de Vectores. Estos clasificadores utilizan elmetodo de discrimacion lineal, en un espacio de caracterısticas transformado de dimensionsuperior a la del espacio de caracterısticas original, tal y como se describe en los apartados:4.5.1, 4.5.2 y 4.5.5.

Los resultados presentados se han obtenido tras la aplicacion del procedimiento descritoen el apartado 5.6.5, a los datos de once sesiones experimentales realizadas siguiendo elprocedimiento descrito en 4.5.1.

Para determinar que clasificador proporciona los ındices de clasificacion correcta maselevados, con la mayor capacidad de generalizacion, o lo que es lo mismo con un porcentajemenor de vectores soporte [Cristianini 05b], se han empleado los datos considerados en latabla 6.7.

Tipo de Kernel. Valores de los parametros caracterısticos.Gaussiano 1, 2, 3, 5 y 10.Polinomico 2, 3, 4, 7 y 8.

Tabla 6.7: Familia de funciones Kernel y parametros caracterısticos.

Se han seleccionado estos valores con el proposito de evaluar la influencia que, tanto sumagnitud, como la forma de la funcion Kernel a la que dan lugar6, tienen tanto sobreel porcentaje de clasificaciones correctas obtenido, como sobre el numero de vectoressoporte seleccionados. Ası mismo destacar que, un clasificador basado en funciones Kernelpolinomicas de orden 1 darıa lugar a un clasificador lineal.

6.5.1. Presentacion de resultados.

A continucion se representan para los Kernels considerados, tanto los resultados deporcentajes de clasificaciones correctas, como el numero de vectores soporte seleccionadosdel total del conjunto de entrenamiento. Por ultimo, para cada tipo de Kernel, semuestra una familia de graficas donde se representa la correlacion entre el porcentaje declasificaciones correctas y vectores soporte, considerando los diferentes tipos de ventanasde procesamiento.

6.5.1.1. Clasificaciones correctas frente a parametros del Kernel.

En las figuras 6.30 a 6.33 se representan, para cada tipo de ventana depreprocesamiento, funcion Kernel del tipo de clasificador y parametros considerados en

6Con Kernels de tipo polinomicos, valores pares del parametro dan lugar a funciones kernel simetricas,mientras que valores impares dan lugar a funciones kernel anti-simetricas.

6.5 Resultados obtenidos con clasificadores basados en Maquinas de Soporte deVectores. 191

el mismo, los resultados de porcentaje de clasificaciones correctas obtenidos a partir delas matrices de confusion, vease apendice B, tras la aplicacion de las muestras a losclasificadores una vez entrenados.

Las figuras muestran diagramas de cajas, en donde el valor medio de clasificacion semuestra por la lınea central en la muesca de la caja, la certeza de dicho valor se representapor el tamano de la caja, mientras que la variabilidad de los datos se muestra por lalongitud de los segmentos a ambos extremos de cada caja, siendo equivalentes a 1.5 vecesla desviacion tıpica. En el caso de aparecer datos que difieran del valor medio en mas de1.5 desviaciones tıpicas, se muestran como pequenas circunferencias, mientras que por elcontrario, si todos los datos quedan dentro de ambos segmentos se representa un punto enel extremo.

6.5.1.2. Numero de vectores soporte frente a parametros del Kernel.

Las figuras 6.34 a 6.37, muestran los resultados de porcentaje de vectores soporteseleccionados en el clasificador, en funcion de los parametros considerados para losdiferentes tipos de funciones Kernel.

6.5.1.3. Clasificaciones correctas frente a numero de vectores soporte.Por ultimo en las figuras 6.38 a 6.53 se representan para ambos canales: C1 y

C2, el porcentaje de clasificaciones correctas en funcion del porcentaje del numero devectores soporte seleccionados, considerando tanto los diferentes tipos de ventanas depreprocesamiento, como los valores de parametrizacion de las funciones Kernel. Ası mismose muestra una tabla con los valores numericos de valores medios y desviaciones tıpicasobtenidos en cada caso.

Al igual que en el apartado anterior, se representa tanto el valor medio como ladesviacion tıpica asociada a ambos porcentajes, por lo que en lugar de utilizar diagramade cajas se utiliza una elipse para cada tipo de ventana de preprocesamiento, su centrorepresenta el valor medio, mientras que los diametros horizontal y vertical muestran,respectivamente, las desviaciones tıpicas de los porcentajes del numero de vectores soportey clasificaciones correctas.

A diferencia de los apartados anteriores, la representacion para Kernels polinomicosde grado 5 o superior no se realiza, ya que como se muestra en las figuras 6.36 y 6.37 seobtiene la practica totalidad de clasificaciones correctas con Kernels polinomicos de grado4, salvo casos excepcionales.

192 Analisis y discusion de los resultados experimentales.

Figura 6.30: Porcentaje de clasificaciones correctas. Canal 1. Kernel gaussiano.

Figura 6.31: Porcentaje de clasificaciones correctas. Canal 2. Kernel gaussiano

6.5 Resultados obtenidos con clasificadores basados en Maquinas de Soporte deVectores. 193

Figura 6.32: Porcentaje de clasificaciones correctas. Canal 1. Kernel polinomico.

Figura 6.33: Porcentaje de clasificaciones correctas. Canal 2. Kernel polinomico.

194 Analisis y discusion de los resultados experimentales.

Figura 6.34: Porcentaje de vectores soporte. Canal 1. Kernel gaussiano.

Figura 6.35: Porcentaje de vectores soporte. Canal 2. Kernel gaussiano

6.5 Resultados obtenidos con clasificadores basados en Maquinas de Soporte deVectores. 195

Figura 6.36: Porcentaje de vectores soporte. Canal 1. Kernel polinomico.

Figura 6.37: Porcentaje de vectores soporte. Canal 2. Kernel polinomico.

196 Analisis y discusion de los resultados experimentales.

Tabla 6.8: Resultados Kernel gaussiano (P:1).

Canal: C1 C2Ventana: μ(vs) σ(vs μ(cc) σ(cc) μ(vs) σ(vs) μ(cc) σ(cc)Rectangular 100.00 0.1 96.87 10.85 100.00 0.1 96.81 11.06Triangular 97.50 3.90 95.96 10.45 97.92 2.75 96.93 10.10Blackman 98.17 3.61 95.90 10.10 98.75 1.66 96.89 10.01Hamming 98.33 3.39 96.18 10.25 98.75 1.66 96.82 10.50Hanning 98.17 3.61 95.90 10.10 98.75 1.66 96.89 10.01Kaiser 99.67 0.78 96.77 10.83 100.00 0.10 96.81 11.06Tukey 99.67 0.78 96.75 11.04 100.00 0.10 96.81 11.06

Figura 6.38: Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel gaussiano P=1.

Figura 6.39: Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel gaussiano P=1.

6.5 Resultados obtenidos con clasificadores basados en Maquinas de Soporte deVectores. 197

Tabla 6.9: Resultados Kernel gaussiano (P:2).

Canal: C1 C2Ventana: μ(vs) σ(vs μ(cc) σ(cc) μ(vs) σ(vs) μ(cc) σ(cc)Rectangular 99.75 0.62 96.88 10.64 100.00 0.10 96.90 10.74Triangular 84.67 10.89 93.49 10.38 85.25 11.26 96.15 9.19Blackman 88.50 8.23 93.67 10.20 88.08 9.05 96.11 9.19Hamming 90.33 7.08 94.48 9.87 90.17 7.63 96.50 9.20Hanning 88.58 8.28 93.65 10.22 88.08 9.05 96.13 9.18Kaiser 96.92 3.82 96.70 9.28 97.75 2.26 97.12 9.93Tukey 98.58 2.97 96.33 10.46 99.08 1.24 96.98 10.45

Figura 6.40: Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel gaussiano P=2.

Figura 6.41: Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel gaussiano P=2.

198 Analisis y discusion de los resultados experimentales.

Tabla 6.10: Resultados Kernel gaussiano (P:3).

Canal: C1 C2Ventana: μ(vs) σ(vs μ(cc) σ(cc) μ(vs) σ(vs) μ(cc) σ(cc)Rectangular 98.83 2.08 96.84 9.77 98.67 1.92 97.17 9.81Triangular 77.08 17.50 89.84 12.78 74.92 17.39 92.92 10.36Blackman 81.00 14.89 90.74 11.90 77.83 16.04 93.59 10.61Hamming 80.92 14.18 91.54 11.69 79.17 15.26 95.03 9.85Hanning 80.08 15.10 90.82 11.83 77.92 16.06 93.63 10.58Kaiser 91.00 6.58 95.68 8.84 91.08 5.99 96.58 9.28Tukey 94.17 4.88 95.59 10.17 94.08 5.12 96.80 9.75

Figura 6.42: Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel gaussiano P=3.

Figura 6.43: Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel gaussiano P=3.

6.5 Resultados obtenidos con clasificadores basados en Maquinas de Soporte deVectores. 199

Tabla 6.11: Resultados Kernel gaussiano (P:5).

Canal: C1 C2Ventana: μ(vs) σ(vs μ(cc) σ(cc) μ(vs) σ(vs) μ(cc) σ(cc)Rectangular 89.67 7.08 95.83 9.49 89.75 7.82 97.03 8.60Triangular 77.50 17.83 81.03 14.47 75.08 17.87 83.88 11.78Blackman 78.08 16.98 83.53 13.87 75.42 18.08 85.78 12.10Hamming 77.00 17.79 84.78 14.11 74.67 18.22 86.89 11.52Hanning 78.17 16.88 83.59 13.87 75.42 18.08 85.82 12.13Kaiser 78.75 15.48 91.41 11.32 76.67 15.98 94.52 10.00Tukey 81.58 13.48 92.60 11.23 79.67 14.48 95.13 10.44

Figura 6.44: Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel gaussiano P=5.

Figura 6.45: Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel gaussiano P=5.

200 Analisis y discusion de los resultados experimentales.

Tabla 6.12: Resultados Kernel gaussiano (P:10).

Canal: C1 C2Ventana: μ(vs) σ(vs μ(cc) σ(cc) μ(vs) σ(vs) μ(cc) σ(cc)Rectangular 74.67 19.06 88.08 13.56 74.25 18.48 91.52 11.03Triangular 85.33 14.15 65.71 13.86 83.08 16.30 69.52 11.93Blackman 84.00 14.81 67.94 14.00 82.33 17.12 72.38 12.24Hamming 83.25 15.27 68.29 13.68 80.83 17.31 73.68 11.95Hanning 84.00 14.81 67.97 13.96 82.33 17.12 72.48 12.24Kaiser 78.58 17.80 78.27 14.75 76.00 17.65 81.22 12.00Tukey 76.83 18.36 81.55 15.19 75.00 17.70 85.46 11.85

Figura 6.46: Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel gaussiano P=10.

Figura 6.47: Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel gaussiano P=10.

6.5 Resultados obtenidos con clasificadores basados en Maquinas de Soporte deVectores. 201

Tabla 6.13: Resultados Kernel polinomico (P:2).

Canal: C1 C2Ventana: μ(vs) σ(vs μ(cc) σ(cc) μ(vs) σ(vs) μ(cc) σ(cc)Rectangular 69.33 18.97 66.63 15.51 71.83 20.85 67.47 13.96Triangular 75.83 19.08 61.20 11.59 72.50 20.30 67.71 12.16Blackman 77.42 19.64 60.99 9.95 73.50 20.02 66.93 12.44Hamming 76.33 19.46 61.20 9.71 72.50 20.59 67.42 13.04Hanning 77.42 19.64 60.97 9.95 73.42 20.10 66.95 12.42Kaiser 73.50 19.57 63.51 11.89 71.33 20.50 66.59 13.14Tukey 73.67 19.18 62.78 10.79 72.67 21.01 65.92 11.33

55 60 65 70 75 80 85 9055

60

65

70

75

80Canal 1. Kernel polinomico, n=2

% C

lasi

ficac

ione

s co

rrec

tas.

% Vectores soporte.

Rect.Trian.Black.Hamm.Hann.KaiserTukey.

Figura 6.48: Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel polinomico P=2.

55 60 65 70 75 80 85 9055

60

65

70

75

80Canal 2. Kernel polinomico, n=2

% C

lasi

ficac

ione

s co

rrec

tas.

% Vectores soporte.

Rect.Trian.Black.Hamm.Hann.KaiserTukey.

Figura 6.49: Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel polinomico P=2.

202 Analisis y discusion de los resultados experimentales.

Tabla 6.14: Resultados Kernel polinomico (P:3).

Canal: C1 C2Ventana: μ(vs) σ(vs μ(cc) σ(cc) μ(vs) σ(vs) μ(cc) σ(cc)Rectangular 56.00 15.62 85.54 11.81 55.92 16.75 86.57 12.48Triangular 57.17 13.97 85.08 11.59 56.50 15.44 85.40 12.61Blackman 57.58 13.63 87.26 9.82 57.58 15.38 85.51 12.82Hamming 56.58 13.41 85.25 10.80 56.58 15.56 85.02 12.77Hanning 57.58 13.66 85.83 10.91 57.58 15.38 85.51 12.82Kaiser 54.67 14.59 85.81 11.43 54.58 15.64 86.98 12.30Tukey 55.75 15.11 85.83 11.06 54.75 16.73 85.57 13.03

46 48 50 52 54 56 58 60 62 64 6676

78

80

82

84

86

88

90

92

94Canal 1. Kernel polinomico, n=3

% C

lasi

ficac

ione

s co

rrec

tas.

% Vectores soporte.

Rect.Trian.Black.Hamm.Hann.KaiserTukey.

Figura 6.50: Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel polinomico P=3.

46 48 50 52 54 56 58 60 62 64 6676

78

80

82

84

86

88

90

92

94Canal 2. Kernel polinomico, n=3

% C

lasi

ficac

ione

s co

rrec

tas.

% Vectores soporte.

Rect.Trian.Black.Hamm.Hann.KaiserTukey.

Figura 6.51: Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel polinomico P=3.

6.5 Resultados obtenidos con clasificadores basados en Maquinas de Soporte deVectores. 203

Tabla 6.15: Resultados Kernel polinomico (P:4).

Canal: C1 C2Ventana: μ(vs) σ(vs μ(cc) σ(cc) μ(vs) σ(vs) μ(cc) σ(cc)Rectangular 45.25 10.52 100.00 0.10 45.00 11.36 96.58 11.84Triangular 48.00 10.79 99.40 1.35 45.42 8.20 99.94 0.20Blackman 49.67 12.02 99.27 1.58 46.25 9.56 100.00 0.10Hamming 47.83 10.14 99.53 1.22 45.25 8.41 100.00 0.10Hanning 49.75 12.11 99.27 1.58 46.17 9.49 100.00 0.10Kaiser 45.25 9.28 99.96 0.14 44.33 9.03 100.00 0.10Tukey 45.50 9.96 99.98 0.10 43.25 10.90 96.26 12.96

40 42 44 46 48 50 52 54 5698

98.5

99

99.5

100

100.5

101Canal 1. Kernel polinomico, n=4

% C

lasi

ficac

ione

s co

rrec

tas.

% Vectores soporte.

Rect.Trian.Black.Hamm.Hann.KaiserTukey.

Figura 6.52: Clasificaciones Correctas vs. Vectores Soporte. Canal 1. Kernel polinomico P=4.

38 40 42 44 46 48 50 52

90

92

94

96

98

100

102

Canal 2. Kernel polinomico, n=4

% C

lasi

ficac

ione

s co

rrec

tas.

% Vectores soporte.

Rect.Trian.Black.Hamm.Hann.KaiserTukey.

Figura 6.53: Clasificaciones Correctas vs. Vectores Soporte. Canal 2. Kernel polinomico P=4.

204 Analisis y discusion de los resultados experimentales.

6.5.2. Analisis.

De la inspeccion de los resultados obtenidos con los clasificadores basados en Kernelsgaussianos se observa que:

Conforme se aumenta la extension de la zona de influencia de la funcion Kernel: 1,2, 3, 5 y 10; el porcentaje de clasificaciones correctas disminuye, con independenciatanto del canal como del tipo de ventana de procesamiento, pasando de un 100 % declasificaciones correctas para n=1 con cualquier tipo de ventana de preprocesameintoa valores comprendidos entre el 80 % - 90 % en el caso de ventanas de tipo rectangular,Kaiser y Tukey, o 65 % - 75 % para el resto de ventanas de preprocesamiento, cuandose consideran clasificadores con funciones Kernel gaussianas con n=10.Conforme aumenta el parametro de la funcion Kernel, el porcentaje de vectoressoporte considerados disminuye, pasando del 100 % del conjunto de datos deentrenamiento para n=1, a valores comprendidos entre el 74 % - 85 % dependiendo deltipo de ventana de preprocesamiento, al igual que para el porcentaje de clasificacionescorrectas, los valores menores se obtienen con ventanas de tipo rectangular, Kaisery Tukey, obteniendose la menor variabilidad para ventanas de Kaiser.

El mismo tipo de analisis llevado a cabo sobre los clasificadores basados en Kernelspolinomicos muestra que:

Al aumentar el orden del polinomio aumenta el numero de clasificaciones correctas,a la vez que disminuye el porcentaje de vectores soporte, llegandose a obtener un100 % de clasificaciones correctas con Kernels polinomicos de orden 4 o superior, paraKernels de orden 4 se obtiene un 100 % de clasificaciones correctas con ventanas depreprocesamiento de tipo rectangular, Kaiser y Tukey, ver figuras 6.32 y 6.33.Para Kernels de orden 4 o superior el porcentaje de vectores soporte seleccionados seestabiliza entre el 45 % - 50 % dependiendo del tipo de ventana de preprocesamiento,los valores menores se obtienen para ventanas de tipo rectangular, Kaiser, Tukey(ver figuras 6.36, 6.37, 6.52, 6.53), volviendose a obtener la menor variabilidad paraventanas de Kaiser.Realizando una comparacion entre los resultados obtenidos con clasificadores cuyainformacion proviene del canal C3’-C3” frente a los del C4’-C4”, se observa queel segundo muestra un mejor comportamiento al presentar porcentajes ligeramentemayores de clasificaciones correctas con menores porcentajes de vectores soporte quelos mostrados por sus homologos en C3’-C3”, ver figuras 6.30 y 6.31, 6.32 y 6.33.

6.5.3. Discusion.

Los clasificadores basados en Kernels gaussianos tienden al sobre-aprendizaje delconjunto de entrenamiento, ya que cuando el parametro caracterıstico es pequeno, todoslos patrones de entrenamiento presentados se convierten en vectores soporte, conforme elparametro caracterıstico del Kernel aumenta, lo que es equivalente a aumentar la zonade influencia de cada uno de los vectores soporte seleccionados, el numero de los mismos

6.5 Resultados obtenidos con clasificadores basados en Maquinas de Soporte deVectores. 205

disminuye, reduciendo ası mismo el porcentaje obtenido de clasificaciones correctas. Tal ycomo se desprende de los dos primeros puntos del analisis previo, los mejores resultadosse obtienen con las ventanas de procesamiento de tipo rectangular, Kaiser y Tukey.

Los clasificadores basados en Kernels polinomicos no muestran el efecto de sobre-aprendizaje del conjunto de entrenamiento, ya que como se indica en los puntos terceroy cuarto del analisis anterior, conforme se aumenta el orden del polinomio, disminuye elnumero de vectores soporte a la vez que aumenta el numero de clasificaciones correctasconseguido; sin embargo para Kernels polinomicos de orden superior a 5 no se observa unamejora significativa.

Comparando clasificadores basados en Kernels gaussianos con clasificadores basadosen Kernels polinomicos, se observa un mejor comportamiento en los segundos, pues seconsiguen porcentajes de clasificaciones correctas mayores, practicamente del 100 %, conmenor porcentaje de vectores soporte, entre un 45 % - 50 % para el caso de Kernelspolinomicos, frente a un 74 % - 85 % para Kernels gaussianos, lo que indica que para estetipo de aplicacion la capacidad de generalizacion de los Kernels polinomicos es superiora la de los Kernels gaussianos. El mejor comportamiento del canal asociado al hemisferioderecho, C4’-C4”, coincide con lo expuesto en 6.1.3, 6.2.3 y 6.3.3.

6.5.4. Conclusiones.

Del analisis y discusion de los resultados de las pruebas realizadas con cinco voluntarios,presentados en los apartados anteriores, empleando clasificadores basados en MSVdescritas en la seccion 4.5.5, se obtienen las siguientes conclusiones:

1. Es preferible la utilizacion de Kernels polinomicos a Kernels gaussianos.

2. La arquitectura del clasificador a emplear deberıa emplear Kernels polinomicosde orden 4 o 5 ( 5 con la finalidad de aumentar la confianza en la capacidad degeneralizacion del mismo, mas no de orden superior, ya que no se aprecia mejorasignificativa), utilizando una ventana de preprocesamiento de tipo Kaiser, Tukey orectangular.

206 Analisis y discusion de los resultados experimentales.

6.6. Corolario.

A modo de resumen, las principales conclusiones de los apartados anteriores secondensan en los puntos siguientes:

Es factible la discriminacion de las actividades cognitivas propuestas, partiendo delos registros de senal electroencefalografica adquiridos cuando el usuario desarrolladichas actividades.En todos los experimentos realizados, el hemisferio derecho muestra mayor capacidadde discriminacion que el izquierdo, confirmando las observaciones de diferenciasfuncionales entre los mismos.La consideracion de ventanas de procesamiento de Tukey, derivadas del analisisdel efecto de enmarcado de la senal, permite obtener una mejor capacidad dediscriminacion de las actividades cognitivas consideradas.Las componentes del vector de caracterısticas que muestran una mejor capacidad dediscriminacion son α2, β1 y β2.El espacio de caracterısticas original puede ser transformado, mediante combinacionlineal de las mismas, en un espacio de caracterısticas menor, sin que por ello se pierdala capacidad de discriminacion de las actividades cognitivas propuestas.La realimentacion del resultado de la clasificacion al usuario da lugar a una ligeradisminucion en la capacidad de discriminacion, pero sin llegar a comprometer suutilizacion en dispositivos ICC en lınea.Las caracterısticas de la senal electroencefalograficas, intrınsecas a cada una delas actividades cognitivas propuestas, pueden ser aprendidas e identificadas porclasificadores que empleen el procedimiento de aprendizaje supervisado.

Los mejores resultados se obtienen con clasificadores basados en Maquinas de Soportede Vectores con funciones Kernel polinomicas de orden cuatro o superior, seguidos delos que se basan en redes neuronales de tipo RBF y PNN. Clasificadores basados enMaquinas de Soporte de Vectores con Kernels gaussianos muestran peores resultadosque los basados en Kernels polinomicos, mientras que por su parte los clasificadoresbasados en redes neuronales de tipo MLP no llegan a aprender de modo efectivo elconjunto de muestras de entrenamiento.En la arquitectura de los clasificadores basados en redes neuronales, las versiones queemplean redes diferentes dedicadas a cada canal encefalografico, muestran valores decapacidad de discriminacion superiores a las versiones en las que se emplea una unicared neuronal que considere ambos canales al mismo tiempo.La secuencia de clasificaciones contiene informacion que mejora la capacidadde discriminacion entre las actividades cognitivas consideradas, mostrandose losmodelos ocultos de Markov como tecnica valida para la extraccion y utilizacionde esta informacion.Los parametros de ajuste del clasificador bietapa presentado, son muy dependientesdel usuario, por lo que es necesario un proceso de presintonizacion que determine elvalor de los mismos.

Capıtulo 7

Conclusiones y futuros desarrollos.7.1. Conclusiones.

En la presente tesis se ha descrito la novedosa tecnologıa de Interfaz CerebroComputador, mostrando los principales descubrimientos cientıficos y desarrollostecnologicos que han permitido su aparicion, a la vez que se han indicado las razonesque justifican el interes actual que, las aplicaciones practicas de esta tecnologıa, suscitaentre los diversos grupos de investigacion a nivel mundial, describiendose los desarrollos ylıneas de investigacion mas importantes que sobre esta tecnologıa existen.

Tambien se han mostrado las bases fisiologicas, actualmente conocidas1, en las que sefundamenta. Ası mismo se han analizado y discutido las diferentes tecnicas, empleadashoy en dıa, en la adquisicion de actividad cerebral y su aplicabilidad en esta tecnologıa.Posteriormente se han mostrado los componentes de que consta un dispositivo ICC.

Posteriormente se han descrito las tecnicas de procesamiento de senal aplicadas a lasenal electroencefalografica, previas al proceso de identificacion y clasificacion de senalEEG, realizando un especial analisis sobre la influencia que el efecto de ventaneado dela senal tiene sobre la capacidad de discriminacion de la senal EEG, adquirida cuandoel usuario realiza las diferentes actividades cognitivas propuestas; estudio que ha sidopresentado en [Martınez 06].

Ası mismo se han presentado las diferentes tecnicas de clasificacion, mas comunmenteutilizadas por los diferentes grupos de investigacion sobre ICC a nivel mundial.

Entre las contribuciones de esta tesis se encuentran:

Analisis que sobre la capacidad de discriminacion tiene el efecto de ventaneado condiferentes tipos de ventanas de procesamiento.

Desarrollo de un novedoso clasificador en dos etapas basado en la aplicacionsecuencial de redes neuronales de tipo RBF y Modelos Ocultos de Markov.

Desarrollo de un demostrador bajo el paradigma de dispositivo endogeno segun loexpuesto en la seccion 5.7 empleando un mınimo numero de electrodos superficiales.

1Debido a la complejidad del sistema nervioso en general y del cerebro en particular, en Neurologıa semantienen activas diferentes lıneas de investigacion, que tratan de explicar el funcionamiento del cerebro,cuyos resultados podrıan dar lugar a la aparicion de nuevos mecanismos aplicables en ICC.

208 Conclusiones y futuros desarrollos.

Evaluacion de las diferentes tecnicas de clasificacion con experimentos realizadospor sujetos reales, a fin de evaluar la aplicacion de esta tecnologıa en el control dedispositivos externos genericos, lo que permite concluir que:

• Es factible el empleo de la tecnologıa de Interfaz Cerebro Computador, bajo elparadigma de sistema endogeno, empleando un numero mınimo de electrodossuperficiales localizados sobre las zonas encefalicas con mayor poder dediscriminacion; estando en lınea con lo expuesto en [Alarcon 00], [Gazzaniga 92]y [Jessell 97], entre otros.

• El empleo de ventanas de procesamiento de tipo Tukey, Kaiser o rectangular deduracion equivalente al tamano de la FFT de procesamiento empleada, mejorala capacidad de discriminacion; un estudio detallado sobre este punto puedeencontrarse en [Martınez 06].

• La banda frecuencial con mayor capacidad de discriminacion comprende alas componentes α y β, coincidiendo con los ritmos μ de des-sincronizaciony posterior sincronizacion asociados a la planificacion de movimiento; lo cualesta en lınea con lo expuesto en [Pfurtscheller 03].

• El hemisferio cerebral derecho presenta una mayor capacidad de discriminacion.• Es posible reducir la dimension del espacio de caracterısticas, realizando una

combinacion de las mismas, sin que esto de lugar a una perdida de la capacidadde discriminacion. Un analisis detallado sobre esta conclusion ha sido presentadaen [Martınez 07].

• Los clasificadores basados en redes neuronales de tipo PNN o RBF presentanun mejor comportamiento que clasificadores basados en redes neuronalesde tipo MLP, tanto desde el punto de vista de clasificaciones correctasconseguidas, como estabilidad de las mismas. La descripcion pormenorizadade esta conclusion ha sido descrita en [Martınez 08]

• Un clasificador basado en un algoritmo bi-etapa RBF-HMM tiende a sobre-aprender el conjunto de datos de entrenamiento, presentando una muy buenacapacidad de aprendizaje, pero una reducida generalizacion; por lo que serecomienda el uso de dicho clasificador cuando exita una elevada cantidadde informacion que pueda ser empleada durante el aprendizaje, por ejemploregistros electroencefalograficos de varias horas de duracion. La descripciondetallada tanto del algoritmo de clasificacion, como los resultados y conclusionesextraidos de su aplicacion pueden encontrarse en [Martinez 10].

• El clasificador vasado en Maquina de Soporte de Vectores con Kernel polinomicode orden 4 y ventana de procesamiento de tipo Tukey es el que mejores resultadode clasificacion aporta.

• La realimentacion del resultado de la clasificacion al usuario ocasiona unadisminucion de la capacidad de discriminacion, en lınea con lo expuesto en[Pineda 03], la descripcion detallada de esta conclusion ha sido expuesta en[Martinez 09].

7.2 Futuros desarrollos. 209

7.2. Futuros desarrollos.

Con la aplicacion de demostracion desarrollada segun lo expuesto en la seccion 5.7bajo el paradigma de dispositivo endogeno empleando un mınimo numero de electrodossuperficiales, es posible analizar y evaluar la aplicabilidad de un dispositivo basado en latecnologıa ICC a una persona y anticipar una estimacion de los resultados obtenibles.

Las actuales lıneas de investigacion existentes sobre ICC daran respuesta a las carenciasque esta tecnologıa presenta hoy dıa para una utilizacion masiva de la misma, como porejemplo el desarrollo e implantacion de un algoritmo de clasificacion seguro que permitauna adaptacion continua al usuario, que considere el efecto que el cansancio y otros tiposde factores psicologicos causan sobre la capacidad de produccion de los patrones cerebralesdel usuario.

Para que la tecnologıa ICC pase de la fase de demostracion tecnologica a ser unarealidad en la vida diaria, se precisa que el modo de operacion del clasificador pueda sersupervisado por parte del usuario, deciendo este cuando el dispositivo se encuentra activo,en estado de reposo, o en fase de aprendizaje y adaptacion. Para ello es preciso que sedesarrollen estudios a mas largo plazo, que consideren la interaccion entre el dispositivoy el usuario. Estos estudios requeriran la creacion de equipos multidisciplinares, donde seconsidere el desarrollo de este tipo de tecnologıa a nivel global, no solo desde un puntode vista de ingenierıa, considerando aspectos neurologicos y psicologicos, como los efectosque el aprendizaje por parte del usuario en el uso de un determinado tipo de dispositivoICC causaran sobre su capacidad de clasificacion.

La evaluacion de la ergonomıa en la usabilidad del dispositivo tambien es de granimportancia, un dispositivo que sea ergonomico en su empleo es mas comodo para elusario, a la vez que evita que se produzcan lesiones o molestias en su empleo; ası mismola consideracion de aspectos motivacionales por parte del usuario en el empleo de estetipo de tecnologıa son fundamentales, ya que esta tecnologıa supone el desarrollo de unnuevo canal de comunicacion, distinto a los utilizados conmunmente, lo que puede darlugar a que inicialemente en la fase de aprendizaje se produzcan en el usuario momentosde frustracion ante la respuesta obtenida.

Por ultimo, pero no por ello menos importante, queda el aspecto comercial y economico,para que la tecnologıa ICC alcance un nivel de implantacion elevado, es preciso que elprecio final de comercializacion de este tipo de dispositivos sea admisible por parte delusuario final, en donde se ha de considerar tanto los costes de investigacion y desarrollocomo mantenimiento y reparacion. Actualmente esta tecnologıa se encuentra en la fase dedemostracion tecnologica obteniendose resultados aceptables en escenarios de aplicacionmuy especıficos.

210 Conclusiones y futuros desarrollos.

Apendices

Apendice A

Adquisicion de senal.

Las senales biologicas, al igual que la gran mayorıa de senales presentes en la naturaleza,son de caracter analogico lo que implica su continuidad en el tiempo y en los valores de suamplitud; sin embargo los procesadores digitales operan sobre codigos discretos asociadosa determinados instantes de tiempo. La conversion analogico/digital permite convertir untipo de senal en otro, conservando la mayor cantidad de informacion, idealmente la senalanalogica recuperada a partir de la senal digital deberıa ser una copia fiel de la senalanalogica de partida.

La conversion analogico/digital contempla la realizacion de tres procesos distintos:muestreo, cuantificacion y codificacion; a traves de los cuales la informacion de la senal seconvierte de un tipo a otro.

A.1. Muestreo de senales.

El muestro de senal es un proceso lineal que transforma una senal continua en el tiempoy de banda limitada, en una serie temporal de valores de amplitud en instantes discretos.Si los instantes de tiempo en que se adquieren los valores de amplitud estan equiespaciadosal muestreo se le denomina muestreo uniforme, siendo este el mas habitual.

Existen diferentes tipos de muestreos de senal:

Muestreo natural. La serie temporal de valores es un tren de impulsos cuya amplitudqueda modulada por el valor de la amplitud de la senal que se muestrea, lo que puedeinterpretarse como el producto de senal de entrada por la senal muestreadora.

Sm(nT ) = S(t)m(t) (A.1)

El teorema de muestreo establece la relacion que existe entre el periodo de muestreoy el valor de la componente frecuencial mas alta presente en la senal analogica, fM .Se demuestra que

T <fM

2(A.2)

214 Adquisicion de senal.

Para evitar que componentes frecuenciales superiores a fM/2 se mezclen concomponentes frecuenciales menores a fM/2, efecto de “aliasing”, es preciso asegurarque la senal que se muestrea sea de banda limitada, por lo que antes de proceder almuestreo se utilizan filtros de paso bajo, de forma que el valor de amplitud de lascomponentes frecuenciales no deseadas presentes en la senal original sean inferioresa la resolucion del conversor A/D o al valor maximo del error de cuantificacion.Cuanto mayor sea la relacion entre la frecuencia de muestreo con la frecuencia delas senales no deseadas, menor podra ser el orden del filtro empleado.

Muestreo ideal uniforme. Algunas realizaciones practicas de conversores A/D,requieren que la senal que se muestrea mantenga su valor durante el instante detiempo en que se realiza la conversion, por lo que antes de efectuar la conversionse utiliza un circuito que mide y retiene el valor de la entrada durante el tiempoque dura la conversion. El teorema de Shannon afirma que si S(t) es una senal cuyatransformada de Fourier S(f) no contiene frecuencia superiores a |f | ≥ fM entonces

S(t) =n=+∞∑n=−∞

S(nT )sen(2πfM (t − nT ))

2πfM (t − nT )(A.3)

donde T = 12fM , siendo fM la denominada frecuencia de Nyquist y 1/T la frecuencia

de muestreo.

A la funcion

h(t) =sen(2πfM t

2πfM t(A.4)

se la denomina retencion cardinal, coincidiendo con la respuesta impulsional de unfiltro de paso bajo ideal.

Muestreo de senales pasabanda. Este tipo de muestreo se da en aplicacionesindustriales e instrumentacion, cuando la senal portadora se modula en amplitudpor la magnitud de interes, cuya frecuencia es mucho menor que la de la portadora.

Muestreo repetitivo secuencial. Cuando a priori se conoce que la senal que semuestrea es repetitiva, se puede emplear este conocimiento para tomar muestrasde la senal en periodos diferentes. Se precisa de un punto de sincronismo y uncircuito de temporizacion que genere con respecto a dicho punto la base de tiempospara la adquisicion. En caso de no conocer el periodo de la senal original es precisodeterminarlo. Esta tecnica de submuestreo se emplea en osciloscopios digitales debajo coste y voltımetros digitales de precision.

A.2 Cuantificacion. 215

A.2. Cuantificacion.

Mediante este procedimiento no lineal se representa el valor de amplitud de lasenal analogica mediante una serie finita de niveles de amplitud. Existen dos tipos decuantificacion.

Cuantificacion uniforme. En la figura siguiente se representa el proceso decuantificacion uniforme. Dependiendo del valor de la entrada, x, la salida, y, tomauna serie de valores discretos, ası si (0 ≤ x ≤ q/2) → y = 1, si (q/2 ≤ x ≤ 3q/2) →y = 2, y ası sucesivamente.

Figura A.1: Cuantificacion uniforme.

A q se le denomina intervalo de cuantificacion, siendo la diferencia entre los valoresde entrada mayor y menor para los que la salida mantiene el mismo valor. Si lasalida del cuantificador solo depende del valor actual de la entrada, y no de valoresanteriores, al cuantificador se le denomina de memoria cero, en contraposicion conlos cuantificadores secuenciales que consideran el valor de la entrada en el momentoactual y anteriores.

216 Adquisicion de senal.

Dependiendo del numero de estados considerados, N , ası sera la resolucion decuantificador, la cual se expresa en bits (n), N = 2n.

El margen de entrada, M , viene determinado por la diferencia entre los valoresmaximo y mınimo aceptados a la entrada. Para los cuantificadores uniformes q esconstantes en todo el margen M , cumpliendose:

q =M

2n(A.5)

Como puede observarse la curva en escalera de la cuantificacion introduce un error,ya que la entrada, x(t), no puede reconstruirse a partir de la secuencia de valores yacuantificados, y(t). El maximo error cometido en cuantificadores uniformes idealeses de q/2, teniendo una curva en forma de diente de sierra, con valor medio nulo,e = 0, y varianza:

vare = E(e − e)2 =∫ ∞

−∞

e2

qde =

q2

12(A.6)

El valor eficaz del ruido es equivalente a la raız cuadrada de la suma del valor medioal cuadrado y la varianza, obteniendose

R =q

2√

3(A.7)

De donde se desprende que para reducir el valor del ruido hay que reducirproporcionalmente el intervalo de cuantificacion, q. Reduccion que queda limitadapor factores tecnologicos y el ruido asociado a los componentes electronicos.

La relacion senal / ruido (S/R), calculada como el cociente del valor eficaz de unasenal senoidal de amplitud entre 0 y (2n − 1/2)q y el ruido presente sera:

S/R =(2n − 1/2)2q2/2

q2/12= 6 · 22n para n > 4. (A.8)

S/R(dB) = 10log6 + 20nlog2 = 7,78 + 6,02n (A.9)

Como puede comprobarse la expresion anterior se obtiene para senales cuyo rango deamplitud cubre el margen de entrada del cuantificador, como es obvio para senalesmenores la relacion S/R sera menor, motivo por el que es muy importante amplificarla senal de entrada antes de proceder a la cuantificacion

Cuantificacion no uniforme. Como se ha indicado en el punto anterior, la relacionS/R disminuye cuando la amplitud de la entrada analogica es menor que elmargen del cuantificador, el error relativo es menor para senales pequenas quepara senales grandes, en caso de querer tener una relacion S/R constante se puede

A.3 Codificacion. 217

variar el intervalo de cuantificacion proporcionalmente a la amplitud de entrada.Tecnicas como la Modulacion de Impulsos Codificados1 hacen uso de este tipo decuantificacion, permitiendo a su vez reducir el numero de bits

A.3. Codificacion.

Mediante el proceso de codificacion se asocia biunıvocamente cada uno de losvalores discretos de la salida del codificador a un sımbolo dentro de un alfabeto finito,[Shannon 48]. Si el alfabeto queda compuesto por combinaciones de dos caracteres, y laposicion de cada uno de ellos se corresponde con una potencia entera de dos, se obtienenlos codigos binarios, entre los que se encuentran:

Codigo binario unipolar. A = An−1An−2 . . . A1A0 = An−1 × 2n−1 + An−2 × 2n−2 +· · · + A1 × 21 + A0 × 20

Codigo binario bipolar. En el que ademas del valor de la magnitud de la amplitudes necesario indicar si esta es positiva o negativa. Entre estos codigos se encuentran:

• Codigo binario con complemento a uno. Las cantidades negativas se codificanmediante el complemento a uno del valor absoluto de la magnitud. Existen puesdos representaciones para el cero.

• Codigo binario con complemento a dos. Por definicion el complemento a dosde un numero binario es aquel otro numero que sumado al primero da cero.Para las magnitudes positivas se anade un cero a la izquierda de la codificacionbinaria, mientras que para el computo de las cantidades negativas se calcula elcomplemento a uno de la magnitud y se anade uno.

• Codigo binario decalado. Equivalente al codigo binario en complemento a doscon la salvedad de cambiar el criterio para la representacion de las magnitudespositivas, anadiendo un uno a la izquierda en lugar de un cero, y un cero paralas negativas.

• Codigo binario con signo anadido. En este caso las magnitudes positivas quedanrepresentadas por el codigo binario unipolar anadiendo un cero a la izquierda,mientras que para las negativas se anade un uno.

Otros codigos. Existen codificadores que realizan operaciones mas exoticas a efectosde evitar y detectar comportamientos anomalos, como por ejemplo:

• Codigo Gray. Se trata de un codigo cıclico de representacion, en el que entre unsımbolo y su inmediato seguidor solo se permite el cambio de un dıgito, se evitaası que en la transicion secuencial de codigos se produzcan lecturas erroneas.

1En ingles Pulse Code Modulation, PCM

218 Adquisicion de senal.

• Codigos con correccion de errores. Se aplica cuando se realiza transmision oalmacenamiento de la informacion digital proporcionada por el codificador,anadiendo una codificacion adicional que facilita la identificacion y posiblecorreccion de errores. Ejemplos de este tipo de codigos son los bits de paridado el codigo Hamming.

Apendice B

Matriz de confusion.Para presentar los resultados de clasificacion obtenidos con la tras la aplicacion de un

clasificador a un conjunto de datos se utilizan las matrices de confusion. Estas proporcionaninformacion detallada sobre el rendimiento del clasificador para cada una de las clasesconsideradas [Nabney 02].

En la matriz de confusion C, las filas representan la asignacion real de las muestrascandidatas a cada una de las clases, mientras que las columnas representan las asignacionespredichas. De este modo la componente Cij de la matriz de confusion representa al numerode muestras que perteneciendo a la clase i han sido asignadas dentro de la clase j; ası puesel clasificador ideal, aquel que no comete errores, serıa una matriz diagonal.

Uno de los beneficios de la utilizacion de las matrices de confusion es comprobrar si elclasificador confunde dos o mas clases entre sı.

Para obtener resultados representativos sobre la bondad del clasificador, esrecomendable que el numero de muestras considerados en cada una de las clases seasemejante, en caso contrario la tasa de error puede llega a no ser representativa de labondad de su rendimiento.

A modo de ejemplo considerense las matrices de confusion mostradas en las tablasB.1 y B.2. En la primera, del clasificador ideal, se observa que todas las muestras sonasignadas a las clases correctas, y el numero de muestras considerado es equivalente en lastres clases.

Calculo matematico Imaginacion movimento RelaxCalculo matematico 60 0 0

Imaginacion movimento 0 65 0Relax 0 0 55

Tabla B.1: Matriz de confusion del clasificador ideal.

Mientras que en la matriz de la tabla B.2 se observa que un tercio de las muestraspertenecientes a Calculo matematico son clasificadas de forma erronea, con tendenciaa confundirlas con las muestras de la clase Relax. Por su parte todas las muestras deImaginacion de movimiento son catalogadas de forma correcta. Por ultimo, analizandola clase Relax se observa que el numero de muestras consideradas es del orden de la

220 Matriz de confusion.

quinta parte del considerado en las otras dos clases, y la confusion de cinco de las docemuestras como pertenecientes a la clase Imaginacion de movimiento hace sospechar queel clasificador en cuestion no pueda discriminar entre ambas clases.

Calculo matematico Imaginacion movimento RelaxCalculo matematico 40 8 12

Imaginacion movimento 0 65 0Relax 0 5 7

Tabla B.2: Matriz de confusion para un clasificador real.

El rendimiento de este clasificador serıa del 82 %.

Considerando un clasificador que separara entre dosclases, {+,−}, las entradas de la matriz de confusiontienen el siguiente significado:

Prediccion(−) (+)

Real (−) a b(+) c d

a es el numero de predicciones correctas para la clase de muestras negativas.b es el numero de falsos positivos o muestras negativas clasificadas erroneamente.c es el numero de falsos negativos o muestras positivas clasificadas como positivas.d es el numero de predicciones correctas para la clase de muestras positivas.

Definiendose la siguiente terminologıa:

Exactitud (E): porporcion de clasificaciones correctas.

E =a + d

a + b + c + d(B.1)

Tasa de Verdaderos Positivos (TVP): proporcion de muestras positivascorrectamente clasificadas.

TV P =d

c + d(B.2)

Tasa de Falsos Positivos (TFP): proporcion de muestras negativas clasificadaserroneamente.

TFP =b

a + b(B.3)

Tasa de Verdaderos Negativos (TVN): proporcion de muestras negativascorrectametne clasificadas.

TV N =a

a + b(B.4)

Tasa de Falsos Negativos (TFN): proporcion de muestras positivas clasificadaserroneamente.

TFV =c

c + d(B.5)

Precision (P): proporcion de muestras positivas correctamente clasificadasconsiderando todas las predicciones positivas.

P =d

b + d(B.6)

Bibliografıa

[Alarcon 00] R. Alarcon & M.J. Blanca. Asimetrıa hemisferica en la dicotomicaholıstica-analıtica en tareas de atencion focalizada. Psicothema, vol. 12,no. 2, pages 15–17, 2000.

[Allen 77] J. B. Allen & Lawrence R. Rabiner. A Unified Approach to Short-TimeFourier Analysis and Synthesis., November 1977 1977.

[Allison 03] B. Z. Allison & J. A. Pineda. ERPs evoked by different matrix sizes:implications for a brain computer interface (BCI) system. NeuralSystems and Rehabilitation Engineering, IEEE Transactions on [seealso IEEE Trans.on Rehabilitation Engineering], vol. 11, no. 2, pages110–113, 2003.

[Ambler 05] Scott W. Ambler. The elements of uml 2.0 style. Cambridge UniversityPress, 2005.

[Areny 93] Ramon P. Areny. Adquisicion y distribucion de senales. MarcomboS.A., Barcelona, 1993.

[Arlow 05] Jim Arlow & Ila Neustadt. Uml 2. Anaya Multimedia, Madrid, 2005.

[Arnao 97] A. C. Arnao. Guia de acceso al ordenador para personas condiscapacidad. Instituto de Migraciones y Servicios Sociales. Ministeriode Trabajo y Asuntos Sociales, Madrid, 1997.

[Babiloni 00] F. Babiloni, F. Cincotti, L. Lazzarini, J. Millan, J. Mourino, M. Varsta,J. Heikkonen, L. Bianchi & M. G. Marciani. Linear classification oflow-resolution EEG patterns produced by imagined hand movements.Rehabilitation Engineering, IEEE Transactions on [see also IEEETrans.on Neural Systems and Rehabilitation], vol. 8, no. 2, pages 186–188, 2000.

[Bai 01] Ou Bai, M.Nakamura & H. Shibasaki. Compensation of handmovement for patients by assistant force: relationship between humanhand movement and robot arm motion. Neural Systems and

222 BIBLIOGRAFIA

Rehabilitation Engineering, IEEE Transactions on [see also IEEETrans.on Rehabilitation Engineering], vol. 9, no. 3, pages 302–307,2001.

[Baker 89] L. A. Geddes; L. E. Baker. Principles of applied biomedicalinstrumentation. Wiley, New York ; Chichester, 1989. L.A.Geddes, L.E. Baker; .A Wiley-Interscience publication.”; Includesbibliographies.

[Barreno 97] Pedro Garcıa Barreno. Medicina virtual. en los bordes de lo real.Debate, Madrid, 1997. 019: M. 1045-1997; Pedro Garcıa Barreno.

[Barreno 02] Pedro Garcıa Barreno. Horizontes culturales. historia de la cienciaespanola. santiago ramon y cajal. .Espasa”, 2002.

[Baum 66] L.E. Baum & Petrie T. Statistical Inference for probabilistic functionsof Finite State Markov Chains, 1966.

[Baum 70] L.E. Baum, Petrie T., Soules G. & Weiss N. A Maximization TechniqueOcurring in the Statistical Analysis of Probabilistic Functions ofMarkov Chains, 1970.

[Bayliss 00] J. D. Bayliss & D. H. Ballard. A virtual reality testbed forbrain-computer interface research. Rehabilitation Engineering, IEEETransactions on [see also IEEE Trans.on Neural Systems andRehabilitation], vol. 8, no. 2, pages 188–190, 2000.

[Bayliss 03] J. D. Bayliss. Use of the evoked potential P3 component for control ina virtual apartment. Neural Systems and Rehabilitation Engineering,IEEE Transactions on [see also IEEE Trans.on RehabilitationEngineering], vol. 11, no. 2, pages 113–116, 2003.

[Bengio 96] Y. Bengio & P. Frasconi. Input-output HMMs for sequence processing,1996.

[Bianchi 03] L. Bianchi, F. Babiloni, F. Cincotti, M. Arrivas, P. Bollero & M. G.Marciani. Developing wearable bio-feedback systems: a general-purposeplatform. Neural Systems and Rehabilitation Engineering, IEEETransactions on [see also IEEE Trans.on Rehabilitation Engineering],vol. 11, no. 2, pages 1–3, 2003.

[Birbaumer 00] N. Birbaumer, A. Kubler, N. Ghanayim, T. Hinterberger, J. Perel-mouter, J. Kaiser, I. Iversen, B. Kotchoubey, N.Neumann & H. Flor.The thought translation device (TTD) for completely paralyzed pa-tients. Rehabilitation Engineering, IEEE Transactions on [see also

BIBLIOGRAFIA 223

IEEE Trans.on Neural Systems and Rehabilitation], vol. 8, no. 2, pages190–193, 2000.

[Birbaumer 03] N. Birbaumer, T. Hinterberger, A. Kubler & N.Neumann. The thought-translation device (TTD): neurobehavioral mechanisms and clinicaloutcome. Neural Systems and Rehabilitation Engineering, IEEETransactions on [see also IEEE Trans.on Rehabilitation Engineering],vol. 11, no. 2, pages 120–123, 2003.

[Birch 00] G. E. Birch & S. G. Mason. Brain-computer interface researchat the Neil Squire Foundation. Rehabilitation Engineering, IEEETransactions on [see also IEEE Trans.on Neural Systems andRehabilitation], vol. 8, no. 2, pages 193–195, 2000.

[Birch 03] G. E. Birch, S. G. Mason & J. F. Borisoff. Current trends in brain-computer interface research at the Neil Squire foundation. NeuralSystems and Rehabilitation Engineering, IEEE Transactions on [seealso IEEE Trans.on Rehabilitation Engineering], vol. 11, no. 2, pages123–126, 2003.

[Bishop 95] Christopher M. Bishop. Neural networks for pattern recognition.Oxford University Press, Great Britain, 2000 1995.

[Blankertz 04] B. Blankertz, K. R Muller, G. Curio, T. M. Vaughan, G. Schalk,J. R. Wolpaw, A. Schlogl, C.Neuper, G. Pfurtscheller, T. Hinterberger,M. Schroder & N. Birbaumer. The BCI competition 2003: progressand perspectives in detection and discrimination of EEG single trials.Biomedical Engineering, IEEE Transactions on, vol. 51, no. 6, pages1044–1051, 2004.

[Borisoff 04] J. F. Borisoff, S. G. Mason, A. Bashashati & G. E. Birch. Brain-computer interface design for asynchronous control applications:improvements to the LF-ASD asynchronous brain switch. BiomedicalEngineering, IEEE Transactions on, vol. 51, no. 6, pages 985–992, 2004.

[Bronzino 95a] Joseph D. Bronzino. The biomedical engineering handbook. CRC Press: IEEE Press, Boca Raton, 1995. editor-in-chief, Joseph D. Bronzino;Includes bibliographical references and index.

[Bronzino 95b] Joseph D. Bronzino. The biomedical engineering handbook. CRC Press: IEEE Press, Boca Raton, 1995. editor-in-chief, Joseph D. Bronzino;Includes bibliographical references and index.

[Burges 98] Christopher J.C. Burges. A Tutorial on Support Vector Machines forPattern Recognition., 1998.

224 BIBLIOGRAFIA

[Cajal 05] Santiago Ramon y Cajal. Histologıa del sistema nervioso del hombre yde los vertebrados, 1905.

[Canu 05] Y. Grandvalet; V. Guigue; A. Rakotomamonjy; S. Canu. SVM andKernel Methods Matlab Toolbox. Perception Systemes et Information,INSA de Rouen, Rouen, France, 2005.

[Castro 03] J.L. Alba Castro. Maquinas de Soporte de Vectores, 2003.

[Chang 07] Chih-Chung Chang & Chih-Jen Lin. LIBSVM – A Library for SupportVector Machines, 2007.

[Chapin 99] J. K. Chapin & K. A. Moxon. Real-time control of a robot arm usingsimultaneously recorded neurons in the motor cortex, 1999 1999.

[Chervonenkis 74] V. Vapnik; A. Chervonenkis. Theory of Pattern Recognition. Nakua,Moscow, 1974.

[Chiappa 06] Silvia Chiappa. ANALYSIS AND CLASSIFICATION OF EEG SIG-NALS USING PROBABILISTIC MODELS FOR BRAIN COMPU-TER INTERFACES. PhD thesis, IDIAP Research Institute, 2006.

[Chinchilla 43] Anastasio Chinchilla. Anales historicos de la medicina en general, ybiografico-bibliografico de la espanola en particular. Imprenta de Lopezy Cia., 1843.

[Cincotti 03] F. Cincotti, D. Mattia, C. Babiloni, F. Carducci, S. Salinari, L. Bianchi,M. G. Marciani & F. Babiloni. The use of EEG modifications dueto motor imagery for brain-computer interfaces. Neural Systems andRehabilitation Engineering, IEEE Transactions on [see also IEEETrans.on Rehabilitation Engineering], vol. 11, no. 2, pages 131–133,2003.

[Colbert 98] Charles Colbert. A measure of perfection: Phrenology and the fine artsin america. The University of North Carolina Press, 1998.

[Cox 00] Richard V. Cox, Candace A. Kamm, Lawrence R. Rabiner, JuergenSchroeter & Jay G. Wilpon. Speech and Language Processing for Next-Millennium Communications Services., August 2000 2000.

[Cristianini 00] Nello Cristianini & John Shawe-Taylor. An introduction to supportvector machines : and other kernel-based learning methods. CambridgeUniversity Press, Cambridge, 2000. Nello Cristianini and John Shawe-Taylor.; Includes bibliographical references and index.

[Cristianini 05a] Nello Cristianini. Kernel Methods for General Pattern Analysis, 2005.

BIBLIOGRAFIA 225

[Cristianini 05b] Nello Cristianini & John Shawe-Taylor. And Introduction to SupportVector Machines and other kernel-based learning methods. CambridgeUniversity Press, The Edinburgh Building, Cambridge CB2 2RU, UK,2005.

[Donchin 00] E. Donchin, K. M. Spencer & R. Wijesinghe. The mentalprosthesis: assessing the speed of a P300-based brain-computerinterface. Rehabilitation Engineering, IEEE Transactions on [see alsoIEEE Trans.on Neural Systems and Rehabilitation], vol. 8, no. 2, pages174–179, 2000.

[Duda 01] Richard Oswald Duda, Peter Elliot Hart & David G. Strok. Patternclassification. John Wiley and sons, New York etc., 2001. Richard O.Duda, Peter E. Hart, David G. Strok.

[Espinoza 03] J.W. Espinoza. El Genoma Humano y sus implicancias jurudicopenales dentro de la antropologıa jurıdica., 2003.

[Ferre 97] M. Ferre. Diseno de Interfases Avanzados para Robots Teleoperados.Desarrollo de un Entorno de Teleoperacion. PhD thesis, UniversidadPolitecnica de Madrid, 1997.

[Fisher 36] R. A. Fisher. THE USE OF MULTIPLE MEASUREMENTS INTAXONOMIC PROBLEMS. Annals of Eugenics, vol. 7, pages 179–188, 1936 1936.

[Florian 98] G. Florian, C. Andrew & G. Pfurtscheller. Do changes in coherencealways reflect changes in functional coupling? Electroencephalographyand Clinical Neurophysiology,, vol. 106, no. 1, pages 87–91, 1 1998.

[Forney 73] G.D. Forney. The Viterbi Algorithm, 1973.

[Freeman 93] James A. Freeman & David M. Skapura. Redes neuronales :algoritmos, aplicaciones y tecnicas de programacion. Addison-WesleyIberoamericana; Dıaz de Santos, Reading Massachusetts; Madrid, 1993.James A. Freeman, David M. Skapura; 19930929.

[Friedman 89] J. H. Friedman. Regularized Discriminant Analysis. Journal of theAmerican Statistical Association, July 1988 1989.

[Fuente O’Connor 93] Jose Luis Fuente O’Connor. Tecnologıas computacionales parasistemas de ecuaciones, optimizacion lineal y entera. Editorial Reverte,Espana, 1993.

226 BIBLIOGRAFIA

[Galan 07] F. Galan & R. Millan. Feature Extraction for Multi-class BCI usingCanonical Variates Analysis. Presentacion WISP 2007 2007 IEEEInternational Symposium on Intelligent Signal Processing, Octuber2007.

[Garrett 03] D. Garrett, D. A. Peterson, C. W. Anderson & M. H. Thaut.Comparison of linear, nonlinear, and feature selection methods for EEGsignal classification. Neural Systems and Rehabilitation Engineering,IEEE Transactions on [see also IEEE Trans.on RehabilitationEngineering], vol. 11, no. 2, pages 141–144, 2003.

[Gazzaniga 92] Michael Gazzaniga. Nature’s Mind: The biological roats of thinking,emotions, sexuality, language and Intelligence. Harmonsdsworth,Penguin Books, 1992.

[Gerstner 04] J. R. Millan; F. Renkens; J. Mourino; W. Gerstner. Noninvasivebrain-actuated control of a mobile robot by human EEG. BiomedicalEngineering, IEEE Transactions on, vol. 51, no. 6, pages 1026–1033,2004.

[Guger 99] B. Obermaier; C. Guger & G. Pfurtscheller. HMM used for the offlineclassification of EEG data, 1999.

[Guger 05] Christoph Guger. g.tec, 2005.

[Gunn 98] Steve R. Gunn. Support Vector Machines for Classification andRegression, 1998.

[Gunn 03] Steve R. Gunn. Sparse Kernel Methods, 2003.

[Gunn 05] Steve Gunn. Matlab Support Vector Machine Toolbox, 2005.

[Harrington 97] Anne Harrington. The placebo effect : an interdisciplinary exploration.Harvard University Press, Cambridge, Mass. ; London, 1997. editor,Anne Harrington.; Includes bibliographical references and index.

[Herreo 98] Oscar Luengo Herreo. TELEOPERACION BILATERAL SEMIATO-MATICA EN ACTIVIDADES CON ELEVADAS FUERZAS DE RE-ACCION CON EL CONTORNO, 1998.

[Hinterberger 04] T. Hinterberger, N. Weiskopf, R. Veit, B. Wilhelm, E. Betta &N. Birbaumer. An EEG-driven brain-computer interface combinedwith functional magnetic resonance imaging (fMRI). BiomedicalEngineering, IEEE Transactions on, vol. 51, no. 6, pages 971–974, 2004.

BIBLIOGRAFIA 227

[Holzapfel 98] S. Holzapfel, Strehl U., Kotchoubey B. & Birbaumer N. BehavioralPsychophysiological Intervention in a Mentally Retarded EpilepticPatient with Brain Lesion. Applied Psychophysiology and Biofeedback,vol. 23, pages 189–202(14), September 1998.

[HONDA 09] HONDA. HONDA, 2009.

[Hoogerwerf 94] A. C. Hoogerwerf. A three-dimensional microelectrode array for chronicneural recording, 1994. ID: 1.

[Instruments 01] National Instruments. The Measurement and Automation, 2001.

[Isaacs 00] R. E. Isaacs. Work toward real-time control of a cortical neuralprothesis, 2000. ID: 1.

[Ivanciuc 07] Ovidiu Ivanciuc. Applications of Support Vector Machines inChemistry, 2007.

[J. 75] Baker J. The Dragon System. An overview., February 1975.

[Jacques 94] G. E. Jacques. Application of quality function deployment inrehabilitation engineering, 1994. ID: 1.

[Jelinek 80] F. Jelinek & R. L. Mercer. Interpolated estimation of Markov sourceparameters from sparse data, 1980.

[Jessell 91] E. R. Kandel; J. H. Schwartz; T. M. Jessell. Principles of neural science..Elsevier/North Holland”, ”New York Elsevier/North Holland”, 1991.

[Jessell 97] E. R. Kandel; J. H. Schwartz; T. M. Jessell. Neurociencia y conducta.Prentice Hall, 1997.

[Juang 91] B. H. Juang & Lawrence R. Rabiner. Hidden Markov Models for SpeechRecognition, August 1991 1991.

[Kennedy 97] Philip R. Kennedy & Roy A. E. Bakay. Activity of single actionpotentials in monkey motor cortex during long-term task learning.Brain Research,, vol. 760, no. 1-2, pages 251–254, 6/20 1997.

[Kennedy 00] P. R. Kennedy, R. A. E. Bakay, M. M. Moore, K. Adams &J. Goldwaithe. Direct control of a computer from the human centralnervous system. Rehabilitation Engineering, IEEE Transactions on [seealso IEEE Trans.on Neural Systems and Rehabilitation], vol. 8, no. 2,pages 198–202, 2000.

228 BIBLIOGRAFIA

[Kipke 03] D. R. Kipke, R. J. Vetter, J. C. Williams & J. F. Hetke. Silicon-substrate intracortical microelectrode arrays for long-term recordingof neuronal spike activity in cerebral cortex. Neural Systems andRehabilitation Engineering, IEEE Transactions on [see also IEEETrans.on Rehabilitation Engineering], vol. 11, no. 2, pages 151–155,2003.

[Kositsky 03] M. Kositsky, A. Karniel, S. Alford, K. M. Fleming & F. A. Mussa-Ivaldi. Dynamical dimension of a hybrid neurorobotic system. NeuralSystems and Rehabilitation Engineering, IEEE Transactions on [seealso IEEE Trans.on Rehabilitation Engineering], vol. 11, no. 2, pages155–159, 2003.

[Kostov 00] A. Kostov & M. Polak. Parallel man-machine training in developmentof EEG-based cursor control. Rehabilitation Engineering, IEEETransactions on [see also IEEE Trans.on Neural Systems andRehabilitation], vol. 8, no. 2, pages 203–205, 2000.

[Krusienski 00] D. J. Krusienski, E. W. Sellers, D. J. McFarland, T. M. Vaughan &J. R. Wolpaw. Toward enhanced P300 speller performance. Journal ofNeuroscience Methods,, vol. In Press, Corrected Proof, page 550, 2000.

[Kumlbler 01] Andrea Kumlbler, Nicola Neumann, Jochen Kaiser, Boris Kotchoubey,Thilo Hinterberger & Niels P. Birbaumer. Brain-computercommunication: Self-regulation of slow cortical potentials for verbalcommunication. Archives of Physical Medicine and Rehabilitation,,vol. 82, no. 11, pages 1533–1539, 11 2001.

[Laitinen 03] L. Laitinen. Neuromagnetic sensorimotor signals in brain computerinterfaces. PhD thesis, Helsinki University of Technology, 2003.

[Larman 03] C. Larman. UML Y PATRONES. Una introduccion al analisis y disenoorientado a objetos y al proceso unificado. Pearson Educacion, Madrid,2003.

[Lauer 00] R. T. Lauer, P. H. Peckham, K. L. Kilgore & W. J. Heetderks.Applications of cortical signals to neuroprosthetic control: a criticalreview. Rehabilitation Engineering, IEEE Transactions on [see alsoIEEE Trans.on Neural Systems and Rehabilitation], vol. 8, no. 2, pages205–208, 2000.

[Lauritzen 96] S. Lauritzen. Graphical models. Oxford Science Publications, 1996.

[Lauzon; 01] Y. Bengio; V. P. Lauzon; & R. Ducharme. Experiments on theapplications of IOHMMs to model financial return series, 2001.

BIBLIOGRAFIA 229

[Leeb 05] Robert Leeb. Usefulness of an EEG-based brain-computer interface toestablish communication in ALS. Journal of the Neurological Sciences,,vol. 238, no. 1, pages 341–458, 2005.

[Levine 00] S. P. Levine, J. E. Huggins, S. L. BeMent, R. K. Kushwaha, L. A.Schuh, M. M. Rohde, E. A. Passaro, D. A. Ross, K. V. Elisevich &B. J. Smith. A direct brain interface based on event-related potentials.Rehabilitation Engineering, IEEE Transactions on [see also IEEETrans.on Neural Systems and Rehabilitation], vol. 8, no. 2, pages 180–185, 2000.

[Luengo 98] O. Luengo. Teleoperacion Bilateral Semiautonoma en Actividades conElevadas Fuerzas de Reaccion con el Entorno. PhD thesis, UniversidadPolitecnica de Madrid, 1998.

[Mahajan 98] D. Mahajan, D. B. Reynolds, K. S. Rattan, C. A. & Phillips. A FuzzyLogic Controller For Leg Extension Exercise in a Spinal Cord InjuredPerson, 1998 1998.

[Mardia 79] K.V. Mardia. Multivariate analysis. Academic Press, 1979.

[Martinez 01] A. M. Martinez & A. C. Kak. PCA versus LDA. IEEE Transactionson Pattern Analysis and Machine Intelligence, vol. 23, no. 2, pages228–233, February 2001 2001.

[Martinez 09] J.L. Martinez & A. Barrientos. Feedback effect analysis by comparisonof discrimination capability of On-line and Off-line experimentalprocedures based on LDA. Proceedings of the BIODEVICESInternational Conference on Biomedical Electronics and Devices.,vol. 1, no. 1, pages 20–25, January 2009.

[Martinez 10] J.L. Martinez & A. Barrientos. Brain Computer Interface. Applicationof an adaptive bi-stage classifier based on RBF-HMM. Proceedings ofthe BIODEVICES International Conference on Biomedical Electronicsand Devices., vol. 1, no. 1, page Proxima aparicion, January 2010.

[Martınez 06] J.L. Martınez & A. Barrientos. The windowing Effect in CerebralPattern Classification. An Application to BCI Technology. IASTEDBiomedical Engineering BioMED 2006, pages 1186–1191, February2006.

[Martınez 07] J.L. Martınez & A. Barrientos. Linear Discriminant Analysis on BrainComputer Interface. IEEE. Internacional Symposium on IntelligentSignal Processing. Conference Proceedings Book, pages 859–864,November 2007.

230 BIBLIOGRAFIA

[Martınez 08] J.L. Martınez & A. Barrientos. Brain Computer Interface. Comparisonof neural networks classifiers. Proceedings of the BIODEVICESInternational Conference on Biomedical Electronics and Devices.,vol. 1, no. 1, pages 3–10, January 2008.

[Maynard 99] E. M. Maynard, N. G. Hatsopoulos, C. L. Ojakangas, B. D. Acuna,J.N. Sanes, R. A. Normann & J. P. Donoghue. Neuronal InteractionsImprove Cortical Population Coding of Movement Direction. Journalof Neuroscience, vol. 19, no. 18, pages 8083–8093, September 15 1999.

[McFarland 97] D. J. McFarland & Jonathan R. Wolpaw. Design and operation ofan EEG-based brain-computer interface with digital signal processingtechnlogy, 1997 1997.

[McLachlan 97] McLachlan & T. Krishnan. The em algorithm and extensions. JohnWiley and Sons, 1997.

[McLachlan 04] Geoffrey J. McLachlan. Discriminant analysis and statistical patternrecognition. John Wiley and sons, Hoboken New Jersey, 2004. GeoffryJ. McLachlan.

[Middendorf 00] M. Middendorf, G. McMillan, G. Calhoun & K. S. Jones. Brain-computer interfaces based on the steady-state visual-evoked response.Rehabilitation Engineering, IEEE Transactions on [see also IEEETrans.on Neural Systems and Rehabilitation], vol. 8, no. 2, pages 211–214, 2000.

[Millan 03] J.R. Millan & J. Mourino. Asynchronous BCI and local neuralclassifiers: an overview of the adaptive brain interface project. NeuralSystems and Rehabilitation Engineering, IEEE Transactions on [seealso IEEE Trans.on Rehabilitation Engineering], vol. 11, no. 2, pages159–161, 2003.

[Millan 04] J.R. Millan, F. Renkens, J. Mourino & W. Gerstner. Brain-actuatedinteraction. Artificial Intelligence,, vol. 159, no. 1-2, pages 241–259, 112004.

[Miner 98] Laurie A. Miner, Dennis J. McFarland & Jonathan R. Wolpaw.Answering questions with an electroencephalogram-based brain-computer interface, ,. Archives of Physical Medicine andRehabilitation,, vol. 79, no. 9, pages 1029–1033, 9 1998.

[Montaner 91] Montaner. Diccionario Enciclopedico Hispano-Americano., 1891.

[Montoya 02] R. S. Montoya. Ordenador y discapacidad. CEPE, Madrid, 2002.

BIBLIOGRAFIA 231

[Moreno 06] J.C. Moreno. Exoesquelos Roboticos para Valoracion y CompensacionFuncional de Marcha Patologica. PhD thesis, Universidad Politecnicade Madrid, 2006.

[Muller 03a] B. Obermaier; G. R. Muller & G.Pfurtscheller. Virtual Keyboardcontrolled by spontaneous EEG activity, 2003.

[Muller 03b] K. R Muller, C. W. Anderson & G. E. Birch. Linear andnonlinear methods for brain-computer interfaces. Neural Systemsand Rehabilitation Engineering, IEEE Transactions on [see also IEEETrans.on Rehabilitation Engineering], vol. 11, no. 2, pages 165–169,2003.

[Nabney 02] Ian Nabney. Netlab : algorithms for pattern recognition. Springer,London, 2002. Ian T. Nabney.; Includes bibliographical references (p.[407]-412) and indexes.; NETLAB toolbox is available via the Internet.

[NASA 08] NASA. Air Force and NASA Research on pilots has revealed thesecrects of peak mental performance, 2008.

[Neuper 01] B. Obermaier; C. Guger; C. Neuper & G. Pfurtscheller. Hidden MarkovModels for online classification of single trial EEG data, 2001.

[Nicolau 08] N.; Nicolau, J. Georgiou & M.Polycarpou. Autoregressive featuresfor thought to speech converter. Proceedings of the BIODEVICESInternational Conference on Biomedical Electronics and Devices.,vol. 1, no. 1, pages 11–16, January 2008.

[Obermaier 01a] B. Obermaier. Dessign and implementation of an EEG based virtualkeyboard using hidden Markov models, 2001.

[Obermaier 01b] Bernhard Obermaier, Christa Neuper, Christoph Guger & GertPfurtscheller. Information Transfer Rate in a Five-Classes Brain-Computer Interface. IEEE Transactions on Neural Systems andRehabilitation Engineering, vol. 9, no. 3, pages 283–288, September2001. Importante.

[Oppenheim 96] A. Oppenheim. Signals and systems. Prentice-Hall Signal ProcessingSeries, Cambridge, 1996.

[Pena Sanchez 86] Daniel Pena Sanchez. Estadıstica : modelos y metodos, volume 109-110. Alianza, Madrid, 1986. Daniel Pena Sanchez de Rivera; 2 v. 23cm; 1. Fundamentos – 2. Modelos lineales y series temporales.

[Penny 99] W. Penny & S. Roberts. Experiments with an eegbased computerinterface, 1999.

232 BIBLIOGRAFIA

[Penny 00] W. D. Penny, S. J. Roberts, E. A. Curran & M. J. Stokes. EEG-based communication: a pattern recognition approach. RehabilitationEngineering, IEEE Transactions on [see also IEEE Trans.on NeuralSystems and Rehabilitation], vol. 8, no. 2, pages 214–215, 2000.

[Perelmouter 99] J. Perelmouter. Language support program for thought-translation-devices, 1999 1999.

[Perelmouter 00] J. Perelmouter & N. Birbaumer. A binary spelling interface withrandom errors. Rehabilitation Engineering, IEEE Transactions on [seealso IEEE Trans.on Neural Systems and Rehabilitation], vol. 8, no. 2,pages 227–232, 2000.

[Penın 98] L.F. Penın. Control Bilateral de Robots Teleoperados. Contribucion enReflexion de Fuerzas. PhD thesis, Universidad Politecnica de Madrid,1998.

[Pfurtscheller 00] G. Pfurtscheller, C.Neuper, C. Guger, W. Harkam, H. Ramoser,A. Schlogl, B. Obermaier & M. Pregenzer. Current trends in Grazbrain-computer interface (BCI) research. Rehabilitation Engineering,IEEE Transactions on [see also IEEE Trans.on Neural Systems andRehabilitation], vol. 8, no. 2, pages 216–219, 2000.

[Pfurtscheller 03] G. Pfurtscheller, C.Neuper, G. R. Muller, B. Obermaier, G. Krausz,A. Schlogl, R. Scherer, B. Graimann, C. Keinrath, D. Skliris, M. Wortz,G. Supp & C. Schrank. Graz-BCI: state of the art and clinicalapplications. Neural Systems and Rehabilitation Engineering, IEEETransactions on [see also IEEE Trans.on Rehabilitation Engineering],vol. 11, no. 2, pages 1–4, 2003.

[Pierce 80] John Robinson Pierce. An introduction to information theory :symbols, signals and noise. Dover Publications, New York, 1961 1980.John R. Pierce.; Previously published as: Symbols, signals, and noise.1961.; Includes bibliographical references and index.

[Pilone 05] Dan Pilone & Neil Pitman. Uml 2.0 in a nutshell. O’Reilly, 2005.

[Pineda 00] J. A. Pineda, B. Z. Allison & A. Vankov. The effects of self-movement, observation, and imagination on /spl mu/ rhythms andreadiness potentials (RP’s): toward a brain-computer interface (BCI).Rehabilitation Engineering, IEEE Transactions on [see also IEEETrans.on Neural Systems and Rehabilitation], vol. 8, no. 2, pages 219–222, 2000.

BIBLIOGRAFIA 233

[Pineda 03] J. A. Pineda & et al. Learning to Control Brain Rhythms: Making aBrain-Computer Interface Possible. IEEE TRANS. ON REH. ENG.,vol. 11, no. 2, pages 181–184, June 2003.

[Pintado 77] Prudencio Gomez Pintado. Caminos abiertos por santiago ramon ycajal. ”Libreria y Casa Editorial Hernando, S.A.”, 1977.

[Proakis 97] John G. Proakis & Dimitri G. Manolakis. Tratamiento digital desenales : [principios, algoritmos y aplicaciones]. Prentice-Hall, Madrid,1997.

[Rabiner 89] Lawrence R. Rabiner. A Tutorial on Hidden Markov Models andSelected Applications in Speech Recognition, February 1989.

[Ratey 03] John J. Ratey. El cerebro: Manual de instrucciones. DeBolsillo,Barcelona Constitucio 19, 2003.

[Reilly 99] R. B. Reilly. Adaptive noncontact gesture-based system foraugmentative communication, 1999.

[Rezek 00] A. Flexer; P. Sykacek; I. Rezek & G. Dorffner. Using hidden Markovmodels to build an automatic, continuous and probabilistic sleep stager,2000.

[Rich 94] Elaine Rich & Kevin Knight. Inteligencia artificial. McGraw-Hill, Madrid, 1994. Elaine Rich, Kevin Knight; Agotado (3-11-05);19950223.

[Ripley 96] Brian D. Ripley. Pattern recognition and neural networks. CambridgeUniversity Press, United Kingdom, 2000 1996.

[Roberts 89] N. Birbaumer; Larry E. Roberts. Self-Report During FeedbackRegulation of Slow Cortical Potentials, July 1989 1989.

[Robinson 93] C. Robinson. What is rehabilitation engineering? IEEE Transactionson Rehabilitation Engineering, vol. 1, no. 1, March 1993.

[Robinson 00a] C. Robinson. Commentary on Brain-Computer Interfacing and itsimpact on rehabilitation science and clinical applicability. IEEETransactions on Rehabilitation Engineering, vol. 8, pages 161–163,June 2000.

[Robinson 00b] Charles J. Robinson. A Commentary on Brain-Computer Interfacingand Its Impact on Rehabilitation Science and Clinical Applicability,June 2000 2000.

234 BIBLIOGRAFIA

[Rockstroh 89] Brigitte Rockstroh. Slow brain potentials and behavior. Urbanand Schwarzenberg, Baltimore, 1989. Brigitte Rockstroh ... [et al.].;Bibliography: p. 229-250.

[Rocon 06] Eduardo Rocon. Reduccion activa de temblor patologico de miembrosuperior mediante exoesqueletos roboticos. PhD thesis, UniversidadPolitecnica de Madrid, 2006.

[Rousche 98] Patrick J. Rousche & Richard A. Normann. Chronic recordingcapability of the Utah Intracortical Electrode Array in cat sensorycortex. Journal of Neuroscience Methods,, vol. 82, no. 1, pages 1–15,7/1 1998.

[Rubio 00] Jose Luis Bardasano Rubio & Jose Ignacio Elorrieta Perez de Diego.Bioelectromagnetismo. ciencia y salud. McGraw-Hill, Madrid etc.,2000. 019: M. 10344-2000; Jose Luis Bardasano Rubio, Jose IgnacioElorrieta Perez de Diego.

[Rumbaugh. 99] Jacobson; Booch; Rumbaugh. El lenguaje unificado de modelado.Addison Wesley Iberoamericana, Madrid, 1999.

[Rumbaugh. 00a] Jacobson; Booch; Rumbaugh. El lenguaje unificado de modelado.manual de referencia. Pearson Educacion, Madrid, 2000.

[Rumbaugh 00b] Jacobson; Booch; Rumbaugh. El proceso unificado de desarrollo desoftware. Pearson Educacion, Madrid, 2000.

[Rupp 06] R. Rupp, G. MA14 ller-Putz, R. Scherer, G. Pfurtscheller & H. J.

Gerner. Moving thoughts. A brain-computer interface for control ofgrasp neuroprostheses in tetraplegic patients. Journal of Biomechanics,,vol. 39, no. Supplement 1, pages S371–548, 2006.

[Sarcinelli 09] Andre Ferreira; Teodiano Freire; Mario Sarcinelli & J. L. MartAnSanchez. Evaluation of PSD components and AAR parameters asinput features for a SVM classifier applied to a robotic wheelchair.Proceedings of the BIODEVICES International Conference onBiomedical Electronics and Devices., vol. 1, no. 1, pages 7–12, January2009.

[Schalk 04] G. Schalk. BCI2000: a general-purpose brain-computer interface (BCI)system, 2004. ID: 1.

[Scherer 04] R. Scherer, G. R. Muller, C.Neuper, B. Graimann & G. Pfurtsche-ller. An asynchronously controlled EEG-based virtual keyboard: impro-vement of the spelling rate. Biomedical Engineering, IEEE Transactionson, vol. 51, no. 6, pages 979–984, 2004.

BIBLIOGRAFIA 235

[Schmidt 88] E. Schmidt, J. Mcintosh & M. Bak. Long-term implants ofParylene-C coated microelectrodes. Medical and Biological Engineeringand Computing, vol. 26, no. 1, pages 96–101, 01/29 1988. M3:10.1007/BF02441836.

[S.E.; 83] Levinson S.E.; & Rabiner L.R. An introduction to the Application ofthe Theory of Probabilistic Functions of a Markov Process to AutomaticSpeech Recognition, April 1983.

[Segovia 38] A.M. Segovia. Frenonologıa. Semanario Pintoresco, vol. III, no. 11,pages 770–774, November 1838.

[Sellers 06] EricW Sellers & Emanuel Donchin. A P300-based brain-computerinterface: Initial tests by ALS patients. Clinical Neurophysiology,,vol. 117, no. 3, pages 538–548, 3 2006.

[Shannon 48] C. E. Shannon. A Mathematical Theory of Communication, July,October, 1948 1948.

[Shannon 75] Claude E. Shannon & Warren Weaver. The mathematical theory ofcommunication. University of Illinois Press, Urbana, 1975. by ClaudeE. Shannon, and Warren Weaver.

[Sheikh 03] Hesham Sheikh, Dennis J. McFarland, William A. Sarnacki& Jonathan R. Wolpaw. Electroencephalographic(EEG)-basedcommunication: EEG control versus system performance in humans.Neuroscience Letters,, vol. 345, no. 2, pages 89–92, 7/17 2003.

[Siegfried 97] Othmer Siegfried, F. Othmer Susan, & A. Kaiser David. EEGBiofeedback: A Generalized Approach to Neuroregulation, 1997.

[Sutter 92] Erich E. Sutter. The brain response interface: communication throughvisually-induced electrical brain responses. Journal of MicrocomputerApplications,, vol. 15, no. 1, pages 31–45, 1 1992.

[Sykacek 03] P. Sykacek, S. Roberts, M. Stokes, E. Curran, M. Gibbs &L. Pickup. Probabilistic methods in BCI research. Neural Systemsand Rehabilitation Engineering, IEEE Transactions on [see also IEEETrans.on Rehabilitation Engineering], vol. 11, no. 2, pages 192–194,2003.

[Taylor 03] D. M. Taylor, S. I. H. Tillery & A. B. Schwartz. Informationconveyed through brain-control: cursor versus robot. Neural Systemsand Rehabilitation Engineering, IEEE Transactions on [see also IEEETrans.on Rehabilitation Engineering], vol. 11, no. 2, pages 195–199,2003.

236 BIBLIOGRAFIA

[Tome 07] A.M. Tome & A. R. Teixeira. Single-channel electroencephalogramanalysis using non-linear subspace techniques. IEEE. InternacionalSymposium on Intelligent Signal Processing. Conference ProceedingsBook, pages 871–876, November 2007.

[Vapnik 63] V. Vapnik & A. Lerner. Pattern Recognition Using Generalized PortraitMethod., 1963.

[Vapnik 92] B.E. Boser; I.M. Guyon; V.N. Vapnik. A training algorithm for optimalmargin classifiers., 1992.

[Vapnik 95] Corinna Cortes; V.N. Vapnik. Support-Vector Networks, 1995.

[Velazquez 97] J.M. Velazquez. Curso elemental de Psicologıa, October 1997.

[Vidal 73] Jacques J. Vidal. Toward direct brain-computer communication, 1973.

[Vidal 77] J. J. Vidal. Real-time detection of brain events in EEG, 1977. ID: 1.

[Wang 04] Yijun Wang, Zhiguang Zhang, Yong Li, Xiaorong Gao, Shangkai Gao& Fusheng Yang. BCI competition 2003-data set IV:An algorithmbased on CSSD and FDA for classifying single-trial EEG. BiomedicalEngineering, IEEE Transactions on, vol. 51, no. 6, pages 1081–1086,2004.

[Wang 08] S. Aamodt; S. Wang. Entra en tu cerebro. Ediciones B, Barcelona,2008.

[Webster 78] John G. Webster & John W. Clark. Medical instrumentation :application and design. Houghton Mifflin, Boston, 1978. John G.Webster, editor ; contributing authors, John W. Clark ... [et al.].;Includes bibliographies and index.

[Webster 92] John G. Webster & John G. Webster. Solutions manual [for] : Medicalinstrumentation : application and design. Houghton Mifflin, Boston,1992. John G. Webster, editor ; contributing authors, John W. Clark... [et al.].

[Webster 95] John G. Webster & John W. Clark. Medical instrumentation :application and design. Wiley, New York ; Chichester, 1992 1995. JohnG. Webster, editor ; contributing authors, John W. Clark, Jr. ... [et al.];Includes bibliographical references.

[Webster 98] John G. Webster & John W. Clark. Medical instrumentation.application and design. Wiley, New York ; Chichester, 1998. JohnG. Webster, editor ; contributing authors: John W. Clark, Jr. ... [etal.].; Includes bibliographical references and index.

BIBLIOGRAFIA 237

[Webster 04] John G. Webster. Bioinstrumentation. John Wiley & Sons, Hoboken,N.J., 2004. John G. Webster, editor.; Includes bibliographicalreferences and index.

[Williams 99] Justin C. Williams, Robert L. Rennaker & Daryl R. Kipke. Long-termneural recording characteristics of wire microelectrode arrays implantedin cerebral cortex. Brain Research Protocols,, vol. 4, no. 3, pages 303–313, 12 1999.

[Wolpaw 00a] J. R. Wolpaw, N. Birbaumer, W. J. Heetderks, D. J. McFarland,P. H. Peckham, G. Schalk, E. Donchin, L. A. Quatrano, C. J.Robinson & T. M. Vaughan. Brain-computer interface technology: areview of the first international meeting. Rehabilitation Engineering,IEEE Transactions on [see also IEEE Trans.on Neural Systems andRehabilitation], vol. 8, no. 2, pages 164–173, 2000.

[Wolpaw 00b] J. R. Wolpaw, D. J. McFarland & T. M. Vaughan. Brain-computer interface research at the Wadsworth Center. RehabilitationEngineering, IEEE Transactions on [see also IEEE Trans.on NeuralSystems and Rehabilitation], vol. 8, no. 2, pages 222–226, 2000.

[Wolpaw 02] Jonathan R. Wolpaw, Niels Birbaumer, Dennis J. McFarland, GertPfurtscheller & Theresa M. Vaughan. Brain-computer interfaces forcommunication and control, March 2002. Articulo muy bueno.

[Wolpaw 03] J. R. Wolpaw, D. J. McFarland, T. M. Vaughan & G. Schalk.The Wadsworth Center brain-computer interface (BCI) research anddevelopment program. Neural Systems and Rehabilitation Engineering,IEEE Transactions on [see also IEEE Trans.on RehabilitationEngineering], vol. 11, no. 2, pages 1–4, 2003.

[Wolpaw 07] Jonathan R. Wolpaw. BRAIN-COMPUTER INTERFACES AS NEWBRAIN OUTPUT PATHWAYS. THE JOURNAL OF PHYSIOLOGY,Jan 25, 2007 2007.

[Zhong 02] S. Zhong & J. Ghosh. HMM’s and coupled HMM’s for multi-channelEEG classification, 2002.


Recommended