+ All Categories
Home > Documents > Aplicaciones de data mining en química ambiental: Detección de sustancias usadas como armas...

Aplicaciones de data mining en química ambiental: Detección de sustancias usadas como armas...

Date post: 14-Apr-2015
Category:
Upload: desideria-toribio
View: 1 times
Download: 0 times
Share this document with a friend
14
Aplicaciones de data mining en química ambiental: Detección de sustancias usadas como armas químicas Basado en: J. L. Solka, E. J. Wegman, and D. J. Marchette, "Data Mining Strategies for the Detection of Chemical Warfare Agents," Statistical Data Mining and Knowledge Discovery, Hamparsum Bozdogan, Editor, 2003, pp. 57-92.
Transcript
Page 1: Aplicaciones de data mining en química ambiental: Detección de sustancias usadas como armas químicas Basado en: J. L. Solka, E. J. Wegman, and D. J. Marchette,

Aplicaciones de data mining en química ambiental:

Detección de sustancias usadas como armas químicas

Basado en: J. L. Solka, E. J. Wegman, and D. J. Marchette, "Data Mining Strategies for the Detection of Chemical Warfare Agents," Statistical Data Mining and Knowledge Discovery, Hamparsum Bozdogan, Editor, 2003, pp. 57-92.

Page 2: Aplicaciones de data mining en química ambiental: Detección de sustancias usadas como armas químicas Basado en: J. L. Solka, E. J. Wegman, and D. J. Marchette,

Agentes a detectar:

GA (taburn)GB (sarín)GD (sorman)GF (organofosforado c/fluoruro)GDT

VX (agente V)

HD (gas mostaza)HDTL (Lewisite)

Fondo

Clase G, o clase 0

Clase V, o clase 1

Clase H, o clase 2

Clase 3

Page 3: Aplicaciones de data mining en química ambiental: Detección de sustancias usadas como armas químicas Basado en: J. L. Solka, E. J. Wegman, and D. J. Marchette,

Los sustancias químicas mojan unas tiras de papel reactivo y producen un color más o menos característico.

Ese color se representa como una curva de intensidades a diferentes longitudes de onda, es el llamado espectro.

Existen equipos para barrer partes del espectro, o se pueden leer zonas discretas llamadas bandas

Page 4: Aplicaciones de data mining en química ambiental: Detección de sustancias usadas como armas químicas Basado en: J. L. Solka, E. J. Wegman, and D. J. Marchette,

Datos:

Set de entrenamiento:2,106 pixels coloreados por agente real o simulado para la clase G.569 observaciones para la clase V1,088 observaciones para la clase H1,0473 para la clase fondo

Set de prueba13,889 observaciones para la clase G2,318 observaciones para la clase V6,662 para H1.845.201 observaciones para el fondo

Page 5: Aplicaciones de data mining en química ambiental: Detección de sustancias usadas como armas químicas Basado en: J. L. Solka, E. J. Wegman, and D. J. Marchette,

Análisis exploratorio: histogramas univariados para cada banda o variable

B1

B2

B3

B4

B5

B6

B7

B8

B9

B10

B11

B12

B13

Page 6: Aplicaciones de data mining en química ambiental: Detección de sustancias usadas como armas químicas Basado en: J. L. Solka, E. J. Wegman, and D. J. Marchette,

Análisis exploratorio: gráfico de coordenadas paralelas para todos los datos

Page 7: Aplicaciones de data mining en química ambiental: Detección de sustancias usadas como armas químicas Basado en: J. L. Solka, E. J. Wegman, and D. J. Marchette,

Gráfico de coordenadas paralelas, set de entrenamiento

Page 8: Aplicaciones de data mining en química ambiental: Detección de sustancias usadas como armas químicas Basado en: J. L. Solka, E. J. Wegman, and D. J. Marchette,

Separación de los puntos utilizando las bandas que corresponden al rojo, azul y verde

Page 9: Aplicaciones de data mining en química ambiental: Detección de sustancias usadas como armas químicas Basado en: J. L. Solka, E. J. Wegman, and D. J. Marchette,

Estimación de modelos de densidad

Estimaciones de densidad kernel [no paramétrico]

Modelos de mezcla (mixture models) [semi-paramétrico]

Estimación de densidad por mezclas adaptativas [no paramétrico]

Shifted Hats Iterated Procedure (SHIP) [híbrido]

Clasificadores

obtener clasificadores a partir de la determinación de regiones discriminantes

k-vecinos más próximos

CART

Page 10: Aplicaciones de data mining en química ambiental: Detección de sustancias usadas como armas químicas Basado en: J. L. Solka, E. J. Wegman, and D. J. Marchette,

Estimación de la densidad de probabilidad para las bandas 7 y 11, utilizando el método SHIP

Estimación de la densidad de probabilidad conjunta para las bandas 7 y 11, utilizando kernels producto, y cálculo de las regiones discriminantes

Page 11: Aplicaciones de data mining en química ambiental: Detección de sustancias usadas como armas químicas Basado en: J. L. Solka, E. J. Wegman, and D. J. Marchette,

CART utilizando las 13 bandas

Page 12: Aplicaciones de data mining en química ambiental: Detección de sustancias usadas como armas químicas Basado en: J. L. Solka, E. J. Wegman, and D. J. Marchette,

Ranking de los diferentes clasificadores

r0, r1, r2, r3 corresponde a un re-etiquetado de los pixels de acuerdo a los valores del vecindario

Page 13: Aplicaciones de data mining en química ambiental: Detección de sustancias usadas como armas químicas Basado en: J. L. Solka, E. J. Wegman, and D. J. Marchette,

Conclusiones

En palabras de los autores:

“..we recommend that one employ the CART model based on the full feature set with a spatial radius of 3. This system provides probability of detection that exceeds .85 while obtaining a false alarm rate less than .12.”

“Even given this improvement the performance of the fielded system can be described as mediocre at best. This performance however may be sufficient depending on the situation at hand. This lackluster performance is a trade-off for a need to rapidly field the system in order to be prepared for a very real threat.”

Page 14: Aplicaciones de data mining en química ambiental: Detección de sustancias usadas como armas químicas Basado en: J. L. Solka, E. J. Wegman, and D. J. Marchette,

Discusión

¿Por qué los autores califican al rendimiento del sistema como mediocre?

¿Qué opinarían distintos tipos de usuarios?

¿Qué requerimientos desde el punto de vista de datamining debería tener una aplicación similar en el campo civil? Por ejemplo, para monitoreo de actividades industriales, como papeleras


Recommended