sentiment analysis for spanish language

Post on 15-Aug-2015

44 views 3 download

Tags:

transcript

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 1 / 54

Clasificación automática de la orientación semántica deopiniones mediante características lingüísticasFacultad de Ciencias, UNAM.

Alonso Palomino Garibay y Sofía N. Galicia-Haro28 de Mayo de 2015

COMIA 2015 - Contenidos1 Introducción

Introducción

2 Materiales empleados y conocimiento lingüístico consideradoCorpus de opinionesClasificación

3 Aprendizaje automáticoPreprocesamiento de datosSistema

4 ExperimentosExperimentosEl truco del kernelEvaluaciónGrid searchEvaluando el rendimiento base

5 ResultadosResultados

6 ConclusionesConclusiones

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 2 / 54

Siguiente sección1 Introducción

Introducción

2 Materiales empleados y conocimiento lingüístico consideradoCorpus de opinionesClasificación

3 Aprendizaje automáticoPreprocesamiento de datosSistema

4 ExperimentosExperimentosEl truco del kernelEvaluaciónGrid searchEvaluando el rendimiento base

5 ResultadosResultados

6 ConclusionesConclusiones

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 3 / 54

Introducción - Minería de opiniones

Figura: Communications of the ACM, Vol. 56 No. 4, Paginas 82-89

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 4 / 54

Introducción - Minería de opiniones

Existe una enorme cantidad decomentarios de libre acceso enla Web, para productos yservicios.

Recurso valioso para la tomade decisiones

Monitoreo de redes sociales,rastreo de reseñas de clientes,encuestas, bussines analitycs.Las empresas pueden mejorarsus ventas

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 5 / 54

Introducción - Minería de opiniones

Existe una enorme cantidad decomentarios de libre acceso enla Web, para productos yservicios.

Recurso valioso para la tomade decisiones

Monitoreo de redes sociales,rastreo de reseñas de clientes,encuestas, bussines analitycs.Las empresas pueden mejorarsus ventas

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 5 / 54

Introducción - Minería de opiniones

Existe una enorme cantidad decomentarios de libre acceso enla Web, para productos yservicios.

Recurso valioso para la tomade decisiones

Monitoreo de redes sociales,rastreo de reseñas de clientes,encuestas, bussines analitycs.Las empresas pueden mejorarsus ventas

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 5 / 54

Introducción - Minería de opiniones

Existe una enorme cantidad decomentarios de libre acceso enla Web, para productos yservicios.

Recurso valioso para la tomade decisiones

Monitoreo de redes sociales,rastreo de reseñas de clientes,encuestas, bussines analitycs.

Las empresas pueden mejorarsus ventas

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 5 / 54

Introducción - Minería de opiniones

Existe una enorme cantidad decomentarios de libre acceso enla Web, para productos yservicios.

Recurso valioso para la tomade decisiones

Monitoreo de redes sociales,rastreo de reseñas de clientes,encuestas, bussines analitycs.Las empresas pueden mejorarsus ventas

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 5 / 54

Introducción - Minería de opinionesDefiniciónMinería de opiniones:Se refiere al estudio computacional de opiniones, sentimientos,evaluaciones, actitudes, apreciaciones, afecciones, puntos de vista,emociones y subjetividades expresadas en texto.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 6 / 54

Introducción - Minería de opiniones

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 7 / 54

Introducción - Minería de opiniones

Subtareas dentro de la minería de opiniones:

• Turney (2002)• Determinó la orientación semántica a partir de bigramas

(¿Positivo o Negativo?).• Bo Pang et al (2008):

• Identificación de opiniones, polaridad del sentimiento, resumir deforma automática la orientación de una opinión.

• Liu Bing et al (2010)• análisis de sentimiento en oraciones de comparación, detección de

SPAM, detección de opiniones neutrales y engañosas.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 8 / 54

Introducción - Minería de opiniones

Subtareas dentro de la minería de opiniones:• Turney (2002)

• Determinó la orientación semántica a partir de bigramas(¿Positivo o Negativo?).

• Bo Pang et al (2008):• Identificación de opiniones, polaridad del sentimiento, resumir de

forma automática la orientación de una opinión.• Liu Bing et al (2010)

• análisis de sentimiento en oraciones de comparación, detección deSPAM, detección de opiniones neutrales y engañosas.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 8 / 54

Introducción - Minería de opiniones

Subtareas dentro de la minería de opiniones:• Turney (2002)

• Determinó la orientación semántica a partir de bigramas(¿Positivo o Negativo?).

• Bo Pang et al (2008):• Identificación de opiniones, polaridad del sentimiento, resumir de

forma automática la orientación de una opinión.

• Liu Bing et al (2010)• análisis de sentimiento en oraciones de comparación, detección de

SPAM, detección de opiniones neutrales y engañosas.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 8 / 54

Introducción - Minería de opiniones

Subtareas dentro de la minería de opiniones:• Turney (2002)

• Determinó la orientación semántica a partir de bigramas(¿Positivo o Negativo?).

• Bo Pang et al (2008):• Identificación de opiniones, polaridad del sentimiento, resumir de

forma automática la orientación de una opinión.• Liu Bing et al (2010)

• análisis de sentimiento en oraciones de comparación, detección deSPAM, detección de opiniones neutrales y engañosas.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 8 / 54

Siguiente sección1 Introducción

Introducción

2 Materiales empleados y conocimiento lingüístico consideradoCorpus de opinionesClasificación

3 Aprendizaje automáticoPreprocesamiento de datosSistema

4 ExperimentosExperimentosEl truco del kernelEvaluaciónGrid searchEvaluando el rendimiento base

5 ResultadosResultados

6 ConclusionesConclusiones

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 9 / 54

Corpus de opiniones

Corpus de trabajo extraído deciao.esa

2800 opiniones de lavadoras enEspañol.Tamaño promedio por lexemases de 345.El numero total de lexemas dela colección es de 845,280.

aSofía N. Galicia-Haro y Alexander Gelbukh (2014).

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 10 / 54

Corpus de opiniones

Corpus de trabajo extraído deciao.esa

2800 opiniones de lavadoras enEspañol.

Tamaño promedio por lexemases de 345.El numero total de lexemas dela colección es de 845,280.

aSofía N. Galicia-Haro y Alexander Gelbukh (2014).

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 10 / 54

Corpus de opiniones

Corpus de trabajo extraído deciao.esa

2800 opiniones de lavadoras enEspañol.Tamaño promedio por lexemases de 345.

El numero total de lexemas dela colección es de 845,280.

aSofía N. Galicia-Haro y Alexander Gelbukh (2014).

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 10 / 54

Corpus de opiniones

Corpus de trabajo extraído deciao.esa

2800 opiniones de lavadoras enEspañol.Tamaño promedio por lexemases de 345.El numero total de lexemas dela colección es de 845,280.

aSofía N. Galicia-Haro y Alexander Gelbukh (2014).

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 10 / 54

Corpus de opiniones

Figura: Lluís Padró and Evgeny Stanilovsky. FreeLing 3.0 (2012)

• La colección fue anotada con su lema y categoría gramatical.• Se utilizaron un conjunto de etiquetas para representar lainformación morfológica de las palabras.

• Este conjunto de etiquetas se basa en las etiquetas propuestaspor el grupo EAGLES para la anotación morfosintáctica delexicones y corpus para todas las lenguas europeas.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 11 / 54

Corpus de opiniones

Figura: Lluís Padró and Evgeny Stanilovsky. FreeLing 3.0 (2012)

• La colección fue anotada con su lema y categoría gramatical.

• Se utilizaron un conjunto de etiquetas para representar lainformación morfológica de las palabras.

• Este conjunto de etiquetas se basa en las etiquetas propuestaspor el grupo EAGLES para la anotación morfosintáctica delexicones y corpus para todas las lenguas europeas.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 11 / 54

Corpus de opiniones

Figura: Lluís Padró and Evgeny Stanilovsky. FreeLing 3.0 (2012)

• La colección fue anotada con su lema y categoría gramatical.• Se utilizaron un conjunto de etiquetas para representar lainformación morfológica de las palabras.

• Este conjunto de etiquetas se basa en las etiquetas propuestaspor el grupo EAGLES para la anotación morfosintáctica delexicones y corpus para todas las lenguas europeas.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 11 / 54

Corpus de opiniones

Figura: Lluís Padró and Evgeny Stanilovsky. FreeLing 3.0 (2012)

• La colección fue anotada con su lema y categoría gramatical.• Se utilizaron un conjunto de etiquetas para representar lainformación morfológica de las palabras.

• Este conjunto de etiquetas se basa en las etiquetas propuestaspor el grupo EAGLES para la anotación morfosintáctica delexicones y corpus para todas las lenguas europeas.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 11 / 54

Corpus de opiniones

A partir de la colección total deopiniones en Español extrajimosun subconjunto significativo deinstancias de opinionesdiferentes: 2598.Opiniones pagadas porfabricantes

ObservaciónNo se eliminaron las opiniones queclaramente son anuncios de empresasde mantenimiento (SPAM).

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 12 / 54

Corpus de opiniones

A partir de la colección total deopiniones en Español extrajimosun subconjunto significativo deinstancias de opinionesdiferentes: 2598.

Opiniones pagadas porfabricantes

ObservaciónNo se eliminaron las opiniones queclaramente son anuncios de empresasde mantenimiento (SPAM).

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 12 / 54

Corpus de opiniones

A partir de la colección total deopiniones en Español extrajimosun subconjunto significativo deinstancias de opinionesdiferentes: 2598.Opiniones pagadas porfabricantes

ObservaciónNo se eliminaron las opiniones queclaramente son anuncios de empresasde mantenimiento (SPAM).

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 12 / 54

Corpus de opiniones

A partir de la colección total deopiniones en Español extrajimosun subconjunto significativo deinstancias de opinionesdiferentes: 2598.Opiniones pagadas porfabricantes

ObservaciónNo se eliminaron las opiniones queclaramente son anuncios de empresasde mantenimiento (SPAM).

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 12 / 54

Corpus de opiniones

La tarea para este corpus es la de predicción:

• Determinar qué tan bueno es un producto en base a laorientación semántica de las opiniones de entrenamiento, asícomo el puntaje de los usuarios.

• El puntaje de los usuarios que corresponden a: malo (unaestrella), regular (dos estrellas), bueno (tres estrellas), muybueno (cuatro estrellas) o excelente (5 estrellas).

• Errores gramaticales como ortográficos y de puntuación• Decidimos no aplicar métodos de corrección automática paranormalizar el texto.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 13 / 54

Corpus de opiniones

La tarea para este corpus es la de predicción:• Determinar qué tan bueno es un producto en base a laorientación semántica de las opiniones de entrenamiento, asícomo el puntaje de los usuarios.

• El puntaje de los usuarios que corresponden a: malo (unaestrella), regular (dos estrellas), bueno (tres estrellas), muybueno (cuatro estrellas) o excelente (5 estrellas).

• Errores gramaticales como ortográficos y de puntuación• Decidimos no aplicar métodos de corrección automática paranormalizar el texto.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 13 / 54

Corpus de opiniones

La tarea para este corpus es la de predicción:• Determinar qué tan bueno es un producto en base a laorientación semántica de las opiniones de entrenamiento, asícomo el puntaje de los usuarios.

• El puntaje de los usuarios que corresponden a: malo (unaestrella), regular (dos estrellas), bueno (tres estrellas), muybueno (cuatro estrellas) o excelente (5 estrellas).

• Errores gramaticales como ortográficos y de puntuación• Decidimos no aplicar métodos de corrección automática paranormalizar el texto.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 13 / 54

Corpus de opiniones

La tarea para este corpus es la de predicción:• Determinar qué tan bueno es un producto en base a laorientación semántica de las opiniones de entrenamiento, asícomo el puntaje de los usuarios.

• El puntaje de los usuarios que corresponden a: malo (unaestrella), regular (dos estrellas), bueno (tres estrellas), muybueno (cuatro estrellas) o excelente (5 estrellas).

• Errores gramaticales como ortográficos y de puntuación

• Decidimos no aplicar métodos de corrección automática paranormalizar el texto.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 13 / 54

Corpus de opiniones

La tarea para este corpus es la de predicción:• Determinar qué tan bueno es un producto en base a laorientación semántica de las opiniones de entrenamiento, asícomo el puntaje de los usuarios.

• El puntaje de los usuarios que corresponden a: malo (unaestrella), regular (dos estrellas), bueno (tres estrellas), muybueno (cuatro estrellas) o excelente (5 estrellas).

• Errores gramaticales como ortográficos y de puntuación• Decidimos no aplicar métodos de corrección automática paranormalizar el texto.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 13 / 54

Corpus de opiniones

Figura: Descripción del corpus de reseñas comerciales

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 14 / 54

Corpus de opinionesEn el área de aprendizaje automáticose ha considerado el problema deldesequilibrio de clases.

Modificación del algoritmo Sun,Yanmin et al (2007).

Asignación de pesos distintos alos ejemplos de entrenamiento,introduciendo diferentes costosa ejemplos positivos y negativos.Pazzani, Michael et al (1994)Muestreo heterogéneo de datos(e.g. bajo-muestreo,sobre-muestreo, metodoshibridos) Tang, Yuchun et al(2009).

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 15 / 54

Corpus de opinionesEn el área de aprendizaje automáticose ha considerado el problema deldesequilibrio de clases.

Modificación del algoritmo Sun,Yanmin et al (2007).Asignación de pesos distintos alos ejemplos de entrenamiento,introduciendo diferentes costosa ejemplos positivos y negativos.Pazzani, Michael et al (1994)

Muestreo heterogéneo de datos(e.g. bajo-muestreo,sobre-muestreo, metodoshibridos) Tang, Yuchun et al(2009).

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 15 / 54

Corpus de opinionesEn el área de aprendizaje automáticose ha considerado el problema deldesequilibrio de clases.

Modificación del algoritmo Sun,Yanmin et al (2007).Asignación de pesos distintos alos ejemplos de entrenamiento,introduciendo diferentes costosa ejemplos positivos y negativos.Pazzani, Michael et al (1994)Muestreo heterogéneo de datos(e.g. bajo-muestreo,sobre-muestreo, metodoshibridos) Tang, Yuchun et al(2009).

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 15 / 54

Bigramas afirmativos

• Turney, Peter D. (2002) determinó la orientación semánticamediante una estrategia que consiste en:

1 Extracción de bigramas a partir de texto.

2 Se toman cada bigrama para realizar una búsqueda en la Webempleando el operador NEAR de AltaVista para encontrar cuántosdocumentos tienen ese bigrama cerca de un término positivo(excellent) y de un término negativo (poor).

3 El puntaje para los dos conjuntos se realiza mediante la medida deinformación mutua puntual (PMI).

• La diferencia de PMI se utiliza para determinar la orientaciónsemántica

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 16 / 54

Bigramas afirmativos

• Turney, Peter D. (2002) determinó la orientación semánticamediante una estrategia que consiste en:

1 Extracción de bigramas a partir de texto.

2 Se toman cada bigrama para realizar una búsqueda en la Webempleando el operador NEAR de AltaVista para encontrar cuántosdocumentos tienen ese bigrama cerca de un término positivo(excellent) y de un término negativo (poor).

3 El puntaje para los dos conjuntos se realiza mediante la medida deinformación mutua puntual (PMI).

• La diferencia de PMI se utiliza para determinar la orientaciónsemántica

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 16 / 54

Bigramas afirmativos

• Turney, Peter D. (2002) determinó la orientación semánticamediante una estrategia que consiste en:

1 Extracción de bigramas a partir de texto.2 Se toman cada bigrama para realizar una búsqueda en la Web

empleando el operador NEAR de AltaVista para encontrar cuántosdocumentos tienen ese bigrama cerca de un término positivo(excellent) y de un término negativo (poor).

3 El puntaje para los dos conjuntos se realiza mediante la medida deinformación mutua puntual (PMI).

• La diferencia de PMI se utiliza para determinar la orientaciónsemántica

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 16 / 54

Bigramas afirmativos

• Turney, Peter D. (2002) determinó la orientación semánticamediante una estrategia que consiste en:

1 Extracción de bigramas a partir de texto.2 Se toman cada bigrama para realizar una búsqueda en la Web

empleando el operador NEAR de AltaVista para encontrar cuántosdocumentos tienen ese bigrama cerca de un término positivo(excellent) y de un término negativo (poor).

3 El puntaje para los dos conjuntos se realiza mediante la medida deinformación mutua puntual (PMI).

• La diferencia de PMI se utiliza para determinar la orientaciónsemántica

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 16 / 54

Bigramas afirmativos

• Turney, Peter D. (2002) determinó la orientación semánticamediante una estrategia que consiste en:

1 Extracción de bigramas a partir de texto.2 Se toman cada bigrama para realizar una búsqueda en la Web

empleando el operador NEAR de AltaVista para encontrar cuántosdocumentos tienen ese bigrama cerca de un término positivo(excellent) y de un término negativo (poor).

3 El puntaje para los dos conjuntos se realiza mediante la medida deinformación mutua puntual (PMI).

• La diferencia de PMI se utiliza para determinar la orientaciónsemántica

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 16 / 54

Bigramas afirmativos

ObservaciónEl puntaje PMI de dos palabras w1 y w2 se obtiene mediante la

probabilidad de que las dos palabras aparezcan juntas dividida por laprobabilidad de que las dos palabras aparezcan juntas dividida por las

probabilidades de cada palabra en forma individual:

PMI(w1,w2) = log[ P(w1,w2)P(w2)P(w2)

](1)

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 17 / 54

Bigramas afirmativos

La orientación semántica se calculó de la siguiente forma:

Observación

SO(frase) = log[hits(Frase NEAR excellent)hits(poor)hits(frase NEAR poor)hits(excellent)

](2)

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 18 / 54

Bigramas afirmativos

La orientación semántica debigramas fue utilizada paradeterminar la orientaciónsemántica de opinionescompletas.

• Turney tomó 410comentarios deepinions.com

• Los resultados oscilaronentre el 66% y 84% deprecisión.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 19 / 54

Bigramas afirmativos

La orientación semántica debigramas fue utilizada paradeterminar la orientaciónsemántica de opinionescompletas.

• Turney tomó 410comentarios deepinions.com

• Los resultados oscilaronentre el 66% y 84% deprecisión.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 19 / 54

Bigramas afirmativos

La orientación semántica debigramas fue utilizada paradeterminar la orientaciónsemántica de opinionescompletas.

• Turney tomó 410comentarios deepinions.com

• Los resultados oscilaronentre el 66% y 84% deprecisión.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 19 / 54

Bigramas afirmativos

ConclusiónLos bigramas morfosintácticos son una buena característica paramétodos no supervisados

• Suponemos que para métodos supervisados podrían sermejores.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 20 / 54

Bigramas afirmativos

ConclusiónLos bigramas morfosintácticos son una buena característica paramétodos no supervisados

• Suponemos que para métodos supervisados podrían sermejores.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 20 / 54

Bigramas afirmativos

En este trabajo consideramos los siguientes bigramas morfosintácticoscomo característica para el entrenamiento del método supervisado:

ObservaciónEstos bigramas morfosintáticos no corresponden a compuestosobtenidos por un analizador sintáctico.

• Sustantivo - adjetivo• Verbo - adverbio• Adverbio - adjetivo• Adjetivo - adverbio

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 21 / 54

Bigramas afirmativos

En este trabajo consideramos los siguientes bigramas morfosintácticoscomo característica para el entrenamiento del método supervisado:

ObservaciónEstos bigramas morfosintáticos no corresponden a compuestosobtenidos por un analizador sintáctico.

• Sustantivo - adjetivo

• Verbo - adverbio• Adverbio - adjetivo• Adjetivo - adverbio

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 21 / 54

Bigramas afirmativos

En este trabajo consideramos los siguientes bigramas morfosintácticoscomo característica para el entrenamiento del método supervisado:

ObservaciónEstos bigramas morfosintáticos no corresponden a compuestosobtenidos por un analizador sintáctico.

• Sustantivo - adjetivo• Verbo - adverbio

• Adverbio - adjetivo• Adjetivo - adverbio

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 21 / 54

Bigramas afirmativos

En este trabajo consideramos los siguientes bigramas morfosintácticoscomo característica para el entrenamiento del método supervisado:

ObservaciónEstos bigramas morfosintáticos no corresponden a compuestosobtenidos por un analizador sintáctico.

• Sustantivo - adjetivo• Verbo - adverbio• Adverbio - adjetivo

• Adjetivo - adverbio

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 21 / 54

Bigramas afirmativos

En este trabajo consideramos los siguientes bigramas morfosintácticoscomo característica para el entrenamiento del método supervisado:

ObservaciónEstos bigramas morfosintáticos no corresponden a compuestosobtenidos por un analizador sintáctico.

• Sustantivo - adjetivo• Verbo - adverbio• Adverbio - adjetivo• Adjetivo - adverbio

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 21 / 54

Bigramas afirmativos

Mediante un conjunto de scripts a partir de la colección de opiniones,se obtienen todas las secuencias de dos palabras cuyas categoríasgramaticales completen los patrones antes indicados (i.e. bigramas).

• En el caso sustantivo-adjetivo el programa que extrae estosbigramas comprueba la concordancia en género y número.

• Para todos los bigramas se extraen no solo las palabras, tambiénlos lemas.

• Esto permite agrupar diversas formas en una sola característica.

EjemploPor ejemplo:prenda vaquera y prendas vaqueras, lavadora nueva ylavadoras nuevas, se agrupan en un solo bigrama para cada par.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 22 / 54

Bigramas afirmativos

Mediante un conjunto de scripts a partir de la colección de opiniones,se obtienen todas las secuencias de dos palabras cuyas categoríasgramaticales completen los patrones antes indicados (i.e. bigramas).

• En el caso sustantivo-adjetivo el programa que extrae estosbigramas comprueba la concordancia en género y número.

• Para todos los bigramas se extraen no solo las palabras, tambiénlos lemas.

• Esto permite agrupar diversas formas en una sola característica.

EjemploPor ejemplo:prenda vaquera y prendas vaqueras, lavadora nueva ylavadoras nuevas, se agrupan en un solo bigrama para cada par.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 22 / 54

Bigramas afirmativos

Mediante un conjunto de scripts a partir de la colección de opiniones,se obtienen todas las secuencias de dos palabras cuyas categoríasgramaticales completen los patrones antes indicados (i.e. bigramas).

• En el caso sustantivo-adjetivo el programa que extrae estosbigramas comprueba la concordancia en género y número.

• Para todos los bigramas se extraen no solo las palabras, tambiénlos lemas.

• Esto permite agrupar diversas formas en una sola característica.

EjemploPor ejemplo:prenda vaquera y prendas vaqueras, lavadora nueva ylavadoras nuevas, se agrupan en un solo bigrama para cada par.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 22 / 54

Bigramas afirmativos

Mediante un conjunto de scripts a partir de la colección de opiniones,se obtienen todas las secuencias de dos palabras cuyas categoríasgramaticales completen los patrones antes indicados (i.e. bigramas).

• En el caso sustantivo-adjetivo el programa que extrae estosbigramas comprueba la concordancia en género y número.

• Para todos los bigramas se extraen no solo las palabras, tambiénlos lemas.

• Esto permite agrupar diversas formas en una sola característica.

EjemploPor ejemplo:prenda vaquera y prendas vaqueras, lavadora nueva ylavadoras nuevas, se agrupan en un solo bigrama para cada par.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 22 / 54

Bigramas afirmativos

Mediante un conjunto de scripts a partir de la colección de opiniones,se obtienen todas las secuencias de dos palabras cuyas categoríasgramaticales completen los patrones antes indicados (i.e. bigramas).

• En el caso sustantivo-adjetivo el programa que extrae estosbigramas comprueba la concordancia en género y número.

• Para todos los bigramas se extraen no solo las palabras, tambiénlos lemas.

• Esto permite agrupar diversas formas en una sola característica.

EjemploPor ejemplo:prenda vaquera y prendas vaqueras, lavadora nueva ylavadoras nuevas, se agrupan en un solo bigrama para cada par.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 22 / 54

Bigramas afirmativos

• Bigramas adverbio-adjetivo y adjetivo-adverbio.

• Aunque en Español la forma adverbio-adjetivo es común tambiénencontramos adjetivo-adverbio

EjemploAdjetivo-adverbio: poco lentoAdverbio-adjetivo: más eficiente

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 23 / 54

Bigramas afirmativos

• Bigramas adverbio-adjetivo y adjetivo-adverbio.

• Aunque en Español la forma adverbio-adjetivo es común tambiénencontramos adjetivo-adverbio

EjemploAdjetivo-adverbio: poco lentoAdverbio-adjetivo: más eficiente

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 23 / 54

Bigramas afirmativos

• Bigramas adverbio-adjetivo y adjetivo-adverbio.• Aunque en Español la forma adverbio-adjetivo es común también

encontramos adjetivo-adverbio

EjemploAdjetivo-adverbio: poco lentoAdverbio-adjetivo: más eficiente

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 23 / 54

Bigramas afirmativos

• Bigramas adverbio-adjetivo y adjetivo-adverbio.• Aunque en Español la forma adverbio-adjetivo es común también

encontramos adjetivo-adverbio

EjemploAdjetivo-adverbio: poco lentoAdverbio-adjetivo: más eficiente

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 23 / 54

Siguiente sección1 Introducción

Introducción

2 Materiales empleados y conocimiento lingüístico consideradoCorpus de opinionesClasificación

3 Aprendizaje automáticoPreprocesamiento de datosSistema

4 ExperimentosExperimentosEl truco del kernelEvaluaciónGrid searchEvaluando el rendimiento base

5 ResultadosResultados

6 ConclusionesConclusiones

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 24 / 54

Clasificación

ModeloMáquinas de soporte vectorial: modelos de aprendizaje supervisadopara analizar patrones, usados para clasificación y análisis de regresión.

• Gran variedad de funciones kernel.• Generalizar en parecencia de muchas. características, usandofunciones de nuestro espacio de hipótesis.

• Uso de heurísticas como Grid Search para la optimización dehiper parámetros.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 25 / 54

Clasificación

ModeloMáquinas de soporte vectorial: modelos de aprendizaje supervisadopara analizar patrones, usados para clasificación y análisis de regresión.

• Gran variedad de funciones kernel.

• Generalizar en parecencia de muchas. características, usandofunciones de nuestro espacio de hipótesis.

• Uso de heurísticas como Grid Search para la optimización dehiper parámetros.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 25 / 54

Clasificación

ModeloMáquinas de soporte vectorial: modelos de aprendizaje supervisadopara analizar patrones, usados para clasificación y análisis de regresión.

• Gran variedad de funciones kernel.• Generalizar en parecencia de muchas. características, usandofunciones de nuestro espacio de hipótesis.

• Uso de heurísticas como Grid Search para la optimización dehiper parámetros.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 25 / 54

Clasificación

ModeloMáquinas de soporte vectorial: modelos de aprendizaje supervisadopara analizar patrones, usados para clasificación y análisis de regresión.

• Gran variedad de funciones kernel.• Generalizar en parecencia de muchas. características, usandofunciones de nuestro espacio de hipótesis.

• Uso de heurísticas como Grid Search para la optimización dehiper parámetros.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 25 / 54

Clasificación

Para una tarea de clasificación es necesario separar los datos entreconjunto de entrenamiento y conjunto de prueba:

• En nuestro caso separamos el corpus de opiniones en 70% paraentrenamiento y 30% para prueba.

• Cada ejemplo o instancia se asocia a una clase, categoría oetiqueta

• 70% de los datos de entrenamiento fueron etiquetados con laclase correspondiente

• Mientras que el 30% de los datos no se les asignó etiqueta.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 26 / 54

Clasificación

Para una tarea de clasificación es necesario separar los datos entreconjunto de entrenamiento y conjunto de prueba:

• En nuestro caso separamos el corpus de opiniones en 70% paraentrenamiento y 30% para prueba.

• Cada ejemplo o instancia se asocia a una clase, categoría oetiqueta

• 70% de los datos de entrenamiento fueron etiquetados con laclase correspondiente

• Mientras que el 30% de los datos no se les asignó etiqueta.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 26 / 54

Clasificación

Para una tarea de clasificación es necesario separar los datos entreconjunto de entrenamiento y conjunto de prueba:

• En nuestro caso separamos el corpus de opiniones en 70% paraentrenamiento y 30% para prueba.

• Cada ejemplo o instancia se asocia a una clase, categoría oetiqueta

• 70% de los datos de entrenamiento fueron etiquetados con laclase correspondiente

• Mientras que el 30% de los datos no se les asignó etiqueta.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 26 / 54

Clasificación

Para una tarea de clasificación es necesario separar los datos entreconjunto de entrenamiento y conjunto de prueba:

• En nuestro caso separamos el corpus de opiniones en 70% paraentrenamiento y 30% para prueba.

• Cada ejemplo o instancia se asocia a una clase, categoría oetiqueta

• 70% de los datos de entrenamiento fueron etiquetados con laclase correspondiente

• Mientras que el 30% de los datos no se les asignó etiqueta.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 26 / 54

Clasificación

Para una tarea de clasificación es necesario separar los datos entreconjunto de entrenamiento y conjunto de prueba:

• En nuestro caso separamos el corpus de opiniones en 70% paraentrenamiento y 30% para prueba.

• Cada ejemplo o instancia se asocia a una clase, categoría oetiqueta

• 70% de los datos de entrenamiento fueron etiquetados con laclase correspondiente

• Mientras que el 30% de los datos no se les asignó etiqueta.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 26 / 54

Siguiente sección1 Introducción

Introducción

2 Materiales empleados y conocimiento lingüístico consideradoCorpus de opinionesClasificación

3 Aprendizaje automáticoPreprocesamiento de datosSistema

4 ExperimentosExperimentosEl truco del kernelEvaluaciónGrid searchEvaluando el rendimiento base

5 ResultadosResultados

6 ConclusionesConclusiones

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 27 / 54

Preprocesamiento de datos

Una de las ventajas de usar un lenguaje de propósito general comoPython es la gran cantidad de bibliotecas robustas para implementardistintos métodos y manipular datos.

Figura: pandas (Python for data analysis)

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 28 / 54

Siguiente sección1 Introducción

Introducción

2 Materiales empleados y conocimiento lingüístico consideradoCorpus de opinionesClasificación

3 Aprendizaje automáticoPreprocesamiento de datosSistema

4 ExperimentosExperimentosEl truco del kernelEvaluaciónGrid searchEvaluando el rendimiento base

5 ResultadosResultados

6 ConclusionesConclusiones

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 29 / 54

SistemaPara resolver este problema de clasificación, decidimos usar unalgoritmo supervisado. La clasificación se hizo mediante SVM para elcaso multiclase:

• Fuertes bases teóricas• Algoritmos de aprendizaje que tienen la capacidad de aprenderindependientemente de la dimensionalidad del espacio decaracterísticas.

ObservaciónEl objetivo de las SVM es producir un modelo basado en los datos deentrenamiento que prediga las clases o categorías de un conjuntonuevo de instancias, mediante la generación de un hiperplano en unespacio de dimensión infinita.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 30 / 54

SistemaPara resolver este problema de clasificación, decidimos usar unalgoritmo supervisado. La clasificación se hizo mediante SVM para elcaso multiclase:

• Fuertes bases teóricas

• Algoritmos de aprendizaje que tienen la capacidad de aprenderindependientemente de la dimensionalidad del espacio decaracterísticas.

ObservaciónEl objetivo de las SVM es producir un modelo basado en los datos deentrenamiento que prediga las clases o categorías de un conjuntonuevo de instancias, mediante la generación de un hiperplano en unespacio de dimensión infinita.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 30 / 54

SistemaPara resolver este problema de clasificación, decidimos usar unalgoritmo supervisado. La clasificación se hizo mediante SVM para elcaso multiclase:

• Fuertes bases teóricas• Algoritmos de aprendizaje que tienen la capacidad de aprenderindependientemente de la dimensionalidad del espacio decaracterísticas.

ObservaciónEl objetivo de las SVM es producir un modelo basado en los datos deentrenamiento que prediga las clases o categorías de un conjuntonuevo de instancias, mediante la generación de un hiperplano en unespacio de dimensión infinita.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 30 / 54

SistemaPara resolver este problema de clasificación, decidimos usar unalgoritmo supervisado. La clasificación se hizo mediante SVM para elcaso multiclase:

• Fuertes bases teóricas• Algoritmos de aprendizaje que tienen la capacidad de aprenderindependientemente de la dimensionalidad del espacio decaracterísticas.

ObservaciónEl objetivo de las SVM es producir un modelo basado en los datos deentrenamiento que prediga las clases o categorías de un conjuntonuevo de instancias, mediante la generación de un hiperplano en unespacio de dimensión infinita.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 30 / 54

Sistema

Las SVM funcionan para clasificar texto 1:

• Cuando se clasifica texto se trabaja con espacios de altadimensión

• Pocas características irrelevantes, representaciones vectorialesdispersas

• Mayor parte de los problemas de clasificación de texto sonlinealmente separables.

1Joachims, Thorsten. Text categorization with support vector machines:Learning with many relevant features. Springer (1998).

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 31 / 54

Sistema

Las SVM funcionan para clasificar texto 1:

• Cuando se clasifica texto se trabaja con espacios de altadimensión

• Pocas características irrelevantes, representaciones vectorialesdispersas

• Mayor parte de los problemas de clasificación de texto sonlinealmente separables.

1Joachims, Thorsten. Text categorization with support vector machines:Learning with many relevant features. Springer (1998).

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 31 / 54

Sistema

Las SVM funcionan para clasificar texto 1:

• Cuando se clasifica texto se trabaja con espacios de altadimensión

• Pocas características irrelevantes, representaciones vectorialesdispersas

• Mayor parte de los problemas de clasificación de texto sonlinealmente separables.

1Joachims, Thorsten. Text categorization with support vector machines:Learning with many relevant features. Springer (1998).

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 31 / 54

Sistema

Las SVM funcionan para clasificar texto 1:

• Cuando se clasifica texto se trabaja con espacios de altadimensión

• Pocas características irrelevantes, representaciones vectorialesdispersas

• Mayor parte de los problemas de clasificación de texto sonlinealmente separables.

1Joachims, Thorsten. Text categorization with support vector machines:Learning with many relevant features. Springer (1998).

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 31 / 54

Siguiente sección1 Introducción

Introducción

2 Materiales empleados y conocimiento lingüístico consideradoCorpus de opinionesClasificación

3 Aprendizaje automáticoPreprocesamiento de datosSistema

4 ExperimentosExperimentosEl truco del kernelEvaluaciónGrid searchEvaluando el rendimiento base

5 ResultadosResultados

6 ConclusionesConclusiones

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 32 / 54

Experimentos

El entrenamiento de SVM fuerealizado empleando la herramientascikit-learn:

Una biblioteca de código abiertoy propósito general.Implementa una gran variedadde algoritmos de aprendizajeautomático.Al igual que otras bibliotecasincorpora o envuelve a labiblioteca de C++ LibSVM.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 33 / 54

Experimentos

El entrenamiento de SVM fuerealizado empleando la herramientascikit-learn:

Una biblioteca de código abiertoy propósito general.

Implementa una gran variedadde algoritmos de aprendizajeautomático.Al igual que otras bibliotecasincorpora o envuelve a labiblioteca de C++ LibSVM.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 33 / 54

Experimentos

El entrenamiento de SVM fuerealizado empleando la herramientascikit-learn:

Una biblioteca de código abiertoy propósito general.Implementa una gran variedadde algoritmos de aprendizajeautomático.

Al igual que otras bibliotecasincorpora o envuelve a labiblioteca de C++ LibSVM.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 33 / 54

Experimentos

El entrenamiento de SVM fuerealizado empleando la herramientascikit-learn:

Una biblioteca de código abiertoy propósito general.Implementa una gran variedadde algoritmos de aprendizajeautomático.Al igual que otras bibliotecasincorpora o envuelve a labiblioteca de C++ LibSVM.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 33 / 54

Siguiente sección1 Introducción

Introducción

2 Materiales empleados y conocimiento lingüístico consideradoCorpus de opinionesClasificación

3 Aprendizaje automáticoPreprocesamiento de datosSistema

4 ExperimentosExperimentosEl truco del kernelEvaluaciónGrid searchEvaluando el rendimiento base

5 ResultadosResultados

6 ConclusionesConclusiones

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 34 / 54

El truco del kernel

Figura: Truco del kernel

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 35 / 54

El truco del kernel

Distintas funciones kernel:

• RBF (Función de base radial)

k(x , y) = exp(γ||x − y ||2) (3)

• Kernel polinomial

k(x , y) = (αxᵀTy + c)d (4)

• Kernel linealk(x , y) = xᵀTy + c (5)

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 36 / 54

El truco del kernel

Distintas funciones kernel:• RBF (Función de base radial)

k(x , y) = exp(γ||x − y ||2) (3)

• Kernel polinomial

k(x , y) = (αxᵀTy + c)d (4)

• Kernel linealk(x , y) = xᵀTy + c (5)

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 36 / 54

El truco del kernel

Distintas funciones kernel:• RBF (Función de base radial)

k(x , y) = exp(γ||x − y ||2) (3)

• Kernel polinomial

k(x , y) = (αxᵀTy + c)d (4)

• Kernel linealk(x , y) = xᵀTy + c (5)

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 36 / 54

El truco del kernel

Distintas funciones kernel:• RBF (Función de base radial)

k(x , y) = exp(γ||x − y ||2) (3)

• Kernel polinomial

k(x , y) = (αxᵀTy + c)d (4)

• Kernel linealk(x , y) = xᵀTy + c (5)

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 36 / 54

Siguiente sección1 Introducción

Introducción

2 Materiales empleados y conocimiento lingüístico consideradoCorpus de opinionesClasificación

3 Aprendizaje automáticoPreprocesamiento de datosSistema

4 ExperimentosExperimentosEl truco del kernelEvaluaciónGrid searchEvaluando el rendimiento base

5 ResultadosResultados

6 ConclusionesConclusiones

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 37 / 54

Evaluación

• Exactitud:Calcula el subconjunto de la precisión del conjunto de etiquetaspredichas para una muestra que exactamente corresponden alconjunto de etiquetas del conjunto de entrenamiento.

• F1-score:Promedio balanceado entre la precisión y el recall,

• Score:Se refiere a la media de la precisión, dados los datos y etiquetasde prueba.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 38 / 54

Evaluación

• Recall:Es la capacidad que tiene un estimador de encontrar todas lasmuestras positivas. El recall es el radio tp

tp+fn donde tp es elnumero de verdaderos positivos y fn es el numero de falsosnegativos.

• Precisión:Intuitivamente podemos decir que es la capacidad que tiene unestimador de no etiquetar como positiva una muestra que esnegativa. El radio de precisión: tp

tp+fp donde tp es el numero deverdaderos positivos y fp el numero de falsos positivos.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 39 / 54

Evaluación

• Perdida de Hamming:En clasificación multiclase, la perdida de Hamming corresponde ala distancia de Hamming entre el subconjunto de instancias deentrenamiento y el subconjunto de instancias predichas.

• Similaridad de Jaccard:Útil para comparar el conjunto de etiquetas predichas para unamuestra correspondiente a un conjunto de etiquetas en los datosde entrenamiento.

• F-Beta Score:Esta métrica es la media harmónica balanceada entre la precisióny el recall, alcanzando su óptimo valor en 1 y su peor valor en 0.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 40 / 54

Siguiente sección1 Introducción

Introducción

2 Materiales empleados y conocimiento lingüístico consideradoCorpus de opinionesClasificación

3 Aprendizaje automáticoPreprocesamiento de datosSistema

4 ExperimentosExperimentosEl truco del kernelEvaluaciónGrid searchEvaluando el rendimiento base

5 ResultadosResultados

6 ConclusionesConclusiones

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 41 / 54

Grid search

Las SVM son sensibles al conjuntode hiperparametros con las que sonentrenados.

Un estimadorUn espacio de parámetrosUn método para buscar omuestrear candidatosUn esquema de validacióncruzada

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 42 / 54

Grid search

Las SVM son sensibles al conjuntode hiperparametros con las que sonentrenados.

Un estimador

Un espacio de parámetrosUn método para buscar omuestrear candidatosUn esquema de validacióncruzada

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 42 / 54

Grid search

Las SVM son sensibles al conjuntode hiperparametros con las que sonentrenados.

Un estimadorUn espacio de parámetros

Un método para buscar omuestrear candidatosUn esquema de validacióncruzada

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 42 / 54

Grid search

Las SVM son sensibles al conjuntode hiperparametros con las que sonentrenados.

Un estimadorUn espacio de parámetrosUn método para buscar omuestrear candidatos

Un esquema de validacióncruzada

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 42 / 54

Grid search

Las SVM son sensibles al conjuntode hiperparametros con las que sonentrenados.

Un estimadorUn espacio de parámetrosUn método para buscar omuestrear candidatosUn esquema de validacióncruzada

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 42 / 54

Grid search

ObservaciónUna Grid search es una búsqueda exhaustiva a través de unsubconjunto del espacio de hiper-parámetros de un algoritmo deaprendizaje.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 43 / 54

Siguiente sección1 Introducción

Introducción

2 Materiales empleados y conocimiento lingüístico consideradoCorpus de opinionesClasificación

3 Aprendizaje automáticoPreprocesamiento de datosSistema

4 ExperimentosExperimentosEl truco del kernelEvaluaciónGrid searchEvaluando el rendimiento base

5 ResultadosResultados

6 ConclusionesConclusiones

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 44 / 54

Evaluando el rendimiento base

ObservaciónEvaluar la tasa base de éxito puede aportar un valor mínimo que otroestimador debe superar.(e.g. tareas de clasificación).

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 45 / 54

Evaluando el rendimiento basePara comparar el resultado usamosun clasificador que usa estrategiassimples:

Es aleatorio.

Siempre predice la etiqueta másfrecuente en el conjunto deentrenamiento.

ObservaciónEsto es equivalente a usar laestrategia de clasificación másfrecuente que implementa laherramienta con la que se hizo elentrenamiento.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 46 / 54

Evaluando el rendimiento basePara comparar el resultado usamosun clasificador que usa estrategiassimples:

Es aleatorio.Siempre predice la etiqueta másfrecuente en el conjunto deentrenamiento.

ObservaciónEsto es equivalente a usar laestrategia de clasificación másfrecuente que implementa laherramienta con la que se hizo elentrenamiento.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 46 / 54

Evaluando el rendimiento basePara comparar el resultado usamosun clasificador que usa estrategiassimples:

Es aleatorio.Siempre predice la etiqueta másfrecuente en el conjunto deentrenamiento.

ObservaciónEsto es equivalente a usar laestrategia de clasificación másfrecuente que implementa laherramienta con la que se hizo elentrenamiento.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 46 / 54

Evaluando el rendimiento base

Se obtuvieron los siguientes resultados con el sistema base (i.e.clasificación más frecuente):

• Exactitud: 0.33• F1 score: 0.33• Score:0.32• Recall: 0.33• Precisión: 0.32• Perdida de Hamming: 0.66• Similaridad de Jaccard: 0.33• F-Beta score: 0.20

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 47 / 54

Siguiente sección1 Introducción

Introducción

2 Materiales empleados y conocimiento lingüístico consideradoCorpus de opinionesClasificación

3 Aprendizaje automáticoPreprocesamiento de datosSistema

4 ExperimentosExperimentosEl truco del kernelEvaluaciónGrid searchEvaluando el rendimiento base

5 ResultadosResultados

6 ConclusionesConclusiones

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 48 / 54

ResultadosGeneramos distintos conjuntos de entrenamiento:

1 Sustantivo-adjetivo• Este bigrama expresa atributos sustantivos que corresponden a

atributos de características del producto.• Exactitud:82.86 y F-beta: 78.22

2 Sustantivo-adjetivo y verbo-adverbio• Expresa el modo en que se realiza la acción descrita por el verbo.• Mejoró un 10%• Exactitud: 92.65 y F-beta: 92.85

3 Sustantivo-adjetivo, verbo-adverbio y adverbio-adjetivo• Exactitud: 92.30 y F-beta: 93.23

4 Sustantivo-adjetivo, verbo-adverbio, adverbio-adjetivo yadjetivo-adverbio

• No es una estructura lingüística muy usada en Español.• mejor claro, super bien, perfecto desde_luego.• Exactitud: 93.12 y F-beta: 94.07

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 49 / 54

ResultadosGeneramos distintos conjuntos de entrenamiento:

1 Sustantivo-adjetivo• Este bigrama expresa atributos sustantivos que corresponden a

atributos de características del producto.• Exactitud:82.86 y F-beta: 78.22

2 Sustantivo-adjetivo y verbo-adverbio• Expresa el modo en que se realiza la acción descrita por el verbo.• Mejoró un 10%• Exactitud: 92.65 y F-beta: 92.85

3 Sustantivo-adjetivo, verbo-adverbio y adverbio-adjetivo• Exactitud: 92.30 y F-beta: 93.23

4 Sustantivo-adjetivo, verbo-adverbio, adverbio-adjetivo yadjetivo-adverbio

• No es una estructura lingüística muy usada en Español.• mejor claro, super bien, perfecto desde_luego.• Exactitud: 93.12 y F-beta: 94.07

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 49 / 54

ResultadosGeneramos distintos conjuntos de entrenamiento:

1 Sustantivo-adjetivo• Este bigrama expresa atributos sustantivos que corresponden a

atributos de características del producto.• Exactitud:82.86 y F-beta: 78.22

2 Sustantivo-adjetivo y verbo-adverbio• Expresa el modo en que se realiza la acción descrita por el verbo.• Mejoró un 10%• Exactitud: 92.65 y F-beta: 92.85

3 Sustantivo-adjetivo, verbo-adverbio y adverbio-adjetivo• Exactitud: 92.30 y F-beta: 93.23

4 Sustantivo-adjetivo, verbo-adverbio, adverbio-adjetivo yadjetivo-adverbio

• No es una estructura lingüística muy usada en Español.• mejor claro, super bien, perfecto desde_luego.• Exactitud: 93.12 y F-beta: 94.07

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 49 / 54

ResultadosGeneramos distintos conjuntos de entrenamiento:

1 Sustantivo-adjetivo• Este bigrama expresa atributos sustantivos que corresponden a

atributos de características del producto.• Exactitud:82.86 y F-beta: 78.22

2 Sustantivo-adjetivo y verbo-adverbio• Expresa el modo en que se realiza la acción descrita por el verbo.• Mejoró un 10%• Exactitud: 92.65 y F-beta: 92.85

3 Sustantivo-adjetivo, verbo-adverbio y adverbio-adjetivo• Exactitud: 92.30 y F-beta: 93.23

4 Sustantivo-adjetivo, verbo-adverbio, adverbio-adjetivo yadjetivo-adverbio

• No es una estructura lingüística muy usada en Español.• mejor claro, super bien, perfecto desde_luego.• Exactitud: 93.12 y F-beta: 94.07

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 49 / 54

ResultadosGeneramos distintos conjuntos de entrenamiento:

1 Sustantivo-adjetivo• Este bigrama expresa atributos sustantivos que corresponden a

atributos de características del producto.• Exactitud:82.86 y F-beta: 78.22

2 Sustantivo-adjetivo y verbo-adverbio• Expresa el modo en que se realiza la acción descrita por el verbo.• Mejoró un 10%• Exactitud: 92.65 y F-beta: 92.85

3 Sustantivo-adjetivo, verbo-adverbio y adverbio-adjetivo• Exactitud: 92.30 y F-beta: 93.23

4 Sustantivo-adjetivo, verbo-adverbio, adverbio-adjetivo yadjetivo-adverbio

• No es una estructura lingüística muy usada en Español.• mejor claro, super bien, perfecto desde_luego.• Exactitud: 93.12 y F-beta: 94.07

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 49 / 54

Resultados

Figura: Rendimiento del sistema con distintas configuraciones

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 50 / 54

Resultados

• Se han utilizado colecciones de 25 opiniones favorables y 25opiniones desfavorables para lavadoras con un método nosupervisado (Vilares, David et al 2013).

• Precisión de 88 para opiniones negativas y 76 para opinionespositivas.

• Análogamente se han usado SVM para colecciones de opinionesde cine (Cruz Mata, F. et al 2008).

• Precisión:87.7, Recall:87.63, F1-Score:87.66

ConclusiónEstos resultados muestran que el enfoque propuesto en este trabajo seequipara con el estado del arte de minería de opiniones en español.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 51 / 54

Resultados

• Se han utilizado colecciones de 25 opiniones favorables y 25opiniones desfavorables para lavadoras con un método nosupervisado (Vilares, David et al 2013).

• Precisión de 88 para opiniones negativas y 76 para opinionespositivas.

• Análogamente se han usado SVM para colecciones de opinionesde cine (Cruz Mata, F. et al 2008).

• Precisión:87.7, Recall:87.63, F1-Score:87.66

ConclusiónEstos resultados muestran que el enfoque propuesto en este trabajo seequipara con el estado del arte de minería de opiniones en español.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 51 / 54

Resultados

• Se han utilizado colecciones de 25 opiniones favorables y 25opiniones desfavorables para lavadoras con un método nosupervisado (Vilares, David et al 2013).

• Precisión de 88 para opiniones negativas y 76 para opinionespositivas.

• Análogamente se han usado SVM para colecciones de opinionesde cine (Cruz Mata, F. et al 2008).

• Precisión:87.7, Recall:87.63, F1-Score:87.66

ConclusiónEstos resultados muestran que el enfoque propuesto en este trabajo seequipara con el estado del arte de minería de opiniones en español.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 51 / 54

Resultados

• Se han utilizado colecciones de 25 opiniones favorables y 25opiniones desfavorables para lavadoras con un método nosupervisado (Vilares, David et al 2013).

• Precisión de 88 para opiniones negativas y 76 para opinionespositivas.

• Análogamente se han usado SVM para colecciones de opinionesde cine (Cruz Mata, F. et al 2008).

• Precisión:87.7, Recall:87.63, F1-Score:87.66

ConclusiónEstos resultados muestran que el enfoque propuesto en este trabajo seequipara con el estado del arte de minería de opiniones en español.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 51 / 54

Resultados

• Se han utilizado colecciones de 25 opiniones favorables y 25opiniones desfavorables para lavadoras con un método nosupervisado (Vilares, David et al 2013).

• Precisión de 88 para opiniones negativas y 76 para opinionespositivas.

• Análogamente se han usado SVM para colecciones de opinionesde cine (Cruz Mata, F. et al 2008).

• Precisión:87.7, Recall:87.63, F1-Score:87.66

ConclusiónEstos resultados muestran que el enfoque propuesto en este trabajo seequipara con el estado del arte de minería de opiniones en español.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 51 / 54

Resultados

• Se han utilizado colecciones de 25 opiniones favorables y 25opiniones desfavorables para lavadoras con un método nosupervisado (Vilares, David et al 2013).

• Precisión de 88 para opiniones negativas y 76 para opinionespositivas.

• Análogamente se han usado SVM para colecciones de opinionesde cine (Cruz Mata, F. et al 2008).

• Precisión:87.7, Recall:87.63, F1-Score:87.66

ConclusiónEstos resultados muestran que el enfoque propuesto en este trabajo seequipara con el estado del arte de minería de opiniones en español.

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 51 / 54

Siguiente sección1 Introducción

Introducción

2 Materiales empleados y conocimiento lingüístico consideradoCorpus de opinionesClasificación

3 Aprendizaje automáticoPreprocesamiento de datosSistema

4 ExperimentosExperimentosEl truco del kernelEvaluaciónGrid searchEvaluando el rendimiento base

5 ResultadosResultados

6 ConclusionesConclusiones

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 52 / 54

Conclusiones

• Examinamos el problema de estimar la orientación semánticade opiniones de productos comerciales, en idioma Español.

• Exploramos las características de una colección de opiniones• Experimentamos con el uso de bigramas de afirmación comocaracterísticas de entrenamiento para un métodosupervisado (Máquinas de soporte vectorial)

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 53 / 54

Conclusiones

• Examinamos el problema de estimar la orientación semánticade opiniones de productos comerciales, en idioma Español.

• Exploramos las características de una colección de opiniones• Experimentamos con el uso de bigramas de afirmación comocaracterísticas de entrenamiento para un métodosupervisado (Máquinas de soporte vectorial)

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 53 / 54

Conclusiones

• Examinamos el problema de estimar la orientación semánticade opiniones de productos comerciales, en idioma Español.

• Exploramos las características de una colección de opiniones

• Experimentamos con el uso de bigramas de afirmación comocaracterísticas de entrenamiento para un métodosupervisado (Máquinas de soporte vectorial)

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 53 / 54

Conclusiones

• Examinamos el problema de estimar la orientación semánticade opiniones de productos comerciales, en idioma Español.

• Exploramos las características de una colección de opiniones• Experimentamos con el uso de bigramas de afirmación comocaracterísticas de entrenamiento para un métodosupervisado (Máquinas de soporte vectorial)

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 53 / 54

COMIA 2015

¡Gracias por su atención!alonsop@ciencias.unam.mxsngh@fciencias.unam.mx

Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 54 / 54