Date post: | 15-Apr-2017 |
Category: |
Science |
Upload: | oscar-garcia-peinado |
View: | 155 times |
Download: | 1 times |
Word2vec 4 All
Oscar García Peinado
Word embedding - Word2vec
Documento:Camera porpoise dolphin SeaWorld Paris Camera.
Vocabulario:Subconjunto de palabras únicas
Que es word2vec?Es un modelo matemático desarrollado por el equipo de investigación sobre análisis lingüístico de Google y liderado por Tomas Mikolov y publicado en 2013.
En dos líneas:
Word2vec se encarga de representar cada una de las palabras del vocabulario de un texto en un espacio vectorial de N-Dimensiones.
Paper google: (https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf)
Literalmente ¿que hace word2vec?Cuando el modelo proyecta el vocabulario sobre el espacio N-dimensional intenta dejar cerca todas las palabras que aparecen en el mismo contexto.
cochemoto casa
cocinabaño
parque
cine
árbol
¿Parecido por contexto?
Xin Rong - word2vec: https://www.youtube.com/watch?v=D-ekE-Wlcds&t=1852s
Operaciones en el espacio vectorial
vec(“Berlin”) - vec(“Germany”) + vec(“France”) = ???
¿Por dentro?
Red neuronal -Entrada: Vector con los valores de la palabra que estamos tratando (skip-gram ,CBOW)
-Salida: Vector de las palabras relacionadas con el vector de entrada dependiendo del modelo de input utilizado (skip-gram, CBOW)
CBOW
La entrada sería el conjunto que rodea al target y la salida sería el target.
Skip-gram
El input es la palabra que estamos procesando y la salida es el contexto.
Demo online
https://ronxin.github.io/wevi/
Referenciashttps://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf
https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf
https://docs.google.com/presentation/d/1yQWN1CDWLzxGeIAvnGgDsIJr5xmy4dB0VmHFKkLiibo/pub?start=false&loop=false&delayms=3000&slide=id.ge79682746_0_245
https://www.youtube.com/watch?v=D-ekE-Wlcds&t=1852s
Fin