CS276A Text Retrieval and Mining Lecture 12 [Utilizando slides de Viktor Lavrenko e Chengxiang Zhai]

Post on 18-Apr-2015

104 views 2 download

Tags:

transcript

CS276AText Retrieval and Mining

Lecture 12

[Utilizando slides de Viktor Lavrenko e Chengxiang Zhai]

Recaptulando

Modelos probabilísticos: Classificação de Texto Naïve Bayes Introdução à Classificação de Texto Modelos Probabilísticos de Linguagem Categorização de texto Naïve Bayes

Hoje

Abordagem Modelo de Linguagem a RI Modelo básico de geração Modelos alternativos

RI probabilístico padrão

consulta

d1

d2

dn

Necesside de Informação

coleção de documentos

correspondênciacorrespondência

),|( dQRP

RI baseado em Modelo de Linguagem (LM)

consulta

d1

d2

dn

Necessidade de Informação

coleção de documentos

geraçãogeração

)|( dMQP 1dM

2dM

ndM

Uma heurística de busca comum é utilizar palavras que vocês espera encontrar em documentos correspondentes como a sua consulta – por que, eu vi Sergey Brin advogando essa estratégia em um programa tarde da noite no meu quarto de hotel, então deve ser bom!

A abordagem LM explorar diretamente essa ideia!

Linguagem Formal (Modelo)

Modelo gerativo Tradicional: gera strings Máquinas de estados finitos ou gramáticas regulares, etc.

Exemplo:

I wish

I wishI wish I wishI wish I wish I wishI wish I wish I wish I wish…

*wish I wish

Modelos de linguagem estocásticos

Modela a probabilidade de gerar strings na linguagem (normalmente todas as strings sobre o alfabeto ∑)

0.2 the

0.1 a

0.01 man

0.01 woman

0.03 said

0.02 likes

the man likes the woman

0.2 0.01 0.02 0.2 0.01

multiplicar

Modelo M

P(s | M) = 0.00000008

Modelos de linguagem estocásticos

Modela a probabilidade de gerar qualquer string

0.2 the

0.01 class

0.0001 sayst

0.0001 pleaseth

0.0001 yon

0.0005 maiden

0.01 woman

Modelo M1 Modelo M2

maidenclass pleaseth yonthe

0.00050.01 0.0001 0.00010.2

0.010.0001 0.02 0.10.2

P(s|M2) > P(s|M1)

0.2 the

0.0001 class

0.03 sayst

0.02 pleaseth

0.1 yon

0.01 maiden

0.0001 woman

Modelos de linguagem estocásticos

Um modelo estatístico para geração de texto Distribuição da probabilidade sobre strings em

uma dada linguagem

MP ( | M ) = P ( | M )

P ( | M, )

P ( | M, )

P ( | M, )

Unigram e modelos de alta-ordem

Modelos de Linguagem Unigram

Modelos de Linguagem Bigram (geralmente, n-gram)

Outros Modelos de Linguagem Modelos baseados em gramáticas (PCFGs), etc.

Provavelmente não é a primeira coisa a se tentar em RI

= P ( ) P ( | ) P ( | ) P ( | )

P ( ) P ( ) P ( ) P ( )

P ( )

P ( ) P ( | ) P ( | ) P ( | )

Fácil.Efetivo!

Usando Modelos de Linguagem em RI

Trata cada documento como a base para o modelo (ex.: estatísticas suficientes para Unigram)

Ordena os documentos basedo em P(d | q) P(d | q) = P(q | d) x P(d) / P(q)

P(q) é o mesmo para todos os documentos, ignore P(d) [o anterior] é frequentemente tratado como o

mesmo para todo d Mas poderíamos usar critérios como autoria, tamanho,

genero P(q | d) é a probabilidade de q dado um modelo de d’s

Abordagem formal muito geral

Problema fundamental de LMs

Normalmente não conhecemos o modelo M Mas temos um exemplar de texto representativo para

esse modelo

Estimar um modelo de linguagem do exemplar Então calcule a probabilidade observada

P ( | M ( ) )

M

Modelos de Lingaguem para RI

Abordagens de Modelagem de Linguagem Tenta modelar o processo de geração da

consulta Documentos são ordenados pela probabilidade

de que uma consulta possa ser vista como um exemplar aleatório do respectivo modelo de documento

Abordagem Multinomial

Recuperação baseada em LM probabilístico

Trata a geração de consultas como um processo aleatório.

Abordagem Inferir uma modelo de linguagem para cada

documento. Estimar a probabilidade de gerar a consulta de

acordo com cada um desses modelos. Ordenar os documentos de acordo com essas

probabilidades. Usualmente uma estimativa unigram de palavras

é utilizada Algum trabalho com bigramas, em pararelo a van

Rijsbergen

Recuperação baseada em LM probabilístico

Intuição Usuários …

Têm uma ideia razoável de termos que provavelmente ocorrem em documentos de interesse.

Escolherão termos da consulta que distingue esses documentos de outros na coleção.

Estatísticas da coleção … Partes do modelo de linguagem. Não são utilizadas heuristicamente como em

muitas outras abordagens. Na teoria. Na prática, normalmente há espaço de

manobra para conjuntos de parâmetros empíricos

Probabilidade da geração de consulta (1)

Fórmula de Ordenação

A probabilidade de produzir a consulta dado o modelo de linguagem do

documento d usando MLE (estimativa de probabilidade máxima) é:

Qt d

dt

Qtdmld

dl

tf

MtpMQp

),(

)|(ˆ)|(ˆ

Suposição Unigram :Dado um modelo de linguagem específico, os termos da consulta ocorrem independentemente

),( dttf

ddl

: modelo de linguagem do documento d

: tf puro do termo t no documento d

: número total de tokens no documento d

dM

)|()(

)|()(),(

dMQpdp

dQpdpdQp

Dados insuficientes

Probabilidade zero Pode não querer atribuir probabilidade zero a um

documento que não contenha um ou mais termos da consulta [oferece conjunção semântica]

Abordagem geral Um termo que não ocorre é possível, mas não

mais do que o esperado ao acaso na coleção.

If ,

0)|( dMtp

0),( dttf

cs

cs

cfMtp t

d )|(

tcf : contagem pura do termo t na coleção

: tamanho(número total de tokens na coleção) puro da coleção

Dados insuficientes

Catástrofe da probabilidade zero Precisamos suavizar as probabilidades

Descontar probabilidades não-zero Dar alguma probabilidade a coisas não vistas

Há um grande espaço para abordagens de suavização de distribuição de probabilidades para lidar com esse problema, como adicionar 1, ½ ou às contagens, anteriores Dirichlet, desconto, e interpolação [Veja FSNLP cap. 6 ou CS224N para saber mais]

Uma ideia simples que funciona bem na prática é usar um misto entre a multinomial do documento e a distribuição multinomial da coleção

Modelo misto

P(w|d) = Pmle(w|Md) + (1 – )Pmle(w|Mc) Mescla a probabilidade do documento com a

frequência geral da palavra na coleção. Fixar corretamente é muito importante Um valor alto de lambda torna a busca

conjuntiva – adequada para consultas pequenas Um valor baixo é mais adequado a consultas

longas Pode-se ajustar para otimizar o desempenho

Talvez fazê-lo dependente do tamanho do documento (cf. anterior de Dirichlet ou suavização Witten-Bell)

Resumo do modelo misto básico

Formulação geral do LM para RI

O usuário tem um documento em mente, e gera um consulta a partir deste documento.

A equação representa a probabilidade de que o documento que o usuário tem em mente seja de fato este.

Qt

dMtptpdpdQp ))|()()1(()(),(

modelo geral de linguagem

modelo individual do documento

Exemplo

Coleção de documentos (2 documentos) d1: Xerox divulga lucro mais faturamento está em

queda d2: Lucent diminui perda no trimestre mas

faturamento diminui mais Modelo: unigram MLE dos documentos; = ½ Consulta: faturamento queda

P(Q|d1) = [(1/8 + 2/16)/2] x [(1/8 + 1/16)/2] = 1/8 x 3/32 = 3/256 P(Q|d2) = [(1/8 + 2/16)/2] x [(0 + 1/16)/2] = 1/8 x 1/32 = 1/256

Ordem: d1 > d2

Experimentos de Ponte e Croft

Dados TREC, tópicos 202-250 nos discos 2 e 3 do TREC

Consulta em linguagem natural consistindo de uma sentença cada

TREC, tópicos 51-100 no disco 3 do TREC usando campos conceito

Lista de bons termos<num>Number: 054

<dom>Domain: International Economics

<title>Topic: Satellite Launch Contracts

<desc>Description:

… </desc>

<con>Concept(s):

1. Contract, agreement

2. Launch vehicle, rocket, payload, satellite

3. Launch services, … </con>

<num>Number: 054

<dom>Domain: International Economics

<title>Topic: Satellite Launch Contracts

<desc>Description:

… </desc>

<con>Concept(s):

1. Contract, agreement

2. Launch vehicle, rocket, payload, satellite

3. Launch services, … </con>

Precisão/recall resultados 202-250

Precisão/recall resultados 51-100

Principal diferença é se “Relevancia” figura explicitamente no modelo ou não Abordagem LM tenta acabar com modelo de

relevância Abordagem LM presume que documentos e

expressões de problemas de informação são do mesmo tipo

Tratável computacionalmente, intuitivamente atraente

LM vs. Modelo Prob. para IR

Problemas da abordagem LM básica Suposição de equivalencia entre documento e

informação e representação do problema de informação não é realista

Modelos de linguagem muito simples É difícil integrar Feedback de relevância, assim

como preferências do usuário, e outros assuntos de interesse geral

Não incorpora facilmente frases, passagens e operadores booleanos

Extensões atuais enfocam trazer de volta a relevância no modelo, etc.

LM vs. Modelo Prob. para IR

Extensão: modelo de 3 níveis

Modelo de 3 níveis1. Modelo completo da coleção ( )2. Modelo de tópico específico; modelo de documentos

relevantes ( )3. Modelo de documento individual ( )

Hipótese de Relevância Uma requisição(consulta; tópico) é gerada de um modelo

de tópico específico { , }. Se, e somente se, um documento é relevante para o tópico,

o mesmo modelo se aplica ao documento. Substituirá parte do modelo de documento individual na

explicação do documento. A probabilidade de relevância de um documento

A probabilidade que esse modelo explique parte do documento

A probabilidade de que a combinação { , , } seja melhor que a combinação { , }

CM

dMTM

CM TM

CM TM dMCM dM

Modelo de 3 níveis

consulta

d1

d2

dn

Necessidade de Informação

coleção de documentos

geraçãogeração

),,|( dTC MMMQP

1dM

2dM

ndM

CM

1TM

2TM

mTM

…),|( TC MMQP

Modelos Alternativos de Geração de Texto

Modelo deconsulta

Consulta

Modelo dedocumento

Documento

Buscardor

Escritor

)|( BuscadorMP

)|( EscritorMP

)|( MConsultaP

)|( MDocP

É o mesmo modelo?

Recuperação usando Modelos de Linguagem

Modelo deConsultaConsulta

Modelo deDocumentoDoc

)|( ConsultawP

)|( DocwP

Recuperação: Probabilidade da Consulta (1), Probabilidade do Documento (2),Comparação do Modelo (3)

1

2

3

Probabilidade da Consulta

P(Q|Dm) O maior problema é estimar o modelo do

documento i.e. técnicas de suavização ao invés de pesos tf.idf

Bons resultados de recuperação ex.: UMass, BBN, Twente, CMU

Problemas ao lidar com feedback de relevância, expansão de consulta e consultas estruturadas

Probabilidade do Documento

Ordena pela razão das probabilidades P(D|R)/P(D|NR) Trata como problema de geração P(w|R) é estimado de P(w|Qm) Qm é a consulta ou modelo de relevância P(w|NR) é estimado pelas probabilidades da coleção P(w)

Problema é a estimativa do modelo de consulta Trata a consulta como gerada por um misto de tópico e

conhecimento prévio Estimar modelo de relevância dos documentos relacionados

(expansão da consulta) Feedback de relevância é facilmente incorporado

Bons resultados de recuperação ex.: UMass no SIGIR 01 Inconsistente com coleções de documentos heterogêneos

Comparação dos Modelos

Estimar os modelos da consulta e do documento e comparar Medida adequada é divergência KL D(Qm||Dm)

equivalente à abordagem de probabilidade da consulta se distribuição empírica simples for utilizada como modelo de consulta

Framework mais geral de minimização de riscos foi proposto Zhai e Lafferty 2001

Resultados melhores que as abordagens de probabilidade da consulta ou probabilidade do documento

Xx m

mmmm xD

xQxQDQD

)(

)(log)()||(

Suavização em dois estágios:Outro motivo para suavização

Consulta = “the algorithms for data mining”

d1: 0.04 0.001 0.02 0.002 0.003 d2: 0.02 0.001 0.01 0.003 0.004

p( “algorithms”|d1) = p(“algorithm”|d2)p( “data”|d1) < p(“data”|d2)

p( “mining”|d1) < p(“mining”|d2)

Mas p(q|d1)>p(q|d2)!

Devemos tornar p(“the”) e p(“for”) menos diferentes para todosos documentos.

Suavização em dois estágios

c(w,d)

|d|P(w|d) =

+p(w|C)

+

1º estágio

-Explica palavras não vistas-Anterior Dirichlet (Bayesian)

(1-) + p(w|U)

2º estágio

-Explica ruído na consulta-Misto de dois componentes

Como utilizar feedback de relevância utilizando abordagem de modelo de linguagem?

Introduz um modelo de consulta & trata feedback como atualização do modelo de consulta Função de recuperação:

Probabilidade da consulta => Divergência KL Feedback:

Baseado em expansão => Baseado no Modelo

Basedo em Expansão vs. Modelo

D)|( DQP

Documento DResultados

Docs Feedback

Modelo Doc

Q

D

)||( DQD

Modelo Doc

Pontuação

Pontuação

Consulta Q

Documento D

Consulta Q

Docs Feedback

Resultados

Feedback Baseadoem Expansão

modifica

modifica

Feedbackbaseado em Modelo

Modelo deConsulta

Probabilidade daConsulta

Divergência KL

Feedback como Interpolação de Modelo

Consulta Q

D

)||( DQD

Documento D

Resultados

Docs FeedbackF={d1, d2 , …, dn}

FQQ )1('

Modelo gerativo

Q

F=0

Sem feedback

FQ '

=1

Feedback completo

QQ '

Modelo de Tradução (Berger e Lafferty)

LMs básicos não resolvem o problema de sinônimos. Ou qualquer desvio na expressão da necessidade de

informação da linguagem dos documentos Um modelo de tradução permite que você gere

palavras de consulta que não estão no documento via “tradução” para sinônimos etc.

Ou para RI em linguagem cruzada, ou RI multimídia

LM Básico Tradução É preciso aprender um modelo de tradução (usando

dicionário ou via tradução estatística de máquina)

)|()|()|( vqTMvPMqP ii Lexiconv

Modelos de linguagem: pro & con

Nova forma de olhar o problema de recuperação de texto com base em modelos probabilíticos de linguagem

Conceitualmente simples e explicativo Modelo matemático formal Uso natural de estatísticas de coleção, não heurística

(quase…) LMs provêem recuperação efetiva e podem ser

melhorados desde que as seguintes condições sejam satisfeitas

Nossos modelos de linguagem são precisas representações dos dados.

Usuários têm alguma noção sobre a distribuição dos termos.*

*Ou nos sofisticamos com modelo de tradução

Comparação com o Espaço Vetorial

Há alguma relação aos modelos tradicionais tf.idf: frequência do termo (sem escala) está

diretamente no modelo as probabilidades fazem a normalização do

comprimento da frequência do termo o efeito de mesclar com uma coleção global de

frequências é similar ao idf: termos raros em uma coleção geral mas comuns em alguns documentos terão maior influência na ordenação

Comparação com Espaço Vetorial

Similar em algum sentido Peso de termo baseado na frequência Termos usados frequentemente como independentes Utilizada frequência inversa documento/coleção Alguma forma de normalização útil do comprimento

Diferente em outros Baseado na probabilidade ao invés da similaridade

Intuições são probabilísticas ao invés de geométricas Detalhes da utilização do comprimento do documento

e frequência de termo, documento, e coleção diferem

Resources

J.M. Ponte and W.B. Croft. 1998. A language modelling approach to information retrieval. In SIGIR 21.

D. Hiemstra. 1998. A linguistically motivated probabilistic model of information retrieval. ECDL 2, pp. 569–584.

A. Berger and J. Lafferty. 1999. Information retrieval as statistical translation. SIGIR 22, pp. 222–229.

D.R.H. Miller, T. Leek, and R.M. Schwartz. 1999. A hidden Markov model information retrieval system. SIGIR 22, pp. 214–221.

[Several relevant newer papers at SIGIR 23–25, 2000–2002.]

Workshop on Language Modeling and Information Retrieval, CMU 2001. http://la.lti.cs.cmu.edu/callan/Workshops/lmir01/ .

The Lemur Toolkit for Language Modeling and Information Retrieval. http://www-2.cs.cmu.edu/~lemur/ . CMU/Umass LM and IR system in C(++), currently actively developed.