Download - GSI024 Organização e Recuperação da Informação Introduçãoilmerio/ori/ori_s1a_introducao.pdf · Página:0.15 Conceitos em RI • Documento: um registro de dados armazenados

GSI024

Organização e Recuperação da Informação

IntroduçãoIlmério Reis da [email protected]/~ilmerio/oriUFU/FACOM - 2011/1Arquivo 1a – Introdução

mailto:[email protected]

Página:0.2

Porque RI? Problemas da solução clássica BD• Recuperação de dados

– Baseada em dados estruturados– Linguagem de consulta bem definida– Respostas precisas

Premissas– Usuário conhece a estrutura do BD– Usuário conhece a linguagem de consulta

Problemas– Consultas restritivas => respostas pequenas ou vazias – Consultas genéricas => respostas muito grandes– Não trata com dados não estruturados

Página:0.3

O Desafio

“Gerenciar terabytes de dados é fácil, o desafio é maximizar sua utilidade para o maior conjunto de usuários possível”

David Lindley, CACM 10/2009

Página:0.4

Abordagem de RI• Recuperação de informação

– Dados não estruturados ou semi-estruturados• Textos• Imagens• Vídeos, etc.

– Busca por similaridade

Página:0.5

Definição de RI

Def. Recuperação de informação

é a subárea da computação que estuda a representação, o armazenamento e acesso a itens de dados (documentos) não estruturados (textos, imagens, vídeos, etc) com o objetivo de facilitar a tarefa do usuário de encontrar informação de seu interesse localizadas em grandes coleções.

Página:0.6

Problemas no contexto de RI

• Baixa precisão – grande volume de resultados• Baixa revocação – resultados sem respostas relevantes

• Resultados sensíveis ao vocabulário• Dificuldades quando a informação está espalhada em vários

documentos

Página:0.7

(%) Unstructured (text) vs. structured (database) data in 1996

0

20

40

60

80

100

120

140

160

Data volume Market Cap

UnstructuredStructured

(http://nlp.stanford.edu/IR-book)

Página:0.8

Unstructured (text) vs. structured (database) data in 2006

0

20

40

60

80

100

120

140

160

Data volume Market Cap

UnstructuredStructured

Página:0.9

Unstructured (text) vs. structured (database) data in 2009

Página:0.10

Problemas de RI na Web

“It seems that the amount of Web content outpaces technological progress.”

G. Antoniou and F. van Harmelen, A Semantic Web Primer, 2008

Página:0.11

Um desafio em RIComo usar a Web para

encontrar páginas sobre times de basquete que disputaram a liga nacional em 2006 e que são mantidos por universidades ou centros universitários.

Página:0.12

Perspectiva Histórica 4000 anos de tentativas de organizar a informação

(Sumerian Literacy Catalogue, 2000 B.C.)• Século XVIII surge o conceito de índice• Década de 60, RI como subárea da computação• Nos últimos anos vários limites são quebrados,

como: eficiência das estruturas de dados algoritmos para consultas complexas métodos de compressão modelos adaptados

• Novos contextos e nova terminologia(filtering/routing/pulling)

Página:0.13

Gerações de Sistemas de RI

• automação de fichários• busca por palavras-chave• interfaces gráficas, bibliotecas digitais e hipertexto• Web com browsing e recuperação• Recuperação de imagens por conteúdo

Página:0.14

RI na WebCaracterização • coleta e indexação • estrutura de links• baixo custo de obter informação (alta

disponibilidade)• grande audiência • liberdade de publicação• novos problemas

difícil encontrar informação dinâmica, dificultando a indexação usuário quer rapidez excesso de informação irrelevante

Página:0.15

Conceitos em RI• Documento: um registro de dados armazenados que,

em geral, possui um tema e inclui uma parte textual• Precisão: a falta de estrutura formal conduz a uma

imprecisão inerente à tarefa de recuperar informação• Relevância: indica a importância de um documento

para uma consulta de acordo com uma métrica de similaridade definida pelo modelo

• Recuperação e browsing: usuário busca (pulling)• Filtragem: sistema envia para usuário(pushing)• Representação de documentos: estrutura; conjunto de

palavras; parte textual completa; stopwords, stemming;

Página:0.16

Subsistemas de um SRI

Documentos

Palavras-chave

Necessidade de informação

Consulta

Processamento da consulta (Ranking)

Documentos recuperados

Indexação(perda)

(Visualização)

Conjunto-resposta ordenado por um grau de relevância do documento em relação à consulta (incerteza)

Formulação da consulta

(perda)

Página:0.17

Modelagem do problema de formulação da consulta

Formulação da consulta Palavras chaves Booleanas Frases Imagem exemplo

um problema : perda de informação

Página:0.18

Modelagem do problema de representação dos documentos

Representação dos documentos Vetor de palavras chaves Indicação de contexto das palavras

• Frases• Documentos semi-estruturados

Vetor de características de imagens

um problema : perda de informação

Página:0.19

Modelagem Computacional do casamento consulta-documento

Funções de similaridade Operações entre vetores

Distância euclidiana Cosseno etc.

Funções probabilísticas (redes bayesianas) Algoritmos Genéticos Redes Neurais Conjuntos Difusos (Fuzzy) etc.

O problema : não há padrão

Página:0.20

Um exemplo

Página:0.21

Representação de documentos e consultas

Vetor de termos

Obs: matriz esparsa

Página:0.22

Similaridade

Cosseno entre vetores

Abordagem probabilística padrão BM25

Página:0.23

Processamento da Consulta

Duas abordagens para cálculo do cosseno

• Baseada em documentos: percorre vetor de termos

• Baseada em termos: percorre lista invertida

Página:0.24

Processamento da Consulta

Arquivo invertido

A onda

a onda andaaonde andaa onda?a onda aindaainda ondaainda andaaonde?aonde?a onda a onda

Manuel Bandeira

Página:0.25

Recuperação de Imagem Baseada em Conteúdo

• Extração de características Cor Textura Forma

• Vetor de características • Funções de similaridade

Distância euclidiana Cosseno Etc.

• Uso de Arquivo Invertido?

Página:0.26

Considerações Finais

• Crescimento do volume dados não estruturados: textos, imagens, vídeos, etc. ==> Relevância do Problema de RI

• Problemas importantes: abismo semântico entre conceitos de alto nível e

representação dos documentos por meio de características de baixo nível, por exemplo, em imagens

Indexação de contextos em documentos e consultas, ou perfis de usuários

Inserção de semântica nos documentos por meio de anotações (tags) para aumento da precisão

Página:0.27

Considerações Finais

• Tendências: Descoberta de conhecimentos no Twitter e em Redes

Sociais Segundo Bernees-Lee as redes sociais são “uma armadilha

para a WEB” => repositórios próprios não compartilhados com outros websites

Learning to Ranking

Página:0.28

Exercício de aquecimento[ISR, pg 47]:

Escreva um programa (em qualquer linguagem) que calcule o número de ocorrências de cada palavra de um texto (ou de um conjunto de textos). Apresente a lista de palavras em ordem decrescente de ocorrências. Considere o tratamento de algumas “anomalias” no arquivo, por exemplo, pontuação, hífen, letras maiúsculas/minúsculas, etc.

Página:0.29

Referências

• [IIR, Cap 1]: Slides-Introdução• [MIR, Cap 1]• [ISR, pg 47]

###