GSI024
Organização e Recuperação da Informação
IntroduçãoIlmério Reis da [email protected]/~ilmerio/oriUFU/FACOM - 2011/1Arquivo 1a – Introdução
Página:0.2
Porque RI? Problemas da solução clássica BD• Recuperação de dados
– Baseada em dados estruturados– Linguagem de consulta bem definida– Respostas precisas
Premissas– Usuário conhece a estrutura do BD– Usuário conhece a linguagem de consulta
Problemas– Consultas restritivas => respostas pequenas ou vazias – Consultas genéricas => respostas muito grandes– Não trata com dados não estruturados
Página:0.3
O Desafio
“Gerenciar terabytes de dados é fácil, o desafio é maximizar sua utilidade para o maior conjunto de usuários possível”
David Lindley, CACM 10/2009
Página:0.4
Abordagem de RI• Recuperação de informação
– Dados não estruturados ou semi-estruturados• Textos• Imagens• Vídeos, etc.
– Busca por similaridade
Página:0.5
Definição de RI
Def. Recuperação de informação
é a subárea da computação que estuda a representação, o armazenamento e acesso a itens de dados (documentos) não estruturados (textos, imagens, vídeos, etc) com o objetivo de facilitar a tarefa do usuário de encontrar informação de seu interesse localizadas em grandes coleções.
Página:0.6
Problemas no contexto de RI
• Baixa precisão – grande volume de resultados• Baixa revocação – resultados sem respostas relevantes
• Resultados sensíveis ao vocabulário• Dificuldades quando a informação está espalhada em vários
documentos
Página:0.7
(%) Unstructured (text) vs. structured (database) data in 1996
0
20
40
60
80
100
120
140
160
Data volume Market Cap
UnstructuredStructured
(http://nlp.stanford.edu/IR-book)
Página:0.8
Unstructured (text) vs. structured (database) data in 2006
0
20
40
60
80
100
120
140
160
Data volume Market Cap
UnstructuredStructured
Página:0.9
Unstructured (text) vs. structured (database) data in 2009
Página:0.10
Problemas de RI na Web
“It seems that the amount of Web content outpaces technological progress.”
G. Antoniou and F. van Harmelen, A Semantic Web Primer, 2008
Página:0.11
Um desafio em RIComo usar a Web para
encontrar páginas sobre times de basquete que disputaram a liga nacional em 2006 e que são mantidos por universidades ou centros universitários.
Página:0.12
Perspectiva Histórica 4000 anos de tentativas de organizar a informação
(Sumerian Literacy Catalogue, 2000 B.C.)• Século XVIII surge o conceito de índice• Década de 60, RI como subárea da computação• Nos últimos anos vários limites são quebrados,
como: eficiência das estruturas de dados algoritmos para consultas complexas métodos de compressão modelos adaptados
• Novos contextos e nova terminologia(filtering/routing/pulling)
Página:0.13
Gerações de Sistemas de RI
• automação de fichários• busca por palavras-chave• interfaces gráficas, bibliotecas digitais e hipertexto• Web com browsing e recuperação• Recuperação de imagens por conteúdo
Página:0.14
RI na WebCaracterização • coleta e indexação • estrutura de links• baixo custo de obter informação (alta
disponibilidade)• grande audiência • liberdade de publicação• novos problemas
difícil encontrar informação dinâmica, dificultando a indexação usuário quer rapidez excesso de informação irrelevante
Página:0.15
Conceitos em RI• Documento: um registro de dados armazenados que,
em geral, possui um tema e inclui uma parte textual• Precisão: a falta de estrutura formal conduz a uma
imprecisão inerente à tarefa de recuperar informação• Relevância: indica a importância de um documento
para uma consulta de acordo com uma métrica de similaridade definida pelo modelo
• Recuperação e browsing: usuário busca (pulling)• Filtragem: sistema envia para usuário(pushing)• Representação de documentos: estrutura; conjunto de
palavras; parte textual completa; stopwords, stemming;
Página:0.16
Subsistemas de um SRI
Documentos
Palavras-chave
Necessidade de informação
Consulta
Processamento da consulta (Ranking)
Documentos recuperados
Indexação(perda)
(Visualização)
Conjunto-resposta ordenado por um grau de relevância do documento em relação à consulta (incerteza)
Formulação da consulta
(perda)
Página:0.17
Modelagem do problema de formulação da consulta
Formulação da consulta Palavras chaves Booleanas Frases Imagem exemplo
um problema : perda de informação
Página:0.18
Modelagem do problema de representação dos documentos
Representação dos documentos Vetor de palavras chaves Indicação de contexto das palavras
• Frases• Documentos semi-estruturados
Vetor de características de imagens
um problema : perda de informação
Página:0.19
Modelagem Computacional do casamento consulta-documento
Funções de similaridade Operações entre vetores
Distância euclidiana Cosseno etc.
Funções probabilísticas (redes bayesianas) Algoritmos Genéticos Redes Neurais Conjuntos Difusos (Fuzzy) etc.
O problema : não há padrão
Página:0.20
Um exemplo
Página:0.21
Representação de documentos e consultas
Vetor de termos
Obs: matriz esparsa
Página:0.22
Similaridade
Cosseno entre vetores
Abordagem probabilística padrão BM25
Página:0.23
Processamento da Consulta
Duas abordagens para cálculo do cosseno
• Baseada em documentos: percorre vetor de termos
• Baseada em termos: percorre lista invertida
Página:0.24
Processamento da Consulta
Arquivo invertido
A onda
a onda andaaonde andaa onda?a onda aindaainda ondaainda andaaonde?aonde?a onda a onda
Manuel Bandeira
Página:0.25
Recuperação de Imagem Baseada em Conteúdo
• Extração de características Cor Textura Forma
• Vetor de características • Funções de similaridade
Distância euclidiana Cosseno Etc.
• Uso de Arquivo Invertido?
Página:0.26
Considerações Finais
• Crescimento do volume dados não estruturados: textos, imagens, vídeos, etc. ==> Relevância do Problema de RI
• Problemas importantes: abismo semântico entre conceitos de alto nível e
representação dos documentos por meio de características de baixo nível, por exemplo, em imagens
Indexação de contextos em documentos e consultas, ou perfis de usuários
Inserção de semântica nos documentos por meio de anotações (tags) para aumento da precisão
Página:0.27
Considerações Finais
• Tendências: Descoberta de conhecimentos no Twitter e em Redes
Sociais Segundo Bernees-Lee as redes sociais são “uma armadilha
para a WEB” => repositórios próprios não compartilhados com outros websites
Learning to Ranking
Página:0.28
Exercício de aquecimento[ISR, pg 47]:
Escreva um programa (em qualquer linguagem) que calcule o número de ocorrências de cada palavra de um texto (ou de um conjunto de textos). Apresente a lista de palavras em ordem decrescente de ocorrências. Considere o tratamento de algumas “anomalias” no arquivo, por exemplo, pontuação, hífen, letras maiúsculas/minúsculas, etc.
Página:0.29
Referências
• [IIR, Cap 1]: Slides-Introdução• [MIR, Cap 1]• [ISR, pg 47]
###