CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros.
Transcript of CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros.
CIn-UFPE 1
Recuperação de Informação
Preparação do documentos
Flávia Barros
CIn-UFPE
2
Roteiro
Sistemas de Recuperação de Informação
Preparação do documentos Operações sobre o texto Criação da representação do documento
CIn-UFPE
3
Relembrando…Sistemas de Recuperação de Informação
Um sistema automático para RI pode ser visto como a parte do sistema de informação responsável
pelo armazenamento ordenado dos documentos em um BD,
e sua posterior recuperação para responder a consulta do usuário
Etapas principais: Preparação dos documentos Indexação dos documentos Busca (casamento com a consulta do usuário) Ordenação dos documentos recuperados
Sistemas de RI: Criação da base de índices
Base de docs. ou
Web
Gerenciador do BDIndexação
Preparação dos documentos
Base deindices
Representação do documento
(visão lógica)
Arquivo de índices invertido
Documentos
Sistemas de RI: arquitetura básica
Busca e recuperação
Ordenação
Preparação da consulta
Interface do usuário
Base deindices
Indices-docsrecuperados
consulta
Indices-docsordenados
Necessidade do usuário
CIn-UFPE
6
Preparação dos documentos Definições
Visão lógica do documento Conjunto de termos usados para representar
(indexar) o documento
A seleção desses termos pode ser Manual
Realizado por um especialista Ex., um bibliotecário (em sistemas de bibliotecas)
Automática Os termos são automaticamente extraídos do
texto do documento Ex., a maioria dos sistemas automáticos de RI
Vamos tratar aqui apenas documentos textuais
CIn-UFPE
7
Preparação dos documentos Seleção automática de termos
Texto completo Visão lógica mais completa do documento Porém tem alto custo computacional Adotada pelos engenhos de busca na Web
Redução do conjunto de termos que ocorrem no documento O objetivo é selecionar os termos que melhor
descrevem o seu conteúdo Reduzindo a complexidade da representação do
documento Representar o documento como um Centróide
Lista de termos com pesos associados ou não Problema: perda da semântica
CIn-UFPE
8Preparação dos documentos Duas Fases
Operações sobre o texto objetivo: criar a visão lógica do documento
Criação da representação do documento Utilizando algum modelo de RI
“Se o desonesto soubesse a vantagem de ser honesto, ele seria honesto ao menos por desonestidade.”
Sócrates
Doc original
desonesto / soubesse /vantagem / honesto /seria / honesto /menos/desonestidade/socrates
honesto 2desonesto 1soubesse 1vantagem 1seria 1menos 1desonestidade 1socrates 1
Operações de TextoRepresentação
Doc : www.filosofia.com Doc : www.filosofia.comDoc : www.filosofia.com
CIn-UFPE
9
Preparação dos documentos Operações sobre o texto
Lista de termos do documento pode ser reduzida através do uso de operadores de texto Análise léxica
Elimina dígitos, pontuação, etc Eliminação de stopwords
Artigos, pronomes, etc Operação de stemming
Redução da palavra ao seu radical Identificação de grupos nominais
Ex., Recuperação de Informação
CIn-UFPE
10Preparação dos documentos Operações sobre o texto
Cada fase de operação de texto pode utilizar diferentes técnicas na sua implementação
Cada sistema de RI implementa uma ou mais dessas fases A escolha depende do tipo de sistema
desejado
CIn-UFPE
11Preparação dos documentos Operações sobre o texto
documento
Acentos, espaços,.
..
stopwords
Grupos nominai
s
stemming
Indexação manual
ou automátic
a
Texto completo
Termosreduzidos
• Operadores reduzem progressivamente a visão lógica do documento
CIn-UFPE
12Operações sobre o textoAnálise léxica
Entrada O texto original
uma cadeia de caracteres
Objetivo Converter o texto original em uma lista de
palavras Identificando as palavras que ocorrem no texto
Procedimento padrão Utilizar espaços como sendo separadores de
palavras Tratar pontuação, hífens, dígitos, e letras
maiúsculas e minúsculas Cada caso pode requerer tratamentos diferenciados
CIn-UFPE
13Operações sobre o textoAnálise léxica
Eliminação de pontuação e hífens . , ! ? : ; - Geralmente, todos os caracteres de pontuação
são removidos
Porém, há casos onde eles são mantidos, por serem necessários Código de programa dentro do texto
Variável “x.id” xid URLs de Sites na Web Caso do hífen
Palavras compostas e prefixos Guarda-chuva, pré-processamento
Alguns termos state-of-the-art
CIn-UFPE
14Operações sobre o textoAnálise léxica
Eliminação de dígitos Geralmente, dígitos são removidos por
serem vagos Não terem uma semântica associada
quando aparecem isolados Ex. 1910 (ano, peso, tamanho???)
Contudo, dígitos associados a alguns termos/caracteres especiais podem ser importantes 510dC
dC não significa nada em isolamento Windows95, X3PO,...
CIn-UFPE
15Operações sobre o textoAnálise léxica
Substituição de letras maiúsculas Objetivo principal
Tornar a representação homogênea Facilitar a recuperação do documento a
partir de consultas
Exceções Carneiro
Animal ou nome próprio? Banco – instituição financeira banco - assento
CIn-UFPE
16
Operações sobre o textoAnálise léxica
Como visto, existem diversas exceções a tratar Isso depende da aplicação, do domínio do
sistema, etc...
Sugestão Preparar lista de exceções e tratar caso a
caso
Engenhos de busca Geralmente, não eliminam nada
Funcionam em todos os domínios... Indexam o texto completo com sua
pontuação, dígitos, etc...
CIn-UFPE
17
Operações sobre o textoEliminação de stopwords
Algumas palavras não são bons discriminadores Palavras muito freqüentas na base de
documentos Palavras sem semântica associada
artigos, preposições, conjunções, alguns advérbios e adjetivos
Aqui também há exceções a considerar Em domínios específicos, podemos
precisar manter algumas dessas palavras Redes de computadores
CIn-UFPE
18
Operações sobre o textoEliminação de stopwords
Vantagens Diminuir a representação do texto Melhorar a ordenação na recuperação
Tf-idf
Desvantagens Diminuição da cobertura na recuperação Ex., “ser ou não ser”
Somente o termo “ser” será usado na indexação documento
Mais uma razão para os engenhos de busca utilizarem representação do texto completo
CIn-UFPE
19Operações sobre o texto Stemming
Problema Freqüentemente, o usuário especifica uma
palavra na consulta, mas apenas uma variação dessa palavra aparece nos documentos relevantes
Ex., plural, gerúndio, verbos flexionados, aumentativo...
Objetivo dessa operação: Substituir a palavra por seu radical (stem)
Porção da palavra que resta após a remoção de prefixos e sufixos
Possibilitar casamento entre variações de uma mesma palavra Ex.: engenheiro, engenharia,...
CIn-UFPE
20Operações sobre o texto Técnicas de stemming
Técnicas de stemming Table look-up
Mantém uma tabela de radicais de palavras Procedimento simples, porém necessita de
dados sobre os todos os radicais da língua Successor variety
Considera os morfemas da língua menin+o+s
Procedimento complexo e muito dependente da língua
CIn-UFPE
21Operações sobre o texto Técnicas de stemming
Remoção de afixos (prefixos e sufixos)
Algoritmo de Porter: Considera que a remoção de sufixos é mais
importante que a de prefixos A maioria das variações de palavras é gerada por
sufixos Usa uma regra de redução para cada sufixo
O livro texto traz o algoritmo completo para a língua inglesa
Procura pela maior seqüência de letras que casa com alguma regra Plural: “sses ss”, “ies i” , “ss ss”, “s
”
CIn-UFPE
22
Operações sobre o texto Técnicas de stemming
engineer engineer engineer
engineering engineered engineer
Termo Stem
Algoritmo de Porter: Outras regras de redução
ed -> 0 ing -> 0
CIn-UFPE
23
Operações sobre o texto Técnicas de stemming
Para o português, o problema é mais complexo Plural
existe um número muito maior de formas de fazer plural em português
Para substantivos, artigos e alguns adjetivos temos que ter regras para tratar
aumentativo, diminutivo, feminino, masculino,...
Número de regras para flexões verbais também aumenta consideravelmente
CIn-UFPE
24
Operações sobre o texto Stemming
Snowball Uma linguagem para processamento de
strings especifica para criar algoritmos de stemming para RI
http://snowball.tartarus.org/
Veja algoritmo disponível para Português em http://snowball.tartarus.org/portuguese/st
emmer.html O site também traz exemplo de stoplist
para Português
CIn-UFPE
25Stemming
Exemplo do Snowball para Português
word
stem
quiloquilométricasquilométricosquilômetroquilômetrosquilosquímicaquímicasquímicoquímicosquimioterapiaquimioterápicos
=>
quil quilométrquilométrquilômetrquilômetrquilquímicquímicquímicquímicquimioterapquimioteráp
CIn-UFPE
26
Operações sobre o textoThesaurus
Dicionário de sinônimos de uma língua Eg., WordNet
Thesaurus podem ser também definidos para domínios específicos
Entradas contêm palavras isoladas ou termos compostos
Para cada entrada, o thesaurus pode trazer Sinônimos, antônimos, kind-of, part-of,... Classe gramatical E as vezes, uma definição do termo
CIn-UFPE
27
Operações sobre o textoThesaurus
Uso de thesaurus em sistemas de RI Auxiliar na seleção de termos relevantes
para indexar o documento Auxiliar no processamento da consulta
Expansão de termos
Objetivo principal de usar thesaurus de um domínio específico em sistemas de RI Restringir o sistema a um vocabulário
controlado para indexação e busca de documentos
CIn-UFPE
28
Operações sobre o textoThesaurus
Para sistemas na Web em inglês, usa-se o WordNet com freqüência http://www.cogsci.princeton.edu/~wn/
CIn-UFPE
29Operações sobre o texto Identificação de Grupos
Nominais
Objetivo Identificar grupos nominais (termos compostos) para
indexar o documento Ex., Recuperação de Informação, Inteligência Artificial
Procedimentos Selecionar substantivos do texto, eliminando
sistematicamente palavras de outras classes gramaticais Usando uma stoplist ou usando um etiquetador automático (parts-of- speech
tagger) para determinar a classe das palavras e/ou usando um thesaurus da língua ou do domínio
Agrupar substantivos para formar termos compostos
CIn-UFPE
30Operações sobre o texto Identificação de Grupos
Nominais
Como agrupar substantivos para formar termos compostos Considerando os grupos nominais identificados
pelo tagger Considerando a distância entre os termos no
texto Número de palavras entre os dois substantivos
Ex., Recuperação de Informação Apenas uma palavra (de)
Extraindo esses termos de um thesaurus do domínio Pode conter um vocabulário controlado de termos
em vez de palavras isoladas
CIn-UFPE
31Preparação dos documentos Criação da representação do
Documento
Entrada Visão lógica do documento Lista de termos representativos do
documento
Saída Representação final do documento
Termos representativos da base + peso associados a cada termo
Dependente do modelo de RI escolhido Booleano, vetorial, probabilista...