Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de...
Transcript of Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de...
![Page 1: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no](https://reader033.fdocumentos.tips/reader033/viewer/2022060912/60a6d8cca4e37d50207eb788/html5/thumbnails/1.jpg)
1
Revisão
Meio ambiente da Recuperação de Informação
� Linguagem
� Analógico x Digital
![Page 2: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no](https://reader033.fdocumentos.tips/reader033/viewer/2022060912/60a6d8cca4e37d50207eb788/html5/thumbnails/2.jpg)
2
Recuperação de Informação� Recuperação de informação é o nome dado ao processo
ou método pelo qual um potencial usuário de
informação é capaz de converter a sua necessidade
de informação em uma lista real de citações a
documentos em um acervo contendo informações úteis
para ele.
(CALVIN MOOERS, 1951, p.25)
Recuperação de Informação
� Para Saracevic (1999), a Recuperação de Informação pode ser considerada a vertente tecnológica da Ciência da Informação e é resultado da relação desta com a Ciência da Computação.
Ciência da Informação
Ciência da Computação
Recuperação
de Informação
![Page 3: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no](https://reader033.fdocumentos.tips/reader033/viewer/2022060912/60a6d8cca4e37d50207eb788/html5/thumbnails/3.jpg)
3
Recuperação de Informação
� Para Saracevic (1999), a Recuperação de Informação pode ser considerada a vertente tecnológica da Ciência da Informação e é resultado da relação desta com a Ciência da Computação.
Ciência da Informação
Ciência da Computação
Recuperação
de Informação
Recuperação de Informação
![Page 4: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no](https://reader033.fdocumentos.tips/reader033/viewer/2022060912/60a6d8cca4e37d50207eb788/html5/thumbnails/4.jpg)
4
Documento� Buckland (1991):
◦ o termo informação é utilizado na maioria das vezes vinculado a um objeto que contém informação: um documento. Assim, o termo informação poderia também designar “algo atribuído a um objeto, tal como dado e documento que se referem à informação, porque deles se espera que sejam informativos”.
� Le Coadic (2004, p.5):
◦ documento é o termo genérico que designa os objetos portadores de informação. Um documento é todo artefato que representa ou expressa um objeto, uma ideia ou uma informação por meio de signos gráficos e icônicos (palavras, imagens, diagramas, mapas, figuras, símbolos), sonoros e visuais (gravados em suporte de papel ou eletrônicos).
Documento
� Suzanne Briet (2006, p.10):◦ Uma estrela é um documento? Um seixo rolando
na torrente de um rio é um documento? Um animal vivo [na natureza] é um documento? Não.◦ Mas as fotografias e os catálogos de estrelas, as
pedras em um museu de mineralogia, e os animais que são catalogados e apresentados em um zoológico são documentos.
“qualquer signo físico ou simbólico, preservado ou registrado, com a intenção de representar, reconstruir ou demonstrar um fenômeno físico ou abstrato”
![Page 5: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no](https://reader033.fdocumentos.tips/reader033/viewer/2022060912/60a6d8cca4e37d50207eb788/html5/thumbnails/5.jpg)
5
Representação de Documentos
� Representação Descritiva
◦ Representação descritiva (ou Catalogação) tem como objetivo propor parâmetros e normas para representar/descrever um item informacional geralmente utilizando metadados.
� Representação Temática
◦ Análise de assunto de um documento e a colocação do resultado desta análise numa expressão linguística;
◦ Indexação� Por extração
� O indexador seleciona no texto, palavras que serão utilizados para representar o documento
� Por atribuição� Após a leitura do texto, o indexador escolhe em um vocabulário controlado, os termos
mais adequados para representar o documento
Indexação
� A indexação de um documento visa representar o seu conteúdo temático por meio de um conjunto de termos com o objetivo de sintetizar o seu conteúdo, ressaltando o que lhe é essencial.
![Page 6: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no](https://reader033.fdocumentos.tips/reader033/viewer/2022060912/60a6d8cca4e37d50207eb788/html5/thumbnails/6.jpg)
6
Indexação Automática� As dificuldades inerentes à indexação manual e a grande
quantidade de documentos publicados e disponibilizados, justificaram estudos que buscavam soluções alternativas para auxiliar o indexador no exercício de sua atividade.
� As primeiras pesquisas em indexação automática aconteceram no final dos anos de 1950.
� A popularização da microinformática a partir dos anos de 1980, mas principalmente o surgimento da Web nos anos de 1990 fez com que o nível de interesse nas pesquisas sobre indexação automática permanecesse praticamente constante até os dias de hoje.
Indexação Automática� Vantagens:
◦ baixo custo;
◦ facilidade de aplicação a grandes conjuntos de documentos;
◦ homogeneidade desse processo quando realizados por algoritmos computacionais.
� O resultado da indexação realizada por seres humanos pode variar de um indexador para outro, bem como de um mesmo indexador em momentos diferentes.
� Um sistema computacional irá realizar a indexação de maneira uniforme, utilizando sempre os mesmos critérios para o qual foi programado, independentemente da quantidade de documentos ou de qualquer fator externo
(ANDERSON; PEREZ-CARBALLO, 2001):
![Page 7: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no](https://reader033.fdocumentos.tips/reader033/viewer/2022060912/60a6d8cca4e37d50207eb788/html5/thumbnails/7.jpg)
7
Indexação AutomáticaPROCESSO
1. Identificação das palavras (tokens) do texto;
2. Remoção de palavras muito frequentes que são insuficientemente específicas para representar o conteúdo do documento (stop words);
3. Redução das palavras a uma forma normalizada ou ao seu radical (stemming);
4. Formação de termos compostos como termos de indexação;
5. Atribuição de peso a cada termo de indexação;
Recuperação de Informação
![Page 8: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no](https://reader033.fdocumentos.tips/reader033/viewer/2022060912/60a6d8cca4e37d50207eb788/html5/thumbnails/8.jpg)
8
Usuário
� Modelos Centrados no Usuário◦ Wilson
◦ Kuhlthau
◦ Dervin
◦ Ellis
Usuário� Relevance Feedback
◦ Processo composto de interações sucessivas com o sistema no qual, após submeter sua expressão de busca e obter um primeiro conjunto de documento, o usuário marca ou sinaliza, aqueles documentos que ele considera relevantes.
� O processo de Relevance Feedback pode ser resumido nos seguintes passos:◦ O usuário formula uma consulta (expressão de busca) e submete ao sistema;
◦ O sistema retorna um conjunto inicial de documentos;
◦ O usuário marca como relevante (ou não-relevante) alguns dos documentos recuperados e submete esses documentos juntamente com sua expressão de busca ao novamente ao sistema;
◦ O sistema calcula uma melhor representação da necessidade de informação baseada no feedback do usuário.
◦ O sistema apresenta um novo conjunto de documentos presumivelmente com um aumento da precisão dos resultados.
![Page 9: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no](https://reader033.fdocumentos.tips/reader033/viewer/2022060912/60a6d8cca4e37d50207eb788/html5/thumbnails/9.jpg)
9
Usuário
� Expansão de Consulta◦ Expansão de consulta é o termo utilizado para
referenciar os métodos e processos que visam melhorar a eficiência da recuperação de informação baseados no pressuposto de que as consultas definidas pelos usuários muitas vezes não refletem suas reais necessidades de informação.
◦ O objetivo principal é adicionar novos termos à consulta inicialmente formulada pelo usuário a fim de melhorar os resultados obtidos.
Usuário
Interfaces de Busca
![Page 10: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no](https://reader033.fdocumentos.tips/reader033/viewer/2022060912/60a6d8cca4e37d50207eb788/html5/thumbnails/10.jpg)
10
![Page 11: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no](https://reader033.fdocumentos.tips/reader033/viewer/2022060912/60a6d8cca4e37d50207eb788/html5/thumbnails/11.jpg)
11
Como as pessoas buscam informação?modelo linear (clássico)
Como as pessoas buscam informação?modelo dinâmico
a necessidade de informação varia
durante o processo de busca.
![Page 12: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no](https://reader033.fdocumentos.tips/reader033/viewer/2022060912/60a6d8cca4e37d50207eb788/html5/thumbnails/12.jpg)
12
Recuperação de Informação
Modelos de Recuperação de Informação
� No modelo booleano um documento é representado por um conjunto de termos de indexação que podem ser definidos de forma intelectual (manual) por profissionais especializados ou automaticamente, utilizando algoritmos computacionais.
� As buscas são formuladas por meio de uma expressão booleana composta por termos ligados por operadores lógicos AND, OR e NOT e apresentam como resultado os documentos cuja representação satisfazem às restrições lógicas da expressão de busca.
![Page 13: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no](https://reader033.fdocumentos.tips/reader033/viewer/2022060912/60a6d8cca4e37d50207eb788/html5/thumbnails/13.jpg)
13
Modelo Booleano
Desmatamento
Mata Atlântica
Madeireiras
Reflorestamento
Desmatamento
AND
Mata Atlântica
Desmatamento
Amazônia
Grilagem de terras
Reflorestamento
Modelo Booleano
� Operadores de Proximidade◦ Surgimento dos sistemas de texto completo
◦ Operadores� Termos adjacentes
� Desmatamento ADJ Amazônia
� Desmatamento NEAR/10 Amazônia
� Sistema STAIRS� Desmatamento WITH Amazônia (mesmo parágrafo)
� Desmatamento SAME Amazônia (mesma frase)
◦ Frase Exata� “Recuperação de Informação”; “Desmatamento na Amazônia”
◦ Composição de Operadores� “Recuperação de” ADJ (informação OR documentos)
![Page 14: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no](https://reader033.fdocumentos.tips/reader033/viewer/2022060912/60a6d8cca4e37d50207eb788/html5/thumbnails/14.jpg)
14
Modelo Vetorial
Desmatamento 0.7
Mata Atlântica 0.6
Madeireiras 0.3
Reflorestamento 0.2
Desmatamento 0.8
Mata Atlântica 0.5
Causa 0.7
causa do desmatamento na mata atlântica
������ , � ∑ � ,� � � ,�
� ��
∑ � ,�� �
�� � ∑ � ,�� �
��
0,73
Recuperação de Informação
![Page 15: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no](https://reader033.fdocumentos.tips/reader033/viewer/2022060912/60a6d8cca4e37d50207eb788/html5/thumbnails/15.jpg)
15
Resultados de Busca
Resultados de Busca
![Page 16: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no](https://reader033.fdocumentos.tips/reader033/viewer/2022060912/60a6d8cca4e37d50207eb788/html5/thumbnails/16.jpg)
16
Resultados de busca
� Agrupamento (Clustering) - Grokker
Digital Vaults
![Page 17: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no](https://reader033.fdocumentos.tips/reader033/viewer/2022060912/60a6d8cca4e37d50207eb788/html5/thumbnails/17.jpg)
17
RECUPERAÇÃO DEINFORMAÇÃO NA WEB
Recuperação de informação na WEB
� Sites de Busca (search engines/buscadores)◦ Permitem ao usuário submeter sua expressão de
busca e recuperar uma lista (geralmente ordenada) de endereços de páginas (URLs) que presumivelmente são relevantes para a sua necessidade de informação
◦ Em um acervo extremamente grande como é a Web é essencial uma indexação antecipada de seus documentos (páginas).� A maioria dos mecanismos de busca da Web gera índices.
� Pelo caráter dinâmico da Web esses índices devem permanecer em constante processo de atualização
![Page 18: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no](https://reader033.fdocumentos.tips/reader033/viewer/2022060912/60a6d8cca4e37d50207eb788/html5/thumbnails/18.jpg)
18
Recuperação de informação na WEB
� Índexação◦ Não Automática
� O autor fornece dados sobre sua página e associa a ela uma ou mais categorias que descrevem o assunto tratado na página
◦ Automática� Crowlers (robôs, spiders ou worms)
� Partindo de uma lista inicial de URLs, rastreiam a estrutura hipertextual da WEB, colhendo informações sobre as páginas que encontram;
� Indexam cada página utilizando métodos de indexação automática
Recuperação de informação na WEB
� Indexação automática◦ A indexação automática é realizada através de duas etapas:
� Seleção de endereços (URLs) de páginas;
� Indexação das páginas, gerando para cada uma um conjunto de termos de indexação.
◦ Existem programas que “viajam” através da Web a fim de selecionar URLs de páginas de potencial interesse para que sejam indexadas. Esses programas são chamados de crawlers.
◦ Partindo de uma lista inicial de URLs, esses programas rastreiam a estrutura hipertextual da Web colhendo informação sobre as páginas que encontram.
![Page 19: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no](https://reader033.fdocumentos.tips/reader033/viewer/2022060912/60a6d8cca4e37d50207eb788/html5/thumbnails/19.jpg)
19
MEDIDAS DE AVALIAÇÃO
Medidas de Avaliação
Documentos relevantes para atender
a necessidade de informação do
usuário
Documentos não relevantes para o
usuário
Para qualquer necessidade sempre
haverá mais documentos não
relevantes (-) do que relevantes (+);
O problema está em recuperar o
maior número possível de itens
relevantes e o menor número possível
de itens não relevantes;
O quadrado menor representa o
resultado de uma busca.
![Page 20: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no](https://reader033.fdocumentos.tips/reader033/viewer/2022060912/60a6d8cca4e37d50207eb788/html5/thumbnails/20.jpg)
20
Medidas de Avaliaçãoprecisão (precision)
Foram recuperados 20 itens, sendo
6 relevantes e 14 não relevantes
Precisão nº docs relevantes recuperados
nº docs recuperados
3,020
6 Precisão ==
Precisão = 30%
Expressa o quanto o sistema é
capaz de recuperar apenas itens
relevantes.
Medidas de Avaliaçãorevocação (recall)
Expressa o quanto o sistema é
capaz de recuperar todos os itens
relevantes.
5,012
6 Revocação ==
Revocação = 50%
Dos 12 documentos relevantes
existente no corpus, apenas 6 foram
recuperados
Revocação nº docs relevantes recuperados
nº docs relevantes
![Page 21: Unesp - Faculdade de Filosofia e Ciências - Câmpus de Marília - Meio ambiente da Recuperação de Informação · Processo composto de interações sucessivas com o sistema no](https://reader033.fdocumentos.tips/reader033/viewer/2022060912/60a6d8cca4e37d50207eb788/html5/thumbnails/21.jpg)
21
Medidas de Avaliaçãorevocação x precisão
Para melhorar a revocação deve-se
fazer uma busca mais genérica,
representado pelo quadrado maior.
%1818,049
9 Precisão =≈=
%7575,012
9 Revocação ===
Revocação
Precisão
Medidas de Avaliação
Revocação x Precisão