Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo...
Transcript of Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo...
![Page 1: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia.](https://reader036.fdocumentos.tips/reader036/viewer/2022081518/552fc123497959413d8cc6fe/html5/thumbnails/1.jpg)
Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição
Joaquim MacedoDepartamento de Informática
Escola de Engenharia
![Page 2: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia.](https://reader036.fdocumentos.tips/reader036/viewer/2022081518/552fc123497959413d8cc6fe/html5/thumbnails/2.jpg)
2
Sumário
1. Introdução & Motivação2. Contribuições da tese3. Arquitectura do Webtrieve4. Concretização do Webtrieve5. Sobreposição6. Fusão de Resultados7. Selecção de BDs8. Conclusões e Trabalho Futuro
![Page 3: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia.](https://reader036.fdocumentos.tips/reader036/viewer/2022081518/552fc123497959413d8cc6fe/html5/thumbnails/3.jpg)
3
Introdução & Motivação A utilização dum motor de busca faz ja parte
do nosso quotidiano...várias vezes por dia! A popularidade dos MB traduz-se no
aumento significativo de utilizadores & recursos (nº,diversidade)
A solução distribuída é mais escalável, menos dispendiosa e por vezes a única possível
Há muito trabalho feito e por fazer... Esta tese pretende ser uma contribuição
![Page 4: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia.](https://reader036.fdocumentos.tips/reader036/viewer/2022081518/552fc123497959413d8cc6fe/html5/thumbnails/4.jpg)
4
Contexto da tese
BDTK
BDT2
BDT1
EI
BDTN
BDT distribuída
Cliente
Espaços de Informação
![Page 5: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia.](https://reader036.fdocumentos.tips/reader036/viewer/2022081518/552fc123497959413d8cc6fe/html5/thumbnails/5.jpg)
5
Replicação em RI distribuída
BD2
EI
Cliente
BD1
BD centralizada virtual
Espaço de Informação 1 Espaço de Informação 2
Estática vs DinâmicaCoordenada e Não Coordenada
Transparênciada
Replicação
![Page 6: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia.](https://reader036.fdocumentos.tips/reader036/viewer/2022081518/552fc123497959413d8cc6fe/html5/thumbnails/6.jpg)
6
Hipótese colocada Se a sobreposição entre as diferentes
BDTs num sistema de busca distribuída for usada como parâmetro dos algoritmos de fusão de resultados e selecção de BDs...
... consegue-se melhorar a eficácia da resposta devolvida ao utilizador.
![Page 7: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia.](https://reader036.fdocumentos.tips/reader036/viewer/2022081518/552fc123497959413d8cc6fe/html5/thumbnails/7.jpg)
7
Contribuições da tese Arquitectura para recuperação distribuída de
informação concretizada num protótipo [ADL00] Estratégias de estimação da sobreposição [TR01] Informação de sobreposição usada em
Algoritmo de fusão com melhoria de eficácia [ECDL00]
Algoritmo de selecção com melhoria da eficácia [TR01]
Referência de base para avaliar a selecção, considerando a sobreposição [TR01]
![Page 8: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia.](https://reader036.fdocumentos.tips/reader036/viewer/2022081518/552fc123497959413d8cc6fe/html5/thumbnails/8.jpg)
8
Arquitectura do Webtrieve
EIcliente clientepor lotes
BD1 BD2 BDk BDm
AlocadorDS DS DSWWW
Colecção deDocumentosrobot
![Page 9: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia.](https://reader036.fdocumentos.tips/reader036/viewer/2022081518/552fc123497959413d8cc6fe/html5/thumbnails/9.jpg)
9
Encaminhador de Interrogações
ClienteRemoto
Selectorde BDs
EngenhoFusão
Sumáriosdas BDs
Cache
ClienteBD1
ClienteBD2
ClienteBDk
ClienteBDm
I I1
I2
Ik
R|Rc|Rs
R
R1
R2
Rk
Rs
Rc
R
Informação de sobreposição
R1
R2
Rk
![Page 10: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia.](https://reader036.fdocumentos.tips/reader036/viewer/2022081518/552fc123497959413d8cc6fe/html5/thumbnails/10.jpg)
10
Alocador de documentos Simular distribuição e replicação
não coordenada em ambiente Laboratorial
Alocação aleatória com replicação Parâmetro de replicação (o)
relacionado com número de cópias o-1p , 1
1
1
N
i i
qp
![Page 11: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia.](https://reader036.fdocumentos.tips/reader036/viewer/2022081518/552fc123497959413d8cc6fe/html5/thumbnails/11.jpg)
11
Avaliação de desempenho
Webtrieve
Gerador de Actualizações
Cliente por lotes
ColecçõesTREC Curvas de Actualização
TópicosTREC
Avaliação daEficácia
Avaliaçãode eficiência
Documentos
Curvas de tráfego
Juízos de Relevância
TRECRespostas
Curvas deEficiência
Curvas de Precisão e Cobertura
Logs actualização
![Page 12: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia.](https://reader036.fdocumentos.tips/reader036/viewer/2022081518/552fc123497959413d8cc6fe/html5/thumbnails/12.jpg)
12
Concretização do Webtrieve Baseado no Modelo do Espaço Vectorial Interface de interrogação STARTS Suporte apenas da língua inglesa Utilização do Java
JavaCC para reconhecedores Abordagem dual para o Dicionário de Termos
Suporte para actualizações incrementais Módulo de avaliação alinhada com o TREC Módulo inicial de avaliação da eficiência
(HPROF)
![Page 13: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia.](https://reader036.fdocumentos.tips/reader036/viewer/2022081518/552fc123497959413d8cc6fe/html5/thumbnails/13.jpg)
13
Ciclo de vida duma fonte
Início Colectado Reconhecido Alocado
InvertidoIntercalado
Dicionário
Sumarizado A correr
Avaliado
Fim
robot extractor alocador(cria N fontes filhos)
pára
pára
inversor(com N sumários de filhos) intercalad
or
inversor
Espera sumários
loader
loader
arrancar servidores
clientes a lotes + avaliador
sumarizador
![Page 14: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia.](https://reader036.fdocumentos.tips/reader036/viewer/2022081518/552fc123497959413d8cc6fe/html5/thumbnails/14.jpg)
14
Módulos Webtrieve
allocator Alocador de documentos com replicação basic Classes básicas: texto, fonte, etc... textdb Dicionário de Termos, buckets, chunks eval Classes para avaliação, cliente por lotes metadata Manipulação da meta-informação broker Encaminhador de interrogações fusion Fusão de resultados engine Motor de busca parser Reconhecedores TREC e HTML inversion Inversão, intercalação
results ResultSet, Documento starts Código STARTS, SOIF, HTTP
stop Eliminação de palavras comuns stem Radicalizadores summarizer Sumarizador de BDs
loader Carregador do Dicionário e da meta-informação
![Page 15: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia.](https://reader036.fdocumentos.tips/reader036/viewer/2022081518/552fc123497959413d8cc6fe/html5/thumbnails/15.jpg)
15
Dicionário de Termos
Gestor doDicionário
Gestor deBuckets
Gestor deChunks
Listas deOcorrência em
memória Ficheiro deBuckets
Ficheiro deChunks
Actualização
Pedido de Listade ocorrência
Listas de ocorrência
curtas
Listas de ocorrência
longas
![Page 16: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia.](https://reader036.fdocumentos.tips/reader036/viewer/2022081518/552fc123497959413d8cc6fe/html5/thumbnails/16.jpg)
16
Fusão de Resultados: o problema
XuRXF
F
XuRXf
XXXXXX
iii
jiN
,:
global )(ordenação pontuação de função uma Encontrar
,:
X osubconjunt cada
para definidas ,f )(ordenação pontuação de funções de conjunto Um
0|| , ...
ssobrepostoou
disjuntos ossubconjuntpor composto objectos de conjunto um Dado
i
i
21
![Page 17: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia.](https://reader036.fdocumentos.tips/reader036/viewer/2022081518/552fc123497959413d8cc6fe/html5/thumbnails/17.jpg)
17
Fusão de Resultados: métodos existentes
RI centralizado (eq.100% sobreposição) Motivação: estratégias de RI diferentes
para aumentar a eficácia Várias lógicas de fusão: SUM, MAX, MIN, ...
RI distribuído (~ 0% sobreposição) Motivação: transparência da distribuição
(Sistema RI centralizado ) Várias lógicas de fusão: intercalação
simples ou ponderada
![Page 18: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia.](https://reader036.fdocumentos.tips/reader036/viewer/2022081518/552fc123497959413d8cc6fe/html5/thumbnails/18.jpg)
18
Fusão de Resultados: método proposto
Nível de sobreposição esperado: 0-100 % Itens duplicados usados como pontos de referência Comparabilidade de funções de pontuação
Motivação aumentar a eficácia usando a informação de
sobreposição Estratégia utilizada
Respostas sobrepostas por nível descrescente de sobreposição Lógica convencional de fusão para itens duplicados Aproximação linear para itens únicos
Intercalação de resultados disjuntos
![Page 19: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia.](https://reader036.fdocumentos.tips/reader036/viewer/2022081518/552fc123497959413d8cc6fe/html5/thumbnails/19.jpg)
19
Comparação das lógicas
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
C
P
Central
Max-S
Max-W
Med-S
Med-W
Som-S
Som-W
Min-S
Min-W
![Page 20: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia.](https://reader036.fdocumentos.tips/reader036/viewer/2022081518/552fc123497959413d8cc6fe/html5/thumbnails/20.jpg)
20
Comparação das lógicas
00,050,1
0,150,2
0,250,3
0,350,4
0,450,5
5 10 15 20 30 100 200 500 1000
Nº Documentos
Pre
cisã
o
Central
Max-S
Max-W
Med-S
Med-W
Som-S
Som-W
Min-S
Min-W
![Page 21: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia.](https://reader036.fdocumentos.tips/reader036/viewer/2022081518/552fc123497959413d8cc6fe/html5/thumbnails/21.jpg)
21
Selecção de BDTs: o problema Problema: dada uma interrogação I que
pretende n documentos como resposta e N Bases de Dados com documentos
Seleccionar as l (l<<N) BDs com os n documentos mais relevantes
Determinar quantos documentos ri devem ser devolvidos por cada BDi tal que se obtenha um total de n.
![Page 22: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia.](https://reader036.fdocumentos.tips/reader036/viewer/2022081518/552fc123497959413d8cc6fe/html5/thumbnails/22.jpg)
22
Selecção de BTDs: abordagem utilizada Proposto um método de selecção baseado no MEV
Pressuposto: termos distribuem-se pelos documentos da colecção de acordo com distribuição normal cuja média e desvio padrão são exportados nos sumários
Resultados comparáveis a outros algoritmos da literatura É necessária mais informação e avaliação exaustiva
Avaliação da utilização da informação de sobreposição usando um método de selecção bem conhecido na literatura (CORI)
Resultados encorajadores mesmo usando estimação de sobreposição estática
![Page 23: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia.](https://reader036.fdocumentos.tips/reader036/viewer/2022081518/552fc123497959413d8cc6fe/html5/thumbnails/23.jpg)
23
Selecção de BDTs: Métricas • Métricas utilizadas
• Precisão • Cobertura ou Recall • Cobertura alternativa ou• n - nº de BDs interrogadas
• Referências de base• RBR (Relevance Based Ranking)• SBR (Size Based Ranking)
• Referência de base proposta• ORBR (Overlapping Relevance Based Ranking)
)( nP)( nC _
)( nC)( nR _
)( nR
![Page 24: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia.](https://reader036.fdocumentos.tips/reader036/viewer/2022081518/552fc123497959413d8cc6fe/html5/thumbnails/24.jpg)
24
CORI: Precisão
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77
Nº BDTs
Pn com sobreposição
Pn
![Page 25: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia.](https://reader036.fdocumentos.tips/reader036/viewer/2022081518/552fc123497959413d8cc6fe/html5/thumbnails/25.jpg)
25
CORI: Recall
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77
Nº de BDTs
Rn com sobreposição
Rn
![Page 26: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia.](https://reader036.fdocumentos.tips/reader036/viewer/2022081518/552fc123497959413d8cc6fe/html5/thumbnails/26.jpg)
26
CORI: Recall alternativo
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77
R'n com sobreposição
R'n óptima
R'n
![Page 27: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia.](https://reader036.fdocumentos.tips/reader036/viewer/2022081518/552fc123497959413d8cc6fe/html5/thumbnails/27.jpg)
27
Conclusões Bancada Webtrieve
Sistema completo para recuperação distribuída da informação textual
Concretização de um protótipo em Java Hipótese comprovada
Propostos novos algoritmos de fusão e selecção que usam informação de sobreposição
obtenção de melhoria da eficácia mesmo com estimação grosseira da sobreposição
dinâmica na selecção (usando a sobreposição estática).
![Page 28: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia.](https://reader036.fdocumentos.tips/reader036/viewer/2022081518/552fc123497959413d8cc6fe/html5/thumbnails/28.jpg)
28
Sobreposição Variações da sobreposição
estática < 1% dinâmica de 20% A sobreposição estática
Útil em casos extremos para aumentar eficiência na fusão
Usada como parâmetro na selecção Amostra aleatória das diferentes BDTs
Permite estimação da sobreposição dinâmica Custos partilhados com expansão de
interrogações
![Page 29: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia.](https://reader036.fdocumentos.tips/reader036/viewer/2022081518/552fc123497959413d8cc6fe/html5/thumbnails/29.jpg)
29
Fusão de Resultados Sem as estatísticas de ocorrência dos termos
da interrogação nos documentos devolvidos pelas diferentes BDTs
Não é possível repontuação dos documentos em tempo útil
Utilização de documentos replicados como pontos de referência
Melhorias de 30% eficácia da fusão relativamente às lógicas convencionais
Melhoram com aumento de sobreposição Pioram com número de BDTs
![Page 30: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia.](https://reader036.fdocumentos.tips/reader036/viewer/2022081518/552fc123497959413d8cc6fe/html5/thumbnails/30.jpg)
30
Selecção de BDTs Algoritmo baseado na distribuição normal dos
termos pelos documentos Resultados da ordem de grandeza dos usados
convencionalmente Sumários exportados com mais informação
Utilização da informação de Sobreposição Reformulação de métricas de avaliação para
considerar a sobreposição (ORBR) Melhoria não significativa da eficácia em algoritmo
bem conhecidos (CORI) Selecção depende mais da variância da sobreposição
do que sua média
![Page 31: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia.](https://reader036.fdocumentos.tips/reader036/viewer/2022081518/552fc123497959413d8cc6fe/html5/thumbnails/31.jpg)
31
Trabalho Futuro
Passo decisivo: interpretação e processamento do vídeo
Abordada apenas a eficácia dos sistemas de RI distribuída...Falta: Expansão de interrogações, realimentação
de relevância Utilização da meta-informação para redução
do espaço pesquisa Utilização do XML
![Page 32: Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia.](https://reader036.fdocumentos.tips/reader036/viewer/2022081518/552fc123497959413d8cc6fe/html5/thumbnails/32.jpg)
32
Trabalho Futuro Migração para o Web
Concretização dum Robot WWW para larga escala
Cliente WWW mais amigável Interface WWW para gestão Utilização das hiperligações na RI distribuída
Alocação e Replicação Técnicas de alocação e replicação baseadas
no conteúdo Replicação para balanceamento de carga e
tolerância a faltas