CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados...
Transcript of CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados...
CS276AText Retrieval and Mining
Lecture 10
Recapitulando a última aula
Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar por
aeronave para que corresponda a avião; termodinâmica a calor
Opções para melhoria dos resultados… Métodos Globais
Expansão da consulta Tesauros Geração automática de tesauro
Relevance Feedback global indireto Métodos locais
Relevance feedback Pseudo relevance feedback
Relevance feedback probabilístico
Ao invés de recalcular o peso em um vetor espaço…
Se o usuário nos indicou alguns documentos relevantes e alguns irrelevantes, então podemos proceder à montagem de um classificador probabilístico, tal como o modelo Naïve Bayes: P(tk|R) = |Drk| / |Dr|
P(tk|NR) = |Dnrk| / |Dnr| Tk é um termo; Dr é o conjunto de documentos
sabidamente relavantes; Drk é o subconjunto que contém tk; Dnr é o conjunto de documentos sabidamente irrelevantes; Dnrk é o subconjunto que contém tk.
Por quê utilizar probabilidades em RI?
Necessidade deInformação do
usuário
Documentos Representaçãodo documento
Representaçãodo documento
Representaçãoda Consulta
Representaçãoda Consulta
Como determinarComo determinarequivalência?equivalência?
Em sistemas de RI tradicionais, a equivalência entre cada documento e a consulta é testada em um espaço semanticamente impreciso de termos de índice.
Probabilidades fornecem uma base de princípios para decisão incerta.
Podemos utilizar probabilidades para quantificar nossas incertezas?
Suposição incerta sobre a relevância doconteúdo do documento
Compreensãoda necessidade doUsuário é incerta
Tópicos de Probabilidade em RI
Modelo clássico de recuperação probabilística Princípio do ranking probabilístico, etc.
Categoriazação de Texto (Naïve) Bayesiano Redes Bayesianas para recuperação de texto Abordagem de modelos de linguagem à IR
Uma ênfase importante em trabalhos recentes
Métodos probabilísticos são um dos tópicos mais antigos mas também um dos mais discutidos em RI. Tradicionalmente: boas ideias, mas nunca
ganharam em performance. Pode ser diferente agora.
O problema de ordem de documentos
Temos uma coleção de documentos Usuário envia uma consulta Uma lista de documentos precisa ser retornada O método de ordenação é a essência de um O método de ordenação é a essência de um
sistema de RI:sistema de RI: Em que ordem apresentamos os documentos ao Em que ordem apresentamos os documentos ao
usuário?usuário? Queremos o “melhor” documento primeiro, o segundo
melhor em segundo, etc… Ideia: Ordenar pela probabilidade da relevância Ideia: Ordenar pela probabilidade da relevância
do documento em relação à informação requeridado documento em relação à informação requerida P(relevante|documentoi, consulta)
Relembrando o básico de probabilidade
Para eventos a e b: Regra de Bayes
Probabilidade:
aaxxpxbp
apabp
bp
apabpbap
apabpbpbap
apabpbpbapbapbap
,)()|(
)()|(
)(
)()|()|(
)()|()()|(
)()|()()|()(),(
)(1
)(
)(
)()(
ap
ap
ap
apaO
Posterior
Anterior
O Princípio da Ordenação por Probabilidade
“Se a resposta de um sistema de recuperação de referências a cada solicitação é subconjunto de documentos de uma coleção em ordenação decrescente da probabilidade de relevância ao usuário que enviou a requisição, em que as probabilidades são estimadas com o máximo de precisão, com base em qualquer dado que tenha sido disponibilizado ao sistema com esse propósito, então a eficácia geral do sistema ao seu usuário será o melhor que se pode obter com bases nesses dados.”
[1960s/1970s] S. Robertson, W.S. Cooper, M.E. Maron; van Rijsbergen (1979:113); Manning & Schütze (1999:538)
Princípio da Ordenação Probabilística
Seja x um documento em uma coleção. Seja R a representação da relevância de um documento em relação a uma dada (fixa) consulta e seja NR a representação da não-relevância.
)(
)()|()|(
)(
)()|()|(
xp
NRpNRxpxNRp
xp
RpRxpxRp
p(x|R), p(x|NR) - probabilidade de que se um documento relevante (não-relevante) for recuperado, ele seja x.
Precisamos encontrar p(R|x) – a probabilidade de que o documento x seja relevante.
p(R),p(NR) – probabilidade anterior de recuperar um documento (não) relevante
1)|()|( xNRpxRp
R={0,1} vs. NR/R
Princípio da Ordenação Probabilística (PRP)
Caso simples: sem preocupação com custo de seleção ou outros utilidades que mensurem erros diferencialmente
Regra Ótima de descisão de Bayes x é relevante se e somente se p(R|x) > p(NR|x)
PRP em ação: Ordene todos os documentos por p(R|x)
Teorema: O uso do PRP é ótimo, pois minimiza a perda (risco
Bayes) sob a perda 1/0 Demonstrável se todas as probabilidades forem
corretas, etc. [e.g., Ripley 1996]
Princípio da Ordenação Probabilística
Caso mais complexo: custos de recuperação. Seja d um documento C - custo de recuperação de um documento relevante C’ – custo de recuperação de documento não-
relevante Princípio da Ordenação Probabilística: se
para todo d’ ainda não recuperado, então d é o próximo documento a ser recuperado
Não iremos mais considerar perda/utilidade a partir de agora
))|(1()|())|(1()|( dRpCdRpCdRpCdRpC
Princípio da Ordenação Probabilística
Como computamos todas essas probabilidades? Não sabemos as probabilidades exatas, temos que
usar estimativas Recuperação Binária Independente (BIR) – será
discutida posteriormente –é o modelo mais simples Suposições questionáveis
“Relevância” de cada documento é independente da relevância de outros documentos.
Na verdade, é ruim retornar duplicatas É o mesmo que modelo Booleano de relevância A informação necessária pode ser alcançada em um
único passo Visualizar um intervalo de resultados poderia permitir ao
usuário refinar a consulta
Estratégia de Recuperação Probabilística
Estimar como os termos contribuem para a relevância Como coisas tal como tf, df e tamanho influenciam
seus julgamentos sobre a relevância de um documento?
Uma resposta são as fórmulas Okapi (S. Robertson)
Combinar para encontrar a probabilidade de relavância de um documento
Ordenar os documentos por probabilidade decrescente
Ordenação Probabilística
Conceito básico:
“Para uma dada consulta, se sabemos que alguns documentos são relevantes, termos que ocorrem nesses documentos devem receber maior peso na busca por outros documentos relevantes.
Ao fazer suposições sobre a distribuição dos termos e aplicar o Teorema Bayes, teoricamente é possível derivar pesos."
Van Rijsbergen
Modelo Binário Independente
Tradicionalmente usado em conjunção com PRP “Binário” = Booleano: documentos são representados
como vetores de termos de incidência binária (aula 1): se e somente se o termo i está presente no
documento x. “Independente”: os termos ocorrem nos documentos
independentemente Diferentes documentos podem ser modelados como o
mesmo vetor
Modelo Bernoulli Naive Bayes (cf. categoriazão de texto!)
),,( 1 nxxx
1ix
Modelo Binário Independente
Consultas: vetores de termos de incidência binária Dada a consulta q,
para cada documento d computar p(R|q,d). substitua com a computação de p(R|q,x) em que
x é um vetor de termos de incidência binária representando d com interesse apenas na ordenação
Usaremos probabilidades e a regra de Bayes:
)|(),|()|(
)|(),|()|(
),|(
),|(),|(
qxpqNRxpqNRp
qxpqRxpqRp
xqNRp
xqRpxqRO
Modelo Binário Independente
• Usando suposição Independente:
n
i i
i
qNRxp
qRxp
qNRxp
qRxp
1 ),|(
),|(
),|(
),|(
),|(
),|(
)|(
)|(
),|(
),|(),|(
qNRxp
qRxp
qNRp
qRp
xqNRp
xqRpxqRO
Constante para uma dade consulta
Requer estimativa
n
i i
i
qNRxp
qRxpqROdqRO
1 ),|(
),|()|(),|(•Então :
Modelo Binário Independente
n
i i
i
qNRxp
qRxpqROdqRO
1 ),|(
),|()|(),|(
• Uma vez que xi é 0 ou 1:
01 ),|0(
),|0(
),|1(
),|1()|(),|(
ii x i
i
x i
i
qNRxp
qRxp
qNRxp
qRxpqROdqRO
• Seja );,|1( qRxpp ii );,|1( qNRxpr ii
• Suponha que, para todos os termos que não ocorem na consulta (qi=0)
ii rp
Então...Isso pode seralterado (ex: norelevance feedback)
Termos coincidentes Termos não coincidentes na consulta
Modelo Binário Independente
Termos coincidentesTermos da Consulta
11
101
1
1
)1(
)1()|(
1
1)|(),|(
iii
i
iii
q i
i
qx ii
ii
qx i
i
qx i
i
r
p
pr
rpqRO
r
p
r
pqROxqRO
Modelo Binário Independente
Constante paracada consulta
Quantificado apenas paraestimativa para ordenação
11 1
1
)1(
)1()|(),|(
iii q i
i
qx ii
ii
r
p
pr
rpqROxqRO
•Valor do Status de Recuperação RSV:
11 )1(
)1(log
)1(
)1(log
iiii qx ii
ii
qx ii
ii
pr
rp
pr
rpRSV
Modelo Binário Independente
• Tudo se resume a calcular o RSV.
11 )1(
)1(log
)1(
)1(log
iiii qx ii
ii
qx ii
ii
pr
rp
pr
rpRSV
1
;ii qx
icRSV)1(
)1(log
ii
iii pr
rpc
Então, como calcular os ci’s dos nossos dados ?
Modelo Binário Independente
• Estimando os coeficientes RSV.• Para cada termo i verificar nesta tabela de contagem de documento:
Documentos
Relevante Não-Relevante Total
Xi=1 s n-s n
Xi=0 S-s N-n-S+s N-n
Total S N-S N
S
spi
)(
)(
SN
snri
)()(
)(log),,,(
sSnNsn
sSssSnNKci
• Estimativa: Por enquanto,considere nãohaver termoszerados.Maisna próxima aula.
Estimar – principal desafio
Se documentos não-relevantes são aproximados pela coleção inteira, então ri (prob. de ocorrência em documentos não relevantes para a consulta) é n/N e
log (1– ri)/ri = log (N– n)/n ≈ log N/n = IDF!
pi (probabilidade de ocorrência em documentos relevantes) pode ser estimada de diversas formas:
de documentos relevantes se alguns forem conhecidos Peso da Relevância pode ser usado em laço de feedback
constante (Croft e Harper combinação de coincidências) – então apenas obter peso idf dos termos
proporcional à probabilidade de ocorrência na coleção mais precisamente, ao log dela (Greiff, SIGIR 1998)
24
Estimando pi iterativamente
1. Considere pi é constante para todo xi na consulta pi = 0.5 (probabilidades iguais) para qualquer
documento dado2. Determinar um conjunto estimado de documentos
relevante: V é um conjunto de tamanho fixo de documentos de
alta ordem nesse modelo (nota: similar a tf.idf!)3. Precisamos melhorar nossas estimativas para pi e ri,
logo Use a distribuição de xi nos documentos em V. Seja
Vi o conjunto de documentos que contém xi pi = |Vi| / |V|
Considere que se não recuperado então não é relevante ri = (ni – |Vi|) / (N – |V|)
4. Vá para 2. até que converja então retorne o ranking
Relevance Feedback Probabilístico
1. Suponha uma descrição probabilística preliminar de R e utilize-a para recuperar o primeiro conjunto de documento V, como acima.
2. Interaja com o usuário para refinar a descrição: conheça membros definitivos de R e NR
3. Reestime pi e ri com base nestes Ou pode-se combinar a nova informação com a
suposição original(use anterior Bayesiano):
4. Repita, logo gerando uma sucessão de aproximações a R.
||
|| )1()2(
V
pVp ii
iκ é o
peso doanterior
PRP e BIR
É possível obter aproximações razoáveis das probabilidades.
Requer suposições restritivas: Independência de termos termos não presentes na consulta não afetam o
resultado representação booleana de
documentos/consulta/relevância valores de relevância dos documentos são
independentes Algumas dessas suposições podem ser removidas Problema: ou requer informação parcial sobre relevância
ou apenas pode derivar peso de termos, de certa forma, inferiores
Removendo a Independência de termo
Em geral, termos do índice não são independentes
Dependências podem ser complexas
van Rijsbergen (1979) propôs um modelo de dependência de árvore simples
A árvore de Friedman e Goldszmidt’s ampliaram a Naive Bayes (AAAI 13, 1996)
Cada termo dependia de um outro
Na década de 70, problemas de estimativa retiveram o sucesso desse modelo
Alimento para o pensamento
Pense a respeito das diferenças entre o tf.idf padr’ao e o modelo de recuperação probabilístico na primeira iteração
Pense a respeito das diferenças entre o (pseudo) relevance feedback do espaço vetorial e o (pseudo) relevance feedback probabilístico
Notícias boas e ruins
Modelo de Espaço de Vetores Padrão Empírico em sua maior parte; sucesso medido pelos
resultados Poucas propriedades demonstráveis
Vantagens do Modelo Probabilístico Baseado em um embasamento teórico firme Justificativa teória de um esquema de ordenação ótimo
Desvantagens Fazer a suposição inicial para obter V Pesos binários da palavra-no-documento (sem usar
frequência de termos) Independência de termos (pode ser aliviada) Quantidade de cálculo Nunca funcionou convincentemente melhor na prática
Redes Bayesianas para Recuperação de Texto (Turtle and Croft 1990)
Modelo probabilístico padrão supõe que você não pode estimar P(R|D,Q)
Ao invés disso supõe independência e usa P(D|R) Mas talvez você possa com uma rede Bayesiana* O que é uma rede Bayesiana?
Um grafo direcionado acíclico Vértices
Eventos ou Variáveis Supõe valores Para todos os propósitos, todos Booleanos
Arestas modelam dependências diretas entre os vértices
Redes Bayesianas
a b
c
a,b,c - proposições (eventos).
p(c|ab) para todos os valores para a,b,c
p(a)
p(b)
• Redes Bayesianas modelam relações causais entre os eventos•Inferências Redes Bayesianas:
• Dadas a distribuições de probabilidade para raízes e probabilidades condicionais pode-se calcular a probabilidade apriori de qualquer instância• Fixar suposições (ex.: b foi observado) causará recálculo de probabilidades
DependênciaCondicional
Para mais informações: R.G. Cowell, A.P. Dawid, S.L. Lauritzen, and D.J. Spiegelhalter. 1999. Probabilistic Networks and Expert Systems. Springer Verlag. J. Pearl. 1988. Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference. Morgan-Kaufman.
Exemplo do Brinquedo
Desânimo(g)
Finais(f)
Entrega do Projeto(d)
Sem dormir(n)
Café com Leite Triplo(t)
7.02.01.001.0
3.08.09.099.0
g
g
dfdffdfd
6.0
4.0
dd
7.0
3.0
f
f
9.001.0
1.099.0
t
t
gg
7.01.0
3.09.0
n
n
ff
Suposições de Independência
• Suposição de Independência: P(t|g, f)=P(t|g)
• Probabilidade conjunta P(f d n g t) =P(f) P(d) P(n|f) P(g|f d) P(t|g)
Desânimo(g)
Finais(f)
Entrega do Projeto(d)
Sem dormir(n)
Café com leite Triplo(t)
Inferência encadeada
Evidência – um vértice assume um valor Inferência
Calcular a crença (probabilidade) de outros vértices condicionado a uma evidência conhecida
Dois tipos de inferência: Diagnóstica e Preditiva Complexidade computacional
General network: NP-hard Rede similares a árvore são facilmente tratáveis Muitos outros trabalhos sobre inferência eficiente em
redes Bayesianas exatas e aproximadas Programação dinâmica inteligente Inferência aproximada (“propagação da crença em laço”)
Modelo p/ Recuperação de Texto
Objetivo Dada a necessidade de informação do usuário
(evidência), encontrar a probabilidade de que um documento satisfaça a necessidade
Modelo de recuperação Modelar documentos em uma rede de
documentos Modelar a necessidade de informação em uma
rede de consulta
Redes Bayesianas para RI: Ideia
Rede de Documento
Rede de Consulta
Grande, mascalcular uma vez paracada coleção de documentos
Pequeno, calcular uma vezpara cada consulta
d1 dnd2
t1 t2 tn
r1 r2 r3rk
di -documentos
ti – representações de documentori - “conceitos”
I
q2q1
cmc2c1 ci – conceitos de consulta
qi - conceitos de alto-nível
I - vértice objetivo
Redes Bayesianas para RI
Construa Rede de Documento (uma vez!) Para cada consulta
Construa a melhor Rede de Consulta Anexe-a à Rede de Documentos Encontre o subconjunto de di’s que maximiza o
valor da probabilidade do vértice I (melhor subconjunto)
Recupere esses di’s como a resposta à consulta
Redes Bayesianas para recuperação de texto
d1 d2
r1 r3
c1 c3
q1 q2
i
r2
c2
Rede deDocumentos
Rede deConsulta
Documentos
Termos/Conceitos
Conceitos
Operadores de Consulta(AND/OR/NOT)
Necessidade de Informação
Ligando matrizes e probabilidades
Probabilidade anterior do documento P(d) = 1/n
P(r|d) frequência do termo no
documento baseado em tf idf
P(c|r) 1-a-1 thesaurus
P(q|c): forma canônica dos operadores da consulta
Sempre use coisas como AND e NOT – nunca armazene a CPT* completa
*tabela de probabilidade condicional
Exemplo: “reason trouble –two”
Hamlet Macbeth
reason double
reason two
OR NOT
Consulta do Usuário
trouble
trouble
Rede deDocumentos
Rede deConsulta
Extensões
Probabilidades anteriores não têm que ser 1/n “Necessidade de informação do usuário” não
precisa ser uma consulta - podem ser palavras digitadas, documentos lidos, qualquer combinação …
Frases, vínculos intra-documentos Matrizes de vínculos podem ser modificadas ao
passar do tempo Feedback do usuário Promessa de “personalização”
Detalhes computacionais
Rede de documento construída em tempo de indexação
Rede de consulta construída/pontuada em tempo de consulta
Representação: Matrizes de vínculos de documentos para qualquer
termo individual são como entradas de endereçamento para aquele termo
Matrízes de vínculos são eficientes para armazenar e calcular
Anexar evidências apenas às raízes da rede Pode ser construído em única passagem das raízes
para as folhas
Redes Bayesianas em RI
Formas flexíveis de combinar peso dos termos, que pode generalizar abordagem anteriores
Modelo Booleano Modelo binário de independência Modelos probabilísticos com suposições mais fracas
Implementação eficiente de larga-escala Sistema de recuperação de texto InQuery da Universidade de
Massachusetts Turtle e Croft (1990) [Defunto de versão comercial?]
São precisas aproximações para evitar inferências intratáveis É necessário estimar todas as probabilidades de algum modo
(ainda que mais ou menos ad hoc) Muita nova tecnologia de Redes Bayesianas a ser aplicada?
Resources
S. E. Robertson and K. Spärck Jones. 1976. Relevance Weighting of Search Terms. Journal of the American Society for Information Sciences 27(3): 129–146.
C. J. van Rijsbergen. 1979. Information Retrieval. 2nd ed. London: Butterworths, chapter 6. [Most details of math] http://www.dcs.gla.ac.uk/Keith/Preface.html
N. Fuhr. 1992. Probabilistic Models in Information Retrieval. The Computer Journal, 35(3),243–255. [Easiest read, with BNs]
F. Crestani, M. Lalmas, C. J. van Rijsbergen, and I. Campbell. 1998.
Is This Document Relevant? ... Probably: A Survey of
Probabilistic Models in Information Retrieval. ACM Computing
Surveys 30(4): 528–552.
http://www.acm.org/pubs/citations/journals/surveys/1998-30-4/p528-crestani/
[Adds very little material that isn’t in van Rijsbergen or Fuhr ]
Resources
H.R. Turtle and W.B. Croft. 1990. Inference Networks for Document
Retrieval. Proc. ACM SIGIR: 1-24.E. Charniak. Bayesian nets without tears. AI Magazine 12(4): 50-63
(1991). http://www.aaai.org/Library/Magazine/Vol12/12-04/vol12-04.html
D. Heckerman. 1995. A Tutorial on Learning with Bayesian Networks.
Microsoft Technical Report MSR-TR-95-06http://www.research.microsoft.com/~heckerman/
N. Fuhr. 2000. Probabilistic Datalog: Implementing Logical Information
Retrieval for Advanced Applications. Journal of the American Society
for Information Science 51(2): 95–110.
R. K. Belew. 2001. Finding Out About: A Cognitive Perspective on Search
Engine Technology and the WWW. Cambridge UP 2001.
MIR 2.5.4, 2.8