CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados...

45
CS276A Text Retrieval and Mining Lecture 10

Transcript of CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados...

Page 1: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

CS276AText Retrieval and Mining

Lecture 10

Page 2: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Recapitulando a última aula

Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar por

aeronave para que corresponda a avião; termodinâmica a calor

Opções para melhoria dos resultados… Métodos Globais

Expansão da consulta Tesauros Geração automática de tesauro

Relevance Feedback global indireto Métodos locais

Relevance feedback Pseudo relevance feedback

Casa
Recap of the last lecture
Casa
Improving search results
Casa
Especially for high recall. E.g., searching for aircraft so it matches with plane; thermodynamic with heat
Casa
Options for improving results…
Casa
Global methods
Casa
Query expansion
Casa
Automatic thesaurus generation
Casa
Global indirect relevance feedback
Casa
Local methods
Page 3: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Relevance feedback probabilístico

Ao invés de recalcular o peso em um vetor espaço…

Se o usuário nos indicou alguns documentos relevantes e alguns irrelevantes, então podemos proceder à montagem de um classificador probabilístico, tal como o modelo Naïve Bayes: P(tk|R) = |Drk| / |Dr|

P(tk|NR) = |Dnrk| / |Dnr| Tk é um termo; Dr é o conjunto de documentos

sabidamente relavantes; Drk é o subconjunto que contém tk; Dnr é o conjunto de documentos sabidamente irrelevantes; Dnrk é o subconjunto que contém tk.

Casa
Probabilistic relevance feedback
Casa
Rather than reweighting in a vector space…
Casa
If user has told us some relevant and some irrelevant documents, then we can proceed to build a probabilistic classifier, such as a Naive Bayes model:
Casa
tk is a term; Dr is the set of known relevant documents; Drk is the subset that contain tk; Dnr is the set of known irrelevant documents; Dnrk is the subset that contain tk.
Page 4: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Por quê utilizar probabilidades em RI?

Necessidade deInformação do

usuário

Documentos Representaçãodo documento

Representaçãodo documento

Representaçãoda Consulta

Representaçãoda Consulta

Como determinarComo determinarequivalência?equivalência?

Em sistemas de RI tradicionais, a equivalência entre cada documento e a consulta é testada em um espaço semanticamente impreciso de termos de índice.

Probabilidades fornecem uma base de princípios para decisão incerta.

Podemos utilizar probabilidades para quantificar nossas incertezas?

Suposição incerta sobre a relevância doconteúdo do documento

Compreensãoda necessidade doUsuário é incerta

Casa
User Information Need
Casa
QueryRepresentation
Casa
Understandingof user need isuncertain
Casa
Uncertain guess ofwhether document has relevant content
Casa
How to match?
Casa
DocumentRepresentation
Casa
Documents
Casa
In traditional IR systems, matching between each document andquery is attempted in a semantically imprecise space of index terms.
Casa
Probabilities provide a principled foundation for uncertain reasoning.Can we use probabilities to quantify our uncertainties?
Casa
Why probabilities in IR?
Page 5: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Tópicos de Probabilidade em RI

Modelo clássico de recuperação probabilística Princípio do ranking probabilístico, etc.

Categoriazação de Texto (Naïve) Bayesiano Redes Bayesianas para recuperação de texto Abordagem de modelos de linguagem à IR

Uma ênfase importante em trabalhos recentes

Métodos probabilísticos são um dos tópicos mais antigos mas também um dos mais discutidos em RI. Tradicionalmente: boas ideias, mas nunca

ganharam em performance. Pode ser diferente agora.

Casa
Probabilistic IR topics
Casa
Classical probabilistic retrieval model
Casa
Probability ranking principle, etc.
Casa
(Naïve) Bayesian Text Categorization
Casa
Bayesian networks for text retrieval
Casa
Language model approach to IR
Casa
An important emphasis in recent work
Casa
Probabilistic methods are one of the oldest but also one of the currently hottest topics in IR.
Casa
Traditionally: neat ideas, but they’ve never won on performance. It may be different now.
Page 6: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

O problema de ordem de documentos

Temos uma coleção de documentos Usuário envia uma consulta Uma lista de documentos precisa ser retornada O método de ordenação é a essência de um O método de ordenação é a essência de um

sistema de RI:sistema de RI: Em que ordem apresentamos os documentos ao Em que ordem apresentamos os documentos ao

usuário?usuário? Queremos o “melhor” documento primeiro, o segundo

melhor em segundo, etc… Ideia: Ordenar pela probabilidade da relevância Ideia: Ordenar pela probabilidade da relevância

do documento em relação à informação requeridado documento em relação à informação requerida P(relevante|documentoi, consulta)

Casa
The document ranking problem
Casa
We have a collection of documents
Casa
User issues a query
Casa
A list of documents needs to be returned
Casa
Ranking method is core of an IR system:
Casa
In what order do we present documents to the user?
Casa
We want the “best” document to be first, second best second, etc….
Casa
Idea: Rank by probability of relevance of the document w.r.t. information need
Casa
P(relevant|documenti, query)
Page 7: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Relembrando o básico de probabilidade

Para eventos a e b: Regra de Bayes

Probabilidade:

aaxxpxbp

apabp

bp

apabpbap

apabpbpbap

apabpbpbapbapbap

,)()|(

)()|(

)(

)()|()|(

)()|()()|(

)()|()()|()(),(

)(1

)(

)(

)()(

ap

ap

ap

apaO

Posterior

Anterior

Casa
For events a and b:
Casa
Bayes’ Rule
Casa
Odds
Casa
Prior
Page 8: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

O Princípio da Ordenação por Probabilidade

“Se a resposta de um sistema de recuperação de referências a cada solicitação é subconjunto de documentos de uma coleção em ordenação decrescente da probabilidade de relevância ao usuário que enviou a requisição, em que as probabilidades são estimadas com o máximo de precisão, com base em qualquer dado que tenha sido disponibilizado ao sistema com esse propósito, então a eficácia geral do sistema ao seu usuário será o melhor que se pode obter com bases nesses dados.”

[1960s/1970s] S. Robertson, W.S. Cooper, M.E. Maron; van Rijsbergen (1979:113); Manning & Schütze (1999:538)

Casa
The Probability Ranking Principle
Casa
“If a reference retrieval system's response to each request is a ranking of the documents in the collection in order of decreasing probability of relevance to the user who submitted the request, where the probabilities are estimated as accurately as possible on the basis of whatever data have been made available to the system for this purpose, the overall effectiveness of the system to its user will be the best that is obtainable on the basis of those data.”
Page 9: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Princípio da Ordenação Probabilística

Seja x um documento em uma coleção. Seja R a representação da relevância de um documento em relação a uma dada (fixa) consulta e seja NR a representação da não-relevância.

)(

)()|()|(

)(

)()|()|(

xp

NRpNRxpxNRp

xp

RpRxpxRp

p(x|R), p(x|NR) - probabilidade de que se um documento relevante (não-relevante) for recuperado, ele seja x.

Precisamos encontrar p(R|x) – a probabilidade de que o documento x seja relevante.

p(R),p(NR) – probabilidade anterior de recuperar um documento (não) relevante

1)|()|( xNRpxRp

R={0,1} vs. NR/R

Casa
Let x be a document in the collection.
Casa
Let R represent relevance of a document w.r.t. given (fixed) query and let NR represent non-relevance.
Casa
Need to find p(R|x) - probability that a document x is relevant.
Casa
p(R),p(NR) - prior probabilityof retrieving a (non) relevantdocument
Casa
p(x|R), p(x|NR) - probability that if a relevant (non-relevant) document is retrieved, it is x.
Casa
Probability Ranking Principle
Page 10: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Princípio da Ordenação Probabilística (PRP)

Caso simples: sem preocupação com custo de seleção ou outros utilidades que mensurem erros diferencialmente

Regra Ótima de descisão de Bayes x é relevante se e somente se p(R|x) > p(NR|x)

PRP em ação: Ordene todos os documentos por p(R|x)

Teorema: O uso do PRP é ótimo, pois minimiza a perda (risco

Bayes) sob a perda 1/0 Demonstrável se todas as probabilidades forem

corretas, etc. [e.g., Ripley 1996]

Casa
Probability Ranking Principle (PRP)
Casa
Simple case: no selection costs or other utility concerns that would differentially weight errors
Casa
Bayes’ Optimal Decision Rule
Casa
x is relevant iff p(R|x) > p(NR|x)
Casa
PRP in action: Rank all documents by p(R|x)
Casa
Theorem:
Casa
Using the PRP is optimal, in that it minimizes the loss (Bayes risk) under 1/0 loss
Casa
Provable if all probabilities correct, etc. [e.g., Ripley 1996]
Page 11: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Princípio da Ordenação Probabilística

Caso mais complexo: custos de recuperação. Seja d um documento C - custo de recuperação de um documento relevante C’ – custo de recuperação de documento não-

relevante Princípio da Ordenação Probabilística: se

para todo d’ ainda não recuperado, então d é o próximo documento a ser recuperado

Não iremos mais considerar perda/utilidade a partir de agora

))|(1()|())|(1()|( dRpCdRpCdRpCdRpC

Casa
Probability Ranking Principle
Casa
More complex case: retrieval costs.
Casa
Let d be a document
Casa
C - cost of retrieval of relevant document
Casa
C’ - cost of retrieval of non-relevant document
Casa
Probability Ranking Principle: if
Casa
for all d’ not yet retrieved, then d is the next document to be retrieved
Casa
We won’t further consider loss/utility from now on
Page 12: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Princípio da Ordenação Probabilística

Como computamos todas essas probabilidades? Não sabemos as probabilidades exatas, temos que

usar estimativas Recuperação Binária Independente (BIR) – será

discutida posteriormente –é o modelo mais simples Suposições questionáveis

“Relevância” de cada documento é independente da relevância de outros documentos.

Na verdade, é ruim retornar duplicatas É o mesmo que modelo Booleano de relevância A informação necessária pode ser alcançada em um

único passo Visualizar um intervalo de resultados poderia permitir ao

usuário refinar a consulta

Casa
Probability Ranking Principle
Casa
How do we compute all those probabilities?
Casa
Do not know exact probabilities, have to use estimates
Casa
Binary Independence Retrieval (BIR) – which we discuss later today – is the simplest model
Casa
Questionable assumptions
Casa
“Relevance” of each document is independent of relevance of other documents.
Casa
Really, it’s bad to keep on returning duplicates
Casa
Boolean model of relevance
Casa
That one has a single step information need
Casa
Seeing a range of results might let user refine query
Page 13: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Estratégia de Recuperação Probabilística

Estimar como os termos contribuem para a relevância Como coisas tal como tf, df e tamanho influenciam

seus julgamentos sobre a relevância de um documento?

Uma resposta são as fórmulas Okapi (S. Robertson)

Combinar para encontrar a probabilidade de relavância de um documento

Ordenar os documentos por probabilidade decrescente

Casa
Probabilistic Retrieval Strategy
Casa
Estimate how terms contribute to relevance
Casa
How do things like tf, df, and length influence your judgments about document relevance?
Casa
One answer is the Okapi formulae (S. Robertson)
Casa
Combine to find document relevance probability
Casa
Order documents by decreasing probability
Page 14: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Ordenação Probabilística

Conceito básico:

“Para uma dada consulta, se sabemos que alguns documentos são relevantes, termos que ocorrem nesses documentos devem receber maior peso na busca por outros documentos relevantes.

Ao fazer suposições sobre a distribuição dos termos e aplicar o Teorema Bayes, teoricamente é possível derivar pesos."

Van Rijsbergen

Casa
Probabilistic Ranking
Casa
Basic concept:
Casa
"For a given query, if we know some documents that are relevant, terms that occur in those documents should be given greater weighting in searching for other relevant documents.By making assumptions about the distribution of terms and applying Bayes Theorem, it is possible to derive weights theoretically."
Page 15: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Modelo Binário Independente

Tradicionalmente usado em conjunção com PRP “Binário” = Booleano: documentos são representados

como vetores de termos de incidência binária (aula 1): se e somente se o termo i está presente no

documento x. “Independente”: os termos ocorrem nos documentos

independentemente Diferentes documentos podem ser modelados como o

mesmo vetor

Modelo Bernoulli Naive Bayes (cf. categoriazão de texto!)

),,( 1 nxxx

1ix

Casa
Binary Independence Model
Casa
Traditionally used in conjunction with PRP
Casa
“Binary” = Boolean: documents are represented as binary incidence vectors of terms (cf. lecture 1):
Casa
iff term i is present in document x.
Casa
“Independence”: terms occur in documents independently
Casa
Different documents can be modeled as same vector
Casa
Bernoulli Naive Bayes model (cf. text categorization!)
Page 16: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Modelo Binário Independente

Consultas: vetores de termos de incidência binária Dada a consulta q,

para cada documento d computar p(R|q,d). substitua com a computação de p(R|q,x) em que

x é um vetor de termos de incidência binária representando d com interesse apenas na ordenação

Usaremos probabilidades e a regra de Bayes:

)|(),|()|(

)|(),|()|(

),|(

),|(),|(

qxpqNRxpqNRp

qxpqRxpqRp

xqNRp

xqRpxqRO

Casa
Binary Independence Model
Casa
Queries: binary term incidence vectors
Casa
Given query q,
Casa
for each document d need to compute p(R|q,d).
Casa
replace with computing p(R|q,x) where x is binary term incidence vector representing d Interested only in ranking
Casa
Will use odds and Bayes’ Rule:
Page 17: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Modelo Binário Independente

• Usando suposição Independente:

n

i i

i

qNRxp

qRxp

qNRxp

qRxp

1 ),|(

),|(

),|(

),|(

),|(

),|(

)|(

)|(

),|(

),|(),|(

qNRxp

qRxp

qNRp

qRp

xqNRp

xqRpxqRO

Constante para uma dade consulta

Requer estimativa

n

i i

i

qNRxp

qRxpqROdqRO

1 ),|(

),|()|(),|(•Então :

Casa
Binary Independence Model
Casa
Constant for a given query
Casa
Needs estimation
Casa
Using Independence Assumption:
Casa
So:
Page 18: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Modelo Binário Independente

n

i i

i

qNRxp

qRxpqROdqRO

1 ),|(

),|()|(),|(

• Uma vez que xi é 0 ou 1:

01 ),|0(

),|0(

),|1(

),|1()|(),|(

ii x i

i

x i

i

qNRxp

qRxp

qNRxp

qRxpqROdqRO

• Seja );,|1( qRxpp ii );,|1( qNRxpr ii

• Suponha que, para todos os termos que não ocorem na consulta (qi=0)

ii rp

Então...Isso pode seralterado (ex: norelevance feedback)

Casa
Binary Independence Model
Casa
Since xi is either 0 or 1:
Casa
Let
Casa
Assume, for all terms not occurring in the query (qi=0)
Casa
Then...
Casa
This can be changed (e.g., inrelevance feedback)
Page 19: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Termos coincidentes Termos não coincidentes na consulta

Modelo Binário Independente

Termos coincidentesTermos da Consulta

11

101

1

1

)1(

)1()|(

1

1)|(),|(

iii

i

iii

q i

i

qx ii

ii

qx i

i

qx i

i

r

p

pr

rpqRO

r

p

r

pqROxqRO

Casa
Binary Independence Model
Casa
All matching terms
Casa
All matching terms
Casa
Non-matching query terms
Casa
All query terms
Page 20: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Modelo Binário Independente

Constante paracada consulta

Quantificado apenas paraestimativa para ordenação

11 1

1

)1(

)1()|(),|(

iii q i

i

qx ii

ii

r

p

pr

rpqROxqRO

•Valor do Status de Recuperação RSV:

11 )1(

)1(log

)1(

)1(log

iiii qx ii

ii

qx ii

ii

pr

rp

pr

rpRSV

Casa
Binary Independence Model
Casa
Constant foreach query
Casa
Only quantity to be estimated for rankings
Casa
Retrieval Status Value:
Page 21: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Modelo Binário Independente

• Tudo se resume a calcular o RSV.

11 )1(

)1(log

)1(

)1(log

iiii qx ii

ii

qx ii

ii

pr

rp

pr

rpRSV

1

;ii qx

icRSV)1(

)1(log

ii

iii pr

rpc

Então, como calcular os ci’s dos nossos dados ?

Casa
Binary Independence Model
Casa
All boils down to computing RSV.
Casa
So, how do we compute ci’s from our data ?
Page 22: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Modelo Binário Independente

• Estimando os coeficientes RSV.• Para cada termo i verificar nesta tabela de contagem de documento:

Documentos

Relevante Não-Relevante Total

Xi=1 s n-s n

Xi=0 S-s N-n-S+s N-n

Total S N-S N

S

spi

)(

)(

SN

snri

)()(

)(log),,,(

sSnNsn

sSssSnNKci

• Estimativa: Por enquanto,considere nãohaver termoszerados.Maisna próxima aula.

Casa
Binary Independence Model
Casa
Estimating RSV coefficients.
Casa
For each term i look at this table of document counts:
Casa
Estimates:
Casa
For now,assume nozero terms.More nextlecture.
Page 23: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Estimar – principal desafio

Se documentos não-relevantes são aproximados pela coleção inteira, então ri (prob. de ocorrência em documentos não relevantes para a consulta) é n/N e

log (1– ri)/ri = log (N– n)/n ≈ log N/n = IDF!

pi (probabilidade de ocorrência em documentos relevantes) pode ser estimada de diversas formas:

de documentos relevantes se alguns forem conhecidos Peso da Relevância pode ser usado em laço de feedback

constante (Croft e Harper combinação de coincidências) – então apenas obter peso idf dos termos

proporcional à probabilidade de ocorrência na coleção mais precisamente, ao log dela (Greiff, SIGIR 1998)

Casa
Estimation – key challenge
Casa
If non-relevant documents are approximated by the whole collection, then ri (prob. of occurrence in non-relevant documents for query) is n/N and
Casa
pi (probability of occurrence in relevant documents) can be estimated in various ways:
Casa
from relevant documents if know some
Casa
Relevance weighting can be used in feedback loop
Casa
constant (Croft and Harper combination match) – then just get idf weighting of terms
Casa
proportional to prob. of occurrence in collection
Casa
more accurately, to log of this (Greiff, SIGIR 1998)
Page 24: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

24

Estimando pi iterativamente

1. Considere pi é constante para todo xi na consulta pi = 0.5 (probabilidades iguais) para qualquer

documento dado2. Determinar um conjunto estimado de documentos

relevante: V é um conjunto de tamanho fixo de documentos de

alta ordem nesse modelo (nota: similar a tf.idf!)3. Precisamos melhorar nossas estimativas para pi e ri,

logo Use a distribuição de xi nos documentos em V. Seja

Vi o conjunto de documentos que contém xi pi = |Vi| / |V|

Considere que se não recuperado então não é relevante ri = (ni – |Vi|) / (N – |V|)

4. Vá para 2. até que converja então retorne o ranking

Casa
Iteratively estimating pi
Casa
Assume that pi constant over all xi in query
Casa
pi = 0.5 (even odds) for any given doc
Casa
Determine guess of relevant document set:
Casa
V is fixed size set of highest ranked documents on this model (note: now a bit like tf.idf!)
Casa
We need to improve our guesses for pi and ri, so
Casa
Use distribution of xi in docs in V. Let Vi be set of documents containing xi
Casa
Assume if not retrieved then not relevant
Casa
Go to 2. until converges then return ranking
Page 25: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Relevance Feedback Probabilístico

1. Suponha uma descrição probabilística preliminar de R e utilize-a para recuperar o primeiro conjunto de documento V, como acima.

2. Interaja com o usuário para refinar a descrição: conheça membros definitivos de R e NR

3. Reestime pi e ri com base nestes Ou pode-se combinar a nova informação com a

suposição original(use anterior Bayesiano):

4. Repita, logo gerando uma sucessão de aproximações a R.

||

|| )1()2(

V

pVp ii

iκ é o

peso doanterior

Casa
Probabilistic Relevance Feedback
Casa
Guess a preliminary probabilistic description of R and use it to retrieve a first set of documents V, as above.
Casa
Interact with the user to refine the description: learn some definite members of R and NR
Casa
Reestimate pi and ri on the basis of these
Casa
Or can combine new information with original guess (use Bayesian prior):
Casa
κ is priorweight
Casa
Repeat, thus generating a succession of approximations to R.
Page 26: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

PRP e BIR

É possível obter aproximações razoáveis das probabilidades.

Requer suposições restritivas: Independência de termos termos não presentes na consulta não afetam o

resultado representação booleana de

documentos/consulta/relevância valores de relevância dos documentos são

independentes Algumas dessas suposições podem ser removidas Problema: ou requer informação parcial sobre relevância

ou apenas pode derivar peso de termos, de certa forma, inferiores

Casa
Getting reasonable approximations of probabilities is possible.
Casa
Requires restrictive assumptions:
Casa
term independence
Casa
terms not in query don’t affect the outcome
Casa
boolean representation of documents/queries/relevance
Casa
document relevance values are independent
Casa
Some of these assumptions can be removed
Casa
Problem: either require partial relevance information or only can derive somewhat inferior term weights
Page 27: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Removendo a Independência de termo

Em geral, termos do índice não são independentes

Dependências podem ser complexas

van Rijsbergen (1979) propôs um modelo de dependência de árvore simples

A árvore de Friedman e Goldszmidt’s ampliaram a Naive Bayes (AAAI 13, 1996)

Cada termo dependia de um outro

Na década de 70, problemas de estimativa retiveram o sucesso desse modelo

Casa
Removing term independence
Casa
In general, index terms aren’t independent
Casa
Dependencies can be complex
Casa
van Rijsbergen (1979) proposed model of simple tree dependencies
Casa
Exactly Friedman and Goldszmidt’s Tree Augmented Naive Bayes (AAAI 13, 1996)
Casa
Each term dependent on one other
Casa
In 1970s, estimation problems held back success of this model
Page 28: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Alimento para o pensamento

Pense a respeito das diferenças entre o tf.idf padr’ao e o modelo de recuperação probabilístico na primeira iteração

Pense a respeito das diferenças entre o (pseudo) relevance feedback do espaço vetorial e o (pseudo) relevance feedback probabilístico

Casa
Food for thought
Casa
Think through the differences between standard tf.idf and the probabilistic retrieval model in the first iteration
Casa
Think through the differences between vector space (pseudo) relevance feedback and probabilistic (pseudo) relevance feedback
Page 29: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Notícias boas e ruins

Modelo de Espaço de Vetores Padrão Empírico em sua maior parte; sucesso medido pelos

resultados Poucas propriedades demonstráveis

Vantagens do Modelo Probabilístico Baseado em um embasamento teórico firme Justificativa teória de um esquema de ordenação ótimo

Desvantagens Fazer a suposição inicial para obter V Pesos binários da palavra-no-documento (sem usar

frequência de termos) Independência de termos (pode ser aliviada) Quantidade de cálculo Nunca funcionou convincentemente melhor na prática

Casa
Good and Bad News
Casa
Standard Vector Space Model
Casa
Empirical for the most part; success measured by results
Casa
Few properties provable
Casa
Probabilistic Model Advantages
Casa
Based on a firm theoretical foundation
Casa
Theoretically justified optimal ranking scheme
Casa
Disadvantages
Casa
Making the initial guess to get
Casa
Binary word-in-doc weights (not using term frequencies)
Casa
Independence of terms (can be alleviated)
Casa
Amount of computation
Casa
Has never worked convincingly better in practice
Page 30: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Redes Bayesianas para Recuperação de Texto (Turtle and Croft 1990)

Modelo probabilístico padrão supõe que você não pode estimar P(R|D,Q)

Ao invés disso supõe independência e usa P(D|R) Mas talvez você possa com uma rede Bayesiana* O que é uma rede Bayesiana?

Um grafo direcionado acíclico Vértices

Eventos ou Variáveis Supõe valores Para todos os propósitos, todos Booleanos

Arestas modelam dependências diretas entre os vértices

Casa
Bayesian Networks for Text Retrieval (Turtle and Croft 1990)
Casa
Standard probabilistic model assumes you can’t estimate P(R|D,Q)
Casa
Instead assume independence and use P(D|R)
Casa
But maybe you can with a Bayesian network
Casa
What is a Bayesian network?
Casa
A directed acyclic graph
Casa
Nodes
Casa
Events or Variables
Casa
Assume values
Casa
For our purposes, all Boolean
Casa
model direct dependencies between nodes
Casa
Links
Page 31: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Redes Bayesianas

a b

c

a,b,c - proposições (eventos).

p(c|ab) para todos os valores para a,b,c

p(a)

p(b)

• Redes Bayesianas modelam relações causais entre os eventos•Inferências Redes Bayesianas:

• Dadas a distribuições de probabilidade para raízes e probabilidades condicionais pode-se calcular a probabilidade apriori de qualquer instância• Fixar suposições (ex.: b foi observado) causará recálculo de probabilidades

DependênciaCondicional

Para mais informações: R.G. Cowell, A.P. Dawid, S.L. Lauritzen, and D.J. Spiegelhalter. 1999. Probabilistic Networks and Expert Systems. Springer Verlag. J. Pearl. 1988. Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference. Morgan-Kaufman.

Casa
Bayesian Networks
Casa
a,b,c - propositions (events).
Casa
Bayesian networks model causal relations between events
Casa
Inference in Bayesian Nets:
Casa
Given probability distributionsfor roots and conditional probabilities can compute apriori probability of any instance
Casa
Fixing assumptions (e.g., b was observed) will cause recomputation of probabilities
Casa
Conditional dependence
Casa
p(c|ab) for all values for a,b,c
Casa
For more information see:
Page 32: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Exemplo do Brinquedo

Desânimo(g)

Finais(f)

Entrega do Projeto(d)

Sem dormir(n)

Café com Leite Triplo(t)

7.02.01.001.0

3.08.09.099.0

g

g

dfdffdfd

6.0

4.0

dd

7.0

3.0

f

f

9.001.0

1.099.0

t

t

gg

7.01.0

3.09.0

n

n

ff

Casa
Toy Example
Casa
Finals
Casa
No Sleep
Casa
Project Due
Casa
Triple Latte
Page 33: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Suposições de Independência

• Suposição de Independência: P(t|g, f)=P(t|g)

• Probabilidade conjunta P(f d n g t) =P(f) P(d) P(n|f) P(g|f d) P(t|g)

Desânimo(g)

Finais(f)

Entrega do Projeto(d)

Sem dormir(n)

Café com leite Triplo(t)

Casa
Independence Assumptions
Casa
Project Due
Casa
Finals
Casa
No sleep
Casa
Gloom
Casa
Triple Latte
Casa
Joint probability
Page 34: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Inferência encadeada

Evidência – um vértice assume um valor Inferência

Calcular a crença (probabilidade) de outros vértices condicionado a uma evidência conhecida

Dois tipos de inferência: Diagnóstica e Preditiva Complexidade computacional

General network: NP-hard Rede similares a árvore são facilmente tratáveis Muitos outros trabalhos sobre inferência eficiente em

redes Bayesianas exatas e aproximadas Programação dinâmica inteligente Inferência aproximada (“propagação da crença em laço”)

Casa
Chained inference
Casa
Evidence - a node takes on some value
Casa
Inference
Casa
Compute belief (probabilities) of other nodes
Casa
conditioned on the known evidence
Casa
Two kinds of inference: Diagnostic and Predictive
Casa
Computational complexity
Casa
Tree-like networks are easily tractable
Casa
Much other work on efficient exact and approximate Bayesian network inference
Casa
Clever dynamic programming
Casa
Approximate inference (“loopy belief propagation”)
Page 35: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Modelo p/ Recuperação de Texto

Objetivo Dada a necessidade de informação do usuário

(evidência), encontrar a probabilidade de que um documento satisfaça a necessidade

Modelo de recuperação Modelar documentos em uma rede de

documentos Modelar a necessidade de informação em uma

rede de consulta

Casa
Model for Text Retrieval
Casa
Goal
Casa
Given a user’s information need (evidence), find probability a doc satisfies need
Casa
Retrieval model
Casa
Model docs in a document network
Casa
Model information need in a query network
Page 36: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Redes Bayesianas para RI: Ideia

Rede de Documento

Rede de Consulta

Grande, mascalcular uma vez paracada coleção de documentos

Pequeno, calcular uma vezpara cada consulta

d1 dnd2

t1 t2 tn

r1 r2 r3rk

di -documentos

ti – representações de documentori - “conceitos”

I

q2q1

cmc2c1 ci – conceitos de consulta

qi - conceitos de alto-nível

I - vértice objetivo

Casa
Bayesian Nets for IR: Idea
Casa
Document Network
Casa
documents
Casa
ti - document representations
Casa
ri - “concepts”
Casa
Large, butCompute once for each document collection
Casa
Small, compute once forevery query
Casa
high-level concepts
Casa
ci - query concepts
Casa
Query Network
Casa
I - goal node
Page 37: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Redes Bayesianas para RI

Construa Rede de Documento (uma vez!) Para cada consulta

Construa a melhor Rede de Consulta Anexe-a à Rede de Documentos Encontre o subconjunto de di’s que maximiza o

valor da probabilidade do vértice I (melhor subconjunto)

Recupere esses di’s como a resposta à consulta

Casa
Bayesian Nets for IR
Casa
Construct Document Network (once !)
Casa
For each query
Casa
Construct best Query Network
Casa
Attach it to Document Network
Casa
Find subset of di’s which maximizes the probability value of node I (best subset).
Casa
Retrieve these di’s as the answer to query.
Page 38: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Redes Bayesianas para recuperação de texto

d1 d2

r1 r3

c1 c3

q1 q2

i

r2

c2

Rede deDocumentos

Rede deConsulta

Documentos

Termos/Conceitos

Conceitos

Operadores de Consulta(AND/OR/NOT)

Necessidade de Informação

Casa
Bayesian nets for text retrieval
Casa
Terms/Concepts
Casa
DocumentNetwork
Casa
Concepts
Casa
Query operators(AND/OR/NOT)
Casa
Information need
Casa
QueryNetwork
Casa
Documents
Page 39: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Ligando matrizes e probabilidades

Probabilidade anterior do documento P(d) = 1/n

P(r|d) frequência do termo no

documento baseado em tf idf

P(c|r) 1-a-1 thesaurus

P(q|c): forma canônica dos operadores da consulta

Sempre use coisas como AND e NOT – nunca armazene a CPT* completa

*tabela de probabilidade condicional

Casa
Link matrices and probabilities
Casa
Prior doc probability P(d) = 1/n
Casa
within-document term frequency
Casa
tf ´ idf - based
Casa
P(q|c): canonical forms of query operators
Casa
Always use things like AND and NOT – never store a full CPT*
Casa
1-to-1
Page 40: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Exemplo: “reason trouble –two”

Hamlet Macbeth

reason double

reason two

OR NOT

Consulta do Usuário

trouble

trouble

Rede deDocumentos

Rede deConsulta

Casa
DocumentNetwork
Casa
QueryNetwork
Page 41: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Extensões

Probabilidades anteriores não têm que ser 1/n “Necessidade de informação do usuário” não

precisa ser uma consulta - podem ser palavras digitadas, documentos lidos, qualquer combinação …

Frases, vínculos intra-documentos Matrizes de vínculos podem ser modificadas ao

passar do tempo Feedback do usuário Promessa de “personalização”

Casa
Extensions
Casa
Prior probs don’t have to be 1/n.
Casa
“User information need” doesn’t have to be a query - can be words typed, in docs read, any combination …
Casa
“User information need” doesn’t have to be a query - can be words typed, in docs read, any combination …
Casa
Phrases, inter-document links
Casa
Link matrices can be modified over time.
Casa
User feedback.
Casa
The promise of “personalization”
Page 42: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Detalhes computacionais

Rede de documento construída em tempo de indexação

Rede de consulta construída/pontuada em tempo de consulta

Representação: Matrizes de vínculos de documentos para qualquer

termo individual são como entradas de endereçamento para aquele termo

Matrízes de vínculos são eficientes para armazenar e calcular

Anexar evidências apenas às raízes da rede Pode ser construído em única passagem das raízes

para as folhas

Casa
Computational details
Casa
Document network built at indexing time
Casa
Query network built/scored at query time
Casa
Representation:
Casa
Link matrices from docs to any single term are like the postings entry for that term
Casa
Canonical link matrices are efficient to store and compute
Casa
Attach evidence only at roots of network
Casa
Can do single pass from roots to leaves
Page 43: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Redes Bayesianas em RI

Formas flexíveis de combinar peso dos termos, que pode generalizar abordagem anteriores

Modelo Booleano Modelo binário de independência Modelos probabilísticos com suposições mais fracas

Implementação eficiente de larga-escala Sistema de recuperação de texto InQuery da Universidade de

Massachusetts Turtle e Croft (1990) [Defunto de versão comercial?]

São precisas aproximações para evitar inferências intratáveis É necessário estimar todas as probabilidades de algum modo

(ainda que mais ou menos ad hoc) Muita nova tecnologia de Redes Bayesianas a ser aplicada?

Casa
Bayes Nets in IR
Casa
Flexible ways of combining term weights, which can generalize previous approaches
Casa
Boolean model
Casa
Binary independence model
Casa
Probabilistic models with weaker assumptions
Casa
Efficient large-scale implementation
Casa
InQuery text retrieval system from U Mass
Casa
Turtle and Croft (1990) [Commercial version defunct?]
Casa
Need approximations to avoid intractable inference
Casa
Need to estimate all the probabilities by some means (whether more or less ad hoc)
Casa
Much new Bayes net technology yet to be applied?
Page 44: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Resources

S. E. Robertson and K. Spärck Jones. 1976. Relevance Weighting of Search Terms. Journal of the American Society for Information Sciences 27(3): 129–146.

C. J. van Rijsbergen. 1979. Information Retrieval. 2nd ed. London: Butterworths, chapter 6. [Most details of math] http://www.dcs.gla.ac.uk/Keith/Preface.html

N. Fuhr. 1992. Probabilistic Models in Information Retrieval. The Computer Journal, 35(3),243–255. [Easiest read, with BNs]

F. Crestani, M. Lalmas, C. J. van Rijsbergen, and I. Campbell. 1998.

Is This Document Relevant? ... Probably: A Survey of

Probabilistic Models in Information Retrieval. ACM Computing

Surveys 30(4): 528–552.

http://www.acm.org/pubs/citations/journals/surveys/1998-30-4/p528-crestani/

[Adds very little material that isn’t in van Rijsbergen or Fuhr ]

Page 45: CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar.

Resources

H.R. Turtle and W.B. Croft. 1990. Inference Networks for Document

Retrieval. Proc. ACM SIGIR: 1-24.E. Charniak. Bayesian nets without tears. AI Magazine 12(4): 50-63

(1991). http://www.aaai.org/Library/Magazine/Vol12/12-04/vol12-04.html

D. Heckerman. 1995. A Tutorial on Learning with Bayesian Networks.

Microsoft Technical Report MSR-TR-95-06http://www.research.microsoft.com/~heckerman/

N. Fuhr. 2000. Probabilistic Datalog: Implementing Logical Information

Retrieval for Advanced Applications. Journal of the American Society

for Information Science 51(2): 95–110.

R. K. Belew. 2001. Finding Out About: A Cognitive Perspective on Search

Engine Technology and the WWW. Cambridge UP 2001.

MIR 2.5.4, 2.8