CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados...

CS276AText Retrieval and Mining

Lecture 10

Recapitulando a última aula

Melhorando os resultados das buscas Especialmente para alto recall. Ex.: buscar por

aeronave para que corresponda a avião; termodinâmica a calor

Opções para melhoria dos resultados… Métodos Globais

Expansão da consulta Tesauros Geração automática de tesauro

Relevance Feedback global indireto Métodos locais

Relevance feedback Pseudo relevance feedback

Casa

Recap of the last lecture

Casa

Improving search results

Casa

Especially for high recall. E.g., searching for aircraft so it matches with plane; thermodynamic with heat

Casa

Options for improving results…

Casa

Global methods

Casa

Query expansion

Casa

Automatic thesaurus generation

Casa

Global indirect relevance feedback

Casa

Local methods

Relevance feedback probabilístico

Ao invés de recalcular o peso em um vetor espaço…

Se o usuário nos indicou alguns documentos relevantes e alguns irrelevantes, então podemos proceder à montagem de um classificador probabilístico, tal como o modelo Naïve Bayes: P(tk|R) = |Drk| / |Dr|

P(tk|NR) = |Dnrk| / |Dnr| Tk é um termo; Dr é o conjunto de documentos

sabidamente relavantes; Drk é o subconjunto que contém tk; Dnr é o conjunto de documentos sabidamente irrelevantes; Dnrk é o subconjunto que contém tk.

Casa

Probabilistic relevance feedback

Casa

Rather than reweighting in a vector space…

Casa

If user has told us some relevant and some irrelevant documents, then we can proceed to build a probabilistic classifier, such as a Naive Bayes model:

Casa

tk is a term; Dr is the set of known relevant documents; Drk is the subset that contain tk; Dnr is the set of known irrelevant documents; Dnrk is the subset that contain tk.

Por quê utilizar probabilidades em RI?

Necessidade deInformação do

usuário

Documentos Representaçãodo documento

Representaçãodo documento

Representaçãoda Consulta

Representaçãoda Consulta

Como determinarComo determinarequivalência?equivalência?

Em sistemas de RI tradicionais, a equivalência entre cada documento e a consulta é testada em um espaço semanticamente impreciso de termos de índice.

Probabilidades fornecem uma base de princípios para decisão incerta.

Podemos utilizar probabilidades para quantificar nossas incertezas?

Suposição incerta sobre a relevância doconteúdo do documento

Compreensãoda necessidade doUsuário é incerta

Casa

User Information Need

Casa

QueryRepresentation

Casa

Understandingof user need isuncertain

Casa

Uncertain guess ofwhether document has relevant content

Casa

How to match?

Casa

DocumentRepresentation

Casa

Documents

Casa

In traditional IR systems, matching between each document andquery is attempted in a semantically imprecise space of index terms.

Casa

Probabilities provide a principled foundation for uncertain reasoning.Can we use probabilities to quantify our uncertainties?

Casa

Why probabilities in IR?

Tópicos de Probabilidade em RI

Modelo clássico de recuperação probabilística Princípio do ranking probabilístico, etc.

Categoriazação de Texto (Naïve) Bayesiano Redes Bayesianas para recuperação de texto Abordagem de modelos de linguagem à IR

Uma ênfase importante em trabalhos recentes

Métodos probabilísticos são um dos tópicos mais antigos mas também um dos mais discutidos em RI. Tradicionalmente: boas ideias, mas nunca

ganharam em performance. Pode ser diferente agora.

Casa

Probabilistic IR topics

Casa

Classical probabilistic retrieval model

Casa

Probability ranking principle, etc.

Casa

(Naïve) Bayesian Text Categorization

Casa

Bayesian networks for text retrieval

Casa

Language model approach to IR

Casa

An important emphasis in recent work

Casa

Probabilistic methods are one of the oldest but also one of the currently hottest topics in IR.

Casa

Traditionally: neat ideas, but they’ve never won on performance. It may be different now.

O problema de ordem de documentos

Temos uma coleção de documentos Usuário envia uma consulta Uma lista de documentos precisa ser retornada O método de ordenação é a essência de um O método de ordenação é a essência de um

sistema de RI:sistema de RI: Em que ordem apresentamos os documentos ao Em que ordem apresentamos os documentos ao

usuário?usuário? Queremos o “melhor” documento primeiro, o segundo

melhor em segundo, etc… Ideia: Ordenar pela probabilidade da relevância Ideia: Ordenar pela probabilidade da relevância

do documento em relação à informação requeridado documento em relação à informação requerida P(relevante|documentoi, consulta)

Casa

The document ranking problem

Casa

We have a collection of documents

Casa

User issues a query

Casa

A list of documents needs to be returned

Casa

Ranking method is core of an IR system:

Casa

In what order do we present documents to the user?

Casa

We want the “best” document to be first, second best second, etc….

Casa

Idea: Rank by probability of relevance of the document w.r.t. information need

Casa

P(relevant|documenti, query)

Relembrando o básico de probabilidade

Para eventos a e b: Regra de Bayes

Probabilidade:

aaxxpxbp

apabp

bp

apabpbap

apabpbpbap

apabpbpbapbapbap

,)()|(

)()|(

)(

)()|()|(

)()|()()|(

)()|()()|()(),(

)(1

)(

)(

)()(

ap

ap

ap

apaO

Posterior

Anterior

Casa

For events a and b:

Casa

Bayes’ Rule

Casa

Odds

Casa

Prior

O Princípio da Ordenação por Probabilidade

“Se a resposta de um sistema de recuperação de referências a cada solicitação é subconjunto de documentos de uma coleção em ordenação decrescente da probabilidade de relevância ao usuário que enviou a requisição, em que as probabilidades são estimadas com o máximo de precisão, com base em qualquer dado que tenha sido disponibilizado ao sistema com esse propósito, então a eficácia geral do sistema ao seu usuário será o melhor que se pode obter com bases nesses dados.”

[1960s/1970s] S. Robertson, W.S. Cooper, M.E. Maron; van Rijsbergen (1979:113); Manning & Schütze (1999:538)

Casa

The Probability Ranking Principle

Casa

“If a reference retrieval system's response to each request is a ranking of the documents in the collection in order of decreasing probability of relevance to the user who submitted the request, where the probabilities are estimated as accurately as possible on the basis of whatever data have been made available to the system for this purpose, the overall effectiveness of the system to its user will be the best that is obtainable on the basis of those data.”

Princípio da Ordenação Probabilística

Seja x um documento em uma coleção. Seja R a representação da relevância de um documento em relação a uma dada (fixa) consulta e seja NR a representação da não-relevância.

)(

)()|()|(

)(

)()|()|(

xp

NRpNRxpxNRp

xp

RpRxpxRp

p(x|R), p(x|NR) - probabilidade de que se um documento relevante (não-relevante) for recuperado, ele seja x.

Precisamos encontrar p(R|x) – a probabilidade de que o documento x seja relevante.

p(R),p(NR) – probabilidade anterior de recuperar um documento (não) relevante

1)|()|( xNRpxRp

R={0,1} vs. NR/R

Casa

Let x be a document in the collection.

Casa

Let R represent relevance of a document w.r.t. given (fixed) query and let NR represent non-relevance.

Casa

Need to find p(R|x) - probability that a document x is relevant.

Casa

p(R),p(NR) - prior probabilityof retrieving a (non) relevantdocument

Casa

p(x|R), p(x|NR) - probability that if a relevant (non-relevant) document is retrieved, it is x.

Casa

Probability Ranking Principle

Princípio da Ordenação Probabilística (PRP)

Caso simples: sem preocupação com custo de seleção ou outros utilidades que mensurem erros diferencialmente

Regra Ótima de descisão de Bayes x é relevante se e somente se p(R|x) > p(NR|x)

PRP em ação: Ordene todos os documentos por p(R|x)

Teorema: O uso do PRP é ótimo, pois minimiza a perda (risco

Bayes) sob a perda 1/0 Demonstrável se todas as probabilidades forem

corretas, etc. [e.g., Ripley 1996]

Casa

Probability Ranking Principle (PRP)

Casa

Simple case: no selection costs or other utility concerns that would differentially weight errors

Casa

Bayes’ Optimal Decision Rule

Casa

x is relevant iff p(R|x) > p(NR|x)

Casa

PRP in action: Rank all documents by p(R|x)

Casa

Theorem:

Casa

Using the PRP is optimal, in that it minimizes the loss (Bayes risk) under 1/0 loss

Casa

Provable if all probabilities correct, etc. [e.g., Ripley 1996]


Caso mais complexo: custos de recuperação. Seja d um documento C - custo de recuperação de um documento relevante C’ – custo de recuperação de documento não-

relevante Princípio da Ordenação Probabilística: se

para todo d’ ainda não recuperado, então d é o próximo documento a ser recuperado

Não iremos mais considerar perda/utilidade a partir de agora

))|(1()|())|(1()|( dRpCdRpCdRpCdRpC

Casa


Casa

More complex case: retrieval costs.

Casa

Let d be a document

Casa

C - cost of retrieval of relevant document

Casa

C’ - cost of retrieval of non-relevant document

Casa

Probability Ranking Principle: if

Casa

for all d’ not yet retrieved, then d is the next document to be retrieved

Casa

We won’t further consider loss/utility from now on


Como computamos todas essas probabilidades? Não sabemos as probabilidades exatas, temos que

usar estimativas Recuperação Binária Independente (BIR) – será

discutida posteriormente –é o modelo mais simples Suposições questionáveis

“Relevância” de cada documento é independente da relevância de outros documentos.

Na verdade, é ruim retornar duplicatas É o mesmo que modelo Booleano de relevância A informação necessária pode ser alcançada em um

único passo Visualizar um intervalo de resultados poderia permitir ao

usuário refinar a consulta

Casa


Casa

How do we compute all those probabilities?

Casa

Do not know exact probabilities, have to use estimates

Casa

Binary Independence Retrieval (BIR) – which we discuss later today – is the simplest model

Casa

Questionable assumptions

Casa

“Relevance” of each document is independent of relevance of other documents.

Casa

Really, it’s bad to keep on returning duplicates

Casa

Boolean model of relevance

Casa

That one has a single step information need

Casa

Seeing a range of results might let user refine query

Estratégia de Recuperação Probabilística

Estimar como os termos contribuem para a relevância Como coisas tal como tf, df e tamanho influenciam

seus julgamentos sobre a relevância de um documento?

Uma resposta são as fórmulas Okapi (S. Robertson)

Combinar para encontrar a probabilidade de relavância de um documento

Ordenar os documentos por probabilidade decrescente

Casa

Probabilistic Retrieval Strategy

Casa

Estimate how terms contribute to relevance

Casa

How do things like tf, df, and length influence your judgments about document relevance?

Casa

One answer is the Okapi formulae (S. Robertson)

Casa

Combine to find document relevance probability

Casa

Order documents by decreasing probability

Ordenação Probabilística

Conceito básico:

“Para uma dada consulta, se sabemos que alguns documentos são relevantes, termos que ocorrem nesses documentos devem receber maior peso na busca por outros documentos relevantes.

Ao fazer suposições sobre a distribuição dos termos e aplicar o Teorema Bayes, teoricamente é possível derivar pesos."

Van Rijsbergen

Casa

Probabilistic Ranking

Casa

Basic concept:

Casa

"For a given query, if we know some documents that are relevant, terms that occur in those documents should be given greater weighting in searching for other relevant documents.By making assumptions about the distribution of terms and applying Bayes Theorem, it is possible to derive weights theoretically."

Modelo Binário Independente

Tradicionalmente usado em conjunção com PRP “Binário” = Booleano: documentos são representados

como vetores de termos de incidência binária (aula 1): se e somente se o termo i está presente no

documento x. “Independente”: os termos ocorrem nos documentos

independentemente Diferentes documentos podem ser modelados como o

mesmo vetor

Modelo Bernoulli Naive Bayes (cf. categoriazão de texto!)

),,( 1 nxxx

1ix

Casa

Binary Independence Model

Casa

Traditionally used in conjunction with PRP

Casa

“Binary” = Boolean: documents are represented as binary incidence vectors of terms (cf. lecture 1):

Casa

iff term i is present in document x.

Casa

“Independence”: terms occur in documents independently

Casa

Different documents can be modeled as same vector

Casa

Bernoulli Naive Bayes model (cf. text categorization!)


Consultas: vetores de termos de incidência binária Dada a consulta q,

para cada documento d computar p(R|q,d). substitua com a computação de p(R|q,x) em que

x é um vetor de termos de incidência binária representando d com interesse apenas na ordenação

Usaremos probabilidades e a regra de Bayes:

)|(),|()|(

)|(),|()|(

),|(

),|(),|(

qxpqNRxpqNRp

qxpqRxpqRp

xqNRp

xqRpxqRO

Casa


Casa

Queries: binary term incidence vectors

Casa

Given query q,

Casa

for each document d need to compute p(R|q,d).

Casa

replace with computing p(R|q,x) where x is binary term incidence vector representing d Interested only in ranking

Casa

Will use odds and Bayes’ Rule:


• Usando suposição Independente:

n

i i

i

qNRxp

qRxp

qNRxp

qRxp

1 ),|(

),|(

),|(

),|(

),|(

),|(

)|(

)|(

),|(

),|(),|(

qNRxp

qRxp

qNRp

qRp

xqNRp

xqRpxqRO

Constante para uma dade consulta

Requer estimativa

n

i i

i

qNRxp

qRxpqROdqRO

1 ),|(

),|()|(),|(•Então :

Casa


Casa

Constant for a given query

Casa

Needs estimation

Casa

Using Independence Assumption:

Casa

So:


n

i i

i

qNRxp

qRxpqROdqRO

1 ),|(

),|()|(),|(

• Uma vez que xi é 0 ou 1:

01 ),|0(

),|0(

),|1(

),|1()|(),|(

ii x i

i

x i

i

qNRxp

qRxp

qNRxp

qRxpqROdqRO

• Seja );,|1( qRxpp ii );,|1( qNRxpr ii

• Suponha que, para todos os termos que não ocorem na consulta (qi=0)

ii rp

Então...Isso pode seralterado (ex: norelevance feedback)

Casa


Casa

Since xi is either 0 or 1:

Casa

Let

Casa

Assume, for all terms not occurring in the query (qi=0)

Casa

Then...

Casa

This can be changed (e.g., inrelevance feedback)

Termos coincidentes Termos não coincidentes na consulta


Termos coincidentesTermos da Consulta

11

101

1

1

)1(

)1()|(

1

1)|(),|(

iii

i

iii

q i

i

qx ii

ii

qx i

i

qx i

i

r

p

pr

rpqRO

r

p

r

pqROxqRO

Casa


Casa

All matching terms

Casa

All matching terms

Casa

Non-matching query terms

Casa

All query terms


Constante paracada consulta

Quantificado apenas paraestimativa para ordenação

11 1

1

)1(

)1()|(),|(

iii q i

i

qx ii

ii

r

p

pr

rpqROxqRO

•Valor do Status de Recuperação RSV:

11 )1(

)1(log

)1(

)1(log

iiii qx ii

ii

qx ii

ii

pr

rp

pr

rpRSV

Casa


Casa

Constant foreach query

Casa

Only quantity to be estimated for rankings

Casa

Retrieval Status Value:


• Tudo se resume a calcular o RSV.

11 )1(

)1(log

)1(

)1(log

iiii qx ii

ii

qx ii

ii

pr

rp

pr

rpRSV

1

;ii qx

icRSV)1(

)1(log

ii

iii pr

rpc

Então, como calcular os ci’s dos nossos dados ?

Casa


Casa

All boils down to computing RSV.

Casa

So, how do we compute ci’s from our data ?


• Estimando os coeficientes RSV.• Para cada termo i verificar nesta tabela de contagem de documento:

Documentos

Relevante Não-Relevante Total

Xi=1 s n-s n

Xi=0 S-s N-n-S+s N-n

Total S N-S N

S

spi

)(

)(

SN

snri

)()(

)(log),,,(

sSnNsn

sSssSnNKci

• Estimativa: Por enquanto,considere nãohaver termoszerados.Maisna próxima aula.

Casa


Casa

Estimating RSV coefficients.

Casa

For each term i look at this table of document counts:

Casa

Estimates:

Casa

For now,assume nozero terms.More nextlecture.

Estimar – principal desafio

Se documentos não-relevantes são aproximados pela coleção inteira, então ri (prob. de ocorrência em documentos não relevantes para a consulta) é n/N e

log (1– ri)/ri = log (N– n)/n ≈ log N/n = IDF!

pi (probabilidade de ocorrência em documentos relevantes) pode ser estimada de diversas formas:

de documentos relevantes se alguns forem conhecidos Peso da Relevância pode ser usado em laço de feedback

constante (Croft e Harper combinação de coincidências) – então apenas obter peso idf dos termos

proporcional à probabilidade de ocorrência na coleção mais precisamente, ao log dela (Greiff, SIGIR 1998)

Casa

Estimation – key challenge

Casa

If non-relevant documents are approximated by the whole collection, then ri (prob. of occurrence in non-relevant documents for query) is n/N and

Casa

pi (probability of occurrence in relevant documents) can be estimated in various ways:

Casa

from relevant documents if know some

Casa

Relevance weighting can be used in feedback loop

Casa

constant (Croft and Harper combination match) – then just get idf weighting of terms

Casa

proportional to prob. of occurrence in collection

Casa

more accurately, to log of this (Greiff, SIGIR 1998)

24

Estimando pi iterativamente

1. Considere pi é constante para todo xi na consulta pi = 0.5 (probabilidades iguais) para qualquer

documento dado2. Determinar um conjunto estimado de documentos

relevante: V é um conjunto de tamanho fixo de documentos de

alta ordem nesse modelo (nota: similar a tf.idf!)3. Precisamos melhorar nossas estimativas para pi e ri,

logo Use a distribuição de xi nos documentos em V. Seja

Vi o conjunto de documentos que contém xi pi = |Vi| / |V|

Considere que se não recuperado então não é relevante ri = (ni – |Vi|) / (N – |V|)

4. Vá para 2. até que converja então retorne o ranking

Casa

Iteratively estimating pi

Casa

Assume that pi constant over all xi in query

Casa

pi = 0.5 (even odds) for any given doc

Casa

Determine guess of relevant document set:

Casa

V is fixed size set of highest ranked documents on this model (note: now a bit like tf.idf!)

Casa

We need to improve our guesses for pi and ri, so

Casa

Use distribution of xi in docs in V. Let Vi be set of documents containing xi

Casa

Assume if not retrieved then not relevant

Casa

Go to 2. until converges then return ranking

Relevance Feedback Probabilístico

1. Suponha uma descrição probabilística preliminar de R e utilize-a para recuperar o primeiro conjunto de documento V, como acima.

2. Interaja com o usuário para refinar a descrição: conheça membros definitivos de R e NR

3. Reestime pi e ri com base nestes Ou pode-se combinar a nova informação com a

suposição original(use anterior Bayesiano):

4. Repita, logo gerando uma sucessão de aproximações a R.

||

|| )1()2(

V

pVp ii

iκ é o

peso doanterior

Casa

Probabilistic Relevance Feedback

Casa

Guess a preliminary probabilistic description of R and use it to retrieve a first set of documents V, as above.

Casa

Interact with the user to refine the description: learn some definite members of R and NR

Casa

Reestimate pi and ri on the basis of these

Casa

Or can combine new information with original guess (use Bayesian prior):

Casa

κ is priorweight

Casa

Repeat, thus generating a succession of approximations to R.

PRP e BIR

É possível obter aproximações razoáveis das probabilidades.

Requer suposições restritivas: Independência de termos termos não presentes na consulta não afetam o

resultado representação booleana de

documentos/consulta/relevância valores de relevância dos documentos são

independentes Algumas dessas suposições podem ser removidas Problema: ou requer informação parcial sobre relevância

ou apenas pode derivar peso de termos, de certa forma, inferiores

Casa

Getting reasonable approximations of probabilities is possible.

Casa

Requires restrictive assumptions:

Casa

term independence

Casa

terms not in query don’t affect the outcome

Casa

boolean representation of documents/queries/relevance

Casa

document relevance values are independent

Casa

Some of these assumptions can be removed

Casa

Problem: either require partial relevance information or only can derive somewhat inferior term weights

Removendo a Independência de termo

Em geral, termos do índice não são independentes

Dependências podem ser complexas

van Rijsbergen (1979) propôs um modelo de dependência de árvore simples

A árvore de Friedman e Goldszmidt’s ampliaram a Naive Bayes (AAAI 13, 1996)

Cada termo dependia de um outro

Na década de 70, problemas de estimativa retiveram o sucesso desse modelo

Casa

Removing term independence

Casa

In general, index terms aren’t independent

Casa

Dependencies can be complex

Casa

van Rijsbergen (1979) proposed model of simple tree dependencies

Casa

Exactly Friedman and Goldszmidt’s Tree Augmented Naive Bayes (AAAI 13, 1996)

Casa

Each term dependent on one other

Casa

In 1970s, estimation problems held back success of this model

Alimento para o pensamento

Pense a respeito das diferenças entre o tf.idf padr’ao e o modelo de recuperação probabilístico na primeira iteração

Pense a respeito das diferenças entre o (pseudo) relevance feedback do espaço vetorial e o (pseudo) relevance feedback probabilístico

Casa

Food for thought

Casa

Think through the differences between standard tf.idf and the probabilistic retrieval model in the first iteration

Casa

Think through the differences between vector space (pseudo) relevance feedback and probabilistic (pseudo) relevance feedback

Notícias boas e ruins

Modelo de Espaço de Vetores Padrão Empírico em sua maior parte; sucesso medido pelos

resultados Poucas propriedades demonstráveis

Vantagens do Modelo Probabilístico Baseado em um embasamento teórico firme Justificativa teória de um esquema de ordenação ótimo

Desvantagens Fazer a suposição inicial para obter V Pesos binários da palavra-no-documento (sem usar

frequência de termos) Independência de termos (pode ser aliviada) Quantidade de cálculo Nunca funcionou convincentemente melhor na prática

Casa

Good and Bad News

Casa

Standard Vector Space Model

Casa

Empirical for the most part; success measured by results

Casa

Few properties provable

Casa

Probabilistic Model Advantages

Casa

Based on a firm theoretical foundation

Casa

Theoretically justified optimal ranking scheme

Casa

Disadvantages

Casa

Making the initial guess to get

Casa

Binary word-in-doc weights (not using term frequencies)

Casa

Independence of terms (can be alleviated)

Casa

Amount of computation

Casa

Has never worked convincingly better in practice

Redes Bayesianas para Recuperação de Texto (Turtle and Croft 1990)

Modelo probabilístico padrão supõe que você não pode estimar P(R|D,Q)

Ao invés disso supõe independência e usa P(D|R) Mas talvez você possa com uma rede Bayesiana* O que é uma rede Bayesiana?

Um grafo direcionado acíclico Vértices

Eventos ou Variáveis Supõe valores Para todos os propósitos, todos Booleanos

Arestas modelam dependências diretas entre os vértices

Casa

Bayesian Networks for Text Retrieval (Turtle and Croft 1990)

Casa

Standard probabilistic model assumes you can’t estimate P(R|D,Q)

Casa

Instead assume independence and use P(D|R)

Casa

But maybe you can with a Bayesian network

Casa

What is a Bayesian network?

Casa

A directed acyclic graph

Casa

Nodes

Casa

Events or Variables

Casa

Assume values

Casa

For our purposes, all Boolean

Casa

model direct dependencies between nodes

Casa

Links

Redes Bayesianas

a b

c

a,b,c - proposições (eventos).

p(c|ab) para todos os valores para a,b,c

p(a)

p(b)

• Redes Bayesianas modelam relações causais entre os eventos•Inferências Redes Bayesianas:

• Dadas a distribuições de probabilidade para raízes e probabilidades condicionais pode-se calcular a probabilidade apriori de qualquer instância• Fixar suposições (ex.: b foi observado) causará recálculo de probabilidades

DependênciaCondicional

Para mais informações: R.G. Cowell, A.P. Dawid, S.L. Lauritzen, and D.J. Spiegelhalter. 1999. Probabilistic Networks and Expert Systems. Springer Verlag. J. Pearl. 1988. Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference. Morgan-Kaufman.

Casa

Bayesian Networks

Casa

a,b,c - propositions (events).

Casa

Bayesian networks model causal relations between events

Casa

Inference in Bayesian Nets:

Casa

Given probability distributionsfor roots and conditional probabilities can compute apriori probability of any instance

Casa

Fixing assumptions (e.g., b was observed) will cause recomputation of probabilities

Casa

Conditional dependence

Casa

p(c|ab) for all values for a,b,c

Casa

For more information see:

Exemplo do Brinquedo

Desânimo(g)

Finais(f)

Entrega do Projeto(d)

Sem dormir(n)

Café com Leite Triplo(t)

7.02.01.001.0

3.08.09.099.0

g

g

dfdffdfd

6.0

4.0

dd

7.0

3.0

f

f

9.001.0

1.099.0

t

t

gg

7.01.0

3.09.0

n

n

ff

Casa

Toy Example

Casa

Finals

Casa

No Sleep

Casa

Project Due

Casa

Triple Latte

Suposições de Independência

• Suposição de Independência: P(t|g, f)=P(t|g)

• Probabilidade conjunta P(f d n g t) =P(f) P(d) P(n|f) P(g|f d) P(t|g)

Desânimo(g)

Finais(f)

Entrega do Projeto(d)

Sem dormir(n)

Café com leite Triplo(t)

Casa

Independence Assumptions

Casa

Project Due

Casa

Finals

Casa

No sleep

Casa

Gloom

Casa

Triple Latte

Casa

Joint probability

Inferência encadeada

Evidência – um vértice assume um valor Inferência

Calcular a crença (probabilidade) de outros vértices condicionado a uma evidência conhecida

Dois tipos de inferência: Diagnóstica e Preditiva Complexidade computacional

General network: NP-hard Rede similares a árvore são facilmente tratáveis Muitos outros trabalhos sobre inferência eficiente em

redes Bayesianas exatas e aproximadas Programação dinâmica inteligente Inferência aproximada (“propagação da crença em laço”)

Casa

Chained inference

Casa

Evidence - a node takes on some value

Casa

Inference

Casa

Compute belief (probabilities) of other nodes

Casa

conditioned on the known evidence

Casa

Two kinds of inference: Diagnostic and Predictive

Casa

Computational complexity

Casa

Tree-like networks are easily tractable

Casa

Much other work on efficient exact and approximate Bayesian network inference

Casa

Clever dynamic programming

Casa

Approximate inference (“loopy belief propagation”)

Modelo p/ Recuperação de Texto

Objetivo Dada a necessidade de informação do usuário

(evidência), encontrar a probabilidade de que um documento satisfaça a necessidade

Modelo de recuperação Modelar documentos em uma rede de

documentos Modelar a necessidade de informação em uma

rede de consulta

Casa

Model for Text Retrieval

Casa

Goal

Casa

Given a user’s information need (evidence), find probability a doc satisfies need

Casa

Retrieval model

Casa

Model docs in a document network

Casa

Model information need in a query network

Redes Bayesianas para RI: Ideia

Rede de Documento

Rede de Consulta

Grande, mascalcular uma vez paracada coleção de documentos

Pequeno, calcular uma vezpara cada consulta

d1 dnd2

t1 t2 tn

r1 r2 r3rk

di -documentos

ti – representações de documentori - “conceitos”

I

q2q1

cmc2c1 ci – conceitos de consulta

qi - conceitos de alto-nível

I - vértice objetivo

Casa

Bayesian Nets for IR: Idea

Casa

Document Network

Casa

documents

Casa

ti - document representations

Casa

ri - “concepts”

Casa

Large, butCompute once for each document collection

Casa

Small, compute once forevery query

Casa

high-level concepts

Casa

ci - query concepts

Casa

Query Network

Casa

I - goal node

Redes Bayesianas para RI

Construa Rede de Documento (uma vez!) Para cada consulta

Construa a melhor Rede de Consulta Anexe-a à Rede de Documentos Encontre o subconjunto de di’s que maximiza o

valor da probabilidade do vértice I (melhor subconjunto)

Recupere esses di’s como a resposta à consulta

Casa

Bayesian Nets for IR

Casa

Construct Document Network (once !)

Casa

For each query

Casa

Construct best Query Network

Casa

Attach it to Document Network

Casa

Find subset of di’s which maximizes the probability value of node I (best subset).

Casa

Retrieve these di’s as the answer to query.

Redes Bayesianas para recuperação de texto

d1 d2

r1 r3

c1 c3

q1 q2

i

r2

c2

Rede deDocumentos

Rede deConsulta

Documentos

Termos/Conceitos

Conceitos

Operadores de Consulta(AND/OR/NOT)

Necessidade de Informação

Casa

Bayesian nets for text retrieval

Casa

Terms/Concepts

Casa

DocumentNetwork

Casa

Concepts

Casa

Query operators(AND/OR/NOT)

Casa

Information need

Casa

QueryNetwork

Casa

Documents

Ligando matrizes e probabilidades

Probabilidade anterior do documento P(d) = 1/n

P(r|d) frequência do termo no

documento baseado em tf idf

P(c|r) 1-a-1 thesaurus

P(q|c): forma canônica dos operadores da consulta

Sempre use coisas como AND e NOT – nunca armazene a CPT* completa

*tabela de probabilidade condicional

Casa

Link matrices and probabilities

Casa

Prior doc probability P(d) = 1/n

Casa

within-document term frequency

Casa

tf ´ idf - based

Casa

P(q|c): canonical forms of query operators

Casa

Always use things like AND and NOT – never store a full CPT*

Casa

1-to-1

Exemplo: “reason trouble –two”

Hamlet Macbeth

reason double

reason two

OR NOT

Consulta do Usuário

trouble

trouble

Rede deDocumentos

Rede deConsulta

Casa

DocumentNetwork

Casa

QueryNetwork

Extensões

Probabilidades anteriores não têm que ser 1/n “Necessidade de informação do usuário” não

precisa ser uma consulta - podem ser palavras digitadas, documentos lidos, qualquer combinação …

Frases, vínculos intra-documentos Matrizes de vínculos podem ser modificadas ao

passar do tempo Feedback do usuário Promessa de “personalização”

Casa

Extensions

Casa

Prior probs don’t have to be 1/n.

Casa

“User information need” doesn’t have to be a query - can be words typed, in docs read, any combination …

Casa

“User information need” doesn’t have to be a query - can be words typed, in docs read, any combination …

Casa

Phrases, inter-document links

Casa

Link matrices can be modified over time.

Casa

User feedback.

Casa

The promise of “personalization”

Detalhes computacionais

Rede de documento construída em tempo de indexação

Rede de consulta construída/pontuada em tempo de consulta

Representação: Matrizes de vínculos de documentos para qualquer

termo individual são como entradas de endereçamento para aquele termo

Matrízes de vínculos são eficientes para armazenar e calcular

Anexar evidências apenas às raízes da rede Pode ser construído em única passagem das raízes

para as folhas

Casa

Computational details

Casa

Document network built at indexing time

Casa

Query network built/scored at query time

Casa

Representation:

Casa

Link matrices from docs to any single term are like the postings entry for that term

Casa

Canonical link matrices are efficient to store and compute

Casa

Attach evidence only at roots of network

Casa

Can do single pass from roots to leaves

Redes Bayesianas em RI

Formas flexíveis de combinar peso dos termos, que pode generalizar abordagem anteriores

Modelo Booleano Modelo binário de independência Modelos probabilísticos com suposições mais fracas

Implementação eficiente de larga-escala Sistema de recuperação de texto InQuery da Universidade de

Massachusetts Turtle e Croft (1990) [Defunto de versão comercial?]

São precisas aproximações para evitar inferências intratáveis É necessário estimar todas as probabilidades de algum modo

(ainda que mais ou menos ad hoc) Muita nova tecnologia de Redes Bayesianas a ser aplicada?

Casa

Bayes Nets in IR

Casa

Flexible ways of combining term weights, which can generalize previous approaches

Casa

Boolean model

Casa

Binary independence model

Casa

Probabilistic models with weaker assumptions

Casa

Efficient large-scale implementation

Casa

InQuery text retrieval system from U Mass

Casa

Turtle and Croft (1990) [Commercial version defunct?]

Casa

Need approximations to avoid intractable inference

Casa

Need to estimate all the probabilities by some means (whether more or less ad hoc)

Casa

Much new Bayes net technology yet to be applied?

Resources

S. E. Robertson and K. Spärck Jones. 1976. Relevance Weighting of Search Terms. Journal of the American Society for Information Sciences 27(3): 129–146.

C. J. van Rijsbergen. 1979. Information Retrieval. 2nd ed. London: Butterworths, chapter 6. [Most details of math] http://www.dcs.gla.ac.uk/Keith/Preface.html

N. Fuhr. 1992. Probabilistic Models in Information Retrieval. The Computer Journal, 35(3),243–255. [Easiest read, with BNs]

F. Crestani, M. Lalmas, C. J. van Rijsbergen, and I. Campbell. 1998.

Is This Document Relevant? ... Probably: A Survey of

Probabilistic Models in Information Retrieval. ACM Computing

Surveys 30(4): 528–552.

http://www.acm.org/pubs/citations/journals/surveys/1998-30-4/p528-crestani/

[Adds very little material that isn’t in van Rijsbergen or Fuhr ]

Resources

H.R. Turtle and W.B. Croft. 1990. Inference Networks for Document

Retrieval. Proc. ACM SIGIR: 1-24.E. Charniak. Bayesian nets without tears. AI Magazine 12(4): 50-63

(1991). http://www.aaai.org/Library/Magazine/Vol12/12-04/vol12-04.html

D. Heckerman. 1995. A Tutorial on Learning with Bayesian Networks.

Microsoft Technical Report MSR-TR-95-06http://www.research.microsoft.com/~heckerman/

N. Fuhr. 2000. Probabilistic Datalog: Implementing Logical Information

Retrieval for Advanced Applications. Journal of the American Society

for Information Science 51(2): 95–110.

R. K. Belew. 2001. Finding Out About: A Cognitive Perspective on Search

Engine Technology and the WWW. Cambridge UP 2001.

MIR 2.5.4, 2.8

CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados...

Documents

Transcript of CS276A Text Retrieval and Mining Lecture 10. Recapitulando a última aula Melhorando os resultados...