Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

41
Roteamento de Consultas Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Transcript of Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Page 1: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Roteamento de Consultas

Bruno Cavalcante (bmsc)Gabriel Monteiro (gam)

João Florêncio (jcpf) Lucas Marinho (lpm)

Page 2: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Introdução P2P-RI WebSearch Social Query Query Routing Aplicações Desafios Conclusão

Agenda

Page 3: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Introdução

Page 4: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

FACTUAL

Introdução

Page 5: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Introdução

??

?

NÃO FACTUAL

Page 6: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Responde 78% das consultas Factuais Somente 29% das consultas Não-Factuais

Introdução

Page 7: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Surgimento de sites específicos

Introdução

Page 8: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Introdução

??

?

Page 9: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Introdução

Page 10: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Sistema de RI com a arquitetura de P2P Ecalabilidade Tolerância a falhas Simula o comportamento de uma rede

social◦ Contêm informação dos peers conhecidos◦ Infere a categoria de cada peer◦ Estima precisão e cobertura por topico para os

peers

Peer-to-Peer e RI

Page 11: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Roteamento de Consultas para Engenhos de Busca

Page 12: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Problemas dos engenhos de busca tradicionais:

◦ Engenhos de busca de propósito geral estão sujeitos a baixa precisão e/ou baixa cobertura;

◦ Diretorios proveem referências de alta qualidade, mas não acompanham o crescimento explosivo da web;

Web Search Query Routing

Page 13: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Engenhos de busca especificos:

Retornam frequentemente referências de melhor qualidade do que engenhos de próposito geral, por várias razões:◦ Detêm um banco de dados mais confiável;◦ Refletem o esforço de organizações

compremetidas em prover e atualizar com informações de boa qualidade;

◦ Menos ambiguidades e outros obstáculos linguísticos para buscas de alta precisão;

Web Search Query Routing

Page 14: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Web Search Query RoutingCONSULTA

Page 15: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

◦ Existem várias formas de fazer Roteamento de Consultas;

◦ Explicaremos a Topic-centric Query Routing; Não precisa de acesso total ao engenhos de busca

específicos; Compensa a falta de livre acesso aos engenhos de

busca com: Neighborhood-based topic identification;  Expansão de consulta;

Web Search Query Routing

Page 16: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Web Search Query Routing

Page 17: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Web Search Query Routing

Page 18: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

 Neighborhood-based identification of Search Engine’s Topic:

◦  The front-page method;

◦  The back-link method;

Web Search Query Routing

Page 19: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Expansão de consulta:◦ Pega os termos relevantes diretamente da web;◦ Avalia termos importantes pelo nível de co-

ocorrência;◦ Usa a técnica pseudo-feedback;

Web Search Query Routing

Page 20: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

 Clustering:

◦ Recebe os documentos e termos obtidos na Expansão de Consultas;

◦ Separa os termos em agrupamentos de tópicos diferentes;

Gerador de frase tópico:

◦ Frase extraída do conjunto de documentos recuperados da Expansão de consultas;

◦ Para cada cluster será gerado uma frase explicativa;◦ A frase que contém mais termos tópicos e maior co-

ocorrência será selecionada;

Web Search Query Routing

Page 21: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Search Engine Rank:

◦ Compara os termos obtidos na expansão de consulta com os termos armazenados na base de índices de engenhos de buscas;

◦  Calcula adequação dos engenhos de busca com a query da seguinte forma:

◦  Para cada cluster, seleciona-se o 3 melhores engenhos para apresentar ao usuário;

Web Search Query Routing

Page 22: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

O que é?◦ RI que considera relações e opiniões dos usuários.◦ Desafio em encontrar, ao invés do documento

certo, a pessoa certa.◦ Paradigmas:

Biblioteca x Vila

Social Query

Page 23: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Biblioteca -> busca na web tradicional◦ Consulta concisa com palavras chaves, concreta.◦ Confiança na autoridade.◦ Ex: Google, Bing, sistemas de bibliotecas.

Vila -> Social Query (ou search)◦ Consulta com linguagem natural, mais subjetiva.◦ Confiança na intimidade.◦ Considera momento e local da pergunta.◦ Ex: Facebook, Aardvark, Google Social Search.

Social Query

Page 24: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

O que tem de bom?◦ Complementa RI tradicional.◦ Consultas específicas (região, tempo real,

confiança por intimidade).◦ Trazem opiniões dos usuários dos serviços e não

apenas dos fornecedores. O que tem de não tão bom?

◦ Falta de privacidade.◦ Usuários tem receio de fazer perguntas triviais ou

que envolvam assuntos polêmicos.◦ Necessita de muitos usuários e acessos

constantes.

Social Query

Page 25: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Algumas estratégias◦ Pythia: A Privacy Aware, Peer-to-

Peer Network for Social Search. Construída a partir de uma rede

social pré-existente. Usuários informam os assuntos

de interesse (fica oculto). Garante privacidade e faz as

perguntas por flooding.

◦ Crowdsourcing Location-based Queries. Integra Twitter e Forsquare, para

responder perguntas com base na localização do usuário.

Social Query

Page 26: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Inicialização do usuário Análise da consulta

◦ Verifica se é uma pergunta.◦ Reconhece o assunto (palavra-chave, usa

tesauro). Ranking de usuários

◦ Temas escolhidos para responder.◦ Similaridade dos perfis dos usuários.◦ Proximidade dos nós.◦ Proximidade na localização, etc.

Direcionamento da pergunta

Query Routing

Page 27: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Outra alternativa: Q-Pilot◦ Roteamento de consultas centrado no tópico.◦ Recomenda melhores engenhos de busca para

determinada consulta.◦ Encontrou a categoria adequada da consulta 70%

das vezes.◦ O engenho de busca mais indicado para a

consulta ficou entre os 3 primeiros, dentre 144, 40% das vezes.

Query Routing

Page 28: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Aardvark

Page 29: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Aardvark

+

Page 30: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Aardvark

Page 31: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Aardvark

Page 32: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Engenho de busca social Responde questões subjetivas Perguntas em linguagem natural Informação nas pessoas e não nos

documentos

Aardvark - O que é?

Page 33: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Aardvark - Interface Web

Page 34: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Aardvark - Interface IM

Page 35: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Aardvark - Exemplo

Page 36: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Aardvark - Outro Exemplo

Page 37: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Aardvark - Arquitetura

Page 38: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Usa dois fatores principais para escolher o usuário que responde:

Probabilidade dele responder uma pergunta sobre aquele tema

Afinidade entre o usuário que pergunta e o que responde

Aardvark - Ranking

Page 39: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Respostas saem razoavelmente rápido(60% em menos de 10 min)

90% das perguntas são respondidas Respostas têm em média 24 palavras Perguntas têm em média 19 palavras Perguntas em grande parte

subjetivas(“procuro um bom restaurante”)

Aardvark - Dados 2010

Page 40: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Nem todas as respostas estão nos documentos

É possível e viável procurar respostas direto com as pessoas

Os esforços na área ainda são limitados O ranking e consulta a pessoas é um

problema desafiador

Conclusões

Page 41: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Bulut, M. F., Yilmaz, Y. S. & Demirbas, M. - Crowdsourcing Location-based Queries

Nilizadeh, S., Alam, N., Husted, N. & Kapadia, A. - Pythia: A Privacy Aware, Peer-to-Peer Network for Social Search

Sugiura, A. & Etzioni, O. - Query routing for Web search engines: architecture and experiments

 Horowitz, D. & Kamvar, S. D. - The Anatomy of a Large-Scale Social Search Engine

GoogleTechTalks - 2010 Google Faculty Summit: The Anatomy of a Large Scale Social Search Engine (video link)

Referências