Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Post on 18-Apr-2015

107 views 0 download

Transcript of Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Roteamento de Consultas

Bruno Cavalcante (bmsc)Gabriel Monteiro (gam)

João Florêncio (jcpf) Lucas Marinho (lpm)

Introdução P2P-RI WebSearch Social Query Query Routing Aplicações Desafios Conclusão

Agenda

Introdução

FACTUAL

Introdução

Introdução

??

?

NÃO FACTUAL

Responde 78% das consultas Factuais Somente 29% das consultas Não-Factuais

Introdução

Surgimento de sites específicos

Introdução

Introdução

??

?

Introdução

Sistema de RI com a arquitetura de P2P Ecalabilidade Tolerância a falhas Simula o comportamento de uma rede

social◦ Contêm informação dos peers conhecidos◦ Infere a categoria de cada peer◦ Estima precisão e cobertura por topico para os

peers

Peer-to-Peer e RI

Roteamento de Consultas para Engenhos de Busca

Problemas dos engenhos de busca tradicionais:

◦ Engenhos de busca de propósito geral estão sujeitos a baixa precisão e/ou baixa cobertura;

◦ Diretorios proveem referências de alta qualidade, mas não acompanham o crescimento explosivo da web;

Web Search Query Routing

Engenhos de busca especificos:

Retornam frequentemente referências de melhor qualidade do que engenhos de próposito geral, por várias razões:◦ Detêm um banco de dados mais confiável;◦ Refletem o esforço de organizações

compremetidas em prover e atualizar com informações de boa qualidade;

◦ Menos ambiguidades e outros obstáculos linguísticos para buscas de alta precisão;

Web Search Query Routing

Web Search Query RoutingCONSULTA

◦ Existem várias formas de fazer Roteamento de Consultas;

◦ Explicaremos a Topic-centric Query Routing; Não precisa de acesso total ao engenhos de busca

específicos; Compensa a falta de livre acesso aos engenhos de

busca com: Neighborhood-based topic identification;  Expansão de consulta;

Web Search Query Routing

Web Search Query Routing

Web Search Query Routing

 Neighborhood-based identification of Search Engine’s Topic:

◦  The front-page method;

◦  The back-link method;

Web Search Query Routing

Expansão de consulta:◦ Pega os termos relevantes diretamente da web;◦ Avalia termos importantes pelo nível de co-

ocorrência;◦ Usa a técnica pseudo-feedback;

Web Search Query Routing

 Clustering:

◦ Recebe os documentos e termos obtidos na Expansão de Consultas;

◦ Separa os termos em agrupamentos de tópicos diferentes;

Gerador de frase tópico:

◦ Frase extraída do conjunto de documentos recuperados da Expansão de consultas;

◦ Para cada cluster será gerado uma frase explicativa;◦ A frase que contém mais termos tópicos e maior co-

ocorrência será selecionada;

Web Search Query Routing

Search Engine Rank:

◦ Compara os termos obtidos na expansão de consulta com os termos armazenados na base de índices de engenhos de buscas;

◦  Calcula adequação dos engenhos de busca com a query da seguinte forma:

◦  Para cada cluster, seleciona-se o 3 melhores engenhos para apresentar ao usuário;

Web Search Query Routing

O que é?◦ RI que considera relações e opiniões dos usuários.◦ Desafio em encontrar, ao invés do documento

certo, a pessoa certa.◦ Paradigmas:

Biblioteca x Vila

Social Query

Biblioteca -> busca na web tradicional◦ Consulta concisa com palavras chaves, concreta.◦ Confiança na autoridade.◦ Ex: Google, Bing, sistemas de bibliotecas.

Vila -> Social Query (ou search)◦ Consulta com linguagem natural, mais subjetiva.◦ Confiança na intimidade.◦ Considera momento e local da pergunta.◦ Ex: Facebook, Aardvark, Google Social Search.

Social Query

O que tem de bom?◦ Complementa RI tradicional.◦ Consultas específicas (região, tempo real,

confiança por intimidade).◦ Trazem opiniões dos usuários dos serviços e não

apenas dos fornecedores. O que tem de não tão bom?

◦ Falta de privacidade.◦ Usuários tem receio de fazer perguntas triviais ou

que envolvam assuntos polêmicos.◦ Necessita de muitos usuários e acessos

constantes.

Social Query

Algumas estratégias◦ Pythia: A Privacy Aware, Peer-to-

Peer Network for Social Search. Construída a partir de uma rede

social pré-existente. Usuários informam os assuntos

de interesse (fica oculto). Garante privacidade e faz as

perguntas por flooding.

◦ Crowdsourcing Location-based Queries. Integra Twitter e Forsquare, para

responder perguntas com base na localização do usuário.

Social Query

Inicialização do usuário Análise da consulta

◦ Verifica se é uma pergunta.◦ Reconhece o assunto (palavra-chave, usa

tesauro). Ranking de usuários

◦ Temas escolhidos para responder.◦ Similaridade dos perfis dos usuários.◦ Proximidade dos nós.◦ Proximidade na localização, etc.

Direcionamento da pergunta

Query Routing

Outra alternativa: Q-Pilot◦ Roteamento de consultas centrado no tópico.◦ Recomenda melhores engenhos de busca para

determinada consulta.◦ Encontrou a categoria adequada da consulta 70%

das vezes.◦ O engenho de busca mais indicado para a

consulta ficou entre os 3 primeiros, dentre 144, 40% das vezes.

Query Routing

Aardvark

Aardvark

+

Aardvark

Aardvark

Engenho de busca social Responde questões subjetivas Perguntas em linguagem natural Informação nas pessoas e não nos

documentos

Aardvark - O que é?

Aardvark - Interface Web

Aardvark - Interface IM

Aardvark - Exemplo

Aardvark - Outro Exemplo

Aardvark - Arquitetura

Usa dois fatores principais para escolher o usuário que responde:

Probabilidade dele responder uma pergunta sobre aquele tema

Afinidade entre o usuário que pergunta e o que responde

Aardvark - Ranking

Respostas saem razoavelmente rápido(60% em menos de 10 min)

90% das perguntas são respondidas Respostas têm em média 24 palavras Perguntas têm em média 19 palavras Perguntas em grande parte

subjetivas(“procuro um bom restaurante”)

Aardvark - Dados 2010

Nem todas as respostas estão nos documentos

É possível e viável procurar respostas direto com as pessoas

Os esforços na área ainda são limitados O ranking e consulta a pessoas é um

problema desafiador

Conclusões

Bulut, M. F., Yilmaz, Y. S. & Demirbas, M. - Crowdsourcing Location-based Queries

Nilizadeh, S., Alam, N., Husted, N. & Kapadia, A. - Pythia: A Privacy Aware, Peer-to-Peer Network for Social Search

Sugiura, A. & Etzioni, O. - Query routing for Web search engines: architecture and experiments

 Horowitz, D. & Kamvar, S. D. - The Anatomy of a Large-Scale Social Search Engine

GoogleTechTalks - 2010 Google Faculty Summit: The Anatomy of a Large Scale Social Search Engine (video link)

Referências