Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)
Transcript of Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)
Roteamento de Consultas
Bruno Cavalcante (bmsc)Gabriel Monteiro (gam)
João Florêncio (jcpf) Lucas Marinho (lpm)
Introdução P2P-RI WebSearch Social Query Query Routing Aplicações Desafios Conclusão
Agenda
Introdução
FACTUAL
Introdução
Introdução
??
?
NÃO FACTUAL
Responde 78% das consultas Factuais Somente 29% das consultas Não-Factuais
Introdução
Surgimento de sites específicos
Introdução
Introdução
??
?
Introdução
Sistema de RI com a arquitetura de P2P Ecalabilidade Tolerância a falhas Simula o comportamento de uma rede
social◦ Contêm informação dos peers conhecidos◦ Infere a categoria de cada peer◦ Estima precisão e cobertura por topico para os
peers
Peer-to-Peer e RI
Roteamento de Consultas para Engenhos de Busca
Problemas dos engenhos de busca tradicionais:
◦ Engenhos de busca de propósito geral estão sujeitos a baixa precisão e/ou baixa cobertura;
◦ Diretorios proveem referências de alta qualidade, mas não acompanham o crescimento explosivo da web;
Web Search Query Routing
Engenhos de busca especificos:
Retornam frequentemente referências de melhor qualidade do que engenhos de próposito geral, por várias razões:◦ Detêm um banco de dados mais confiável;◦ Refletem o esforço de organizações
compremetidas em prover e atualizar com informações de boa qualidade;
◦ Menos ambiguidades e outros obstáculos linguísticos para buscas de alta precisão;
Web Search Query Routing
Web Search Query RoutingCONSULTA
◦ Existem várias formas de fazer Roteamento de Consultas;
◦ Explicaremos a Topic-centric Query Routing; Não precisa de acesso total ao engenhos de busca
específicos; Compensa a falta de livre acesso aos engenhos de
busca com: Neighborhood-based topic identification; Expansão de consulta;
Web Search Query Routing
Web Search Query Routing
Web Search Query Routing
Neighborhood-based identification of Search Engine’s Topic:
◦ The front-page method;
◦ The back-link method;
Web Search Query Routing
Expansão de consulta:◦ Pega os termos relevantes diretamente da web;◦ Avalia termos importantes pelo nível de co-
ocorrência;◦ Usa a técnica pseudo-feedback;
Web Search Query Routing
Clustering:
◦ Recebe os documentos e termos obtidos na Expansão de Consultas;
◦ Separa os termos em agrupamentos de tópicos diferentes;
Gerador de frase tópico:
◦ Frase extraída do conjunto de documentos recuperados da Expansão de consultas;
◦ Para cada cluster será gerado uma frase explicativa;◦ A frase que contém mais termos tópicos e maior co-
ocorrência será selecionada;
Web Search Query Routing
Search Engine Rank:
◦ Compara os termos obtidos na expansão de consulta com os termos armazenados na base de índices de engenhos de buscas;
◦ Calcula adequação dos engenhos de busca com a query da seguinte forma:
◦ Para cada cluster, seleciona-se o 3 melhores engenhos para apresentar ao usuário;
Web Search Query Routing
O que é?◦ RI que considera relações e opiniões dos usuários.◦ Desafio em encontrar, ao invés do documento
certo, a pessoa certa.◦ Paradigmas:
Biblioteca x Vila
Social Query
Biblioteca -> busca na web tradicional◦ Consulta concisa com palavras chaves, concreta.◦ Confiança na autoridade.◦ Ex: Google, Bing, sistemas de bibliotecas.
Vila -> Social Query (ou search)◦ Consulta com linguagem natural, mais subjetiva.◦ Confiança na intimidade.◦ Considera momento e local da pergunta.◦ Ex: Facebook, Aardvark, Google Social Search.
Social Query
O que tem de bom?◦ Complementa RI tradicional.◦ Consultas específicas (região, tempo real,
confiança por intimidade).◦ Trazem opiniões dos usuários dos serviços e não
apenas dos fornecedores. O que tem de não tão bom?
◦ Falta de privacidade.◦ Usuários tem receio de fazer perguntas triviais ou
que envolvam assuntos polêmicos.◦ Necessita de muitos usuários e acessos
constantes.
Social Query
Algumas estratégias◦ Pythia: A Privacy Aware, Peer-to-
Peer Network for Social Search. Construída a partir de uma rede
social pré-existente. Usuários informam os assuntos
de interesse (fica oculto). Garante privacidade e faz as
perguntas por flooding.
◦ Crowdsourcing Location-based Queries. Integra Twitter e Forsquare, para
responder perguntas com base na localização do usuário.
Social Query
Inicialização do usuário Análise da consulta
◦ Verifica se é uma pergunta.◦ Reconhece o assunto (palavra-chave, usa
tesauro). Ranking de usuários
◦ Temas escolhidos para responder.◦ Similaridade dos perfis dos usuários.◦ Proximidade dos nós.◦ Proximidade na localização, etc.
Direcionamento da pergunta
Query Routing
Outra alternativa: Q-Pilot◦ Roteamento de consultas centrado no tópico.◦ Recomenda melhores engenhos de busca para
determinada consulta.◦ Encontrou a categoria adequada da consulta 70%
das vezes.◦ O engenho de busca mais indicado para a
consulta ficou entre os 3 primeiros, dentre 144, 40% das vezes.
Query Routing
Aardvark
Aardvark
+
Aardvark
Aardvark
Engenho de busca social Responde questões subjetivas Perguntas em linguagem natural Informação nas pessoas e não nos
documentos
Aardvark - O que é?
Aardvark - Interface Web
Aardvark - Interface IM
Aardvark - Exemplo
Aardvark - Outro Exemplo
Aardvark - Arquitetura
Usa dois fatores principais para escolher o usuário que responde:
Probabilidade dele responder uma pergunta sobre aquele tema
Afinidade entre o usuário que pergunta e o que responde
Aardvark - Ranking
Respostas saem razoavelmente rápido(60% em menos de 10 min)
90% das perguntas são respondidas Respostas têm em média 24 palavras Perguntas têm em média 19 palavras Perguntas em grande parte
subjetivas(“procuro um bom restaurante”)
Aardvark - Dados 2010
Nem todas as respostas estão nos documentos
É possível e viável procurar respostas direto com as pessoas
Os esforços na área ainda são limitados O ranking e consulta a pessoas é um
problema desafiador
Conclusões
Bulut, M. F., Yilmaz, Y. S. & Demirbas, M. - Crowdsourcing Location-based Queries
Nilizadeh, S., Alam, N., Husted, N. & Kapadia, A. - Pythia: A Privacy Aware, Peer-to-Peer Network for Social Search
Sugiura, A. & Etzioni, O. - Query routing for Web search engines: architecture and experiments
Horowitz, D. & Kamvar, S. D. - The Anatomy of a Large-Scale Social Search Engine
GoogleTechTalks - 2010 Google Faculty Summit: The Anatomy of a Large Scale Social Search Engine (video link)
Referências