Avaliação e Testes em Sistemas de Recomendação (Evaluation and Testing of Recommender Systems)
description
Transcript of Avaliação e Testes em Sistemas de Recomendação (Evaluation and Testing of Recommender Systems)
Börje Karlsson & Francimar Maciel
Avaliação e Testes em Sistemas de Recomendação"
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
Recomendação
Otimização de Tempo
Conteúdo de interesse
Serviço específicos
Conteúdos"relevantes
Confiança e relacionamento
Personalização"
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
Quem Recomenda
Você, seus amigos, sua família etc
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
Sistema de Recomendação
Itens!
Consulta Recomendações
Produtos: websites, blogs, notícias, músicas, livros, …
Personalização Automática Usuário diferente, experiência diferente
Precisa de dados do usuário
Recomendações por conteúdo Metadados de usuário (demográficos)
Metadata dos itens (catálogo)
Recomendações por contexto Dados usuário–item–contexto tempo, lugar, atividade, papel
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
Dados e Uso
Compilar grandes quantidades de dados e mostrar
tendências personalizadas que agreguem valor ao usuário
“Pessoas que gostam disto também …” Agregar dados
comportamentais para realizar
recomendações
Histórico de acessos, consumo,
contatos e compartilhamento de
conteúdo
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
Amazon.com
1!
2!
3!
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
Netflix 3!
1!
2!
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
Last.fm
3!
1!
2!
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
Em Ambientes Móveis…
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
Também em Propaganda Personalizada
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
O Que é um Recomendador?
gostos!Perfis dos itens!
Azul!Círculos!
Triângulos!
Perfil do usuário!
casa!
recomenda! constrói!
1. Coleta de dados
2. Treinamento do Modelo • ”Aprende” ao processar os dados
3. Gerador de Recomendações
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
Como se Testa um SR?
• Testes funcionais • Testes do algoritmo de recomendação • Teste da experiência do usuário
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
Avaliação do Algoritmo
• Avaliações geralmente offline"• Comparação de predições com notas"• Root-mean-square error (RMSE)"
• Correlações"
Deveria comparar alternativas!"
• Modelo 0/1 (Interessante / Não interessante)"• Cobertura"
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
Contexto “Contexto é qualquer informação que pode ser utilizada para caracterizar a situação de uma entidade” (A. K. Dey et al., Understanding and using context, 2001)
No caso de Sistemas de Recomendação: - Contexto de usabilidade (pessoa) - Contexto para recomendação (sistema)
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
User Experience "“Momentary, primarily evaluative feeling (good-bad) while interacting with a product or service.” (Hassenzahl 2008 apud Knijnenburg et al 2012)
“Experience is a very dynamic, complex and subjective phenomenon. It depends of upon
the perception of multiple sensory qualities f a design, interpreted through filters relating to
contextual factors” (Buxton, 2007)
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
Experiência de Uso (UX) & Sistema de Recomendação"(Aspectos subjetivos) + (Algoritmos de aprendizado)"
!
Esforço!
Dificuldade!
Componentes da UX"
Eficiência percebida do sistema!
Satisfacão com a escolha!
Conforto!
Contexto!
Estes fatores não tem recebido a devida atenção
(Knijnenburg et al 2012)
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
Conteúdo Processo Flexibilidade Controle
“A good experience varies from person to person, product to product, and task to task, but a good general definition is to define something as ‘usable’ if it is funcional, efficient and desirable to its intend audience.” (Kuniavsky, 2003)
Rapidez Sugestões Explorar Compartilhar Intuitividade Quantidade Disponibilidade Custo x Benefício
Necessidades Expectativas Semântica Barreiras
User Experience "
Framework para Avaliação de Sistemas de Recomendação (Knijnenburg et al 2012)
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
Framework para Avaliação de Sistemas de Recomendação (Knijnenburg et al 2012)
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
Framework para Avaliação de Sistemas de Recomendação (Knijnenburg et al 2012)
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
Entrevistas, Grupos de Foco, Pesquisa Contextual, Questionários Observação Participativa, Testes de Usabilidade.
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
• Recrutamento • Criação de tarefas específicas • Observação e registro – ferramentas e meios
utilizados, sequências de ações, métodos de organização, como são as interações.
• Transferências e compartilhamento de conhecimento
Escalas de Avaliação
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
Escalas de Avaliação
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
Escalas de Avaliação
• NPS no celular
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
Contexto para Recomendação Comportamento + Ambiente + Interações
Informação fluindo dos, e para os, usuários: extraída do conteúdo; inferida das atividades; sensorial; explícita (comentários, bookmarks, etc.)
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
Contexto para Recomendação
Camera"
Microphone"
GPS"
WLAN positioning"
Accelerometer"
Camera" Databases"Time table"
Websites"Wikipedia"
Maps" Music Catalogue"Documents"
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
Modelos de Contexto
Heterogeneidade"
Relacionamentos e Dependências"
Timeliness"
Lidar com Imperfeições"
Raciocínio"
Usabilidade do Formalismo de
Modelagem"
Provisionamento Eficiente �
do Contexto"
Requisitos"
(Bettini et al., A Survey of Context Modeling and Reasoning Techniques, 2009)!
Framework para Avaliação de Sistemas de Recomendação (Knijnenburg et al 2012)
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
Contexto Ambiente Conhecimento Atitudes Familiaridade
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
Níveis de Inteligência Contextual
From Xerox PARC!
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
Compreensão do Processo
Etapas em alto nível !
Stern, Herbrich, Graepel 2009!
Não em detalhes
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
Music Intelligence Spearhead (MIS) - Dispositivos móveis estão sempre com os usuários - Ouvir música é bastante pessoal e situacional
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
Music Intelligence Spearhead (MIS) • Podemos usar Contexto para melhorar recomendações de música?
• A aplicação deveria “just work” • coletar dados contextuais; • entender o contexto do usuário; • recomendar quando e o que tocar.!
• Arquitetura e sistema capaz de suportar futuras pesquisas.
• Testes com usuários em quatro países.
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
Music Intelligence Spearhead (MIS)
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
MIS - Avaliação • 10 Usuários de música no celular | 18-32 anos • Entrevistas em profundidade • Cada usuário, 1 semana de uso • Lista de tarefas acompanhadas e orientadas de forma
presencial e via SMS • Cada usuário recebeu 80 libras como estímulo para
experimentar e comprar novas músicas.
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
MIS - Avaliação Procedimentos iniciais • Tranferência de 200 músicas • Lista de tarefas para estimular o uso do aplicativo e familiarização com as telas (Percepção inicial) • Instrução sobre os próximos passos da avaliação
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
MIS - Resultados
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
MIS - Resultados • A recomendação deveria ser
mais rápida.
• A recomendação não foi relevante.
• Gostei! Mas eu não compraria.
• Queria entender como isso funciona.
• Eu gostei, mas não recomendaria para meu amigo.
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
MIS - Resultados
• Eu gostei mas gostaria de receber mais conteúdos de um gênero específico.
• Superou minhas expectativas
• Interessante, mas gostaria de receber as músicas de acordo com o gênero que estou escutando naquele determinado momento.
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
MIS - Resultados
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
MIS - Resultados
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
MIS - Aprendizados
• Quanto mais testes melhor.
• Recompensas e Bônus não foram estímulos significativos. O que realmente importou? Receber o conteúdo de interesse. !
• A pesquisa deve ser Qualitativa e Quantitativa • Maior alinhamento com a equipe de software e
desenvolvimento para melhorias contínuas e maior controle durante a avaliação destes sistemas.
“So, if we decide that we want to strive for a comparable standard of experience in the products that we are designing, and therefore adopt an appropriate process for doing so, what might that process be? Making a contribution toward answering this question is at heart of what follows.” Bill Buxton (Sketching User Experience)
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
Referências KNIJNENBURG, B. P.; WILLEMSEN, M. C.; GARTNER, Z.; SONCU, H.; NEWELL, C. Explaining the user experience of recommender systems. User Modeling and User-Adapted Interaction. October 2012, Volume 22, Issue 4-5. pp 441-504. Disponível em:< http://www.usabart.nl/portfolio/KnijnenburgWillemsen-UMUAI2011_UIRecSy.pdf>. REICHHELD, F. F. A pergunta definitiva 2.0. Como as empresas que implementam o net promoter score prosperam em um mundo voltado aos clientes. Rio de Janeiro: Elsevier, 2011. BUXTON, B. Sketching User Experiences, getting the design right and the right design. San Francisco: Elsevier, 2007. KUNIAVSKY, M. Observing the user experience. San Francisco: Morgan Kaufmann Publishers, 2003. KNIJNENBURG, B. P.; WILLEMSEN, M. C.; KOBSA, A. A Pragmatic Procedure to Support the User-Centric Evaluation of Recommender Systems. Proceedings of the fifth ACM conference on Recommender systems. Chicago, IL, 2011. Disponível em: < http://www.ics.uci.edu/~kobsa/papers/2011-RecSys-kobsa.pdf>.
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
Börje:"!@tellarin! Fran:"
!@narf2916!