Medidas de Avaliação. Para a maioria dos sistemas computacionais é necessário criar medidas para...
-
Upload
joana-meneses-madeira -
Category
Documents
-
view
216 -
download
2
Transcript of Medidas de Avaliação. Para a maioria dos sistemas computacionais é necessário criar medidas para...
Medidas de Avaliação
Medidas de AvaliaçãoMedidas de Avaliação
Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência;
A medida mais comum é o tempo e o espaço. Quanto menor o tempo de resposta e menor o espaço de memória (em disco ou RAM) necessário, melhor será o sistema;
Em sistemas de recuperação de informação as buscas dos usuários são inerentemente vagas e os documentos recuperados não são exatos e precisam ser ordenados (“rankiados”) de acordo com sua relevância em relação à expressão de busca.
Medidas de AvaliaçãoMedidas de Avaliação
O que se almeja ao fazer uma busca em uma base documental é encontrar documentos que sejam úteis para satisfazer a uma necessidade de informação, evitando recuperar itens inúteis;
“Relevante”, “pertinente” são termos frequentemente utilizados para se referir a itens “úteis”;
Medidas de AvaliaçãoMedidas de Avaliação Após a execução de uma busca, pode-se dividir os
documentos do corpus nos seguintes conjuntos:
Relevantes não-Relevantes
Recuperados
não recuperados
Medidas de AvaliaçãoMedidas de Avaliação
Documentos úteis para atender a necessidade de informação do usuário
Documentos que não são úteis para o usuário
Para qualquer necessidade sempre haverá mais documentos não úteis (-) do que úteis (+);O problema está em recuperar o maior número possível de itens úteis e o menor número possível de itens inúteis;O quadrado menor representa o resultado de uma busca.
Medidas de AvaliaçãoMedidas de Avaliaçãoprecisão (precisão (precisionprecision))
Foram recuperados 20 itens, sendo 6 úteis e 14 inúteis
srecuperado docs nºsrecuperado relevantes docs nº Precisão
3,0206 Precisão
Precisão = 30%
Expressa o quanto o sistema é capaz de recuperar apenas itens úteis.
Medidas de AvaliaçãoMedidas de Avaliaçãorevocação (revocação (recallrecall))
Expressa o quanto o sistema é capaz de recuperar todos os itens úteis.
relevantes docs nº srecuperado relevantes docs nº Revocação
5,0126 Revocação
Revocação = 50%
Dos 12 documentos existente no corpus, apenas 6 foram recuperados
Medidas de AvaliaçãoMedidas de Avaliaçãorevocação x precisãorevocação x precisão
Para melhorar a revocação deve-se fazer uma busca mais genérica, representado pelo quadrado maior.
%1818,0499 Precisão
%7575,0129 Revocação
Revocação
Precisão
Medidas de AvaliaçãoMedidas de AvaliaçãoRevocação x Precisão
Medidas de AvaliaçãoMedidas de Avaliação
Apesar de muito utilizadas, as medidas de Precisão e Revocação apresentam alguns problemas:◦ A revocação máxima para uma
determinada busca requer um conhecimento de todos documentos do corpus. Para bases documentais muito grandes isso é impossível;
◦ Precisão e Revocação avaliam diferentes aspectos do corpus. Seria apropriado uma única medida que combinasse as duas;
Medidas de AvaliaçãoMedidas de Avaliaçãooutras medidasoutras medidas
Média harmônica
)(1
)(1
2 )(
jPjr
jF
Medida E
Calcula a média harmônica entre as medidas Precisão ( P ) e Revocação ( r )
)(1
)(
1 )( 2
2
jPjrb
bjE
Esta medida permite ao usuário escolher se ele está mais interessado em Revocação ou em Precisão.b > 1 o usuário está mais interessado em precisão.b < 1 o usuário está mais interessado em revocação
Medidas de AvaliaçãoMedidas de Avaliaçãomedidas orientadas ao usuáriomedidas orientadas ao usuário
As medidas Revocação e Precisão são baseadas na suposição que o conjunto de documentos relevantes para uma busca é o mesmo, independente do usuário.
Porém, diferentes usuários podem ter uma interpretação diferente de qual documento é relevante ou qual não é.
Para enfrentar esse problema, algumas medidas “orientadas ao usuário” foram criadas.
Medidas de AvaliaçãoMedidas de Avaliaçãomedidas orientadas ao usuáriomedidas orientadas ao usuário
Cobertura ( coverage )◦ Expressa a quantidade de documentos relevantes
(conhecidos) pelo usuário que foram recuperados;◦ Um alto valor de coverage indica que o sistema está
encontrando a maioria dos documentos relevantes que o usuário esperava.
Novidade, descoberta ( novelty )◦ Expressa a quantidade de documentos relevantes
recuperados que não eram conhecidos (previamente) pelo usuário;
◦ Um alto valor de novelty indica que o sistema está revelando para o usuário muitos novos documentos relevantes que eram desconhecidos para ele.
Coleções para Teste
Coleções para TesteColeções para Teste
Críticas à Information Retrieval◦Falta fundamentação básica
A natureza subjetiva à tarefa de decidir a relevância de um documento dificulta uma fundamentação teórica
◦Carece de “campo de provas” e medidas consistentes Anos de 1990.
Conferência anual chamada TREC (Text REtrieval Conference) dedicada a experimentação com uma grande coleção de teste composta de milhões de documentos;
Coleções para TesteColeções para Teste TREC
◦ Coleção de documentos de diversas fontes Wall Street Journal Associated Press US Patents Financial Times etc...
CACM◦ Coleção de artigos publicados no periódico
Communications of the ACM, cujo primeiro número foi publicado em 1958;
◦ Primeiro periódico em Ciência da Computação; ISI
◦ Institute of Scientific Information (ISI)◦ 1460 documentos