Apache Lucene - Relevância dos Resultados

12

Click here to load reader

Transcript of Apache Lucene - Relevância dos Resultados

Page 1: Apache Lucene - Relevância dos Resultados

Relevância dos resultados

Page 2: Apache Lucene - Relevância dos Resultados

Quanto maior for a relevância da busca com os resultados exibidos, maior a probabilidade do resultado ser a resposta que o usuário procura.

Page 3: Apache Lucene - Relevância dos Resultados

O Google utiliza aproximadamente 200 variáveis no seu algoritmo para o cálculo da relevância.

O internauta realiza a busca por uma palavra-chave, o Google calcula quais os sites de seus índices retornam para a palavra-chave procurada. Assim ele irá retornar os sites mais relevantes à pesquisa efetuada.

Page 4: Apache Lucene - Relevância dos Resultados
Page 5: Apache Lucene - Relevância dos Resultados

- Algoritmos de procura precisos e eficientes;

- Calcula uma pontuação para cada documento que corresponda a uma determinada consulta e retorna a maioria dos documentos relevantes classificados por essa pontuação;

- Suporta vários tipos de consulta (PhraseQuery, WildcardQuery, RangeQuery, FuzzyQuery, BooleanQuery e outros);

- Permite a procura e indexaçãosimultaneamente.

Page 6: Apache Lucene - Relevância dos Resultados
Page 7: Apache Lucene - Relevância dos Resultados

Indexando uma base:

Page 8: Apache Lucene - Relevância dos Resultados
Page 9: Apache Lucene - Relevância dos Resultados

Criando a consulta:

Page 10: Apache Lucene - Relevância dos Resultados

Imprimindo a consulta:

Page 11: Apache Lucene - Relevância dos Resultados
Page 12: Apache Lucene - Relevância dos Resultados

Score = Sum_t (tf_q * idf_t / norm_q * tf_d * idf_t / norm_d_t * boost_t) * coord_t;

idf_t = log(numDocsIndex/docFreq_t + 1) + 1.0;

norm_q = sqrt(sum_t((tf_q * idf_t) ^ 2));

Em resumo, o Score baseia-se em freqüência e duração do termo no documento.