Knowledge Management and Discovery Group Detecção de sessões de utilização nos diários dos...

25
Knowledge Management and Discovery Group Detecção de sessões de utilização nos diários dos Tumba! Ideias e Trabalho Preliminar

Transcript of Knowledge Management and Discovery Group Detecção de sessões de utilização nos diários dos...

Page 1: Knowledge Management and Discovery Group Detecção de sessões de utilização nos diários dos Tumba! Ideias e Trabalho Preliminar.

Knowledge Management and Discovery Group

Detecção de sessões de utilização nos diários dos

Tumba!

Ideias e Trabalho Preliminar

Page 2: Knowledge Management and Discovery Group Detecção de sessões de utilização nos diários dos Tumba! Ideias e Trabalho Preliminar.

Knowledge Management and Discovery Group

AGENDA

Apresentação do tumba! Web-Mining

• Diferentes perspectivas

Diários do tumba! Detecção de Sessões Padrões de utilização Extracção de relações semânticas Conclusão

Page 3: Knowledge Management and Discovery Group Detecção de sessões de utilização nos diários dos Tumba! Ideias e Trabalho Preliminar.

Knowledge Management and Discovery Group

Tumba!temos um motor bem alternativo!

Motor de pesquisa para a WWW portuguesa.

Desenvolvido pelo grupo XLDB @ fc.ul.pt

Actualmente indexa 10.273.292 documentos.

O “Google” para uma comunidade específica

http://www.tumba.pt

Page 4: Knowledge Management and Discovery Group Detecção de sessões de utilização nos diários dos Tumba! Ideias e Trabalho Preliminar.

Knowledge Management and Discovery Group

Tumba!temos um motor bem alternativo!

Page 5: Knowledge Management and Discovery Group Detecção de sessões de utilização nos diários dos Tumba! Ideias e Trabalho Preliminar.

Knowledge Management and Discovery Group

Web-Mining

Data-Mining para a WWW• Extracção de conhecimento relevante a partir

de dados obtidos na WWW

Mas que dados poderão ser esses?

Page 6: Knowledge Management and Discovery Group Detecção de sessões de utilização nos diários dos Tumba! Ideias e Trabalho Preliminar.

Knowledge Management and Discovery Group

Web-Mining

Conteúdo• As páginas HTML, imagens, video.... (text mining)

Estrutura• Os hyper-links contidos num único sítio web ou em

toda a WWW (algoritmo de page rank)

Utilização• Entradas nos diários de servidores e proxies HTTP,

histórico guardado pelo cliente HTTP (personalização, recomendação)

Page 7: Knowledge Management and Discovery Group Detecção de sessões de utilização nos diários dos Tumba! Ideias e Trabalho Preliminar.

Knowledge Management and Discovery Group

Extracto do diário do tumba!21a.13.2lk.abc - -[01/Oct/2003:00:00:07 +0100] "GET /pesquisa?lang=pt&index=sidra&terms=netmeeting HTTP/1.1" 200 19923 "http://www.tumba.pt/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)“

21a.13.2lk.abc - - [01/Oct/2003:00:00:08 +0100] "GET /pesquisa?pag=http://ils.telepac.pt&query_id=1064962805716&pos=0&terms=netmeeting&index=sidra&lang=pt HTTP/1.1" 302 167 "http://www.tumba.pt/pesquisa?lang=pt&index=sidra&terms=netmeeting" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"

2b3.2a.1w9.7e - - [01/Oct/2003:00:01:51 +0100] "GET /pesquisa?docs=10&terms=condominio&index=sidra&lang=pt&query_id=1064962635442&pos=hit_2 HTTP/1.1" 200 20025 "http://www.tumba.pt/pesquisa?lang=pt&index=sidra&terms=condominio&Submit.x=34&Submit.y=18" "Mozilla/4.0 (compatible; MSIE 6.0; Windows 98; Win 9x 4.90; (R1 1.3))"

1oo.23.1ww.1cc - - [01/Oct/2003:00:02:06 +0100] "GET /pesquisa?lang=pt&index=sidra&terms=descodificador+tvcabo&Submit.x=30&Submit.y=14 HTTP/1.1" 200 19742 "http://www.tumba.pt/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"

2xy.2a.2qq.1aa - - [01/Oct/2003:00:02:18 +0100] "GET /cache?terms=cache:http://cirurgia4.med.up.pt/jornadas3.html+distanasia&query_id=1064962876502 HTTP/1.1" 200 56505 "http://www.tumba.pt/pesquisa?lang=pt&index=sidra&terms=distanasia&Submit.x=63&Submit.y=5" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"

Page 8: Knowledge Management and Discovery Group Detecção de sessões de utilização nos diários dos Tumba! Ideias e Trabalho Preliminar.

Knowledge Management and Discovery Group

Informação usual nos diários

hora e data nome e tamanho do ficheiro a enviar endereço do cliente (pode ser um proxy!!) comando HTTP: GET, PUT, POST resultado: Status Code QueryID (específico do tumba!)

• Copulado a um mecanismo de re-direct

Page 9: Knowledge Management and Discovery Group Detecção de sessões de utilização nos diários dos Tumba! Ideias e Trabalho Preliminar.

Knowledge Management and Discovery Group

Preparação e limpeza dos diários21a.1sd.227.abc - - [01/Oct/2003:00:00:08 +0100] "GET pesquisa?pag=http://ils.telepac.pt&query_id=1064962805716&pos=0&terms=netmeeting&index=sidra&lang=pt HTTP/1.1" 302 167 "http://www.tumba.pt/pesquisa?lang=pt&index=sidra&terms=netmeeting" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"

Servlet pesquisa, IP 213.13.227.218, Date 1064962808312, Terms netmeeting, Language pt, Index sidra, Position 0, Page http://ils.telepac.pt, QueryID 1064962805716, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5

Page 10: Knowledge Management and Discovery Group Detecção de sessões de utilização nos diários dos Tumba! Ideias e Trabalho Preliminar.

Knowledge Management and Discovery Group

Preparação e limpeza dos diários

Ignorar as entradas que não correspondem a pesquisas

Ignorar as pesquisas nulas (sem termos)• Watchdog

• Erros ou experiências de utilizadores

Page 11: Knowledge Management and Discovery Group Detecção de sessões de utilização nos diários dos Tumba! Ideias e Trabalho Preliminar.

Knowledge Management and Discovery Group

Preparação e limpeza dos diários

Os diários estudados correspondem a período de 6 meses em 2003.

Inicialmente: 1.150.304 entradas

Após limpeza: 1.136.749 entradas• Re-directs: 678.126 entradas

• Pesquisas: 458.623

Page 12: Knowledge Management and Discovery Group Detecção de sessões de utilização nos diários dos Tumba! Ideias e Trabalho Preliminar.

Knowledge Management and Discovery Group

Detecção de Sessões de Utilização

Uma sessão pode ser definida como:

“Um período de tempo durante a qual existe alguma interactividade com a WWW por um utilizador”

Page 13: Knowledge Management and Discovery Group Detecção de sessões de utilização nos diários dos Tumba! Ideias e Trabalho Preliminar.

Knowledge Management and Discovery Group

Detecção de Sessões de Utilização

5 variáveis foram utilizadas:• QueryID

• Agent

• Endereço IP

• Date

• Termos da Pesquisa

Page 14: Knowledge Management and Discovery Group Detecção de sessões de utilização nos diários dos Tumba! Ideias e Trabalho Preliminar.

Knowledge Management and Discovery Group

Detecção de Sessões de Utilização - Algoritmo

Quando existe QueryID faz parte de uma sessão de utilização existente.

Quando não existe QueryID• Inicio de uma nova sessão

• Ou reformulação da pesquisa

Page 15: Knowledge Management and Discovery Group Detecção de sessões de utilização nos diários dos Tumba! Ideias e Trabalho Preliminar.

Knowledge Management and Discovery Group

Detecção de Sessões de Utilização - Algoritmo

Assumimos que uma entrada pertence a uma sessão existente se:• Têm mesmo agente

• Têm mesmo endereço IP

• O intervalo entre a última entrada e a corrente é menor do que um limiar estabelecido

• Pelo menos um termo (após radicalização) na sessão é utilizado na entrada actual

Page 16: Knowledge Management and Discovery Group Detecção de sessões de utilização nos diários dos Tumba! Ideias e Trabalho Preliminar.

Knowledge Management and Discovery Group

Detecção de Sessões de Utilização - Algoritmo

Sessões que após “algum tempo” estão inactivas

• Expiram e são removidas de memória central

Page 17: Knowledge Management and Discovery Group Detecção de sessões de utilização nos diários dos Tumba! Ideias e Trabalho Preliminar.

Knowledge Management and Discovery Group

Exemplo de uma Sessão

Servlet pesquisa, IP d9e.2a.1cs.159, Date 1064962926312, Terms descodificador tvcabo, Language pt, Index sidra, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)

Servlet pesquisa, IP d9e.2a.1cs.159, Date 1064962971328, Terms crack tvcabo, Language pt, Index sidra, NumberOfDocuments 0, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)

Servlet pesquisa, IP d9e.2a.1cs.159, Date 1064962998328, Terms crack tvcabo, Language pt, Index sidra, Position 0, Page http://www.esec-madeira-torres.rcts.pt/jornal interactivo 2/sites.htm, QueryID 1064962970178, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)

Page 18: Knowledge Management and Discovery Group Detecção de sessões de utilização nos diários dos Tumba! Ideias e Trabalho Preliminar.

Knowledge Management and Discovery Group

Problema com o Algoritmo

Servlet pesquisa, IP 1y3.ab6.1v1.a, Date 1065005110937, Terms sumos, Language pt, Site www.dgcc.pt, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0)

Servlet pesquisa, IP 1y3.ab6.1v1.a, Date 1065005130937, Terms site:www.dgcc.pt sumos, Language pt, Index pt, Position 0, Page http://www.dgcc.pt/38.htm, QueryID 1065005104943, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0)

Servlet pesquisa, IP 1y3.ab6.1v1.a, Date 1065005269937, Terms compal, Language pt, Index pt, NumberOfDocuments 0, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0)

Servlet pesquisa, IP 1y3.ab6.1v1.a, Date 1065005323953, Terms compal sumos, Language pt, Index pt, NumberOfDocuments 0, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0)

Page 19: Knowledge Management and Discovery Group Detecção de sessões de utilização nos diários dos Tumba! Ideias e Trabalho Preliminar.

Knowledge Management and Discovery Group

Solução Proposta

Antes de remover uma sessão:• verificar se essa pode ser “cabeçalho” de

outra já existente.• Utilizar as regras anteriores mas agora tendo em

conta as sessões já estabelecidas.

Aglomerar Sessões

Page 20: Knowledge Management and Discovery Group Detecção de sessões de utilização nos diários dos Tumba! Ideias e Trabalho Preliminar.

Knowledge Management and Discovery Group

Aglomeração de Sessões

Servlet pesquisa, IP 1y3.ab6.1v1.a, Date 1065005110937, Terms sumos, Language pt, Site www.dgcc.pt, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0)

Servlet pesquisa, IP 1y3.ab6.1v1.a, Date 1065005130937, Terms site:www.dgcc.pt sumos, Language pt, Index pt, Position 0, Page http://www.dgcc.pt/38.htm, QueryID 1065005104943, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0)

Servlet pesquisa, IP 1y3.ab6.1v1.a, Date 1065005269937, Terms compal, Language pt, Index pt, NumberOfDocuments 0, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0)

Servlet pesquisa, IP 1y3.ab6.1v1.a, Date 1065005323953, Terms compal sumos, Language pt, Index pt, NumberOfDocuments 0, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0)

Page 21: Knowledge Management and Discovery Group Detecção de sessões de utilização nos diários dos Tumba! Ideias e Trabalho Preliminar.

Knowledge Management and Discovery Group

Aglomeração de Sessões

4187 aglomerações efectuadas

Inspecção manual preliminar das aglomerações são favoráveis

Page 22: Knowledge Management and Discovery Group Detecção de sessões de utilização nos diários dos Tumba! Ideias e Trabalho Preliminar.

Knowledge Management and Discovery Group

Padrões de utilização mais frequentes

Sessões Padrão60611 PEQUISA

20221 PESQUISA:0

14702 PESQUISA:PESQUISA

5559 PESQUISA:1

5018 PESQUISA:PESQUISA:PESQUISA

3254 PESQUISA:2

2345 PESQUISA:PAG_2

Total de 235.713 sessões detectadas

Page 23: Knowledge Management and Discovery Group Detecção de sessões de utilização nos diários dos Tumba! Ideias e Trabalho Preliminar.

Knowledge Management and Discovery Group

Extracção de Relações Semânticas

avaliação carroavaliação automóvel

construir instrumentos de músicafabricar instrumentos de música

Alguns extractos de sessões....

misturas para avesmisturas para periquitos

coser malhastricô

bonecosdesenhos animados

purificadores de águafiltros de água

pensões portoresidenciais porto

Page 24: Knowledge Management and Discovery Group Detecção de sessões de utilização nos diários dos Tumba! Ideias e Trabalho Preliminar.

Knowledge Management and Discovery Group

Extracção de Relações Semânticas

Não sabemos exactamente que relação temos.

TALVEZ! Possamos “olhar” para página que o utilizador consultou e extrair a relação...

Page 25: Knowledge Management and Discovery Group Detecção de sessões de utilização nos diários dos Tumba! Ideias e Trabalho Preliminar.

Knowledge Management and Discovery Group

Detecção de sessões de utilização nos diários dos

Tumba!

Ideias e Trabalho Preliminar

FIM