RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING
description
Transcript of RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING
RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS
INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING
Flávio Henrique Moura StakoviakOrientador: Edeílson Milhomem
Roteiro
• Sistemas de Recomendação
• Recuperação da Informação
• Clustering de Documentos
• Considerações Finais
Roteiro
• Sistemas de Recomendação• Recuperação da Informação
• Clustering de Documentos
• Considerações Finais
Sistemas de Recomendação
• Sistemas de Recomendação
• Sistemas de recomendação (SR) são responsáveis
por identificar um usuário e lhe apresentar
conteúdo, produtos ou ofertas personalizadas
(REATEGUI, BOFF & VICCARI, 2005)
Sistemas de Recomendação (cont.)
Sistema de Recomendação
Sistemas de Recomendação (cont.)
• Filtragem Baseada em Conteúdo
– Perfil do Usuário
– Base de Itens
• Filtragem Colaborativa
– Perfil de Todos os Usuários
– Base de Itens
Roteiro
• Sistemas de Recomendação
• Recuperação da Informação• Clustering de Documentos
• Considerações Finais
Recuperação da Informação
• Recuperação da Informação
• A RI tem como objetivo auxiliar os usuários na
busca por informações que os interessam em uma
coleção de documentos. Tal auxílio se dá a partir
da representação, armazenamento, organização e
acesso a essas informações (RODRIGUES, 2009).
Recuperação da Informação (cont.)
• Modelos
– Modelo Vetorial
– Modelo Booleano
– Modelo Probabilístico
Recuperação da Informação (cont.)
• Etapas
– Aquisição
– Preparação
– Indexação
– Busca
– Ordenação
Recuperação da Informação (cont.)
• Aquisição de Documentos
– Web Crawler
Web Crawler
AgendadorURL
Base de Textos
Recuperação da Informação (cont.)
• Preparação de Documentos
– Case Folding
– Stop Words
– Stemming
Recuperação da Informação (cont.)
• Indexação de Documentos
– Tipos
– Campos
– Thesaurus
Recuperação da Informação (cont.)
• Armazenamento de Documentos
– Método duplo de acesso às informações
armazenadas
– Manipulação de grandes volumes atualizações
– Controle de páginas obsoletas
Recuperação da Informação (cont.)
• Recuperação de Documentos
– Palavras-chave
– Casamento de Padrão
– Estrutura
Roteiro
• Sistemas de Recomendação
• Recuperação da Informação
• Clustering de Documentos• Considerações Finais
Clustering de Documentos
• Clustering
• é um método de descoberta de conhecimento que
identifica agregações ou relações entre objetos,
sendo um método útil para o agrupamento de
documentos similares (WIVES, 1999)
Clustering de Documentos (cont.)
• Similaridade Padrão
– Métricas de Distância Convêncionais
• Similaridade Conceitual
– Hierarquia de assuntos
– Pesos
Clustering de Documentos (cont.)
• Edit Distance: Grau de similaridade entre
« Peter » e « Piotr » Peter
Pieter
Pioter
Piotr
Substituição 1pt
Inserção 1pt
Exclusão 1pt
D(Peter, Piotr) = 3
Clustering de Documentos (cont.)
Ferramenta de Clustering
Cluster 1
Cluster 2
Cluster 3
Cluster 4
Cluster 5
Clustering de Documentos (cont.)
• Etapas de Clustering
– Representação de Padrões
– Mediação da Proximidade
– Indentificação do Clustering
– Abstração dos Dados
– Validação dos Clusters
Clustering de Documentos (cont.)
• Representação de Padrões
– Objeto
– Documentos Textuais
– Expansão dos Termos
– Melhor Performance ou Maior Eficiência
Clustering de Documentos (cont.)
• Mediação de Proximidade
– Qualitativos
– Quantitativos
Clustering de Documentos (cont.)
• Identificação de Clusters
– Clustering Hierárquico
– Algoritmo Particional
– Density-based
– Model Based
Roteiro (Clustering)
• Clustering Hierárquico
• Algoritmos Particionais
• K-Means
• K-Means Biseccionado
• Density-Based
• Model-Based
Roteiro (Clustering)
• Clustering Hierárquico• Algoritmos Particionais
• K-Means
• K-Means Biseccionado
• Density-Based
• Model-Based
Clustering de DocumentosHieráquico
• Hierarquia de partições simples
• Cada cluster é uma combinação de dois outro
clusters
• Dendograma
Clustering de DocumentosHierárquico (cont.)
• Ascendente (bottom-up)
– Começa com todos os clusters e combina pares
até a raiz;
Clustering de DocumentosHierárquico (cont.)
• Descendente (top-down)
– Começa com um único cluster e divide-se em dois
até alcançar o nível da árvore
Roteiro (Clustering)
• Clustering Hierárquico
• Algoritmos Particionais• K-Means
• K-Means Biseccionado
• Density-Based
• Model-Based
Roteiro (Clustering)
• Clustering Hierárquico
• Algoritmos Particionais
• K-Means• K-Means Biseccionado
• Density-Based
• Model-Based
Clustering de Documentosk-means
• Cria um número fixo de K clusters
• Vetores-documento
• Centróides
Clustering de Documentosk-means (cont.)
0
1
2
3
4
5
0 1 2 3 4 5
k1
k2
k3
Clustering de Documentosk-means (cont.)
0
1
2
3
4
5
0 1 2 3 4 5
k1
k2
k3
Clustering de Documentosk-means (cont.)
0
1
2
3
4
5
0 1 2 3 4 5
k1
k2
k3
Clustering de Documentosk-means (cont.)
0
1
2
3
4
5
0 1 2 3 4 5
k1
k2
k3
Roteiro (Clustering)
• Clustering Hierárquico
• Algoritmos Particionais
• K-Means
• K-Means Biseccionado• Density-Based
• Model-Based
Clustering de Documentosk-means biseccionado
Selecionar um cluster
Encontrar dois subgrupos Processo do k-means
Cluster produz maior
similaridade?
No de clusters desejado atingido?
Sim
Não
Sim
Não
Roteiro (Clustering)
• Clustering Hierárquico
• Algoritmos Particionais
• K-Means
• K-Means Biseccionado
• Density-Based• Model-Based
Clustering de DocumentosDensity-Based
• Características
• Encontrar clusters de forma arbitrária
• Lidar com ruídos
• Tempo de execução baseado nos parâmetros de
entrada
Roteiro (Clustering)
• Clustering Hierárquico
• Algoritmos Particionais
• K-Means
• K-Means Biseccionado
• Density-Based
• Model-Based
Clustering de DocumentosModel-Based
• Características
• Versão « probabilística » do k-means
• Pertence a um cluster conforme algum peso
• Capaz de lidar com incertezas associadas
Clustering de Documentos (cont.)
• Abstração dos Dados
– Visa a interoperabilidade
– Centróides
– Protótipos
Clustering de Documentos (cont.)
• Validação dos Clusters
– Comparação do resultado ideal com o resultado
alcançado
Roteiro
• Sistemas de Recomendação
• Recuperação da Informação
• Clustering de Documentos
• Considerações Finais
Considerações Finais
• Reduzir Sobrecarga de Informações com
Sistemas de Recomendação
• Recuperação eficiente de documentos com a
Recuperação de Dados
Considerações Finais
• Informações de importância dos textos
obtidas com a análise de dados
• Clustering mais utilizados
• Hierárquico
• K-means
Considerações Finais
• Clustering Hierárquico
• Prós: Melhor Qualidade
• Contra: Complexidade Quadrática
• K-means
• Prós: Complexidade Linear
• Contra: Pior qualidade
Considerações Finais
• K-means biseccionado
• Variante do k-means
• Mesmo tempo de execução
• Qualidade equivalente ao Hierárquico
• Trabalhos Futuros
RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS
INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING
Flávio Henrique Moura StakoviakOrientador: Edeílson Milhomem