RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS

INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Flávio Henrique Moura StakoviakOrientador: Edeílson Milhomem

Roteiro

• Sistemas de Recomendação

• Recuperação da Informação

• Clustering de Documentos

• Considerações Finais

Roteiro

• Sistemas de Recomendação• Recuperação da Informação



Sistemas de Recomendação


• Sistemas de recomendação (SR) são responsáveis

por identificar um usuário e lhe apresentar

conteúdo, produtos ou ofertas personalizadas

(REATEGUI, BOFF & VICCARI, 2005)

Sistemas de Recomendação (cont.)

Sistema de Recomendação

Sistemas de Recomendação (cont.)

• Filtragem Baseada em Conteúdo

– Perfil do Usuário

– Base de Itens

• Filtragem Colaborativa

– Perfil de Todos os Usuários

– Base de Itens

Roteiro


• Recuperação da Informação• Clustering de Documentos


Recuperação da Informação


• A RI tem como objetivo auxiliar os usuários na

busca por informações que os interessam em uma

coleção de documentos. Tal auxílio se dá a partir

da representação, armazenamento, organização e

acesso a essas informações (RODRIGUES, 2009).

Recuperação da Informação (cont.)

• Modelos

– Modelo Vetorial

– Modelo Booleano

– Modelo Probabilístico


• Etapas

– Aquisição

– Preparação

– Indexação

– Busca

– Ordenação


• Aquisição de Documentos

– Web Crawler

Web Crawler

AgendadorURL

Base de Textos


• Preparação de Documentos

– Case Folding

– Stop Words

– Stemming


• Indexação de Documentos

– Tipos

– Campos

– Thesaurus


• Armazenamento de Documentos

– Método duplo de acesso às informações

armazenadas

– Manipulação de grandes volumes atualizações

– Controle de páginas obsoletas


• Recuperação de Documentos

– Palavras-chave

– Casamento de Padrão

– Estrutura

Roteiro



• Clustering de Documentos• Considerações Finais

Clustering de Documentos

• Clustering

• é um método de descoberta de conhecimento que

identifica agregações ou relações entre objetos,

sendo um método útil para o agrupamento de

documentos similares (WIVES, 1999)

Clustering de Documentos (cont.)

• Similaridade Padrão

– Métricas de Distância Convêncionais

• Similaridade Conceitual

– Hierarquia de assuntos

– Pesos


• Edit Distance: Grau de similaridade entre

« Peter » e « Piotr » Peter

Pieter

Pioter

Piotr

Substituição 1pt

Inserção 1pt

Exclusão 1pt

D(Peter, Piotr) = 3


Ferramenta de Clustering

Cluster 1

Cluster 2

Cluster 3

Cluster 4

Cluster 5


• Etapas de Clustering

– Representação de Padrões

– Mediação da Proximidade

– Indentificação do Clustering

– Abstração dos Dados

– Validação dos Clusters


• Representação de Padrões

– Objeto

– Documentos Textuais

– Expansão dos Termos

– Melhor Performance ou Maior Eficiência


• Mediação de Proximidade

– Qualitativos

– Quantitativos


• Identificação de Clusters

– Clustering Hierárquico

– Algoritmo Particional

– Density-based

– Model Based

Roteiro (Clustering)

• Clustering Hierárquico

• Algoritmos Particionais

• K-Means

• K-Means Biseccionado

• Density-Based

• Model-Based


• Clustering Hierárquico• Algoritmos Particionais

• K-Means


• Density-Based

• Model-Based

Clustering de DocumentosHieráquico

• Hierarquia de partições simples

• Cada cluster é uma combinação de dois outro

clusters

• Dendograma

Clustering de DocumentosHierárquico (cont.)

• Ascendente (bottom-up)

– Começa com todos os clusters e combina pares

até a raiz;

Clustering de DocumentosHierárquico (cont.)

• Descendente (top-down)

– Começa com um único cluster e divide-se em dois

até alcançar o nível da árvore



• Algoritmos Particionais• K-Means


• Density-Based

• Model-Based




• K-Means• K-Means Biseccionado

• Density-Based

• Model-Based

Clustering de Documentosk-means

• Cria um número fixo de K clusters

• Vetores-documento

• Centróides

Clustering de Documentosk-means (cont.)

0

1

2

3

4

5

0 1 2 3 4 5

k1

k2

k3




• K-Means

• K-Means Biseccionado• Density-Based

• Model-Based

Clustering de Documentosk-means biseccionado

Selecionar um cluster

Encontrar dois subgrupos Processo do k-means

Cluster produz maior

similaridade?

No de clusters desejado atingido?

Sim

Não

Sim

Não




• K-Means


• Density-Based• Model-Based

Clustering de DocumentosDensity-Based

• Características

• Encontrar clusters de forma arbitrária

• Lidar com ruídos

• Tempo de execução baseado nos parâmetros de

entrada




• K-Means


• Density-Based

• Model-Based

Clustering de DocumentosModel-Based

• Características

• Versão « probabilística » do k-means

• Pertence a um cluster conforme algum peso

• Capaz de lidar com incertezas associadas


• Abstração dos Dados

– Visa a interoperabilidade

– Centróides

– Protótipos


• Validação dos Clusters

– Comparação do resultado ideal com o resultado

alcançado

Roteiro





Considerações Finais

• Reduzir Sobrecarga de Informações com

Sistemas de Recomendação

• Recuperação eficiente de documentos com a

Recuperação de Dados


• Informações de importância dos textos

obtidas com a análise de dados

• Clustering mais utilizados

• Hierárquico

• K-means



• Prós: Melhor Qualidade

• Contra: Complexidade Quadrática

• K-means

• Prós: Complexidade Linear

• Contra: Pior qualidade


• K-means biseccionado

• Variante do k-means

• Mesmo tempo de execução

• Qualidade equivalente ao Hierárquico

• Trabalhos Futuros

RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS

INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Flávio Henrique Moura StakoviakOrientador: Edeílson Milhomem

RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

Documents

Transcript of RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING