Avaliacao de particao vs avaliacao de clusters wci 2010

16
Avaliação de Partições vs Avaliação de Clusters Gustavo Henrique Rodrigues Pinto Tomas Dra. Katti Faceli Projeto financiado por: Programa Institucional de Bolsas de Iniciação Cientifica – PIBIC Conselho Nacional de Desenvolvimento Científico e Tecnológico – CNPq Universidade Federal de São Carlos – Campus Sorocaba III Workshop on Computational Intelligence

description

Slides utilizados durante a apresentação do artigo intitulado "Avaliação de Partições Vs Avaliação de Clusters" no III Workshop on Computational Intelligence - Joint Conference 2010

Transcript of Avaliacao de particao vs avaliacao de clusters wci 2010

Page 1: Avaliacao de particao vs avaliacao de clusters  wci 2010

Avaliação de Partições vs Avaliação de Clusters

Gustavo Henrique Rodrigues Pinto Tomas

Dra. Katti Faceli

Projeto financiado por: Programa Institucional de Bolsas de Iniciação Cientifica – PIBIC

Conselho Nacional de Desenvolvimento Científico e Tecnológico – CNPq

Universidade Federal de São Carlos – Campus Sorocaba

III Workshop on Computational Intelligence

Page 2: Avaliacao de particao vs avaliacao de clusters  wci 2010

Motivação

• Definição de cluster;

• Abordagens tradicionais: cada algoritmo segue um critério diferente;

• Abordagens multi-objetivos: Ex.: MOCLE.

• Nova Abordagem: Análise de Clusters Individualmente.

Análise de Partições vs Avaliação de Clusters – III WCI – UFSCar Campus Sorocaba

Page 3: Avaliacao de particao vs avaliacao de clusters  wci 2010

Análise de Partições vs Avaliação de Clusters – III WCI – UFSCar Campus Sorocaba

Preparação dos Dados

Agrupamento Validação

Motivação

Critérios de Agrupamento

Page 4: Avaliacao de particao vs avaliacao de clusters  wci 2010

Critérios de Agrupamento

• Compactação:

– Pequena variação intra-cluster;

– Clusters esféricos e/ou bem separados;

• Encadeamento:

– Objetos vizinhos tem que compartilhar o mesmo cluster;

– Adequado para clusters com forma arbitrária;

– Ruim quando há pouca separação entre os clusters;

• Separação:

– Somente a separação espacial fornece pouca informação;

– Aplicada em associação com outros critérios.

Análise de Partições vs Avaliação de Clusters – III WCI – UFSCar Campus Sorocaba

Page 5: Avaliacao de particao vs avaliacao de clusters  wci 2010

Abordagens

Estrutura Real K-Means

Single Link Average

Análise de Partições vs Avaliação de Clusters – III WCI – UFSCar Campus Sorocaba

Page 6: Avaliacao de particao vs avaliacao de clusters  wci 2010

Índices Relativos

Índice Critério Característica

Desvio Total (Adaptado)

Compactação Avalia a qualidade de um agrupamento em termos da

compactação dos clusters

Conectividade (Adaptado)

Encadeamento Reflete o grau com que os objetos vizinhos são colocados no mesmo

cluster

Silhueta Compactação e Separação

Baseia-se na proximidade entre os objetos de um cluster e na distância dos objetos de um cluster ao cluster

mais próximo

Consistência-KNN (Adaptado)

Encadeamento Os objetos de cada classe são distribuídos de forma consistente.

Análise de Partições vs Avaliação de Clusters – III WCI – UFSCar Campus Sorocaba

Page 7: Avaliacao de particao vs avaliacao de clusters  wci 2010

Experimento Realizado

1. Preparação dos dados artificiais FCPS;

2. Execução para vários conjuntos de dados, utilizando

a distância Euclideana como função de

proximidade;

3. Tratamento dos resultados;

4. Plotagem de gráficos;

5. Análise dos índices.

Análise de Partições vs Avaliação de Clusters – III WCI – UFSCar Campus Sorocaba

Page 8: Avaliacao de particao vs avaliacao de clusters  wci 2010

Experimento Realizado

1. Preparação dos dados artificiais FCPS;

2. Execução para vários conjuntos de dados, utilizando

a distância Euclideana como função de

proximidade;

3. Tratamento dos resultados;

4. Plotagem de gráficos;

5. Análise dos índices.

Análise de Partições vs Avaliação de Clusters – III WCI – UFSCar Campus Sorocaba

-Normalizar: Silhueta, Desvio Total e Conectividade

- Alterar melhor valor: Silhueta e Consistência-KNN

Page 9: Avaliacao de particao vs avaliacao de clusters  wci 2010

Conjunto de Dados Fundamental Clustering Problems Suite (FCPS)

Wing Nut Atom

LSun Target

Análise de Partições vs Avaliação de Clusters – III WCI – UFSCar Campus Sorocaba

Page 10: Avaliacao de particao vs avaliacao de clusters  wci 2010

Resultados: Wing Nut

0,28 0,28 0,28

0,39 0,39 0,39

0,01

0,13 0,13 0,12 0,11 0,14

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

Real C1 C2

sil

dev

con

cknn

Análise de Partições vs Avaliação de Clusters – III WCI – UFSCar Campus Sorocaba

Page 11: Avaliacao de particao vs avaliacao de clusters  wci 2010

Resultados: Atom

0,34

0,62

0,07

0,55

1,00

0,10

0,00 0,00 0,00 0,04 0,01

0,08

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

Real C1 C2

sil

dev

con

cknn

Análise de Partições vs Avaliação de Clusters – III WCI – UFSCar Campus Sorocaba

Page 12: Avaliacao de particao vs avaliacao de clusters  wci 2010

Resultados: LSun

0,26 0,29 0,32

0,16 0,24

0,29 0,29

0,13

0,01 0,00 0,00 0,01

0,13

0,00

0,13

0,26

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

Real C1 C2 C3

sil

dev

con

cknn

Análise de Partições vs Avaliação de Clusters – III WCI – UFSCar Campus Sorocaba

Page 13: Avaliacao de particao vs avaliacao de clusters  wci 2010

Resultados: Target

0,35

0,13

0,61

0,02 0,02 0,02 0,02 0,09 0,08

0,41

0,01 0,01 0,01 0,01

0,44

0,00 0,00

0,70 0,65 0,65 0,65

0,67

0,00 0,00

1,00 1,00 1,00 1,00

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

Real C1 C2 C3 C4 C5 C6

sil

dev

con

cknn

Análise de Partições vs Avaliação de Clusters – III WCI – UFSCar Campus Sorocaba

Page 14: Avaliacao de particao vs avaliacao de clusters  wci 2010

Considerações Finais

• Análise de clusters individualmente é uma abordagem

promissora;

• Conjunto de índices complementares para avaliar

estruturas heterogêneas;

• Qualidade baixa de um cluster influência

negativamente o resultado da partição.

Análise de Partições vs Avaliação de Clusters – III WCI – UFSCar Campus Sorocaba

Page 15: Avaliacao de particao vs avaliacao de clusters  wci 2010

Considerações Finais

• As estruturas destes conjuntos de dados

favorecem os critérios baseados em

encadeamento;

• O índice consistência-KNN obteve em média bom

desempenho;

• Índices com mesmo critério podem se comportar

de maneira diferente.

Análise de Partições vs Avaliação de Clusters – III WCI – UFSCar Campus Sorocaba

Page 16: Avaliacao de particao vs avaliacao de clusters  wci 2010

Gustavo Henrique Rodrigues Pinto Tomas

Email: [email protected]

Katti Faceli

Email: [email protected]

Obrigado!

Análise de Partições vs Avaliação de Clusters – III WCI – UFSCar Campus Sorocaba

Dúvidas?