Post on 16-Apr-2015
Agrupamentos Baseados em Probabilidade
Marcílio SoutoDIMAp/UFRN
Introdução
Suponha que tenhamos os dados abaixo a serem agrupados
Introdução
De um ponto de vista probabilístico, o objetivo da análise de agrupamentos é encontrar o conjunto de grupos (C) mais provável, dadas as instâncias ou evidências (D)
Uma quantidade finita de evidência não é suficiente para se tomar uma decisão segura sobre a pertinência de cada instância a um determinado grupo
As instâncias não deveriam ser atribuidas categoricamente a um ou outro grupo
De fato, elas deveriam ter um certa probabilidade de pertencer a cada um dos grupos
A base para o agrupamento probabiblístico é um modelo chamado de mistura finita (finite mixture)
Mistura Finita
Uma mistura é um conjunto de k distribuições de probabilidade (representando k grupos) que governam os valores dos atributos dos seus membros
Cada grupo possui uma distribuição de probabilidade diferente Os grupos não precisam ser igualmente prováveis
Há uma distribuição de probabilidade que reflete suas populações relativas
em que as fi são as distribuições representado os grupos Gaussianas, Poisson, Exponencial,....
Mais comum: Mistura de Gaussianas
P Di 1
kwi f i D i
Exemplo: Mistura Finita de Duas Gaussianas
35 40 45 50 55 60 65 70 75
A
B
μA=50, σA=5, pA=0.6
μB=65, σB=2, pA=0.4
P D pA f A D A ; A pB f B D B ; B
P D Ai 1
n 1
2 A
e1 2
x i A
A
2
Mistura Finita de Gaussianas
O processo de agrupamento pode ser vista como o de encontrar os parâmetros de uma uma mistura de Gaussianas, e então efetuar a classificação de acordo com a regra de Bayes.
P(D|Ci)*P(C
i)
----------------- P(D)P(C
i|D) =
em que P(D|Ci) é a PDF do grupo C
i, avaliada em D (conjunto de dados);
P(Ci) é a probabilidade a priori para o grupo C
i, e P(D) é a PDF do conjunto
de dados (D).
P D C i i 1
kwk Gk
Mistura Finita: Exemplo
Um exemplo simples de mistura finita ocorre quando há apenas um atributo numérico cujos valores obdecem uma distribuição normal (gaussiana) para cada grupo
Cada distribuição (grupo) possui diferentes médias e variância
O problema de agrupamento é Dado um conjunto de instâncias e um número pré-definido
de grupos Encontrar a média e a variância de cada grupo, como
também a distribuição da população entre os grupos A figura a seguir ilustra um exemplo em que há dois grupos A e
B (cada um definido por uma distribuição normal)
Exemplo: Mistura Finita de Duas Gaussianas
35 40 45 50 55 60 65 70 75
A
BμA=50, σA=5, pA=0.6
μB=65, σB=2, pA=0.4
Exemplo: Mistura Finita de Duas Gaussianas
Grupo Atributo_1 Grupo Atributo_1 Grupo Atributo_1A 51 B 62 B 64A 43 A 47 A 51B 62 A 52 A 52B 64 B 64 B 62A 45 A 51 A 49A 42 B 65 A 48A 46 A 48 B 62A 45 A 49 A 43A 45 A 46 A 40
Dados gerados a partir da mistura
Se tivessemos os rótulos disponíveis, poderiamos usar o Naive Bayespara classificar um nova instância
P(A|x)=P(x|A)*P(A) ------------ P(x)
2
2
2
)(
2
1)(
x
exfP(x|A)~
Exemplo: Mistura Finita de Duas Gaussianas
Grupo Atributo_1 Grupo Atributo_1 Grupo Atributo_1A 51 B 62 B 64A 43 A 47 A 51B 62 A 52 A 52B 64 B 64 B 62A 45 A 51 A 49A 42 B 65 A 48A 46 A 48 B 62A 45 A 49 A 43A 45 A 46 A 40
Suponha que tenhamos disponível o conjunto de dados sem os rótulos dos grupos
Como poderiamos determinar os cinco parâmetros que caracterizam o modelo: μA, σA, pA, μB e σB (pB pode ser determinado diretamente a partir de pA)?
Mistura de Gaussianas
No contexto probabilístico, o processo de agrupamento pode ser vista como o de encontrar os parâmetros de uma uma mistura de Gaussianas, e então efetuar a classificação de acordo com a regra de Bayes:
P(D|Ci)*P(C
i)
----------------- P(D)
P(Ci|D) =
em que P(D|Ci) é a PDF do grupo C
i, avaliada em D (conjunto de dados);
P(Ci) é a probabilidade a priori para o grupo C
i, e P(D) é a PDF do conjunto
de dados (D).
X P(X|A) X*P(X|A) P(X|B) X*P(X|B)51 0,69 35,19 0,31 15,8143 0,99 42,57 0,01 0,4362 0 0 1 6264 0 0 1 6445 0,98 44,1 0,02 0,942 1 42 0 046 0,97 44,62 0,03 1,3866 0 0 1 6668 0 0 1 68
Média 54,11 45,03 63,73
Media Inicial 4565
Bibliografia
Hair-Jr., J. F. et al (2005). Análise multivariada de dados. Capítulo 9 - Análise de Agrupamentos. pp. 381-419. Bookman.
Jain, A K. et al (1999). Data clustering: a review. ACM Computing Surveys, v. 31, pp. 264-323.
Xu, R. and Wunsch II, D. (2005). Survey of Clustering Algorithms. IEEE Trans. on Neural Networks, v. 16, pp. 645-678.