Agrupamentos Baseados em Probabilidade Marcílio Souto DIMAp/UFRN.

Agrupamentos Baseados em Probabilidade

Marcílio SoutoDIMAp/UFRN

Introdução

Suponha que tenhamos os dados abaixo a serem agrupados

Introdução

De um ponto de vista probabilístico, o objetivo da análise de agrupamentos é encontrar o conjunto de grupos (C) mais provável, dadas as instâncias ou evidências (D)

Uma quantidade finita de evidência não é suficiente para se tomar uma decisão segura sobre a pertinência de cada instância a um determinado grupo

As instâncias não deveriam ser atribuidas categoricamente a um ou outro grupo

De fato, elas deveriam ter um certa probabilidade de pertencer a cada um dos grupos

A base para o agrupamento probabiblístico é um modelo chamado de mistura finita (finite mixture)

Mistura Finita

Uma mistura é um conjunto de k distribuições de probabilidade (representando k grupos) que governam os valores dos atributos dos seus membros

Cada grupo possui uma distribuição de probabilidade diferente Os grupos não precisam ser igualmente prováveis

Há uma distribuição de probabilidade que reflete suas populações relativas

em que as fi são as distribuições representado os grupos Gaussianas, Poisson, Exponencial,....

Mais comum: Mistura de Gaussianas

P Di 1

kwi f i D i

Exemplo: Mistura Finita de Duas Gaussianas

35 40 45 50 55 60 65 70 75

μA=50, σA=5, pA=0.6

μB=65, σB=2, pA=0.4

P D pA f A D A ; A pB f B D B ; B

P D Ai 1

Mistura Finita de Gaussianas

O processo de agrupamento pode ser vista como o de encontrar os parâmetros de uma uma mistura de Gaussianas, e então efetuar a classificação de acordo com a regra de Bayes.

P(D|Ci)*P(C

----------------- P(D)P(C

i|D) =

em que P(D|Ci) é a PDF do grupo C

i, avaliada em D (conjunto de dados);

P(Ci) é a probabilidade a priori para o grupo C

i, e P(D) é a PDF do conjunto

de dados (D).

P D C i i 1

kwk Gk

Mistura Finita: Exemplo

Um exemplo simples de mistura finita ocorre quando há apenas um atributo numérico cujos valores obdecem uma distribuição normal (gaussiana) para cada grupo

Cada distribuição (grupo) possui diferentes médias e variância

O problema de agrupamento é Dado um conjunto de instâncias e um número pré-definido

de grupos Encontrar a média e a variância de cada grupo, como

também a distribuição da população entre os grupos A figura a seguir ilustra um exemplo em que há dois grupos A e

B (cada um definido por uma distribuição normal)

35 40 45 50 55 60 65 70 75

BμA=50, σA=5, pA=0.6

μB=65, σB=2, pA=0.4

Grupo Atributo_1 Grupo Atributo_1 Grupo Atributo_1A 51 B 62 B 64A 43 A 47 A 51B 62 A 52 A 52B 64 B 64 B 62A 45 A 51 A 49A 42 B 65 A 48A 46 A 48 B 62A 45 A 49 A 43A 45 A 46 A 40

Dados gerados a partir da mistura

Se tivessemos os rótulos disponíveis, poderiamos usar o Naive Bayespara classificar um nova instância

P(A|x)=P(x|A)*P(A) ------------ P(x)

exfP(x|A)~

Grupo Atributo_1 Grupo Atributo_1 Grupo Atributo_1A 51 B 62 B 64A 43 A 47 A 51B 62 A 52 A 52B 64 B 64 B 62A 45 A 51 A 49A 42 B 65 A 48A 46 A 48 B 62A 45 A 49 A 43A 45 A 46 A 40

Suponha que tenhamos disponível o conjunto de dados sem os rótulos dos grupos

Como poderiamos determinar os cinco parâmetros que caracterizam o modelo: μA, σA, pA, μB e σB (pB pode ser determinado diretamente a partir de pA)?

Mistura de Gaussianas

No contexto probabilístico, o processo de agrupamento pode ser vista como o de encontrar os parâmetros de uma uma mistura de Gaussianas, e então efetuar a classificação de acordo com a regra de Bayes:

P(D|Ci)*P(C

----------------- P(D)

P(Ci|D) =

em que P(D|Ci) é a PDF do grupo C

i, avaliada em D (conjunto de dados);

P(Ci) é a probabilidade a priori para o grupo C

i, e P(D) é a PDF do conjunto

de dados (D).

X P(X|A) X*P(X|A) P(X|B) X*P(X|B)51 0,69 35,19 0,31 15,8143 0,99 42,57 0,01 0,4362 0 0 1 6264 0 0 1 6445 0,98 44,1 0,02 0,942 1 42 0 046 0,97 44,62 0,03 1,3866 0 0 1 6668 0 0 1 68

Média 54,11 45,03 63,73

Media Inicial 4565

Bibliografia

Hair-Jr., J. F. et al (2005). Análise multivariada de dados. Capítulo 9 - Análise de Agrupamentos. pp. 381-419. Bookman.

Jain, A K. et al (1999). Data clustering: a review. ACM Computing Surveys, v. 31, pp. 264-323.

Xu, R. and Wunsch II, D. (2005). Survey of Clustering Algorithms. IEEE Trans. on Neural Networks, v. 16, pp. 645-678.

Agrupamentos Baseados em Probabilidade Marcílio Souto DIMAp/UFRN.

Documents

Transcript of Agrupamentos Baseados em Probabilidade Marcílio Souto DIMAp/UFRN.

1 Resolução de Problemas Marcílio Souto DIMAp/UFRN.

Computação Evolutiva 1 Anne Magály de PaulaCanuto DIMAp/UFRN.

Análise de agrupamentos

Validação de Agrupamentos Marcílio Souto DIMAp/UFRN.

Livro Digital - Flávio Marcílio

_____________________________________________________________________________ Otimização com Simulated Annealing e Tabu Search Marcílio Souto DIMAp/UFRN.

Catalogo de Agrupamentos

ANÁLISEPETROFÍSICAEDE AGRUPAMENTOS …

1 Sistemas Baseados em Conhecimento Marcílio Souto DIMAp/UFRN.

Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica Marcílio C. P. de Souto DIMAp/UFRN.

Conceitos Básicos de Biologia Molecular Marcílio C. P. de Souto DIMAp/UFRN.

Algoritmos de Agrupamento (Clustering): Métodos Hierárquicos e k-médias Marcílio C. P. de Souto DIMAp/UFRN.

1 Proteínas Predição de Estrutura Secundária Marcilio Souto DIMAp/UFRN.

GRUPOS, AGRUPAMENTOS E COMUNIDADES NAS REDES …uece.br/endipe2014/ebooks/livro2/GRUPOS, AGRUPAMENTOS E COMUNIDADE… · grupos, agrupamentos e comunidades nas redes sociais na internet:

Digital Age 2.0 - Juliano Marcílio

Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN.

Redes Neurais Artificiais Multi-layer Perceptrons e Backpropagation Marcílio Souto DIMAp/UFRN.

1 Agentes Inteligentes Marcilio Souto DIMAp/UFRN.

Omar Barbosa Azevedo Nilton Damasceno Marcílio Vasconcelos

Introdução ao Desenvolvimento de Jogos Prof. André Campos DIMAp/UFRN - 2004.1.