UMA VALIDAÇÃO MATEMÁTICA PARA UM ALGORITMO...

603 Rev. Bras. Biom., São Paulo, v.27, n.4, p.603-612, 2009

UMA VALIDAÇÃO MATEMÁTICA PARA UM ALGORITMO QUE

SIMULA MISTURAS DE DISTRIBUIÇÕES

Ana Paula Coelho MADEIRA1

Lucas Monteiro CHAVES1

Devanil Jaques de SOUZA1

Resumo: Uma validação matemática, utilizando o conceito de soma de Riemann, é apresentada

para um algoritmo que simula a densidade de probabilidade da mistura de duas distribuições.

PALAVRAS-CHAVE: Mistura de distribuições; simulação; soma de Riemann.

1 Introdução

Novas distribuições de probabilidade são obtidas quando se admite que o parâmetro

de uma família de distribuições também varia segundo uma outra distribuição de

probabilidade, isto é, o parâmetro passa a ser considerado também uma variável aleatória

com sua própria distribuição. A distribuição resultante desse processo é denominada

mistura. Um exemplo bem conhecido é a distribuição beta binomial, que surge quando se

permite que o parâmetro p de uma binomial varie segundo uma distribuição beta. Outra

distribuição obtida por esse processo é a binomial negativa, muito usada no ajuste de

dados biológicos. Essa distribuição é resultado da mistura das distribuições Poisson e

gama. O conceito de mistura é suficientemente flexível para, a partir de distribuições

conhecidas, obterem-se novas e interessantes distribuições.

O presente trabalho tem por objetivo apresentar uma validação matemática de um

algoritmo usado para simular distribuições obtidas pelo processo de mistura.

Mistura de distribuições

Seja 0 1(.), (.),..., (.),...nf f f uma sequência de funções densidades de probabilidades e

0 1, ,..., ,...np p p uma sequência dos números satisfazendo 0ip e 0

1ii

p

, então

0i

i ih x p f x

é também uma densidade de probabilidade, pois

x x x

i i i ii i

h x dx p f x dx p f x dx

1 Departamento de Ciências Exatas, Universidade Federal de Lavras – UFLA, Caixa Postal 3037, CEP: 37200-

000, Lavras, MG, Brasil, E-mail: [email protected] / [email protected] / [email protected]

mailto:[email protected]



Rev. Bras. Biom., São Paulo, v.27, n.4, p.603-612, 2009 604

1x

i i ii i

p f x dx p

.

A densidade h x é denominada uma mistura de distribuições (Mood, et al., 1974) . Tal

procedimento é útil para se obterem novas distribuições de probabilidade com

propriedades adequadas. Um exemplo de interesse é:

Exemplo 1: Mistura de normais.

2 21 1 2 2, ,

1h x p x p x

,

em que

2

,1

1 1exp , 1,2

22j jx x j

,

é uma mistura envolvendo duas densidades normais com médias diferentes 1 2e e

variâncias iguais a 1, em que p é chamado peso ou proporção da mistura.

Para 1

3p , tem-se

2 2

1 2

1 1 1 2 1 1exp exp

3 2 3 22 2h x x x

.

Uma observação interessante é:

Proposição: Se X e Y são variáveis aleatórias com densidade de probabilidade Xf e

Yf , e se W é uma variável de Bernoulli com P 1W p e 0 1P W p , então a

mistura 1X Yh z p f z p f z é a função densidade de probabilidade da variável

aleatória 1Z W X W Y .

Prova:

1WX W Y

F z

1P WX W Y z

P 0 P 1Y z W X z W

P P 0 P P 1Y z W X z W

1Y XF z p F z p

O conceito de mistura pode ser estendido para um número não enumerável de

distribuições: seja ; ;f x uma família de funções densidade de probabilidade

parametrizadas por em um espaço paramétrico , em que é um intervalo da reta

real.

Se g é uma função densidade de probabilidade definida em , então


;h x f x g d

é uma nova densidade de probabilidade, pois

; ;IR IR

h x dx f x g d dx f x g dxd

; 1IR

g f x dx d g d

.

A distribuição h x também é denominada mistura das distribuições ;f x e

g .

A definição para espaços paramétricos mais gerais é análoga, mas não será tratada

neste artigo.

Exemplo 2: Seja X

uma variável aleatória com distribuição normal de média e

variância 1.

2

1,

1 1exp

22x x

.

Suponha que é também uma variável aleatória com distribuição normal com

média 0 e variância 1.

20,1

1 1exp

22

.

A mistura é dada por

h x 2 21 1 1 1

exp exp2 22 2

x d

2 21 1 1 1exp exp 2 2

2 22 2x x d

2

21 1exp

2 22

xx

2

21 1exp 2 2 2

22 2 2

x xd

Fazendo 1

22

y d dy ,


h x 22

21 1 1 1 1exp exp

2 2 22 2 2 2

x xx y dy

21 1 1

exp22 2 2

x

,

e, portanto, tem distribuição normal com média 0 e variância 2.

Exemplo 3: Suponha que fêmeas de insetos depositem ovos em determinados locais que

denominaremos de unidades, folhas, por exemplo. A probabilidade de uma unidade conter

x indivíduos (larvas) é modelada por uma distribuição de Poisson ,

0,1,2,...~Poisson ; I

!

xeX f x x

x

.

Essa situação encontra-se representada na Figura 1.

Figura 1 - Padrão espacial aleatório.

Considerando que as unidades são heterogêneas, algumas provêm de ambientes mais

favoráveis que outras, a média de indivíduos varia de unidade para unidade. Tal

pressuposição faz sentido, pois uma folha mais exposta ao sol, por exemplo, pode ser

menos propícia ao desenvolvimento dos ovos. Uma forma de modelar a variação de é

supor que varia segundo uma distribuição Gama , . Assim, essa mistura de

distribuições é dada por

h x

1

0 0

;!

xef x g d e d

x

11

0!

x e dx


11

0

1

! 1

x

xx

xe d

x x

0,1,2,...

1 1I .

1 1

xx

xx

A distribuição resultante para o número de indivíduos por unidade é, portanto, uma

binomial negativa com parâmetros e 1

p

.

A distribuição binomial negativa pode também ser obtida como uma distribuição

generalizada de uma Poisson com uma logarítmica (Madeira, 2009). Deste modo¸ temos a

mesma distribuição sendo obtida por modelos matemáticos diferentes, o que implica em

pressupostos biológicos diferentes. Portanto o conceito de mistura explicita um problema

que geralmente origina polêmicas, como observado em Pielou (1977): “... o ajuste de

distribuições de freqüência teóricas a dados observados não é suficiente para explicar o

padrão natural de uma população”.

2 Simulação de distribuições obtidas por misturas.

Para a simulação de distribuições resultantes de uma mistura, o seguinte algoritmo é

de uso corrente:

Algoritmo mistura: Simula uma amostra da distribuição obtida pela mistura das

distribuições ;f x e g .

i) Um valor do parâmetro é simulado a partir de g ;

ii) Com o valor de

obtido no passo anterior, um valor x é simulado a partir

de ;f x ;

iii) Os passos i) e ii) são repetidos n

vezes resultando na amostra aleatória de

tamanho n.

Esse algoritmo tem sido implementado em vários pacotes computacionais, em

particular, utilizado no aplicativo R. Em Devroye (1986) esse algoritmo é denominado

algoritmo de composição. Em Gamerman (1996) é observado que, para variáveis

aleatórias bidimensionais, como a densidade conjunta pode ser expressa pelo produto da

densidade condicional vezes a densidade marginal , |f x y f x y f y ‚ pode-se utilizar

o conceito de mistura para simular amostras de ,f x y . Gamerman (1996) também

apresenta outros processos de simulação de densidades utilizando misturas.

Apesar de extremamente simples e intuitivo é necessário uma validação matemática

que nos garanta que tal algoritmo realmente simula uma distribuição obtida por mistura.

No entanto, os autores não conseguiram obter, na literatura, nenhum resultado nessa

direção. Primeiramente deve-se observar que não se trata de estudar a convergência do

algoritmo uma vez que tal fato não faz sentido. Uma amostra de tamanho 1, gerada pelo


algoritmo, seria uma amostra de tamanho 1 da distribuição h x . Uma idéia para se

validar matematicamente o algoritmo é a mesma utilizada no teste de aderência qui-

quadrado: suponha h x com domínio iD I , em que 1 2, , , nI I I são intervalos

disjuntos. Se o algoritmo gera uma amostra de tamanho n, espera-se que as proporções

ii Iemamostradaelementosdenúmeron

p1

ˆ , sejam aproximadamente iguais aos

números i

i

I

p h x dx , isto é, deve acontecer que em uma longa sequência de amostras

de tamanho n geradas, o número de amostras em que todos os valores ˆip são próximos

aos ip ocorre com alta freqüência.

Proposição: O algoritmo mistura simula uma amostra da distribuição

;h x f x g d

.

Prova: Suponha que e o domínio de ;f x sejam intervalos reais finitos. Considere

em uma partição em k subintervalos de tamanho , com pontos centrais

denominados 1,..., ,...,j k . Da mesma forma, uma partição para o domínio de ;f x ,

com subintervalos de tamanho x , é realizada, obtendo-se os pontos centrais

1,..., ,..., mix x x . Tal construção está representada na Figura 2.

Figura 2 - Discretização do parâmetro e da variável x.

k

j

1

mx ix 1x


Assim, pode ser obtida a distribuição discreta, com valores 1,..., ,...,j k :

j

jgP

S

, 1,...,j k ,

em que 1

k

j

j

S g

,

De forma similar:

;|i j

jif x xP X x

S

, 1,...,i m ,

em que 1

;m

i j

i

S f x x

.

Essas distribuições aproximam as densidades g e ;i jf x , no seguinte sentido:

2

2

j

j

jgg d

S

.

Portanto, a distribuição h x é aproximada por

2

2

1; , 1,...,

xx

i j

xx

i

i

jj

h x dx f x g x i mS S

.

Utilizando-se a distribuição discreta

, 1,...,jg

j kS

, uma amostra de

tamanho n , com n k e n m , é gerada. Ordena-se essa amostra. Valores repetidos de

j são obtidos, uma vez que o tamanho da amostra n é maior que o número k de valores

possíveis para . Considerando-se que n é grande, tem-se, pela lei dos grandes números

(Feller, 1968), que o número de vezes que um determinado j aparece na amostra é

aproximadamente igual a jg

nS

. Esquematicamente temos, onde as quantidades

são aproximadas: 1 2

1 1 1 2 2 2

...

kg g x gn n n

S S S

k k k

n


Para cada valor de j , um valor sx é simulado utilizando-se a distribuição

;, 1,...,

jif x xi m

S

. Valores de sx ocorrem repetidas vezes. Novamente, pela lei

dos grandes números, o número repetições de um valor sx na amostra de tamanho n é

aproximadamente ;s j jf x x g

nS S

.

1 2;; ;

1 1 2 2

... ... ... ...

...... ... ...

j

m j jj j j j

g n

S

f x x g nf x x g n f x x g n

S SS S S S

j j j j j j

m mx x x x x x

Portanto, o número de vezes que um valor ix aparece na amostra de tamanho n é

aproximadamente

1i j j

j

f x g xS S

.

Tal somatório é exatamente a soma de Riemann da função da variável

;if x g em relação à partição do espaço paramétrico. Fazendo 0 , que é

equivalente a n , obtém-se

1

1lim i j i j in

j

n

jf x g x f x g d x h x xS S

isto é, o número de vezes que ix aparece na amostra é aproximadamente igual a

ih x x . Portanto, como 2

2

xx

xx

i

i

ih x x h x dx

, o histograma de frequências desta

amostra aproxima a distribuição h x .

No caso em que e o domínio de ;f x não são limitadas, (por exemplo, a

média de uma normal), basta truncar as distribuições g e ;f x .

No intuito de ilustrar o comportamento do algoritmo apresentamos o exemplo a

seguir:


Exemplo 4: Simulando a distribuição binomial negativa.

Supondo que o parâmetro de uma Poisson tem distribuição Gama 10,1 , uma

amostra de tamanho 100.000n é obtida. Para cada valor do parâmetro obtido, um

valor x é simulado pela Poisson correspondente. O histograma de frequências é

apresentado na Figura 3.

Figura 3 - Histograma de freqüências obtido pelo algoritmo mistura.

Desta forma simula-se uma amostra de uma binomial negativa com parâmetros

10 e 0,5p .

Conclusões

O algoritmo mistura tem uma validação matemática bastante simples e intuitiva.

MADEIRA, A. P. C.; CHAVES, L. M.; SOUZA, D. J. A mathematical validation for an

algorithm that simulates mixture of distributions. Rev. Bras. Biom., São Paulo, v.27, n.4,

p.603-612, 2009.

ABSTRACT: A mathematical validation using the concept of the Riemann sum is given to an

algorithm that simulates the density probability of the mixture of distributions.

KEYWORDS: Mixture of distributions; simulation; Riemann sum.

Referências

DEVROYE, L. Non-uniform random variate generation. New York: Springer-Verlag,

1986. 864p.


GAMERMAN, D. Simulação estocástica via cadeias de markov. São Paulo: Associação

Brasileira de Estatística, 1996, 196p.

GURLAND, J. Some interrelations among compound and generalized distributions.

Biometrika, London, v.44, n.1-2, p.265-268, 1957.

MADEIRA, A. P. C. A distribuição Beta Binomial Negativa. 2009. 81f. Dissertação

(Mestrado em Estatística e Experimentação Agropecuária) – Universidade Federal de

Lavras, Lavras, 2009.

MOOD, A. M.; GRAYBILL, F.A.; BOES, D. C. Introduction to the theory of statistics.

New York: McGraw-Hill, 1974. 564p.

MOTWANI, R., RAGHAVAN, P. Randomized algorithms. Cambridge: Cambridge

University Press, 1995, 476p.

R DEVELOPMENT CORE TEAM. R: a language and environment for statistical

computing. Vienna, Austria: R Foundation for Statistical Computing 2007.

Recebido em 31.03.2009.

Aprovado após revisão 29.11.2009.

UMA VALIDAÇÃO MATEMÁTICA PARA UM ALGORITMO...

Documents

Transcript of UMA VALIDAÇÃO MATEMÁTICA PARA UM ALGORITMO...