UMA VALIDAÇÃO MATEMÁTICA PARA UM ALGORITMO...
Transcript of UMA VALIDAÇÃO MATEMÁTICA PARA UM ALGORITMO...
603 Rev. Bras. Biom., São Paulo, v.27, n.4, p.603-612, 2009
UMA VALIDAÇÃO MATEMÁTICA PARA UM ALGORITMO QUE
SIMULA MISTURAS DE DISTRIBUIÇÕES
Ana Paula Coelho MADEIRA1
Lucas Monteiro CHAVES1
Devanil Jaques de SOUZA1
Resumo: Uma validação matemática, utilizando o conceito de soma de Riemann, é apresentada
para um algoritmo que simula a densidade de probabilidade da mistura de duas distribuições.
PALAVRAS-CHAVE: Mistura de distribuições; simulação; soma de Riemann.
1 Introdução
Novas distribuições de probabilidade são obtidas quando se admite que o parâmetro
de uma família de distribuições também varia segundo uma outra distribuição de
probabilidade, isto é, o parâmetro passa a ser considerado também uma variável aleatória
com sua própria distribuição. A distribuição resultante desse processo é denominada
mistura. Um exemplo bem conhecido é a distribuição beta binomial, que surge quando se
permite que o parâmetro p de uma binomial varie segundo uma distribuição beta. Outra
distribuição obtida por esse processo é a binomial negativa, muito usada no ajuste de
dados biológicos. Essa distribuição é resultado da mistura das distribuições Poisson e
gama. O conceito de mistura é suficientemente flexível para, a partir de distribuições
conhecidas, obterem-se novas e interessantes distribuições.
O presente trabalho tem por objetivo apresentar uma validação matemática de um
algoritmo usado para simular distribuições obtidas pelo processo de mistura.
Mistura de distribuições
Seja 0 1(.), (.),..., (.),...nf f f uma sequência de funções densidades de probabilidades e
0 1, ,..., ,...np p p uma sequência dos números satisfazendo 0ip e 0
1ii
p
, então
0i
i ih x p f x
é também uma densidade de probabilidade, pois
x x x
i i i ii i
h x dx p f x dx p f x dx
1 Departamento de Ciências Exatas, Universidade Federal de Lavras – UFLA, Caixa Postal 3037, CEP: 37200-
000, Lavras, MG, Brasil, E-mail: [email protected] / [email protected] / [email protected]
Rev. Bras. Biom., São Paulo, v.27, n.4, p.603-612, 2009 604
1x
i i ii i
p f x dx p
.
A densidade h x é denominada uma mistura de distribuições (Mood, et al., 1974) . Tal
procedimento é útil para se obterem novas distribuições de probabilidade com
propriedades adequadas. Um exemplo de interesse é:
Exemplo 1: Mistura de normais.
2 21 1 2 2, ,
1h x p x p x
,
em que
2
,1
1 1exp , 1,2
22j jx x j
,
é uma mistura envolvendo duas densidades normais com médias diferentes 1 2e e
variâncias iguais a 1, em que p é chamado peso ou proporção da mistura.
Para 1
3p , tem-se
2 2
1 2
1 1 1 2 1 1exp exp
3 2 3 22 2h x x x
.
Uma observação interessante é:
Proposição: Se X e Y são variáveis aleatórias com densidade de probabilidade Xf e
Yf , e se W é uma variável de Bernoulli com P 1W p e 0 1P W p , então a
mistura 1X Yh z p f z p f z é a função densidade de probabilidade da variável
aleatória 1Z W X W Y .
Prova:
1WX W Y
F z
1P WX W Y z
P 0 P 1Y z W X z W
P P 0 P P 1Y z W X z W
1Y XF z p F z p
O conceito de mistura pode ser estendido para um número não enumerável de
distribuições: seja ; ;f x uma família de funções densidade de probabilidade
parametrizadas por em um espaço paramétrico , em que é um intervalo da reta
real.
Se g é uma função densidade de probabilidade definida em , então
605 Rev. Bras. Biom., São Paulo, v.27, n.4, p.603-612, 2009
;h x f x g d
é uma nova densidade de probabilidade, pois
; ;IR IR
h x dx f x g d dx f x g dxd
; 1IR
g f x dx d g d
.
A distribuição h x também é denominada mistura das distribuições ;f x e
g .
A definição para espaços paramétricos mais gerais é análoga, mas não será tratada
neste artigo.
Exemplo 2: Seja X
uma variável aleatória com distribuição normal de média e
variância 1.
2
1,
1 1exp
22x x
.
Suponha que é também uma variável aleatória com distribuição normal com
média 0 e variância 1.
20,1
1 1exp
22
.
A mistura é dada por
h x 2 21 1 1 1
exp exp2 22 2
x d
2 21 1 1 1exp exp 2 2
2 22 2x x d
2
21 1exp
2 22
xx
2
21 1exp 2 2 2
22 2 2
x xd
Fazendo 1
22
y d dy ,
Rev. Bras. Biom., São Paulo, v.27, n.4, p.603-612, 2009 606
h x 22
21 1 1 1 1exp exp
2 2 22 2 2 2
x xx y dy
21 1 1
exp22 2 2
x
,
e, portanto, tem distribuição normal com média 0 e variância 2.
Exemplo 3: Suponha que fêmeas de insetos depositem ovos em determinados locais que
denominaremos de unidades, folhas, por exemplo. A probabilidade de uma unidade conter
x indivíduos (larvas) é modelada por uma distribuição de Poisson ,
0,1,2,...~Poisson ; I
!
xeX f x x
x
.
Essa situação encontra-se representada na Figura 1.
Figura 1 - Padrão espacial aleatório.
Considerando que as unidades são heterogêneas, algumas provêm de ambientes mais
favoráveis que outras, a média de indivíduos varia de unidade para unidade. Tal
pressuposição faz sentido, pois uma folha mais exposta ao sol, por exemplo, pode ser
menos propícia ao desenvolvimento dos ovos. Uma forma de modelar a variação de é
supor que varia segundo uma distribuição Gama , . Assim, essa mistura de
distribuições é dada por
h x
1
0 0
;!
xef x g d e d
x
11
0!
x e dx
607 Rev. Bras. Biom., São Paulo, v.27, n.4, p.603-612, 2009
11
0
1
! 1
x
xx
xe d
x x
0,1,2,...
1 1I .
1 1
xx
xx
A distribuição resultante para o número de indivíduos por unidade é, portanto, uma
binomial negativa com parâmetros e 1
p
.
A distribuição binomial negativa pode também ser obtida como uma distribuição
generalizada de uma Poisson com uma logarítmica (Madeira, 2009). Deste modo¸ temos a
mesma distribuição sendo obtida por modelos matemáticos diferentes, o que implica em
pressupostos biológicos diferentes. Portanto o conceito de mistura explicita um problema
que geralmente origina polêmicas, como observado em Pielou (1977): “... o ajuste de
distribuições de freqüência teóricas a dados observados não é suficiente para explicar o
padrão natural de uma população”.
2 Simulação de distribuições obtidas por misturas.
Para a simulação de distribuições resultantes de uma mistura, o seguinte algoritmo é
de uso corrente:
Algoritmo mistura: Simula uma amostra da distribuição obtida pela mistura das
distribuições ;f x e g .
i) Um valor do parâmetro é simulado a partir de g ;
ii) Com o valor de
obtido no passo anterior, um valor x é simulado a partir
de ;f x ;
iii) Os passos i) e ii) são repetidos n
vezes resultando na amostra aleatória de
tamanho n.
Esse algoritmo tem sido implementado em vários pacotes computacionais, em
particular, utilizado no aplicativo R. Em Devroye (1986) esse algoritmo é denominado
algoritmo de composição. Em Gamerman (1996) é observado que, para variáveis
aleatórias bidimensionais, como a densidade conjunta pode ser expressa pelo produto da
densidade condicional vezes a densidade marginal , |f x y f x y f y ‚ pode-se utilizar
o conceito de mistura para simular amostras de ,f x y . Gamerman (1996) também
apresenta outros processos de simulação de densidades utilizando misturas.
Apesar de extremamente simples e intuitivo é necessário uma validação matemática
que nos garanta que tal algoritmo realmente simula uma distribuição obtida por mistura.
No entanto, os autores não conseguiram obter, na literatura, nenhum resultado nessa
direção. Primeiramente deve-se observar que não se trata de estudar a convergência do
algoritmo uma vez que tal fato não faz sentido. Uma amostra de tamanho 1, gerada pelo
Rev. Bras. Biom., São Paulo, v.27, n.4, p.603-612, 2009 608
algoritmo, seria uma amostra de tamanho 1 da distribuição h x . Uma idéia para se
validar matematicamente o algoritmo é a mesma utilizada no teste de aderência qui-
quadrado: suponha h x com domínio iD I , em que 1 2, , , nI I I são intervalos
disjuntos. Se o algoritmo gera uma amostra de tamanho n, espera-se que as proporções
ii Iemamostradaelementosdenúmeron
p1
ˆ , sejam aproximadamente iguais aos
números i
i
I
p h x dx , isto é, deve acontecer que em uma longa sequência de amostras
de tamanho n geradas, o número de amostras em que todos os valores ˆip são próximos
aos ip ocorre com alta freqüência.
Proposição: O algoritmo mistura simula uma amostra da distribuição
;h x f x g d
.
Prova: Suponha que e o domínio de ;f x sejam intervalos reais finitos. Considere
em uma partição em k subintervalos de tamanho , com pontos centrais
denominados 1,..., ,...,j k . Da mesma forma, uma partição para o domínio de ;f x ,
com subintervalos de tamanho x , é realizada, obtendo-se os pontos centrais
1,..., ,..., mix x x . Tal construção está representada na Figura 2.
Figura 2 - Discretização do parâmetro e da variável x.
k
j
1
mx ix 1x
609 Rev. Bras. Biom., São Paulo, v.27, n.4, p.603-612, 2009
Assim, pode ser obtida a distribuição discreta, com valores 1,..., ,...,j k :
j
jgP
S
, 1,...,j k ,
em que 1
k
j
j
S g
,
De forma similar:
;|i j
jif x xP X x
S
, 1,...,i m ,
em que 1
;m
i j
i
S f x x
.
Essas distribuições aproximam as densidades g e ;i jf x , no seguinte sentido:
2
2
j
j
jgg d
S
.
Portanto, a distribuição h x é aproximada por
2
2
1; , 1,...,
xx
i j
xx
i
i
jj
h x dx f x g x i mS S
.
Utilizando-se a distribuição discreta
, 1,...,jg
j kS
, uma amostra de
tamanho n , com n k e n m , é gerada. Ordena-se essa amostra. Valores repetidos de
j são obtidos, uma vez que o tamanho da amostra n é maior que o número k de valores
possíveis para . Considerando-se que n é grande, tem-se, pela lei dos grandes números
(Feller, 1968), que o número de vezes que um determinado j aparece na amostra é
aproximadamente igual a jg
nS
. Esquematicamente temos, onde as quantidades
são aproximadas: 1 2
1 1 1 2 2 2
...
kg g x gn n n
S S S
k k k
n
Rev. Bras. Biom., São Paulo, v.27, n.4, p.603-612, 2009 610
Para cada valor de j , um valor sx é simulado utilizando-se a distribuição
;, 1,...,
jif x xi m
S
. Valores de sx ocorrem repetidas vezes. Novamente, pela lei
dos grandes números, o número repetições de um valor sx na amostra de tamanho n é
aproximadamente ;s j jf x x g
nS S
.
1 2;; ;
1 1 2 2
... ... ... ...
...... ... ...
j
m j jj j j j
g n
S
f x x g nf x x g n f x x g n
S SS S S S
j j j j j j
m mx x x x x x
Portanto, o número de vezes que um valor ix aparece na amostra de tamanho n é
aproximadamente
1i j j
j
f x g xS S
.
Tal somatório é exatamente a soma de Riemann da função da variável
;if x g em relação à partição do espaço paramétrico. Fazendo 0 , que é
equivalente a n , obtém-se
1
1lim i j i j in
j
n
jf x g x f x g d x h x xS S
isto é, o número de vezes que ix aparece na amostra é aproximadamente igual a
ih x x . Portanto, como 2
2
xx
xx
i
i
ih x x h x dx
, o histograma de frequências desta
amostra aproxima a distribuição h x .
No caso em que e o domínio de ;f x não são limitadas, (por exemplo, a
média de uma normal), basta truncar as distribuições g e ;f x .
No intuito de ilustrar o comportamento do algoritmo apresentamos o exemplo a
seguir:
611 Rev. Bras. Biom., São Paulo, v.27, n.4, p.603-612, 2009
Exemplo 4: Simulando a distribuição binomial negativa.
Supondo que o parâmetro de uma Poisson tem distribuição Gama 10,1 , uma
amostra de tamanho 100.000n é obtida. Para cada valor do parâmetro obtido, um
valor x é simulado pela Poisson correspondente. O histograma de frequências é
apresentado na Figura 3.
Figura 3 - Histograma de freqüências obtido pelo algoritmo mistura.
Desta forma simula-se uma amostra de uma binomial negativa com parâmetros
10 e 0,5p .
Conclusões
O algoritmo mistura tem uma validação matemática bastante simples e intuitiva.
MADEIRA, A. P. C.; CHAVES, L. M.; SOUZA, D. J. A mathematical validation for an
algorithm that simulates mixture of distributions. Rev. Bras. Biom., São Paulo, v.27, n.4,
p.603-612, 2009.
ABSTRACT: A mathematical validation using the concept of the Riemann sum is given to an
algorithm that simulates the density probability of the mixture of distributions.
KEYWORDS: Mixture of distributions; simulation; Riemann sum.
Referências
DEVROYE, L. Non-uniform random variate generation. New York: Springer-Verlag,
1986. 864p.
Rev. Bras. Biom., São Paulo, v.27, n.4, p.603-612, 2009 612
GAMERMAN, D. Simulação estocástica via cadeias de markov. São Paulo: Associação
Brasileira de Estatística, 1996, 196p.
GURLAND, J. Some interrelations among compound and generalized distributions.
Biometrika, London, v.44, n.1-2, p.265-268, 1957.
MADEIRA, A. P. C. A distribuição Beta Binomial Negativa. 2009. 81f. Dissertação
(Mestrado em Estatística e Experimentação Agropecuária) – Universidade Federal de
Lavras, Lavras, 2009.
MOOD, A. M.; GRAYBILL, F.A.; BOES, D. C. Introduction to the theory of statistics.
New York: McGraw-Hill, 1974. 564p.
MOTWANI, R., RAGHAVAN, P. Randomized algorithms. Cambridge: Cambridge
University Press, 1995, 476p.
R DEVELOPMENT CORE TEAM. R: a language and environment for statistical
computing. Vienna, Austria: R Foundation for Statistical Computing 2007.
Recebido em 31.03.2009.
Aprovado após revisão 29.11.2009.