Universidade de São Paulo
Escola Superior de Agricultura “Luiz de Queiroz”
Modelos não-lineares para dados longitudinais provenientes de
experimentos em blocos casualizados
abordagem bayesiana
Everton Batista da Rocha
Dissertação apresentada para obtenção do título de Mestre
em Ciências. Área de concentração: Estatística e
Experimentação Agronômica
Piracicaba
2010
Everton Batista da Rocha
Bacharel em Estatística
Modelos não-lineares para dados longitudinais provenientes de
experimentos em blocos casualizados
abordagem bayesiana
Orientadora:
Profa . Dra. ROSELI APARECIDA LEANDRO
Dissertação apresentada para obtenção do título de Mestre
em Ciências. Área de concentração: Estatística e
Experimentação Agronômica
Piracicaba
2010
Dados Internacionais de Catalogação na Publicação
DIVISÃO DE BIBLIOTECA E DOCUMENTAÇÃO - ESALQ/USP
Rocha, Everton Batista da Modelos não-lineares para dados longitudinais provenientes de experimentos em blocos
casualizados abordagem bayesiana / Everton Batista da Rocha. - - Piracicaba, 2010. 205 p. : il.
Dissertação (Mestrado) - - Escola Superior de Agricultura “Luiz de Queiroz”, 2010. Bibliografia.
1. Análise de dados longitudinais 2. Curvas de crescimento 3. Delineamento experimental 4. Eucalipto 5. Inferência bayesiana 6. Modelos não lineares (Planejamento e Pesquisa) 7. Planejamento em blocos I. Título
CDD 634.9734 R672m
“Permitida a cópia total ou parcial deste documento, desde que citada a fonte – O autor”
3
Dedicatória
Dedico este trabalho em memória de minha mãe, Anaides B.
da Rocha, que, em vida, foi a pessoa que mais me apoiou em
todos os momentos, me impulsionando a buscar a vida nova
a cada dia. Meus agradecimentos por ter aceito se privar de
minha companhia durante os meus estudos, concedendo a mim
a oportunidade de me realizar ainda mais.
4
5
AGRADECIMENTOS
A minha mãe (in memoriam) por ter-me trazido ao mundo e na sua simplicidade
ter me ensinado a conviver com o próximo, em respeito, amor e harmonia e por ter sempre
acreditado em mim, me incentivando e dando todo seu apoio. E onde quer que ela esteja, sei
que ainda olha por mim.
Ao meu pai, David R. da Rocha, pelos ensinamentos sólidos de vida e pelo
incansável apoio nos momentos dif́ıceis.
A minha irmã, Ana Paula B. da Rocha, pelo apoio e fortalecimento no trilhar
diário, sendo testemunho de zelo e amor.
Aos professores que me deram aula durante esse curso de Pós-Graduação em
Estat́ıstica e Experimentação Agronômica, pois sem eles, eu não estaria concluindo este curso
- Roseli A. Leandro, Clarice G. B. Demétrio, Śılvio S. Zocchi, César G. de Lima, Sônia M. D.
S. Piedade, Carlos Tadeu dos S. Dias, Edwin M. M. Ortega.
Ao CNPq - Conselho Nacional de Desenvolvimento Cient́ıfico e Tecnológico -
pela bolsa de mestrado concedida.
Com muito carinho aos amigos que me mostraram o valor das amizades ver-
dadeiras, me acompanhando durante os momentos fáceis e dif́ıceis nesses 2 anos do curso de
mestrado, me fazendo sorrir quando me vinha a tristeza e secando minhas lágrimas quando
elas insistiam em cair, em especial Shelly B. de Souza, Mariana R. Urbano, Luciana Mina-
mihara, Carol Coelho, Henrique Kawamura, Carlos R. Ferraz, Caio Temer, Renato Piselli e
Táıza Seron.
A Profa. Dra. Roseli A. Leandro, de maneira muito especial, pelos conhecimen-
tos compartilhados, enquanto professora, pela orientação e incentivo durante todo transcorrer
do meu curso de mestrado. Pela confiança e amizade em mim depositada, fonte de inspiração
para a vida cient́ıfica e particular, sendo um exemplo de ética e seriedade no trabalho.
A Profa. Dra. Terezinha A. Guedes, por ter sido minha professora e orientadora
no peŕıodo da graduação, contribuindo para a formação do meu conhecimento cient́ıfico na área
de Estat́ıstica. Pela amizade compartilhada ao longo desses anos, e que se tem mostrado cada
vez mais forte e viva, sempre me mostrando que amizades verdadeiras vencem as distâncias e
6
o tempo.
Ao Prof. Dr. Silvio S. Zocchi, pela colaboração e apoio durante o curso.
Ao grupo de estudos GEMMix, pelos conhecimentos e amizade compartilhados.
A todos os alunos do curso de Pós-Graduação em Estat́ıstica e Experimentação
Agronômica da ESALQ/USP, com os quais compartilhei essa fase da minha vida.
Aos funcionários do LCE/ESALQ/USP, em especial as secretárias pelo apoio e
dedicação no transcorrer do curso.
A secretária da Pós-Graduação em Estat́ıstica e Experimentação Agronômica,
Luciane Brajão, pelo apoio, amizade, simplicidade e atenção, que em muito contribui para que
este sonho se tornasse realidade.
A secretária do LCE, Solange Paes de Assis Sabadin, que durante o primeiro ano
do meu curso de mestrado foi secretária da Pós-Graduação em Estat́ıstica e Experimentação
Agronômica e em muito contribui para que o transcorrer do mesmo fosse o mais paćıfico
posśıvel.
E por fim, a Deus, por ter me dado o dom da vida, ter me permitido viver essa
fase inesquećıvel que foi o meu curso de mestrado, onde conheci muitas pessoas e aprendi que
amizade e solidariedade se aprendem e conquistam com o tempo.
7
SUMÁRIO
RESUMO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
ABSTRACT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
LISTA DE FIGURAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
LISTA DE TABELAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2 DESENVOLVIMENTO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.1 Revisão de Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.1.1 Planejamentos Longitudinais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.1.2 O Modelo de Gompertz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.1.3 Modelos Não-Lineares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.1.3.1 Abordagem Clássica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.1.3.2 Modelagem do Efeito de Bloco . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.1.4 Estat́ıstica Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.1.4.1 Prinćıpio de Verossimilhança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.1.4.2 Distribuição a Priori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.1.4.2.1 Priori Conjugada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.1.4.2.2 Priori Não-Informativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.1.4.2.3 Prioris Hierárquicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.1.4.2.4 O uso de Prioris Informativas . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.1.4.3 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.1.4.4 Critério de Informação da Deviance Bayesiana - DIC . . . . . . . . . . . . . . . 44
2.1.4.5 Aspectos Computacionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.1.4.5.1 Método de Monte Carlo via Cadeias de Markov . . . . . . . . . . . . . . . . . 46
2.1.4.5.2 Algoritmo de Metropolis-Hastings . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.1.4.5.3 Amostrador de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.1.4.6 Análise de Convergência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.1.5 O programa WinBUGS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2.1.6 O programa R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2.2 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
8
2.2.1 Dados do volume sólido com casca de árvores de eucalipto . . . . . . . . . . . . . 65
2.2.2 Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
2.2.2.1 Modelo 1: Estrutura de Independência . . . . . . . . . . . . . . . . . . . . . . . 66
2.2.2.2 Modelo 2: Estrutura Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
2.2.3 Modelando o Efeito de Bloco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
2.2.3.1 Modelo Hierárquico Bayesiano de Três Estágios . . . . . . . . . . . . . . . . . . 72
2.2.3.1.1 Inferência para o Modelo Hierárquico Bayesiano . . . . . . . . . . . . . . . . . 74
2.2.3.2 Uma Alternativa para a Estrutura de Variância-Covariância . . . . . . . . . . . 77
2.2.3.2.1 Inferência para a Estrutura de Variância-Covariância Alternativa . . . . . . . . 78
3 RESULTADOS E DISCUSSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
3.1 Análise Exploratória . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
3.2 Ajuste 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
3.3 Ajuste 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
3.4 Ajuste 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
3.5 Ajuste 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
4 CONSIDERAÇÕES FINAIS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
4.1 Conclusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
4.2 Pesquisas Futuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
APÊNDICE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
9
RESUMO
Modelos não-lineares para dados longitudinais provenientes
de experimentos em blocos casualizados
abordagem bayesiana
Dados consistindo de medidas repetidas tomadas em um mesmo indiv́ıduo são
muito comuns na agricultura e biologia. A modelagem de dados desta natureza usualmente
envolvem a caracterização da relação entre medidas repetidas e covariáveis. Em muitas
aplicações, a relação proposta entre as medidas repetidas tem um comportamento não-linear
nos parâmetros desconhecidos de interesse. Por exemplo, em estudo de crescimento de árvores,
geralmente o comportamento da variável resposta é melhor descrito por um modelo não-linear
nos parâmetros porque estes modelos caracterizam melhor a realidade dos fenômenos biológicos
em estudo e porque é posśıvel uma interpretação biológica dos parâmetros. A presença de me-
didas repetidas em um indiv́ıduo requer um cuidado particular na caracterização da variação
entre medidas dentro de uma mesma unidade experimental e entre unidades. Dados observados
na mesma unidade experimental são correlacionados, e é provável que essa correlação decaia
ao longo do tempo e que haja variações entre as medidas. Neste trabalho considera-se duas
estruturas de covariâncias: erros aleatórios e independentes com média zero e variância σ2, esta
formulação não incorpora uma posśıvel dependência entre as observações tomadas no mesmo
indiv́ıduo, que é comum em estudos longitudinais. Portanto, é importante ter modelos que
acomodem a dependência (entre e dentre dos indiv́ıduos) e a heterocedasticidade na sua for-
mulação. Então, considerou-se outra estrutura de covariância, chamada não-estruturada, com
a finalidade de permitir que os dados “contribuam”na estrutura da matriz de covariâncias.
Neste trabalho analisou-se um delineamento em blocos casualizados assumindo um modelo
bayesiano hierárquico de três estágios. No primeiro estágio, modelou-se a variação dentro do
indiv́ıduo, no segundo estágio a variação entre indiv́ıduos. Este estágio da hierarquia dá uma
relação expĺıcita entre os parâmetros aleatórios do modelo. No terceiro estágio foi incorpo-
rada a incerteza relativa as quantidades desconhecidas no modelo. Para a análise estat́ıstica,
utilizou-se um conjunto de dados de um experimento conduzido pela Klabin Fabricadora de
Papel e Celulose S.A., do Paraná, Brasil, involvendo duas espécies de eucaliptos e espaçamentos
10
que foram completamente aleatorizados em blocos; em que a variável resposta, definida como
o volume sólido com casca, foi observada em 16 indiv́ıduos, e quatro indiv́ıduos foram alea-
torizados para cada um dos quatro tratamentos. O modelo de Gompertz foi utilizado para
representar o crescimento esperado das árvores de eucaliptos. Usando o modelo de Gompertz
é posśıvel ter uma interpretação biológica dos parâmetros. Considerando diferentes estruturas
de covariância entre as observações, um programa para a análise de dados foi implementado
no WinBUGS.
Palavras-chave: Modelo bayesiano hierárquico; Medidas repetidas; WinBUGS; Eucalipto
11
ABSTRACT
Nonlinear models for longitudinal data
from experiments in randomized block design
a bayesian framework
Data consisting of repeated measurements taken on each of a number of indivi-
dual arise commonly in agricultural and biological applications. Modeling data of this kind
usually involves the characterization of the relationship between the measured response and
covariate. In many application,the proposed systematic relationship between the measured
response is nonlinear in unknown parameters of interest. For example, in growing studies of
trees, generally the behavior of the response variable over time is best described by a nonli-
near model in the parameters of interest because this model characterizes better the reality
of biological phenomenon in study and because is possible to do a biological interpretation of
the parameters. The presence of repeated observations on an individual requires particular
care in characterizing the random variation among measurements within a given individual
and random variation among individuals. Likely the observations made on the same unit are
correlated, probability decreasing over time and possible the variances are growth among the
serial measurements. In this work we considerer two covariance structure namely: independent
random error vectors whose elements are also independent with mean zero and variance σ2,
but this formulation does not incorporate possible dependence among the observation taken on
the same subject neither that in longitudinal studies it is quite common to have the variances
varying along the ordered dimension. Therefore, it is important to have models that allow
for both dependences (within and between subjects) and also for heteroscedasticity in their
formulations. Then we considerer other covariance structure namely: the structure is a non
structure which permit that the data set “tells”about the covariance structure. In this work
we analyzed a randomized block design assuming a three-stage Bayesian hierarchical model.
On the first stage, we model the intra-individual variation, on the second stage, we model the
inter-individual variation. This stage of hierarchy gives an explicit relationship between the
random parameters. On the third stage, we define the hyperprior distribution to incorporate
the uncertainty about the unknown parameters. For the statistical analysis we used a data set
12
from a experiment conducted at Klabin Fabricadora de Papel e Celulose S.A. from Paraná,
Brazil, involving two Eucalyptus species and two spacings in a complete randomized design;
where the response variable, defined as the solid volume with bark, was evaluated for each of 16
subjects (groups of Eucalyptus trees), and four subjects were randomly assigned to one of four
treatments. To represent the expected growing function of the Eucalyptus’s tree Gompertz
nonlinear model was used. Using the Gompertz nonlinear model is possible to a biological
interpretation of the parameters. Considering different structures covariance within subjects,
a program for the analysis of the data set was implemented in WinBUGS.
Keywords: Bayesian hierarchical model; Repeated measurements; WinBUGS; Eucalyptus
nada
13
LISTA DE FIGURAS
Figura 1 - Janela do aplicativo Specification Tool . . . . . . . . . . . . . . . . . . . . . 59
Figura 2 - Janela do aplicativo Update Tool . . . . . . . . . . . . . . . . . . . . . . . . 60
Figura 3 - Janela do aplicativo Sample Monitor Tool . . . . . . . . . . . . . . . . . . . 61
Figura 4 - Resumo a posteriori para o parâmetro θ . . . . . . . . . . . . . . . . . . . . 62
Figura 5 - Autocorrelação a posteriori para o parâmetro θ . . . . . . . . . . . . . . . . 63
Figura 6 - Traço e histórico das cadeias para o parâmetro θ . . . . . . . . . . . . . . . 64
Figura 7 - Quantis das cadeias para o parâmetro θ . . . . . . . . . . . . . . . . . . . . 64
Figura 8 - Box plot para os tratamentos . . . . . . . . . . . . . . . . . . . . . . . . . . 87
Figura 9 - Perfil individual para cada uma das árvores de eucalipto . . . . . . . . . . . 88
Figura 10 -Perfil individual para cada uma das árvores de eucalipto, agrupadas por bloco 89
Figura 11 -Autocorrelação serial para os parâmetros σ e τ - ajuste 1 . . . . . . . . . . 96
Figura 12 -Autocorrelação serial para os parâmetros do modelo - ajuste 1 . . . . . . . 96
Figura 13 -Histórico e densidades a posteriori associados ao tratamento 1 - ajuste 1 . . 97
Figura 14 -Histórico e densidades a posteriori associados ao tratamento 2 - ajuste 1 . . 98
Figura 15 -Histórico e densidades a posteriori associados ao tratamento 3 - ajuste 1 . . 99
Figura 16 -Histórico e densidades a posteriori associados ao tratamento 4 - ajuste 1 . . 100
Figura 17 -Histórico e densidades a posteriori para σ e τ - ajuste 1 . . . . . . . . . . . 101
Figura 18 -Curvas para o ajuste 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
Figura 19 -Autocorrelação serial para os parâmetros do modelo - ajuste 2 . . . . . . . 114
Figura 20 -Autocorrelação serial para Σi - ajuste 2 . . . . . . . . . . . . . . . . . . . . 115
Figura 21 -Histórico e densidades a posteriori associados ao tratamento 1 - ajuste 2 . . 116
Figura 22 -Histórico e densidades a posteriori associados ao tratamento 2 - ajuste 2 . . 117
Figura 23 -Histórico e densidades a posteriori associados ao tratamento 3 - ajuste 2 . . 118
Figura 24 -Histórico e densidades a posteriori associados ao tratamento 4 - ajuste 2 . . 119
Figura 25 -Histórico e densidades a posteriori para Σi - ajuste 2 . . . . . . . . . . . . 120
Figura 26 -Curvas para o ajuste 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
Figura 27 -Autocorrelação serial para os parâmetros do modelo - ajuste 3 . . . . . . . 131
Figura 28 -Autocorrelação serial para τ e τb - ajuste 3 . . . . . . . . . . . . . . . . . . 131
Figura 29 -Histórico e densidades a posteriori associados ao tratamento 1 - ajuste 3 . . 132
14
Figura 30 -Histórico e densidades a posteriori associados ao tratamento 2 - ajuste 3 . . 133
Figura 31 -Histórico e densidades a posteriori associados ao tratamento 3 - ajuste 3 . . 134
Figura 32 -Histórico e densidades a posteriori associados ao tratamento 4 - ajuste 3 . . 135
Figura 33 -Histórico e densidades a posteriori para τ e τb - ajuste 3 . . . . . . . . . . . 136
Figura 34 -Curvas para o ajuste 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
Figura 35 -Autocorrelação serial para os parâmetros do modelo - ajuste 4 . . . . . . . 146
Figura 36 -Autocorrelação serial para Σi - ajuste 4 . . . . . . . . . . . . . . . . . . . . 147
Figura 37 -Autocorrelação serial para τb - ajuste 4 . . . . . . . . . . . . . . . . . . . . 148
Figura 38 -Histórico e densidades a posteriori associados ao tratamento 1 - ajuste 4 . . 148
Figura 39 -Histórico e densidades a posteriori associados ao tratamento 2 - ajuste 4 . . 149
Figura 40 -Histórico e densidades a posteriori associados ao tratamento 3 - ajuste 4 . . 150
Figura 41 -Histórico e densidades a posteriori associados ao tratamento 4 - ajuste 4 . . 151
Figura 42 -Histórico e densidades a posteriori para Σi - ajuste 4 . . . . . . . . . . . . 152
Figura 43 -Histórico e densidade a posteriori para τb - ajuste 4 . . . . . . . . . . . . . 153
Figura 44 -Curvas para o ajuste 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
Figura 45 -Curvas para os ajustes 1 e 4 . . . . . . . . . . . . . . . . . . . . . . . . . . 158
Figura 46 -Curvas para os ajustes 2 e 4 . . . . . . . . . . . . . . . . . . . . . . . . . . 159
Figura 47 -Curvas para os ajustes 3 e 4 . . . . . . . . . . . . . . . . . . . . . . . . . . 160
Figura 48 -Curvas para os ajustes 1, 2, 3 e 4 . . . . . . . . . . . . . . . . . . . . . . . 161
15
LISTA DE TABELAS
Tabela 1 - Estrutura de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Tabela 2 - Volume sólido com casca (m3/ha) das árvores de eucaliptos . . . . . . . . . 66
Tabela 3 - Medidas resumo para o tratamento 1 . . . . . . . . . . . . . . . . . . . . . . 85
Tabela 4 - Medidas resumo para o tratamento 2 . . . . . . . . . . . . . . . . . . . . . . 86
Tabela 5 - Medidas resumo para o tratamento 3 . . . . . . . . . . . . . . . . . . . . . . 86
Tabela 6 - Medidas resumo para o tratamento 4 . . . . . . . . . . . . . . . . . . . . . . 86
Tabela 7 - Variâncias, covariâncias e correlações . . . . . . . . . . . . . . . . . . . . . . 87
Tabela 8 - Teste de Diagnóstico de Raftery e Lewis (cadeia 1) - ajuste 1 . . . . . . . . 93
Tabela 9 - Teste de Diagnóstico de Raftery e Lewis (cadeia 2) - ajuste 1 . . . . . . . . 94
Tabela 10 -Teste de Gelman e Rubin - ajuste 1 . . . . . . . . . . . . . . . . . . . . . . 95
Tabela 11 -Medidas resumo para os parâmetros - ajuste 1 . . . . . . . . . . . . . . . . 102
Tabela 12 -Intervalos de credibilidade 95% para os contrastes - ajuste 1 . . . . . . . . 106
Tabela 13 -Teste de Diagnóstico de Raftery e Lewis (cadeia 1) - ajuste 2 . . . . . . . . 110
Tabela 14 -Teste de Diagnóstico de Raftery e Lewis (cadeia 2) - ajuste 2 . . . . . . . . 111
Tabela 15 -Teste de Gelman e Rubin - ajuste 2 . . . . . . . . . . . . . . . . . . . . . . 113
Tabela 16 -Medidas resumo para os parâmetros - ajuste 2 . . . . . . . . . . . . . . . . 121
Tabela 17 -Intervalos de credibilidade 95% para os contrastes - ajuste 2 . . . . . . . . 123
Tabela 18 -Teste de Diagnóstico de Raftery e Lewis (cadeia 1) - ajuste 3 . . . . . . . . 128
Tabela 19 -Teste de Diagnóstico de Raftery e Lewis (cadeia 2) - ajuste 3 . . . . . . . . 129
Tabela 20 -Teste de Gelman e Rubin - ajuste 3 . . . . . . . . . . . . . . . . . . . . . . 130
Tabela 21 -Medidas resumo para os parâmetros - ajuste 3 . . . . . . . . . . . . . . . . 137
Tabela 22 -Medidas resumo para os efeitos aleatórios - ajuste 3 . . . . . . . . . . . . . 137
Tabela 23 -Intervalos de credibilidade 95% para os contrastes - ajuste 3 . . . . . . . . 139
Tabela 24 -Teste de Diagnóstico de Raftery e Lewis (cadeia 1) - ajuste 4 . . . . . . . . 143
Tabela 25 -Teste de Diagnóstico de Raftery e Lewis (cadeia 2) - ajuste 4 . . . . . . . . 144
Tabela 26 -Teste de Gelman e Rubin - ajuste 4 . . . . . . . . . . . . . . . . . . . . . . 145
Tabela 27 -Medidas resumo para os parâmetros - ajuste 4 . . . . . . . . . . . . . . . . 153
Tabela 28 -Medidas resumo para os efeitos aleatórios - ajuste 4 . . . . . . . . . . . . . 154
Tabela 29 -Intervalos de credibilidade 95% para os contrastes - ajuste 4 . . . . . . . . 156
16
17
1 INTRODUÇÃO
Na experimentação, quer seja ela agronômica, biológica, tecnológica, ou outra
qualquer, é muito comum se encontrarem dados provenientes de planejamentos longitudinais.
Esses dados, chamados de dados longitudinais, são caracterizados pela observação repetida
de uma ou mais variáveis respostas na mesma unidade experimental, em diferentes idades,
diferentes ocasiões ou em alguma outra dimensão espećıfica. Esses dados podem ser de natureza
discreta ou cont́ınua e exigem esforços no acompanhamento das unidades experimentais durante
a realização do estudo, entretanto tem o atrativo de “economizar”unidades experimentais pois
cada uma delas pode gerar diversas unidades de observação. Cada um desses conjunto de
observação pode ser entendido como um perfil individual de respostas, pois contêm os valores
da(s) variável(eis) resposta(s) em cada uma das ocasiões de observação.
Usualmente, na experimentação de campo ou de casas de experimentação,
utiliza-se o delineamento em blocos casualizados para controlar a variabilidade devido à algum
fator, por exemplo, na experimentação agronômica de campo, é comum o uso de blocos para
controlar a variabilidade do solo devido a diferenças de fertilidade, ou à declividade do terreno.
O delineamento de um experimento planejado em blocos casualizados consiste no agrupamento
das unidades experimentais (parcelas) similares, formando-se os blocos. O efeito de blocos deve
ser levado em consideração na análise estat́ıstica de dados, uma vez que o não uso deste efeito
pode comprometer os resultados da análise, pois a variabilidade devido a bloco será totalmente
incorporada ao reśıduo, inflacionando-o.
Neste trabalho os dados são longitudinais e proveninentes de um experimento
casualizado em blocos, o qual é irregular em relação ao tempo, entretanto balanceado (com
relação ao tempo) e completo, ou seja, não houve ausência de informação para nenhuma
unidade observacional. A idéia para esta pesquisa surgiu de um estudo de modelos não-lineares
para dados longitudinais provenientes de experimentos em blocos casualizados sob o ponto de
vista da inferência clássica, proposto por Ogliari (1998).
Ogliari (1998) salientou que: em crescimento de árvores, por exemplo, geralmente
o comportamento da variável resposta no tempo é melhor descrito por um modelo não-linear,
principalmente pelo interesse que se há nos parâmetros destes tipos de modelos, que em geral,
possuem uma interpretação ligada a fenômenos biológicos intŕısecos ao estudo. E ainda, que
18
os delineamentos casualizados em blocos são muito frequentes na pesquisa agŕıcola e o efeito
de bloco deve ser considerado no modelo estat́ıstico, devido a variabilidade relacionada a
blocagem.
Diante disto, o principal objetivo deste trabalho é a aplicação de métodos baye-
sianos para a obtenção de resumos a posteriori de interesse no estudo de modelos não-lineares
para dados longitudinais provenientes de experimentos em blocos casualizados.
Os objetivos espećıficos do trabalho foram:
i - Avaliar o crescimento das árvores de eucalipto, através do ajuste de curvas não-lineares,
considerando a variável volume sólido com casca dada em (m3/ha).
ii - Estudar as diferentes densidades de plantio.
iii - Estudar as espécies e procedências de eucalipto para a produção de celulose e papel.
Para a análise estat́ıstica foram utilizados dados de natureza cont́ınua que são
oriundos de um experimento com árvores de eucalipto, cujo objetivo é o estudo do compor-
tamento de diferentes espécies sob diferentes espaçamentos de plantio. Esse experimento foi
conduzido pela empresa KLABIN FABRICADORA DE PAPEL CELULOSE S.A., no mu-
nićıpio de Telemanco Borba, Paraná, Brasil, tendo sido instalado em janeiro de 1986.
O delineamento experimental usado foi o de blocos casualizados num esquema
fatorial 2 × 2. Foram utilizados 4 blocos, com o objetivo de controlar a heterogeneidade do
solo, sendo 4 tratamentos aleatoriamente designados às unidades experimentais.
O crescimento das árvores de eucaliptos foi avaliado aos 3, 4, 5 e 9 anos de idade,
que correspondem aos anos de 1989, 1990, 1991 e 1995, respectivamente.
Para o ajuste do modelo, considerou-se o modelo proposto por Ogliari (1998), o
modelo de Gompertz, com três parâmetros, uma vez que os parâmetros deste modelo possuem
uma interpretação biológica.
Uma vez que os dados são longitudinais, é importante reconhecer explicitamente
duas fontes de variação, a variação aleatória entre medidas dentro de uma dada unidade expe-
rimental e a variação aleatória entre unidades experimentais. Além disso, uma caracteŕıstica
importante desses tipos de dados é que, como as medidas são tomadas num mesmo indiv́ıduo,
19
espera-se que haja correlação entre as mesmas e que as variações não sejam constantes ao longo
do tempo. Entretanto, apesar desse fato, é comum pesquisadores fazerem o ajuste de mode-
los não-lineares supondo que os reśıduos sejam independentes, normalmente distribúıdos com
variâncias homogêneas. Essa estrutura pode ser empregada em estudos onde sua adequação
seja indicada através do estudo da matriz de covariância amostral. No presente trabalho, serão
apresentadas duas formas para a matriz de covariância, uma estrutura de independência e uma
estrutura mais geral, não-estruturada.
Neste trabalho, a interação bloco × tempo não será adicionada no modelo, pois
geralmente o número de blocos é pequeno e esse fato pode acarretar problemas na estimação
dos parâmetros da matriz de covariâncias.
Para a análise estat́ıstica dos dados foram desenvolvidas rotinas espećıficas no
programa WinBUGS para modelos não-lineares no delineamento em blocos casualizados. En-
tretanto, para os resultados gráficos, utilizou-se uma interface entre os programas WinBUGS
e R, uma vez que este último apresenta uma melhor resolução gráfica.
20
21
2 DESENVOLVIMENTO
2.1 Revisão de Literatura
2.1.1 Planejamentos Longitudinais
É muito comum na área de experimentação, quer seja ela agronômica, biológica,
tecnológica, ou outra qualquer, a ocorrência de medições (observações) em uma mesma unidade
experimental, repetidas vezes, em diferentes ocasiões, profundidades, distanceamentos, pontos
no espaço, etc. Essas medidas observadas na mesma parcela são comumente chamadas medidas
repetidas.
Os planejamentos com medidas repetidas onde a variável resposta é medida
repetidas vezes na mesma unidade experimental ou em repetidas condições de avaliação são
chamados de planejamentos longitudinais. Considerando-se que a obtenção da variável resposta
é feita de maneira sistemática, por exemplo, no tempo, pressupõe-se uma correlação não nula
entre as medidas, sobretudo entre duas medições, porém espera-se que esta decresça ao longo
do tempo. É esperada, também, uma heterocedasticidade de variâncias. Com base nisso,
vários estudos tem sido realizados com propostas para modelar variáveis observadas ao longo
do tempo, sobretudo, propostas com diferentes estruturas de variâncias e covariâncias que
acomodem essa correlação entre as medidas, uma vez que a estrutura de covariâncias tem uma
influência direta sobre as estimativas da variabilidade dos parâmetros associados às médias e
em alguns casos, pode afetar as próprias estimativas desses parâmetros (Lima, 1996).
Em planejamentos longitudinais, em geral, o interesse está em estudar o com-
portamento de uma ou mais variáveis resposta ao longo do tempo. Essas variáveis respostas
podem ser cont́ınuas, por exemplo, alturas de árvores, ganho de peso, ou discretas, por exem-
plo, número de ovos, número de brotos. As unidades experimentais podem constituir grupos
segundo um ou mais tratamentos ou fatores, e cada uma dessas unidades pode gerar diver-
sas unidades observacionais, de forma que cada um desses conjuntos de observações pode ser
compreendido como um perfil individual de respostas à variável em pesquisa. O estudo desses
perfis individuais servem como um ind́ıcio inicial do uso de efeitos aleatórios no modelo.
Os dados provenientes de planejamentos longitudinais são chamandos de regu-
lares, em relação ao tempo, quando todas as diferenças entre os tempos de duas medidas
22
quaisquer forem constantes. Serão considerados balanceados se as observações em todas as
unidades experimentais forem feitas no mesmo instante de tempo. E quando o experimento
não apresentar nenhuma observação perdida, a estrutura de dados será dita completa. Uma
vez que estudos delineados de forma longitudinal podem durar dias, semanas, meses e/ou
até mesmo anos, é comum a ocorrência de estudos longitudinais irregulares no tempo, não
balanceados e incompletos , e por esse motivo, recentemente tem havido maior interesse no
desenvolvimento de métodos estat́ısticos que possam ser utilizados em casos mais gerais.
Os experimentos conduzidos sob planejamentos longitudinais permitem:
i - a redução de recursos, com a não obtenção de novas unidades observacionais no decorrer
do experimento;
ii - redução do erro experimental;
iii - em estudos onde há efeito residual dos tratamento, é posśıvel determinar e/ou eliminar
este efeito, ou seja, proporcionam condições adequadas para controlar fatores acessórios
que possam influenciar na resposta;
iv - estudo das tendências de respostas aos tratamentos, pois cada conjunto de unidades de
observações pode ser entendido como um perfil individual de respostas;
v - aumento do tamanho amostral do experimento;
vi - a melhoria, em geral, da precisão das estimativas de contrastes associados às diferenças
entre os valores médios das respostas e de diferentes ocasiões.
Em planejamentos longitudinais, em geral, o objetivo da análise é estudar o
comportamento das variáveis ao longo do tempo, ou seja, estudar o perfil das variáveis ao
longo do tempo, e comparar assim o efeito dos tratamentos, isto é, verificar se existe efeito dos
fatores em estudo, tais como espécies, espaçamento, épocas, e assim por diante. Essa análise é
feita através da comparação dos parâmetros das respectivas curvas. Essa metodologia de ajuste
de curvas é conhecida como Análise de Curvas de Crescimento e uma maior versatilidade na
aplicação desta técnica de análise de dados longitudinais é conseguida com a possibilidade de
modelar a estrutura de covariâncias, buscando estruturas intermediárias entre a completamente
23
parametrizada e a uniforme, através da especificação de modelos de efeitos mistos, que tem o
atrativo adicional de tratar situações em que dados não são balanceados em relação ao tempo
(Lima, 1996). O ajuste dessas curvas de crescimento possibilita fazerem-se previsões da variável
resposta média ao longo do tempo. Situações t́ıpicas de modelos de crescimento não-lineares
ocorrem em estudos de crescimento de plantas e animais (Ogliari, 1998).
Tabela 1 - Estrutura de dados
Tratamentos Blocos Tempos
1 2 · · · t
1 1 y111 y112 · · · y11t1 2 y121 y122 · · · y12t...
......
......
...
1 b y1b1 y1b2 · · · y1bt2 1 y211 y212 · · · y21t2 2 y221 y222 · · · y22t...
......
......
...
2 b y2b1 y2b2 · · · y2bt...
......
......
...
g 1 yg11 yg12 · · · yg1tg 2 yg21 yg22 · · · yg2t...
......
......
...
g b ygb1 ygb2 · · · ygbt
A presença de delineamentos em blocos casualizados nos planejamento longitudi-
nais, em geral, é comum na experimentação agronômica. Este tipo de delineamento consiste no
agrupamento das unidades experimentais (parcelas) similares, formando-se os blocos. O efeito
de bloco deve ser considerado na análise estat́ıstica dos dados, caso contrário, pode ocorrer um
comprometimento dos resultados finais, pois a variabilidade devida a bloco estará totalmente
inclusa no efeito residual, inflacionando o mesmo.
24
A estrutura básica de um conjunto de dados longitudinais proveninentes de um
planejamento em blocos casualizados, pode ser representada através de uma matriz de dados,
como apresentado por Lima (1996), e indicada na Tabela 1, em que yijk representa a medida da
variável resposta obtida no tratamento i (i = 1, · · · , g), bloco j (j = 1, · · · , b) e tempo k (k =
1, · · · , t). Considerando a estrutura apresentada na Tabela 1, a cada unidade experimental (ij)
está associado um vetor y′
ij = [yij1, yij2, · · · , yijt] de dimensão t, o qual é denominado perfil
individual de respostas, cujos componentes são os valores observados da variável resposta ao
longo do tempo.
Andreoni (1989), Lima (1996), Brandão (1996), Ogliari (1998) e Barbosa (2009)
discutiram que as técnicas de análise usualmente empregadas na análise de planejamentos lon-
gitudinais procuram descrever o comportamento da variável de interesse em função do tempo,
através de curvas, e comparar efeitos de tratamentos através da comparação dos parâmetros
das respectivas curvas. Assim, por exemplo, se em um experimento deseja-se comparar o ganho
de peso de animais, submetidos a duas dietas nutricionais, ajusta-se, por exemplo, uma reta
para cada grupo de animais submetidos a cada dieta, e a diferença entre a eficiência das duas
dietas pode ser avaliada através da comparação dos coeficientes lineares e angulares das duas
retas. Estas técnicas de análise podem ser facilmente obtidas nos principais pacotes de análise
estat́ıstica, como o SAS, R, S-Plus, dentre outros.
2.1.2 O Modelo de Gompertz
Em muitos planejamentos longitudinais onde a variável resposta é o crescimento
de uma determinada unidade observacional ao longo do tempo, por exemplo, crescimento de
árvores, crescimento de indiv́ıduos ou crescimento de colônias de bactérias, o uso de modelos
não-lineares tem sido muito empregado, com desempenho satisfatório na descrição dos dados.
Dentre os modelos não-lineares comumente utilizados na modelagem estat́ıstica,
pode-se citar o loǵıstico, exponencial, Richards, Von Bertalanfly, Jenss e Gompertz. Estes
modelos, na literatura estat́ıstica, são conhecidos como modelos de crescimento, pelo fato de
incorporarem as informações sobre o processo de crescimento, o que os diferencia dos modelos
polinomais.
A diferença entre os modelos polinomiais e os modelos não-lineares, além do fato
25
dos modelos não-lineares não apresentarem linearidade nos parâmetros, encontra-se na flexibili-
dade dos modelos não-lineares em incorporar informações sobre o processo de crescimento, pois
ao contrário dos modelos polinomais, os parâmetros dos modelos não-lineares possuem uma
interpretação diretamente ligada ao experimento, por exemplo, alguma interpretação biológica,
f́ısica, e assim por diante.
Em relação a possibilidade de descrever curvas de crescimento, um modelo muito
discutido na literatura, é o modelo de Gompertz. Nokoe, 1980 apud Ogliari 1998, utilizou este
modelo com sucesso no ajuste de dados de volume com idade para Pseudotsuga menziesii
(Mrb). As curvas do modelo apresentam a forma de uma sigmóide (forma de S), assim como
o modelo loǵıstico.
Neste trabalho será considerada para o modelo de Gompertz a paramentrização
dada por,
y = α1 exp
{− exp
{−α3
(x− α2
α3
)}}. (1)
Considerando o modelo de Gompertz, como descrito em (1), com domı́nio R+,
tem-se que,
limx→+∞
(α1 exp
{− exp
{−α3
(x− α2
α3
)}})= α1. (2)
Assim, observa-se que o modelo de Gompertz apresenta asśıntota horizontal, a reta y = α1.
A primeira derivada da função dada em (1) é dada por:
y′= α1α3 exp
{−α3
(x− α2
α3
)}exp
{− exp
{−α3
(x− α2
α3
)}}que pode ser simplificada para,
y′= α1α3 exp {−α3x+ α2 − exp {−α3x+ α2}} .
E assim, pode-se verificar que se a derivada é positiva ∀x ∈ R+, o modelo de Gompertz define
uma função crescente. A segunda derivada da função em (1) é dada por:
y′′
= −α1α23 exp{−α3
(x− α2
α3
)}exp
{− exp
{−α3
(x− α2
α3
)}}+
+α1α23
(exp
{−α3
(x− α2
α3
)})2exp
{− exp
{−α3
(x− α2
α3
)}}
26
que pode ser simplificada para,
y′′
= −α1α23(exp {−α3x+ α2 − exp {−α3x+ α2}} −
− exp {−2α3x+ 2α2 − exp {−α3x+ α2}}).
Assim, igualando a segunda derivada à zero, tem-se,
y′′
= 0⇒ x = α2α3. (3)
Desta forma, o ponto de inflexão do modelo de Gompertz é expresso porα2α3
, o que implica que
o crescimento é rápido até o valor de x atingirα2α3
e depois existe uma mudança no crescimento,
ele se torna menos veloz.
2.1.3 Modelos Não-Lineares
2.1.3.1 Abordagem Clássica
Em geral, modelos não-lineares para medidas repetidas podem ser expressos da
seguinte forma
yi = f(Xi, ai, αi) + �i, i = 1, · · · , n (4)
em que yi = [yi1, · · · , yipi ]′
é um vetor pi × 1 de medidas repetidas na i-ésima unidade expe-
rimental; n é o número de unidades experimentais; X é a matriz modelo, pi × t, de variação
entre os indiv́ıduos; ai é um vetor q × 1 de covariação entre indiv́ıduos; αi é um vetor r × 1
de parâmetros para o i-ésimo indiv́ıduo; f é alguma função espećıfica de (Xi, ai, αi) e �i é
um vetor pi × 1 correspondente ao erro aleatório. Cada modelo apresentado neste trabalho
representa um caso especial de (4) e são derivados pela especificação de uma estrutura apro-
priada para αi e �i. Especificamente, o modelo em (4) foi utilizado na abordagem clássica para
derivar versões não-lineares dos modelos GMANOVA e dos modelos lineares mistos, (Vonesh e
Chinchilli, 1997). Vonesh e Chinchilli (1997) focaram primeiramente na estimação e inferência
estat́ıstica associada a versões não-lineares dos modelos GMANOVA e lineares mistos para
dados normalmente distribúıdos.
27
2.1.3.2 Modelagem do Efeito de Bloco
Ogliari (1998), do ponto de vista clássico, introduziu o efeito de bloco no modelo
como um fator extra de forma linear,
yi = f (Xi, αi) + 1piδi + Λ1/2i �i, i = 1, 2, · · · , b (5)
onde
1. yi = [yi1, yi2, · · · , yini]′
é um vetor ni × 1, da variável resposta para o i-ésimo bloco,
i = 1, · · · , b, e ni é o número de unidades experimentais dentro do bloco i.
2. yij =[yij1, yij2, · · · , yijpij
]′é um vetor pij × 1, das medidas repetidas para a j-ésima
unidade experimental dentro do bloco i, j = 1, · · · , ni.
3.
Xi =
X i1
X i2
· · ·
X i4
,
é a matriz modelo, de dimensão pi × t que acomoda a variação dentro das unidades
experimentais para todos as unidades dentro do bloco i,∑ni
j=1 pij eX ij é a matriz modelo
de dimensão pij × t de variação dentro das unidades para a j-ésima unidade dentro do
i-ésimo bloco.
4. αi é um vetor de parâmetros para o bloco i, de dimensão ri × 1.
5. fi (Xi, αi) é um vetor funcional pi × 1 que é possivelmente não-linear em αi.
6. �i = [�i1, �i2, · · · , �ini]′
onde �ij =[�ij1, �ij2, · · · , �ijpij
]′são vetores de dimensão
pi × 1 que acomoda o erro-aleatório dentro do bloco consistindo de componentes eijque são independentes e identicamente distribúıdos (i.i.d.) e independentes de bi, �i ∼
Npi(0, Ini
⊗[σ2Ipij
]), j = 1, · · · , ni
7. 1pi = [1, 1, · · · , 1]′
é um vetor de dimensão pi × 1.
28
8. δi é o efeito do bloco i, i = 1, · · · , b que são variáveis aleatórias (i.i.d.) com média zero
e variância σ2b , e independente dos outros termos.
9. n =∑b
i=1 ni é o número de unidades experimentais.
10. Λi = Ini⊗
Λij é uma matriz pi × pi conhecida que é função dos αi e Λ1/2i é a Decom-
posição de Cholesky da matriz Λi.
Assim,
E [Y ] = f (Xi, αi) e V ar [Y ] = Σi (α, θ) (6)
onde,
Σi = σ2b1pi1
′
pi+ Ini
⊗(σ2Λij), i = 1, · · · , b e j = 1, · · · , ni.
Se Σi = Ipij , a formulação em (5) induz a uma estrutura de variância-
covariâncias uniforme para as observações tomada no mesmo bloco, o que não é esperado
para este tipo de dados. Em particular, também não é esperado que as observações tomada no
mesmo sujeito (indiv́ıduo) sejam iguais as correlações entre observações tomadas em indiv́ıduos
diferentes do mesmo bloco. É necessário inserir um especificação geral para Σi. Seja Σij uma
matriz de covariâncias de dimensão pi× pi de yij, como se os dados tivessem sido coletados de
um experimento inteiramente casualizado, então,
Σij = σ2b1pi1
′
pi+ Ini
⊗(σ2Λij), j = 1, · · · , b e i = 1, · · · , nj.
onde diferentes especificações para Σi podem ser obtidas de diferentes estruturas de Λij
(Ogliari, 1998).
Ogliari(1998) também inseriu o efeito de blocos no modelo de forma não-linear,
como,
yi = f(Xi, α
∗i
)+ �i, i = 1, 2, · · · , b (7)
com α∗i = g (ai,αi) + Biδi, δi ∼ N(0, σ2b ), Bi é um vetor qj × 1 conhecido, e yi, fi e �icomo definidos no ińıcio desta seção. Em ambos os modelos, (6) e (7) o efeito de bloco foi
considerado como aleatório. Os modelos (6) e (7) foram utilizados por Ogliari (1998) com
29
diferentes estruturas de covariância do ponto de vista clássico e três métodos de estimação: 1)
método dos mı́nimos quadrados generalizados (GLS); 2) método da máxima verossimilhança
(ML) e 3) método da máxima verossimilhança restrista (REML). Pela comparação dos modelos
com e sem efeito aleatório de bloco, foi observado que o modelo (7) estima com mais precisão
que o modelo (6). Ogliari (1998) também observou que existe diferença entre os tratamentos,
formados pela combinação de espaçamento e espécie, mas não observou interação entre eles.
2.1.4 Estat́ıstica Bayesiana
No estudo de dados provenientes de planejamentos longitudinais, do ponto de
vista clássico, Crowder e Hand (1990), Vonesh e Chinchilli (1997), Molenberghs e Verbeke
(2000), Verbeke e Molenberghs (2005) apud Barbosa (2009), apresentaram uma evolução
histórica da utilização de modelos lineares mistos na análise de dados longitudinais, sendo
que a estimação dos parâmetros neste tipo de modelo é baseada na verossimilhança dos dados.
E quando os dados não são normalmente distribúıdos, algumas abordagens envolvendo mo-
delos lineares generalizados foram propostas por Venezuela (2003), Verbek (2005), de acordo
com Barbosa (2009).
Para Lindley (1990) apud Paulino et al.( 2003), a substituição dos métodos
clássicos pelos métodos bayesianos de análise representam uma verdadeira revolução cient́ıfica.
Para Paulino (2003) o ińıcio do paradigma bayesiano foi lançado por Richard Price quando em
1763 publicou a obra póstuma do Rev. Thomas Bayes intitulada “An Essay Towards Solving
a Problem in the Doctrine of Chances”.
Entretanto, em relação propriamente as idéias bayesianas e a sua aplicação à mo-
delagem estat́ıstica, deve citar-se Harold Jeffreys (mais citado nas obras apenas como Jeffreys)
que, reagindo contra a posição predominante clássica em meados de 1939, sem apoio, e segundo
Paulino (2003), solitário, conseguiu ressuscitar o bayesianismo dar-lhe status lógico e avançar
com soluções de problemas estat́ısticos que naquele tempo persistiam sem uma solução, do
ponto de vista clássico. A partir dáı a lista de bayesianos foi aumentando sucessivamente e,
na impossibilidade de citar todos, merecem realce os nomes Good, Savage e Lindley.
Dentro da Estat́ıstica Bayesiana, o Teorema de Bayes ocupa lugar crucial. Consi-
dere inicialmente um espaço de probabilidades (Ω, ζ, P ), em que:
30
i - Ω é um conjunto não-vazio com elementos ω, ω ∈ Ω, e subconjuntos A, A ⊆ Ω;
ii - ζ é uma σ-álgebra de subconjuntos de Ω;
iii - P é uma probabilidade para os acontecimentos (eventos) A ⊆ Ω, A ∈ ζ, em que P (A) é
a probabilidade da ocorrência de A.
Considere uma partição finita ou infinita de Ω
A1, A2, · · · , Am, P (Ai) > 0, Ai ∩ Aj = ∅, i 6= j,∪iAi = Ω.
Dado um outro evento B qualquer, com P (B) > 0, verifica-se a decomposição de B na união
de conjuntos disjuntos
B = ∪i(Ai ∩B).
E consequentemente, pela aditividade da função P e à definição de probabilidade condicionada,
tem-se,
P (B) =∑i
P (Ai ∩B).
E finalmente,
P (Ai ∩B) = P (B|Ai)P (Ai) = P (Ai|B)P (B),
ou equivalentemente
P (Ai|B) =P (B|Ai)P (Ai)
P (B)=
P (B|Ai)P (Ai)∑i P (B|Ai)P (Ai)
, (8)
que é chamado de Teorema de Bayes.
Uma forma de interpretar o Teorema de Bayes consiste em considerar os eventos
Ai = 1, 2, · · · ,m, como “antecedentes”, “causas”, “hipóteses”ou “estados”a que o investigador
atribuir graus de credibilidade (incorpora incerteza) ou probabilidades a priori P (Ai), i =
1, 2, · · · ,m, de natureza subjetiva. Depois da informação adicional que consiste em saber
que o evento B se realizou (o evento B pode ser a observação de um conjunto de dados), o
pesquisador revê as suas probabilidades a priori através da fórmula de Bayes e passa a atribuir
aos Ai, i = 1, 2, · · · ,m as probabilidades a posteriori P (Ai|B), i = 1, 2, · · · ,m.
31
Considerando que o investigador está na completa ignorância a respeito dos
eventos Ai, i = 1, 2, · · · ,m, a proposta de Laplace, também conhecida como prinćıpio da razão
insuficiente ou critério de Bayes-Laplace, consiste em atribuir probabilidades iguais aos Ai,
i = 1, 2, · · · ,m, P (Ai) =1
m, obtendo-se a expressão (8), em vez de (3),
P (Ai|B) =P (B|Ai)∑i P (B|Ai)
. (9)
Os resultados apresentados em (8) e (9) são estendidos para o caso em que os eventos Ai,
i = 1, 2, · · · ,m, estão associados à variáveis aleatórias.
Seja θ uma quantidade desconhecida de interesse, tipicamente não observável. A
informação que se dispõe a respeito de θ, resumida probabilisticamente através de p(θ), pode
ser atualizada observando-se uma quantidade de interesse aleatória X, cuja distribuição de
probabilidade está relacionada com θ. Esta relação pode ser descrita através da distribuição
amostral de p(x|θ). A idéia de que após se observar X = x a quantidade de informação sobre
θ é modificada é bastante intuitiva e o Teorema de Bayes é a regra de atualização utilizada
para quantificar o aumento dessa informação, podendo o mesmo ser expresso por,
p(θ|x) = p(θ, x)p(x)
=p(x|θ)p(θ)p(x)
=p(x|θ)p(θ)∫p(θ, x)dθ
. (10)
Observe que em (10),1
p(x), que não depende de θ, funciona como uma constante
normalizadora de p(θ|x) .
Considerando um valor fixo de x, a função L(θ|x) = p(x|θ) fornece a plausibi-
lidade ou verossimilhança de cada um dos posśıveis valores de θ enquanto p(θ) é chamada
distribuição a priori de θ. Estas duas fontes de informação, verossimilhança e priori, são com-
binadas de forma a levar à distribuição a posteriori de θ, p(θ|x). Sob estas condições, a forma
usual do Teorema de Bayes, é dada por,
p(θ|x) ∝ L(θ|x)p(θ). (11)
Em palavras, tem-se,
distribuição a posteriori ∝ verossimilhança × distribuição a priori.
32
Observe que ao se omitir p(x), a igualdade em (10) foi substitúıda por uma
proporcionalidade. Esta forma simplificada do Teorema de Bayes é útil em problemas que en-
volvam estimação de parâmetros já que o denominador é apenas uma constante normalizadora.
Em outras situações, como seleção de modelos, este termo tem um papel crucial.
A constante normalizadora da posteriori pode ser facilmente recuperada pois
p(θ|x) = kp(x|θ)p(θ) em que
k−1 =
∫p(x|θ)p(θ)dθ = Eθ[p(X|θ)] = p(x),
a qual é chamada de distribuição preditiva a prori. Esta é a distribuição esperada para a
observação x dado θ. A distribuição preditiva de Y dado x é obtida por integração como,
p(y|x) =∫p(y, θ|x)dθ =
∫p(y|θ, x)p(θ|x)dθ.
Em muitos problemas estat́ısticos a hipótese de independência condicional entre X e Y dado
θ está presente e a distribuição preditiva fica
p(y|x) =∫p(y|θ)p(θ|x)dθ.
Nota-se que os conceitos de priori e posteriori são relativos àquela observação que
está sendo considerada no momento. Assim, p(θ|x) é a posteriori de θ em relação a X (que já
foi observado) mas é a priori de θ em relação a Y (que não foi observado ainda). Após observar
Y = y uma nova posteriori (relativa a X = x e Y = y) é obtida aplicando-se novamente o
Teorema de Bayes. Pode-se então questionar se esta posteriori final depende da ordem em
que as observações x e y foram processadas. Observando-se as quantidades x1, x2, · · · , xn,
independentes dado θ e relacionadas a θ através de pi(xi|θ) segue que,
p(θ|x1) ∝ L(θ|x1)p(θ)
p(θ|x2, x1) ∝ L(θ|x2)p(θ)...
p(θ|xn, xn−1, · · · , x1) ∝
[n∏i=1
L(θ|xi)
]p(θ)
p(θ|xn, xn−1, · · · , x1) ∝ L(θ|xn)p(θ|xn−1, · · · , x1).
33
Ou seja, a ordem em que as observações são processadas pelo Teorema de Bayes
é irrelevante.
2.1.4.1 Prinćıpio de Verossimilhança
Seja X1, X2, · · · , Xn uma amostra aleatória de tamanho n da variável aleatória
X com função de densidade (ou de probabilidade) f(x|θ), com θ ∈ Θ, onde Θ é o espaço
paramétrico. A função de verossimilhança de θ correspondente à amostra aleatória observada
é expressa por,
L(θ|x) = Πni=1f(xi|θ)
A função de verossimilhança tem papel fundamental tanto na inferência clássica
como na inferência bayesiana, como véıculo portador da informação contida na amostra. Por-
tanto, o prinćıpio da verossimilhança sustenta que toda a informação dada pela amostra ou
pela experiência está contida na função de verossimilhança, ou seja, a observação particular
ou amostra concreta xi representa o único elemento do espaço amostral Ω, para qualquer que
seja Ω, relevante nas inferências sobre θ; assim os elementos de Ω que poderiam eventualmente
ter sido observados, mas que não o foram, não fornecem qualquer informação adicional que
poderia influenciar nas inferências sobre θ.
2.1.4.2 Distribuição a Priori
A utilização da informação a priori na Estat́ıstica Bayesiana requer uma distri-
buição a priori, que incorpore a incerteza que se tem a respeito da quantidade de interesse
desconhecida θ . Esta distribuição deve representar probabilisticamente a informação a priori
a respeito de θ que se pretende incorporar na análise antes da realização do experimento.
De acordo com Gelman et al. (2004), a distribuição a priori é “chave”da In-
ferência Bayesiana e representa a informação sobre a incerteza a respeito do parâmetro de
interesse, em geral desconhecido, θ, que é combinado com a distribuição de probabilidade dos
novos dados para gerar a distribuição a posteriori, que é utilizada para inferências futuras e
decisões a respeito de θ.
34
2.1.4.2.1 Priori Conjugada
A idéia é que tanto a distribuição a priori como a distribuição a posteriori façam
parte da mesma classe de distribuições de tal maneira que a atualização da informação a
respeito de θ esteja relacionada a apenas uma mudança nos parâmetros dessa distribuição.
Seja então F = {p(x|θ), θ ∈ Θ} uma classe de distribuições amostrais, então
uma classe de distribuições P é conjugada a F se e somente se ∀ p(x|θ) ∈ F e p(θ) ∈ P =⇒
p(θ|x) ∈ P .
O uso de prioris conjugadas deve ser feito de maneira cautelosa, pois nem sempre
a priori será uma representação adequada da incerteza a priori. A famı́lia distribucional a
selecionar onde se vai procurar o membro condizente com os resumos eliciados deve idealmente
satisfazer os seguintes requisitos:
i - Versatilidade para acomodar maior número de crenças a priori;
ii - Acessibilidade interpretativa para facilitar o processo de sumarização dos seus membros;
iii - Simplicidade da derivação anaĺıtica das distribuições a posteriori e preditivas.
No caso da existência de uma constante k tal que
k−1 =
∫L(θ|x)dθ
35
Nota-se então que L(θ|x) é proporcional a densidade de uma Distribuição Beta(t+1, n−t+1).
E desde que p1, p2 sejam as densidades das distribuições Beta(a1, b1) e Beta(a2, b2), segue então
que,
p1p2 ∝ θa1+a2−2(1− θ)b1+b2−2,
ou seja, p1p2 é proporcional a densidade da Distribuição Beta(a1 + a2 − 1, b1 + b2 − 1). Tal
resultado faz com que conclua-se que a famı́lia de distribuições Beta com parâmetros inteiros
é conjugada natural à famı́lia Bernoulli.
2.1.4.2.2 Priori Não-Informativa
Em algumas situações o pesquisador que trabalha com Inferência Bayesiana não
tem um conhecimento a priori palpável, de natureza objetiva ou subjetiva (“indiferença a
priori”), ou em algumas situações, a informação que se tem é pouco significativa relativamente
à informação amostral (conhecimento vago ou difuso). Nestas circunstâncias, focam-se os prin-
cipais métodos que conduzem o pesquisador a distribuições a priori minimamente informativas,
que são denominadas distribuições não informativas.
Essas distribuições eram interpretadas como representações formais de
ignorância, porém hoje existe uma tendência de serem tidas como opções convencionais de
efeito a que se recorre em caso de informação a priori insuficiente. Tais distribuições desem-
penham um papel de referência na Inferência Bayesiana, mesmo quando se dispõe de fortes
crenças a priori, como forma de:
i - Deduzir as crenças a posteriori para quem parte de um conhecimento escasso;
ii - Permitir a comparação com os resultados da Inferência Clássica que “apenas”usa a in-
formação amostral;
iii - Averiguar a influência nas inferências da distribuição a priori subjetiva que descreve
a informação realmente existente, quando confrontada com as que resultam do uso da
distribuição a priori de referência.
A primeira idéia de “não-informação”a priori que se pode ter é pensar em todos
36
os posśıveis valores de θ como igualmente prováveis; porém, esta escolha de priori pode trazer
algumas dificuldades, como,
i - quando o intervalo de θ é ilimitado a distribuição a priori é imprópria, ou seja,∫p(θ)dθ =
∞.
ii - Se ϕ = g(θ) for uma reparametrização não-linear monótona de θ então p(ϕ) é não uni-
forme, pois pelo teorema de transformação de variáveis sabe-se que p(ϕ) = p(θ(ϕ))
∣∣∣∣ dθdϕ∣∣∣∣ ∝∣∣∣∣ dθdϕ
∣∣∣∣.Em situações reais, como o objetivo principal está na informação proveniente
da Distribuição a Posteriori, pouca importância é dada à impropriedade da Distribuição a
Priori, porém, deve-se sempre certificar-se de que a posteriori é própria antes de fazer qualquer
inferência.
A seguir serão apresentados alguns meios de obtenção das Distribuições a Priori
não-informativas.
1. Método de Bayes-Laplace
A primeira tentativa em se gerar distribuições a priori não-informativas foi o
Prinćıpio a Razão Insuficiente, devido a Bayes-Laplace, o qual enuncia que na ausência de
razão suficiente para privilegiar umas possibilidade em detrimento de outras, decorrente da
escassez de informação a priori, deve-se optar a eqüiprobabilidade.
Considere o caso em que Θ é finito, ou seja,Θ = {θ1, · · · , θk}, a distribuição
não-informativa a ser gerada por este argumento será a Distribuição Uniforme Discreta, com,
h(θ) =1
k, θ ∈ Θ.
No caso em que Θ for um conjunto infinito enumerável não existirá nenhuma
distribuição de probabilidade compat́ıvel com a eqüiprobabilidade de todos os valores posśıveis
dos elementos de Θ. A Distribuição Uniforme Discreta nesta situação não satisfaz o axioma
de probabilidade total unitária, sendo nessa situação denominada de distribuição imprópria.
A representação da “indiferença”por distribuições uniformes é inconsistente no
sentido em que se ψ = ψ (Θ) é uma transformação injetora de um parâmetro θ, que assume
37
uma gama cont́ınua de valores posśıveis, as distribuições uniformes para θ e ψ, não são, em
regra, probabilisticamente compat́ıveis. Observa-se que sendo h(θ) uma distribuição a priori
para θ, então,
h(ψ) = h [θ (ψ)]
∣∣∣∣ dθdψ∣∣∣∣
deve ser a correspondente distribuição para a reparametrização injetora , que não é necessa-
riamente uniforme quando h(θ) o é.
Como exemplo, seja um processo de amostragem de parâmetro θ ∈ (0, 1), onde θ
está associado a um processo de Bernoulli. De acordo com o Método de Bayes-Laplace, a não-
informação que se tem sobre θ deve ser formalmente representada pela Distribuição Uniforme
Cont́ınua (0, 1).
Uma usual reparametrização utilizada é o parâmetro natural da subfamı́lia ex-
ponencial, ψ = ln
[θ
1− θ
]. A distribuição para ψ implica em θ ∼ U(0, 1), que é a distribuição
loǵıstica reduzida, com parâmetro de localização 0 e parâmetro de escala 1,
h(ψ) =eψ
(1 + eψ)2, ψ ∈ R,
o que viola o argumento de que a informação a priori deve ser representada por distribuições
uniformes.
Desta forma o uso de uma Distribuição Uniforme para ψ, agora uma distribuição
imprópria, irá corresponder para θ à distribuição,
h(θ) ∝ θ−1(1− θ)−1, θ ∈ (0, 1),
a qual é o núcleo de uma Distribuição Beta(a, b), com a = b = 0. Esta distribuição para θ é
também conhecida como Distribuição Não-Informativa de Haldane.
2. Método de Jeffreys
A cŕıtica a inconsistência da distribuição uniforme na representação da não-
informação a priori denota que esta deve ser invariante. Diante disto Jeffreys se baseia no uso
da medida de informação de Fisher sobre θ ∈ R,
I(θ) = E
[(∂ ln f(X|θ)
∂θ
)2|θ
].
38
o que mostra que a distribuição proposta por Jeffreys para o caso uniparamétrico,
h(θ) = [I(θ)]1/2
goza da propriedade de invariância mencionada anteriormente.
Aqui o conceito de informação está sendo associado a uma espécie de curvatura
média da função de verossimilhança no sentido de quanto maior a curva, mais precisa é a
informação contida na função de verossimilhança, ou equivalentemente, maior o valor de I(θ).
No geral, espera-se que a curvatura seja negativa, e por questões matemáticas, seu valor é
tomado com sinal trocado. Além disso, deve-se notar que I(θ) é tanto maior quanto maior for
a taxa quadrática com θ de ln f(X|θ).
No caso uniparamétrico Jeffreys defendeu os argumentos do prinćıpio da razão
insuficiente para Θ finito, da invariância sob transformações lineares para parâmetros de loca-
lização em que Θ é um intervalo limitado ou R e da invariância sob potências de parâmetros
de escala, como o desvio-padrão em que Θ = R+ , resultando em,
h(θ) ∝ θ−1I(0,+∞)(θ).
Exemplificando, considere que X1, X2, · · · , Xn ∼ Poisson(θ). O logaritmo da
função de probabilidade conjunta é dado por,
log p(x|θ) = −nθ +n∑i=1
xi log θ − logn∏i=1
xi!,
e tomando-se a segunda derivada desta expressão, tem-se que,
∂2 log p(x|θ)∂θ2
=∂
∂θ
[−n+
∑ni=1 xiθ
]=−∑n
i=1 xiθ2
,
logo,
I(θ) =1
θ2E
[n∑i=1
xi
]=n
θ∝ θ−1.
Desta forma, a distribuição priori não-informativa de Jeffreys para θ no Modelo
de Poisson é p(θ) ∝ θ−1/2 , a qual é obtida tomando-se a conjugada natural Gama e fazendo-se
α =1
2e β → 0.
Na prática a priori não-informativa é obtida fazendo-se o parâmetro de escala
da distribuição conjugada tender a zero e fixando-se os demais parâmetros convenientemente.
39
3. Método de Box-Tiao
Box e Tiao procuraram definir critérios que permitissem retratar a idéia vaga
da informação a priori, e deste modo, gerar distribuição a priori não-informativa. Sua idéia
base foi procurar uma reparametrização ψ = ψ(θ) do modelo {f(x|θ : θ ∈ Θ}, para a qual a
verossimilhança fosse apenas transladada pelos dados, de forma que,
L(θ|x) ≈ g [ψ(θ)−m(x)] ,
onde g é uma função cuja forma é independente de x e m(x) a função que descreve a translação
de L com a variação de x. Sendo detectada uma transformação ψ deste tipo, considera-se para
ela uma distribuição que assegure que a respectiva distribuição a posteriori seja essencialmente
a verossimilhança normalizada, de forma que essas distribuições para diferentes amostras de-
firam umas das outras apenas pela localização.
Box e Tiao propuseram para ψ uma distribuição própria cuja densidade seja
sensivelmente constante na gama de valores apreciáveis de L(ψ|x), e que de fora dela os seus
valores não sejam, pelo menos, muito plauśıveis para garantir que, em termos aproximados,
h(ψ|x) ≈ L(ψ|x)∫L(ψ|x)
.
Distribuições desta forma apresentam uma densidade essencialmente uniforme
sobre os valores significativos da verossimilhança, decaindo para zero à medida que se afasta
desses valores, o que significa a designação de distribuições localmente uniformes. Assim, sendo
h(ψ) ∝ c localmente, a distribuição não-informativa para Box-Tiao para o parâmetro original
θ é aproximadamente proporcional ao Jacobiano da transformação ψ(θ), o que é representado
por,
h(θ) ∝∣∣∣∣dψdθ
∣∣∣∣ .Considere como exemplo, o contexto de uma amostra aleatória da Distribuição
de Bernoulli, com parâmetro θ. Considerando-se que θ̂ =t
n, onde t =
∑ni xi com t 6= 0, tem-se
J(θ, t) =
t
nθ2
+1− t
n(1− θ)2
=θ̂
θ2+
1− θ̂(1− θ)2
,
40
de onse segue que,
J(θ̂) = [θ̂(1− θ̂)]−1.
Nota-se então que a Distribuição a Priori Não-Informativa para θ é a Distribuição
Beta
(1
2,1
2
), correspondendo à distribuição localmente uniforme para,
ψ ∝ 2∫ d
dθ
√θ
√1− θ
∝ arcsin√θ
4. Método da Entropia Máxima
Jaynes (1968) propôs o conceito de entropia na formulação de distribuições a
priori que caracterizam a não-informação, o qual é utilizado em F́ısica como medida da quan-
tidade de desordem e imprevisibilidade de um sistema f́ısico.
Da teoria f́ısica sabe-se que quanto mais desordenado e impreviśıvel for um sis-
tema, maior será sua entropia. No contexto de interesse, uma distribuição que se pretende ser
não-informativa acerca de um parâmetro deve originar entropia máxima.
A aplicação desta idéia F́ısica para a Estat́ıstica, no caso discreto em paćıfico,
porém no caso cont́ınuo não o é. Ater-se-á ao caso discreto.
Seja θ um parâmetro discreto com função densidade de probabilidade h(θ) e
suporte Θ, define-se por entropia de h(θ) como sendo o valor esperado de − lnh(θ), ou seja,
E(h(θ)) = −∑θ∈Θ
ln(h(θ))h(θ).
Exemplificando, considere que θ assuma um número finito de valores distintos,
ou seja, θ ∈ Θ = {θ1, θ2, · · · , θn}, com probabilidades p(θ = θi) = pi > 0, i = 1, · · · , k.
O objetivo aqui é encontrar (pi, i = 1, · · · , k) sujeito a restrição∑k
i=1 p1 = 1
que maximize E(h(θ)) = −∑k
i=1 pi ln(pi). Com aux́ılio matemático, usando o Método dos
Multiplicadores de Lagrange, pretende-se maximizar a função lagrangiana,
E∗ (h (θ)) = −k∑i=1
pi ln (pi) + λ
(k∑i=1
pi − 1
).
Derivando-se a função anterior em ordem a pi, para i = 1, · · · , k e igualando a
zero, obtêm-se o sistema de equações,
− ln pi − 1 + λ = 0, i = 1, · · · , k ⇒ ln pi = λ− 1∀i = 1, · · · , k,
41
ou seja, pi tem de ser constante. O valor desta constante é obtido através da restrição imposta
à soma ser unitária, implicando em pi =1
k, i = 1, · · · , k, sendo a entropia associada (máxima)
dada por ln k. Assim, verifica-se que a distribuição que maximiza a entropia é a Distribuição
Uniforme Discreta, o que leva-se a concluir que a representação da não-informação adaptando
o critério de maximização da entropia conduz ao resultado obtido quando se usa o Método de
Bayes-Laplace.
2.1.4.2.3 Prioris Hierárquicas
A utilização de prioris hierárquicas é uma abordagem que facilita as especi-
ficações das informações antes dos experimentos serem realizados, além de ser natural em
determinadas situações experimentais. A idéia é dividir a especificação da distribuição a priori
em estágios.
A Distribuição a Priori de θ depende dos hiperparâmetros ϕ e pode-se escrever
p(θ, ϕ) ao invés de p(θ). E ao invés de fixar valores para os hiperparâmetros, pode-se especificar
uma distribuição a priori p(ϕ) de forma a completar assim o segundo estágio da hierarquia.
Neste contexto, a distribuição a priori conjunta é simplesmente p(θ, ϕ) = p(θ|ϕ)p(ϕ) e a
distribuição marginal de θ pode ser obtida pela integração,
p(θ) =
∫p(θ, ϕ)dϕ =
∫p(θ|ϕ)dϕ.
E assim, a distribuição a posteriori conjunta fica,
p(θ, ϕ|x) ∝ p(x|θ, ϕ)p(θ|ϕ)p(ϕ) ∝ p(x|θ)p(θ|ϕ)p(ϕ),
uma vez que a distribuição dos dados depende apenas de θ.
Ehlers (2008) apresentou como exemplo a seguinte situação: suponha que
X1, X2, · · · , Xn sejam tais que Xi ∼ N(θi, σ2) com σ2 desconhecido e deseja-se especificar
uma distribuição a priori para o vetor de parâmetros θ′
= [θ1, θ2, · · · , θn]. Suponha que no
primeiro estágio assuma-se que θi ∼ N(µ, τ 2), i = 1, · · · , n. Neste caso, ao se fixar o valor
de τ 2 = τ 20 e assumir-se que µ tem distribuição normal, então θ terá distribuição normal
multivariada. Por outro lado, fixando-se um valor para µ = µ0 e assumindo-se que τ−2 tem
distribuição Gama, isto implica em uma distribuição t de Student multivariada para θ.
42
As prioris hierárquicas são especificadas, em geral, em 2 ou 3 estágios. Devido à
dificuldade de interpretação dos hiperparâmetros, em estágios mais altos, é comum se especi-
ficar prioris não-informativas para estes ńıveis.
2.1.4.2.4 O uso de Prioris Informativas
Em situações onde o tamanho da amostra é pequeno, ou quando os dados dis-
pońıveis fornecem apenas informações vagas a respeito dos parâmetros, o conhecimento a priori,
representado pela distribuição a priori é muito importante, Gelman (2002). Neste mesmo tra-
balho, o autor aponta que quando se trabalha com ajuste de modelos hierárquicos, o uso de
prioris informativas, muitas vezes, se faz necessário, entretanto ele salienta a diferença entre o
uso de prioris informativas “fortes”e “moderadas”, que deve ser feito com cautela, sobretudo
se atentando para o número de parâmetros a serem estimados e para a quantidade de dados
que se dispõe. O autor ainda justifica que quando se utiliza modelos hierárquicos e deseja-
se estimar muitos parâmetros, caso seja utilizado prioris não-informativas, as estimativas dos
parâmetros do modelo será fechada sob as informações dos dados, o que trará estimativas
apenas razoáveis, e que é este tipo de problema que deve estimular o pesquisador a especificar
distribuições a priori, usando informações externas.
Abel et al. (2010) em um estudo de séries temporais utilizando estimação baye-
siana, constataram que o uso de prioris informativas pode tornar a distribuição a posteriori
leptocúrtica, alterando a tendência central, entretanto desde que essa informação a priori seja
tomada com cautela, com base em conhecimentos prévios sólidos, a inclusão da distribuição a
priori informativa pode auxiliar na precisão das previsões do modelo de séries temporais, o que
nem sempre é verificado no uso de prioris não-informativas ( prioris flat), onde as estimativas
baseia-se em quase sua totalidade apenas nos dados.
O uso de prioris informativas também pode acelerar o processo de convergência
de estimativas em computação bayesiana, sobretudo quando se dispõe de poucos dados e
muitos parâmetros a serem estimados, o que é comum na modelagem de modelos hierárquicos
(Ntzoufras, 2009).
43
2.1.4.3 Estimação
A distribuição a posteriori de um parâmetro θ contém toda a informação proba-
biĺıstica a respeito deste parâmetro e um gráfico da sua função de densidade a posteriori é a
melhor descrição do processo de inferência. Algumas vezes é necessário resumir a informação
contida na posteriori através de alguns poucos valores numéricos, por exemplo, a estimação
pontual de θ onde se resume a distribuição a posteriori através de um único número, θ̂.
Seja amostra aleatória X1, · · · , Xn de uma distribuição com função densidade de
probabilidade p(x|θ), sendo o verdadeiro valor do parâmetro θ desconhecido e de interesse.
Desde que θ ∈ Θ, então é razoável que os posśıveis valores de um estimador δ(X)
também devam pertencer ao espaço paramétrico de θ, Θ. Assim, um bom estimador de θ é
aquele cujo qual, com alta probabilidade, o erro δ(X) − θ esteja próximo de zero. Para cada
posśıvel valor de θ e cada posśıvel estimativa a ∈ Θ, associa-se uma perda L(a, θ), de tal forma
que quanto maior for a distância entre a e θ, maior será o valor da função perda. Sob estas
condições, a função perda esperada a posteriori é expressa por,
E [L(a, θ)|x] =∫L(a, θ)p(θ|x)dθ
e a Regra de Bayes consiste em escolher a estimativa que minimiza esta perda esperada.
Entretanto, observa-se que estimação pontual possui uma restrição, quando se
esta estimando um parâmetro através de um único valor numérico, toda a informação presente
na distribuição a posteriori é resumida através deste número. É importante também associar
alguma informação sobre o quão precisa é a especificação deste número.
As medidas de incerteza mais usuais são a variância ou o coeficiente de variação
para a média a posteriori, a medida de informação observada de Fisher para a moda a posteriori,
e a distância entre quartis para a mediana a posteriori. E para contornar a restrição da
estimativa pontual, assim como na teoria clássica, existe a estimação por intervalo, dentro da
Estat́ıstica Bayesiana, todavia, aqui a interpretação será dada em termos de credibilidade, ao
contrário da Estat́ıstica Clássica, onde a interpretação é feita em termos de ńıveis de confiança.
Definição: C é um intervalo de credibilidade de 100(1− α)%, ou ńıvel de credibilidade 1− α,
para θ se P (θ ∈ C) ≥ 1− α.
Note que qualquer região de credibilidade é definida numericamente, isto é, não
44
é aleatória, e admite uma interpretação probabiĺıstica direta e ineqúıvoca em contraste com
a região de confiança clássica. A definição expressa de forma probabiĺıstica a pertinência ou
não de θ ao intervalo. Assim, quanto menor for o tamanho do intervalo mais concentrada é a
distribuição do parâmetro, ou seja o tamanho do intervalo informa sobre a dispersão de θ. Uma
vantagem do uso da estimação por intervalos de credibilidade é que os intervalos são invariantes
a transformação 1 a 1, φ(θ). Assim, é posśıvel construir uma infinidade de intervalos usando a
definição acima, mas o interesse está apenas naquele com o menor comprimento posśıvel. Os
intervalos de comprimento mı́nimo são obtidos tomando-se os valores de θ com maior densidade
a posteriori, e esta idéia é expressa matematicamente na definição a seguir.
Definição: Um intervalo de credibilidade C de 100(1 − α)% para θ é de máxima densidade a
posteriori (abreviadamente, do inglês, HPD) se C = {θ ∈ Θ : p(θ|x) ≥ k(α)} onde k(α) é a
maior constante tal que P (θ ∈ C) ≥ 1− α.
Pela definição anterior, nota-se que todos os pontos dentro do intervalo HPD
terão densidade maior do que qualquer ponto fora do intervalo. Além disso, no caso de dis-
tribuições com duas caudas, por exemplo, normal, t de Student, o intervalo HPD é obtido de
modo que as caudas tenham a mesma probabilidade. Todavia, os intervalos HPD possuem
uma restrição, eles não são invariantes a transformações 1 a 1, a não ser para transformações
lineares.
2.1.4.4 Critério de Informação da Deviance Bayesiana - DIC
Spiegelhater et al.(2002) propôs o critério de Informação da Deviance Bayesiana
(DIC) para a comparação de modelos, assim como a seleção de variáveis explicativas a serem
consideradas no modelo. O critério utiliza como medida de qualidade de ajuste a esperança
a posteriori do logaritmo da distribuição condicional dos dados. A medida representa uma
medida de complexidade do modelo, sendo assim, modelos com menores valores de DIC podem
ser considerados mais adequados pois apresentam ajuste ponderado pelo grau de complexidade.
O seguinte critério pode ser adotado da seguinte maneira:
• D = |DICA −DICB| (comparando dois modelos)
i - se D < 5 - não significativo;
45
ii - se 5 ≤ D ≤ 10 - significativo;
iii - de D > 10 - muito significativo.
2.1.4.5 Aspectos Computacionais
Na literatura existem várias maneiras de se mensurar a informação sobre os
parâmetros de interesse, de um determinado modelo, descrita na distribuição a posteriori,
baseando-se em simulação, como por exemplo, Monte Carlo simples, Monte Carlo com função
de importância, métodos de reamostragem e Monte Carlo via Cadeias de Markov (MCMC).
Todos estes algoritmos são não determińısticos, isto é, todos requerem a simulação de números
(pseudo) aleatórios de alguma distribuição de probabilidade, de forma que, em geral, a única
limitação para o processo de simulação são o tempo de computação e a capacidade de arma-
zenamento dos valores simulados.
Com os recursos computacionais atuais, a análise bayesiana vem se desenvol-
vendo cada vez mais, entretanto deve-se ter grande cautela quando se fizer uso da Computação
Bayesiana, pois corre-se o risco de apresentar uma solução certa para um problema errado (erro
tipo III) ou uma solução ruim para o problema correto, de tal forma que os métodos computa-
cionalmente intensivos não devem ser utilizados como substituição do pensamento cŕıtico sobre
o problema que está sendo analisado. E sempre que posśıvel, deve-se utilizar aproximações
exatas, se elas existirem. Em outras palavras, como os métodos computacionais são iterativos,
deve-se ter cautela com a possibilidade de um algoritmo apresentar convergência para um valor
incorreto, o que segundo Spiegelhater et al. (1995), é pior do que um algoritmo não apresentar
convergência.
O objetivo em toda análise estat́ıstica é fazer inferência. Na inferência baye-
siana, a distribuição a posteriori representa (concentra) toda a informação relevante sobre os
parâmetros de interesse, θ, e pode ser convenientemente resumida em termos de esperanças de
funções particulares do parâmetro θ, isto é,
E [g(θ|x)] =∫g(θ)p(θ|x)dθ
e se θ for multidimensional, distribuições a posteriori marginais pode ser obtidas,
p(θ1|x) =∫p(θ|x)dθ2
46
em que θ = (θ1, θ2). Desta forma, o problema geral da Inferência Bayesiana consiste no cálculo
de valores esperados segundo a distribuição a posteriori de θ.
2.1.4.5.1 Método de Monte Carlo via Cadeias de Markov
O Método de Monte Carlo via Cadeias de Markov (MCMC) é uma alternativa
aos métodos não iterativos em problemas complexos, em que em muitas situações é dificultoso
ou até mesmo imposśıvel encontrar uma densidade de importância que seja simultaneamente
uma boa aproximação da distribuição de probabilidade a posteriori e que seja pasśıvel de
amostragem.
Neste caso, a idéia é obter uma amostra da distribuição de probabilidade a
posteriori e obter estimativas amostrais das caracteŕısticas desta distribuição. Nesse processo
são utilizadas técnicas de simulação iterativas. E em decorrência dessa simulação, que serão
baseadas em Cadeias de Markov, os valores gerados serão dependentes.
Essa dependência é devida ao fato de uma cadeia de Markov ser um processo
estocástico de tal forma que a distribuição deXt dado a ocorrência de todos os valores anteriores
X0, X1, · · · , Xt−1 depende apenas da informação anterior Xt−1. Matematicamente,
P (Xt ∈ A|X0, · · · , Xt−1) = P (Xt ∈ A|Xt−1)
para qualquer subconjunto de A. Da Teoria de Processos Estocá
Top Related