Download - Modelos não-lineares para dados longitudinais provenientes de … · 2011. 2. 9. · A secret aria do LCE, Solange Paes de Assis Sabadin, que durante o primeiro ano do meu curso

Transcript

Universidade de São Paulo

Escola Superior de Agricultura “Luiz de Queiroz”

Modelos não-lineares para dados longitudinais provenientes de

experimentos em blocos casualizados

abordagem bayesiana

Everton Batista da Rocha

Dissertação apresentada para obtenção do título de Mestre

em Ciências. Área de concentração: Estatística e

Experimentação Agronômica

Piracicaba

2010
Everton Batista da Rocha

Bacharel em Estatística

Modelos não-lineares para dados longitudinais provenientes de

experimentos em blocos casualizados

abordagem bayesiana

Orientadora:

Profa . Dra. ROSELI APARECIDA LEANDRO

Dissertação apresentada para obtenção do título de Mestre

em Ciências. Área de concentração: Estatística e

Experimentação Agronômica

Piracicaba

2010
Dados Internacionais de Catalogação na Publicação

DIVISÃO DE BIBLIOTECA E DOCUMENTAÇÃO - ESALQ/USP

Rocha, Everton Batista da Modelos não-lineares para dados longitudinais provenientes de experimentos em blocos

casualizados abordagem bayesiana / Everton Batista da Rocha. - - Piracicaba, 2010. 205 p. : il.

Dissertação (Mestrado) - - Escola Superior de Agricultura “Luiz de Queiroz”, 2010. Bibliografia.

1. Análise de dados longitudinais 2. Curvas de crescimento 3. Delineamento experimental 4. Eucalipto 5. Inferência bayesiana 6. Modelos não lineares (Planejamento e Pesquisa) 7. Planejamento em blocos I. Título

CDD 634.9734 R672m

“Permitida a cópia total ou parcial deste documento, desde que citada a fonte – O autor”
3

Dedicatória

Dedico este trabalho em memória de minha mãe, Anaides B.

da Rocha, que, em vida, foi a pessoa que mais me apoiou em

todos os momentos, me impulsionando a buscar a vida nova

a cada dia. Meus agradecimentos por ter aceito se privar de

minha companhia durante os meus estudos, concedendo a mim

a oportunidade de me realizar ainda mais.
4
5

AGRADECIMENTOS

A minha mãe (in memoriam) por ter-me trazido ao mundo e na sua simplicidade

ter me ensinado a conviver com o próximo, em respeito, amor e harmonia e por ter sempre

acreditado em mim, me incentivando e dando todo seu apoio. E onde quer que ela esteja, sei

que ainda olha por mim.

Ao meu pai, David R. da Rocha, pelos ensinamentos sólidos de vida e pelo

incansável apoio nos momentos dif́ıceis.

A minha irmã, Ana Paula B. da Rocha, pelo apoio e fortalecimento no trilhar

diário, sendo testemunho de zelo e amor.

Aos professores que me deram aula durante esse curso de Pós-Graduação em

Estat́ıstica e Experimentação Agronômica, pois sem eles, eu não estaria concluindo este curso

- Roseli A. Leandro, Clarice G. B. Demétrio, Śılvio S. Zocchi, César G. de Lima, Sônia M. D.

S. Piedade, Carlos Tadeu dos S. Dias, Edwin M. M. Ortega.

Ao CNPq - Conselho Nacional de Desenvolvimento Cient́ıfico e Tecnológico -

pela bolsa de mestrado concedida.

Com muito carinho aos amigos que me mostraram o valor das amizades ver-

dadeiras, me acompanhando durante os momentos fáceis e dif́ıceis nesses 2 anos do curso de

mestrado, me fazendo sorrir quando me vinha a tristeza e secando minhas lágrimas quando

elas insistiam em cair, em especial Shelly B. de Souza, Mariana R. Urbano, Luciana Mina-

mihara, Carol Coelho, Henrique Kawamura, Carlos R. Ferraz, Caio Temer, Renato Piselli e

Táıza Seron.

A Profa. Dra. Roseli A. Leandro, de maneira muito especial, pelos conhecimen-

tos compartilhados, enquanto professora, pela orientação e incentivo durante todo transcorrer

do meu curso de mestrado. Pela confiança e amizade em mim depositada, fonte de inspiração

para a vida cient́ıfica e particular, sendo um exemplo de ética e seriedade no trabalho.

A Profa. Dra. Terezinha A. Guedes, por ter sido minha professora e orientadora

no peŕıodo da graduação, contribuindo para a formação do meu conhecimento cient́ıfico na área

de Estat́ıstica. Pela amizade compartilhada ao longo desses anos, e que se tem mostrado cada

vez mais forte e viva, sempre me mostrando que amizades verdadeiras vencem as distâncias e
6

o tempo.

Ao Prof. Dr. Silvio S. Zocchi, pela colaboração e apoio durante o curso.

Ao grupo de estudos GEMMix, pelos conhecimentos e amizade compartilhados.

A todos os alunos do curso de Pós-Graduação em Estat́ıstica e Experimentação

Agronômica da ESALQ/USP, com os quais compartilhei essa fase da minha vida.

Aos funcionários do LCE/ESALQ/USP, em especial as secretárias pelo apoio e

dedicação no transcorrer do curso.

A secretária da Pós-Graduação em Estat́ıstica e Experimentação Agronômica,

Luciane Brajão, pelo apoio, amizade, simplicidade e atenção, que em muito contribui para que

este sonho se tornasse realidade.

A secretária do LCE, Solange Paes de Assis Sabadin, que durante o primeiro ano

do meu curso de mestrado foi secretária da Pós-Graduação em Estat́ıstica e Experimentação

Agronômica e em muito contribui para que o transcorrer do mesmo fosse o mais paćıfico

posśıvel.

E por fim, a Deus, por ter me dado o dom da vida, ter me permitido viver essa

fase inesquećıvel que foi o meu curso de mestrado, onde conheci muitas pessoas e aprendi que

amizade e solidariedade se aprendem e conquistam com o tempo.
7

SUMÁRIO

RESUMO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

ABSTRACT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

LISTA DE FIGURAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

LISTA DE TABELAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2 DESENVOLVIMENTO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.1 Revisão de Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.1.1 Planejamentos Longitudinais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.1.2 O Modelo de Gompertz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.1.3 Modelos Não-Lineares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.1.3.1 Abordagem Clássica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.1.3.2 Modelagem do Efeito de Bloco . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.1.4 Estat́ıstica Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.1.4.1 Prinćıpio de Verossimilhança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.1.4.2 Distribuição a Priori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.1.4.2.1 Priori Conjugada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

2.1.4.2.2 Priori Não-Informativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

2.1.4.2.3 Prioris Hierárquicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

2.1.4.2.4 O uso de Prioris Informativas . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

2.1.4.3 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

2.1.4.4 Critério de Informação da Deviance Bayesiana - DIC . . . . . . . . . . . . . . . 44

2.1.4.5 Aspectos Computacionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

2.1.4.5.1 Método de Monte Carlo via Cadeias de Markov . . . . . . . . . . . . . . . . . 46

2.1.4.5.2 Algoritmo de Metropolis-Hastings . . . . . . . . . . . . . . . . . . . . . . . . . 47

2.1.4.5.3 Amostrador de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

2.1.4.6 Análise de Convergência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

2.1.5 O programa WinBUGS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

2.1.6 O programa R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

2.2 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
8

2.2.1 Dados do volume sólido com casca de árvores de eucalipto . . . . . . . . . . . . . 65

2.2.2 Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

2.2.2.1 Modelo 1: Estrutura de Independência . . . . . . . . . . . . . . . . . . . . . . . 66

2.2.2.2 Modelo 2: Estrutura Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

2.2.3 Modelando o Efeito de Bloco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

2.2.3.1 Modelo Hierárquico Bayesiano de Três Estágios . . . . . . . . . . . . . . . . . . 72

2.2.3.1.1 Inferência para o Modelo Hierárquico Bayesiano . . . . . . . . . . . . . . . . . 74

2.2.3.2 Uma Alternativa para a Estrutura de Variância-Covariância . . . . . . . . . . . 77

2.2.3.2.1 Inferência para a Estrutura de Variância-Covariância Alternativa . . . . . . . . 78

3 RESULTADOS E DISCUSSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

3.1 Análise Exploratória . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

3.2 Ajuste 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

3.3 Ajuste 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

3.4 Ajuste 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

3.5 Ajuste 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

4 CONSIDERAÇÕES FINAIS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

4.1 Conclusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

4.2 Pesquisas Futuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

APÊNDICE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
9

RESUMO

Modelos não-lineares para dados longitudinais provenientes

de experimentos em blocos casualizados

abordagem bayesiana

Dados consistindo de medidas repetidas tomadas em um mesmo indiv́ıduo são

muito comuns na agricultura e biologia. A modelagem de dados desta natureza usualmente

envolvem a caracterização da relação entre medidas repetidas e covariáveis. Em muitas

aplicações, a relação proposta entre as medidas repetidas tem um comportamento não-linear

nos parâmetros desconhecidos de interesse. Por exemplo, em estudo de crescimento de árvores,

geralmente o comportamento da variável resposta é melhor descrito por um modelo não-linear

nos parâmetros porque estes modelos caracterizam melhor a realidade dos fenômenos biológicos

em estudo e porque é posśıvel uma interpretação biológica dos parâmetros. A presença de me-

didas repetidas em um indiv́ıduo requer um cuidado particular na caracterização da variação

entre medidas dentro de uma mesma unidade experimental e entre unidades. Dados observados

na mesma unidade experimental são correlacionados, e é provável que essa correlação decaia

ao longo do tempo e que haja variações entre as medidas. Neste trabalho considera-se duas

estruturas de covariâncias: erros aleatórios e independentes com média zero e variância σ2, esta

formulação não incorpora uma posśıvel dependência entre as observações tomadas no mesmo

indiv́ıduo, que é comum em estudos longitudinais. Portanto, é importante ter modelos que

acomodem a dependência (entre e dentre dos indiv́ıduos) e a heterocedasticidade na sua for-

mulação. Então, considerou-se outra estrutura de covariância, chamada não-estruturada, com

a finalidade de permitir que os dados “contribuam”na estrutura da matriz de covariâncias.

Neste trabalho analisou-se um delineamento em blocos casualizados assumindo um modelo

bayesiano hierárquico de três estágios. No primeiro estágio, modelou-se a variação dentro do

indiv́ıduo, no segundo estágio a variação entre indiv́ıduos. Este estágio da hierarquia dá uma

relação expĺıcita entre os parâmetros aleatórios do modelo. No terceiro estágio foi incorpo-

rada a incerteza relativa as quantidades desconhecidas no modelo. Para a análise estat́ıstica,

utilizou-se um conjunto de dados de um experimento conduzido pela Klabin Fabricadora de

Papel e Celulose S.A., do Paraná, Brasil, involvendo duas espécies de eucaliptos e espaçamentos
10

que foram completamente aleatorizados em blocos; em que a variável resposta, definida como

o volume sólido com casca, foi observada em 16 indiv́ıduos, e quatro indiv́ıduos foram alea-

torizados para cada um dos quatro tratamentos. O modelo de Gompertz foi utilizado para

representar o crescimento esperado das árvores de eucaliptos. Usando o modelo de Gompertz

é posśıvel ter uma interpretação biológica dos parâmetros. Considerando diferentes estruturas

de covariância entre as observações, um programa para a análise de dados foi implementado

no WinBUGS.

Palavras-chave: Modelo bayesiano hierárquico; Medidas repetidas; WinBUGS; Eucalipto
11

ABSTRACT

Nonlinear models for longitudinal data

from experiments in randomized block design

a bayesian framework

Data consisting of repeated measurements taken on each of a number of indivi-

dual arise commonly in agricultural and biological applications. Modeling data of this kind

usually involves the characterization of the relationship between the measured response and

covariate. In many application,the proposed systematic relationship between the measured

response is nonlinear in unknown parameters of interest. For example, in growing studies of

trees, generally the behavior of the response variable over time is best described by a nonli-

near model in the parameters of interest because this model characterizes better the reality

of biological phenomenon in study and because is possible to do a biological interpretation of

the parameters. The presence of repeated observations on an individual requires particular

care in characterizing the random variation among measurements within a given individual

and random variation among individuals. Likely the observations made on the same unit are

correlated, probability decreasing over time and possible the variances are growth among the

serial measurements. In this work we considerer two covariance structure namely: independent

random error vectors whose elements are also independent with mean zero and variance σ2,

but this formulation does not incorporate possible dependence among the observation taken on

the same subject neither that in longitudinal studies it is quite common to have the variances

varying along the ordered dimension. Therefore, it is important to have models that allow

for both dependences (within and between subjects) and also for heteroscedasticity in their

formulations. Then we considerer other covariance structure namely: the structure is a non

structure which permit that the data set “tells”about the covariance structure. In this work

we analyzed a randomized block design assuming a three-stage Bayesian hierarchical model.

On the first stage, we model the intra-individual variation, on the second stage, we model the

inter-individual variation. This stage of hierarchy gives an explicit relationship between the

random parameters. On the third stage, we define the hyperprior distribution to incorporate

the uncertainty about the unknown parameters. For the statistical analysis we used a data set
12

from a experiment conducted at Klabin Fabricadora de Papel e Celulose S.A. from Paraná,

Brazil, involving two Eucalyptus species and two spacings in a complete randomized design;

where the response variable, defined as the solid volume with bark, was evaluated for each of 16

subjects (groups of Eucalyptus trees), and four subjects were randomly assigned to one of four

treatments. To represent the expected growing function of the Eucalyptus’s tree Gompertz

nonlinear model was used. Using the Gompertz nonlinear model is possible to a biological

interpretation of the parameters. Considering different structures covariance within subjects,

a program for the analysis of the data set was implemented in WinBUGS.

Keywords: Bayesian hierarchical model; Repeated measurements; WinBUGS; Eucalyptus

nada
13

LISTA DE FIGURAS

Figura 1 - Janela do aplicativo Specification Tool . . . . . . . . . . . . . . . . . . . . . 59

Figura 2 - Janela do aplicativo Update Tool . . . . . . . . . . . . . . . . . . . . . . . . 60

Figura 3 - Janela do aplicativo Sample Monitor Tool . . . . . . . . . . . . . . . . . . . 61

Figura 4 - Resumo a posteriori para o parâmetro θ . . . . . . . . . . . . . . . . . . . . 62

Figura 5 - Autocorrelação a posteriori para o parâmetro θ . . . . . . . . . . . . . . . . 63

Figura 6 - Traço e histórico das cadeias para o parâmetro θ . . . . . . . . . . . . . . . 64

Figura 7 - Quantis das cadeias para o parâmetro θ . . . . . . . . . . . . . . . . . . . . 64

Figura 8 - Box plot para os tratamentos . . . . . . . . . . . . . . . . . . . . . . . . . . 87

Figura 9 - Perfil individual para cada uma das árvores de eucalipto . . . . . . . . . . . 88

Figura 10 -Perfil individual para cada uma das árvores de eucalipto, agrupadas por bloco 89

Figura 11 -Autocorrelação serial para os parâmetros σ e τ - ajuste 1 . . . . . . . . . . 96

Figura 12 -Autocorrelação serial para os parâmetros do modelo - ajuste 1 . . . . . . . 96

Figura 13 -Histórico e densidades a posteriori associados ao tratamento 1 - ajuste 1 . . 97

Figura 14 -Histórico e densidades a posteriori associados ao tratamento 2 - ajuste 1 . . 98

Figura 15 -Histórico e densidades a posteriori associados ao tratamento 3 - ajuste 1 . . 99

Figura 16 -Histórico e densidades a posteriori associados ao tratamento 4 - ajuste 1 . . 100

Figura 17 -Histórico e densidades a posteriori para σ e τ - ajuste 1 . . . . . . . . . . . 101

Figura 18 -Curvas para o ajuste 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

Figura 19 -Autocorrelação serial para os parâmetros do modelo - ajuste 2 . . . . . . . 114

Figura 20 -Autocorrelação serial para Σi - ajuste 2 . . . . . . . . . . . . . . . . . . . . 115

Figura 21 -Histórico e densidades a posteriori associados ao tratamento 1 - ajuste 2 . . 116

Figura 22 -Histórico e densidades a posteriori associados ao tratamento 2 - ajuste 2 . . 117

Figura 23 -Histórico e densidades a posteriori associados ao tratamento 3 - ajuste 2 . . 118

Figura 24 -Histórico e densidades a posteriori associados ao tratamento 4 - ajuste 2 . . 119

Figura 25 -Histórico e densidades a posteriori para Σi - ajuste 2 . . . . . . . . . . . . 120

Figura 26 -Curvas para o ajuste 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

Figura 27 -Autocorrelação serial para os parâmetros do modelo - ajuste 3 . . . . . . . 131

Figura 28 -Autocorrelação serial para τ e τb - ajuste 3 . . . . . . . . . . . . . . . . . . 131

Figura 29 -Histórico e densidades a posteriori associados ao tratamento 1 - ajuste 3 . . 132
14

Figura 30 -Histórico e densidades a posteriori associados ao tratamento 2 - ajuste 3 . . 133

Figura 31 -Histórico e densidades a posteriori associados ao tratamento 3 - ajuste 3 . . 134

Figura 32 -Histórico e densidades a posteriori associados ao tratamento 4 - ajuste 3 . . 135

Figura 33 -Histórico e densidades a posteriori para τ e τb - ajuste 3 . . . . . . . . . . . 136

Figura 34 -Curvas para o ajuste 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

Figura 35 -Autocorrelação serial para os parâmetros do modelo - ajuste 4 . . . . . . . 146

Figura 36 -Autocorrelação serial para Σi - ajuste 4 . . . . . . . . . . . . . . . . . . . . 147

Figura 37 -Autocorrelação serial para τb - ajuste 4 . . . . . . . . . . . . . . . . . . . . 148

Figura 38 -Histórico e densidades a posteriori associados ao tratamento 1 - ajuste 4 . . 148

Figura 39 -Histórico e densidades a posteriori associados ao tratamento 2 - ajuste 4 . . 149

Figura 40 -Histórico e densidades a posteriori associados ao tratamento 3 - ajuste 4 . . 150

Figura 41 -Histórico e densidades a posteriori associados ao tratamento 4 - ajuste 4 . . 151

Figura 42 -Histórico e densidades a posteriori para Σi - ajuste 4 . . . . . . . . . . . . 152

Figura 43 -Histórico e densidade a posteriori para τb - ajuste 4 . . . . . . . . . . . . . 153

Figura 44 -Curvas para o ajuste 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

Figura 45 -Curvas para os ajustes 1 e 4 . . . . . . . . . . . . . . . . . . . . . . . . . . 158

Figura 46 -Curvas para os ajustes 2 e 4 . . . . . . . . . . . . . . . . . . . . . . . . . . 159

Figura 47 -Curvas para os ajustes 3 e 4 . . . . . . . . . . . . . . . . . . . . . . . . . . 160

Figura 48 -Curvas para os ajustes 1, 2, 3 e 4 . . . . . . . . . . . . . . . . . . . . . . . 161
15

LISTA DE TABELAS

Tabela 1 - Estrutura de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

Tabela 2 - Volume sólido com casca (m3/ha) das árvores de eucaliptos . . . . . . . . . 66

Tabela 3 - Medidas resumo para o tratamento 1 . . . . . . . . . . . . . . . . . . . . . . 85

Tabela 4 - Medidas resumo para o tratamento 2 . . . . . . . . . . . . . . . . . . . . . . 86

Tabela 5 - Medidas resumo para o tratamento 3 . . . . . . . . . . . . . . . . . . . . . . 86

Tabela 6 - Medidas resumo para o tratamento 4 . . . . . . . . . . . . . . . . . . . . . . 86

Tabela 7 - Variâncias, covariâncias e correlações . . . . . . . . . . . . . . . . . . . . . . 87

Tabela 8 - Teste de Diagnóstico de Raftery e Lewis (cadeia 1) - ajuste 1 . . . . . . . . 93

Tabela 9 - Teste de Diagnóstico de Raftery e Lewis (cadeia 2) - ajuste 1 . . . . . . . . 94

Tabela 10 -Teste de Gelman e Rubin - ajuste 1 . . . . . . . . . . . . . . . . . . . . . . 95

Tabela 11 -Medidas resumo para os parâmetros - ajuste 1 . . . . . . . . . . . . . . . . 102

Tabela 12 -Intervalos de credibilidade 95% para os contrastes - ajuste 1 . . . . . . . . 106

Tabela 13 -Teste de Diagnóstico de Raftery e Lewis (cadeia 1) - ajuste 2 . . . . . . . . 110

Tabela 14 -Teste de Diagnóstico de Raftery e Lewis (cadeia 2) - ajuste 2 . . . . . . . . 111

Tabela 15 -Teste de Gelman e Rubin - ajuste 2 . . . . . . . . . . . . . . . . . . . . . . 113

Tabela 16 -Medidas resumo para os parâmetros - ajuste 2 . . . . . . . . . . . . . . . . 121

Tabela 17 -Intervalos de credibilidade 95% para os contrastes - ajuste 2 . . . . . . . . 123

Tabela 18 -Teste de Diagnóstico de Raftery e Lewis (cadeia 1) - ajuste 3 . . . . . . . . 128

Tabela 19 -Teste de Diagnóstico de Raftery e Lewis (cadeia 2) - ajuste 3 . . . . . . . . 129

Tabela 20 -Teste de Gelman e Rubin - ajuste 3 . . . . . . . . . . . . . . . . . . . . . . 130

Tabela 21 -Medidas resumo para os parâmetros - ajuste 3 . . . . . . . . . . . . . . . . 137

Tabela 22 -Medidas resumo para os efeitos aleatórios - ajuste 3 . . . . . . . . . . . . . 137

Tabela 23 -Intervalos de credibilidade 95% para os contrastes - ajuste 3 . . . . . . . . 139

Tabela 24 -Teste de Diagnóstico de Raftery e Lewis (cadeia 1) - ajuste 4 . . . . . . . . 143

Tabela 25 -Teste de Diagnóstico de Raftery e Lewis (cadeia 2) - ajuste 4 . . . . . . . . 144

Tabela 26 -Teste de Gelman e Rubin - ajuste 4 . . . . . . . . . . . . . . . . . . . . . . 145

Tabela 27 -Medidas resumo para os parâmetros - ajuste 4 . . . . . . . . . . . . . . . . 153

Tabela 28 -Medidas resumo para os efeitos aleatórios - ajuste 4 . . . . . . . . . . . . . 154

Tabela 29 -Intervalos de credibilidade 95% para os contrastes - ajuste 4 . . . . . . . . 156
16
17

1 INTRODUÇÃO

Na experimentação, quer seja ela agronômica, biológica, tecnológica, ou outra

qualquer, é muito comum se encontrarem dados provenientes de planejamentos longitudinais.

Esses dados, chamados de dados longitudinais, são caracterizados pela observação repetida

de uma ou mais variáveis respostas na mesma unidade experimental, em diferentes idades,

diferentes ocasiões ou em alguma outra dimensão espećıfica. Esses dados podem ser de natureza

discreta ou cont́ınua e exigem esforços no acompanhamento das unidades experimentais durante

a realização do estudo, entretanto tem o atrativo de “economizar”unidades experimentais pois

cada uma delas pode gerar diversas unidades de observação. Cada um desses conjunto de

observação pode ser entendido como um perfil individual de respostas, pois contêm os valores

da(s) variável(eis) resposta(s) em cada uma das ocasiões de observação.

Usualmente, na experimentação de campo ou de casas de experimentação,

utiliza-se o delineamento em blocos casualizados para controlar a variabilidade devido à algum

fator, por exemplo, na experimentação agronômica de campo, é comum o uso de blocos para

controlar a variabilidade do solo devido a diferenças de fertilidade, ou à declividade do terreno.

O delineamento de um experimento planejado em blocos casualizados consiste no agrupamento

das unidades experimentais (parcelas) similares, formando-se os blocos. O efeito de blocos deve

ser levado em consideração na análise estat́ıstica de dados, uma vez que o não uso deste efeito

pode comprometer os resultados da análise, pois a variabilidade devido a bloco será totalmente

incorporada ao reśıduo, inflacionando-o.

Neste trabalho os dados são longitudinais e proveninentes de um experimento

casualizado em blocos, o qual é irregular em relação ao tempo, entretanto balanceado (com

relação ao tempo) e completo, ou seja, não houve ausência de informação para nenhuma

unidade observacional. A idéia para esta pesquisa surgiu de um estudo de modelos não-lineares

para dados longitudinais provenientes de experimentos em blocos casualizados sob o ponto de

vista da inferência clássica, proposto por Ogliari (1998).

Ogliari (1998) salientou que: em crescimento de árvores, por exemplo, geralmente

o comportamento da variável resposta no tempo é melhor descrito por um modelo não-linear,

principalmente pelo interesse que se há nos parâmetros destes tipos de modelos, que em geral,

possuem uma interpretação ligada a fenômenos biológicos intŕısecos ao estudo. E ainda, que
18

os delineamentos casualizados em blocos são muito frequentes na pesquisa agŕıcola e o efeito

de bloco deve ser considerado no modelo estat́ıstico, devido a variabilidade relacionada a

blocagem.

Diante disto, o principal objetivo deste trabalho é a aplicação de métodos baye-

sianos para a obtenção de resumos a posteriori de interesse no estudo de modelos não-lineares

para dados longitudinais provenientes de experimentos em blocos casualizados.

Os objetivos espećıficos do trabalho foram:

i - Avaliar o crescimento das árvores de eucalipto, através do ajuste de curvas não-lineares,

considerando a variável volume sólido com casca dada em (m3/ha).

ii - Estudar as diferentes densidades de plantio.

iii - Estudar as espécies e procedências de eucalipto para a produção de celulose e papel.

Para a análise estat́ıstica foram utilizados dados de natureza cont́ınua que são

oriundos de um experimento com árvores de eucalipto, cujo objetivo é o estudo do compor-

tamento de diferentes espécies sob diferentes espaçamentos de plantio. Esse experimento foi

conduzido pela empresa KLABIN FABRICADORA DE PAPEL CELULOSE S.A., no mu-

nićıpio de Telemanco Borba, Paraná, Brasil, tendo sido instalado em janeiro de 1986.

O delineamento experimental usado foi o de blocos casualizados num esquema

fatorial 2 × 2. Foram utilizados 4 blocos, com o objetivo de controlar a heterogeneidade do

solo, sendo 4 tratamentos aleatoriamente designados às unidades experimentais.

O crescimento das árvores de eucaliptos foi avaliado aos 3, 4, 5 e 9 anos de idade,

que correspondem aos anos de 1989, 1990, 1991 e 1995, respectivamente.

Para o ajuste do modelo, considerou-se o modelo proposto por Ogliari (1998), o

modelo de Gompertz, com três parâmetros, uma vez que os parâmetros deste modelo possuem

uma interpretação biológica.

Uma vez que os dados são longitudinais, é importante reconhecer explicitamente

duas fontes de variação, a variação aleatória entre medidas dentro de uma dada unidade expe-

rimental e a variação aleatória entre unidades experimentais. Além disso, uma caracteŕıstica

importante desses tipos de dados é que, como as medidas são tomadas num mesmo indiv́ıduo,
19

espera-se que haja correlação entre as mesmas e que as variações não sejam constantes ao longo

do tempo. Entretanto, apesar desse fato, é comum pesquisadores fazerem o ajuste de mode-

los não-lineares supondo que os reśıduos sejam independentes, normalmente distribúıdos com

variâncias homogêneas. Essa estrutura pode ser empregada em estudos onde sua adequação

seja indicada através do estudo da matriz de covariância amostral. No presente trabalho, serão

apresentadas duas formas para a matriz de covariância, uma estrutura de independência e uma

estrutura mais geral, não-estruturada.

Neste trabalho, a interação bloco × tempo não será adicionada no modelo, pois

geralmente o número de blocos é pequeno e esse fato pode acarretar problemas na estimação

dos parâmetros da matriz de covariâncias.

Para a análise estat́ıstica dos dados foram desenvolvidas rotinas espećıficas no

programa WinBUGS para modelos não-lineares no delineamento em blocos casualizados. En-

tretanto, para os resultados gráficos, utilizou-se uma interface entre os programas WinBUGS

e R, uma vez que este último apresenta uma melhor resolução gráfica.
20
21

2 DESENVOLVIMENTO

2.1 Revisão de Literatura

2.1.1 Planejamentos Longitudinais

É muito comum na área de experimentação, quer seja ela agronômica, biológica,

tecnológica, ou outra qualquer, a ocorrência de medições (observações) em uma mesma unidade

experimental, repetidas vezes, em diferentes ocasiões, profundidades, distanceamentos, pontos

no espaço, etc. Essas medidas observadas na mesma parcela são comumente chamadas medidas

repetidas.

Os planejamentos com medidas repetidas onde a variável resposta é medida

repetidas vezes na mesma unidade experimental ou em repetidas condições de avaliação são

chamados de planejamentos longitudinais. Considerando-se que a obtenção da variável resposta

é feita de maneira sistemática, por exemplo, no tempo, pressupõe-se uma correlação não nula

entre as medidas, sobretudo entre duas medições, porém espera-se que esta decresça ao longo

do tempo. É esperada, também, uma heterocedasticidade de variâncias. Com base nisso,

vários estudos tem sido realizados com propostas para modelar variáveis observadas ao longo

do tempo, sobretudo, propostas com diferentes estruturas de variâncias e covariâncias que

acomodem essa correlação entre as medidas, uma vez que a estrutura de covariâncias tem uma

influência direta sobre as estimativas da variabilidade dos parâmetros associados às médias e

em alguns casos, pode afetar as próprias estimativas desses parâmetros (Lima, 1996).

Em planejamentos longitudinais, em geral, o interesse está em estudar o com-

portamento de uma ou mais variáveis resposta ao longo do tempo. Essas variáveis respostas

podem ser cont́ınuas, por exemplo, alturas de árvores, ganho de peso, ou discretas, por exem-

plo, número de ovos, número de brotos. As unidades experimentais podem constituir grupos

segundo um ou mais tratamentos ou fatores, e cada uma dessas unidades pode gerar diver-

sas unidades observacionais, de forma que cada um desses conjuntos de observações pode ser

compreendido como um perfil individual de respostas à variável em pesquisa. O estudo desses

perfis individuais servem como um ind́ıcio inicial do uso de efeitos aleatórios no modelo.

Os dados provenientes de planejamentos longitudinais são chamandos de regu-

lares, em relação ao tempo, quando todas as diferenças entre os tempos de duas medidas
22

quaisquer forem constantes. Serão considerados balanceados se as observações em todas as

unidades experimentais forem feitas no mesmo instante de tempo. E quando o experimento

não apresentar nenhuma observação perdida, a estrutura de dados será dita completa. Uma

vez que estudos delineados de forma longitudinal podem durar dias, semanas, meses e/ou

até mesmo anos, é comum a ocorrência de estudos longitudinais irregulares no tempo, não

balanceados e incompletos , e por esse motivo, recentemente tem havido maior interesse no

desenvolvimento de métodos estat́ısticos que possam ser utilizados em casos mais gerais.

Os experimentos conduzidos sob planejamentos longitudinais permitem:

i - a redução de recursos, com a não obtenção de novas unidades observacionais no decorrer

do experimento;

ii - redução do erro experimental;

iii - em estudos onde há efeito residual dos tratamento, é posśıvel determinar e/ou eliminar

este efeito, ou seja, proporcionam condições adequadas para controlar fatores acessórios

que possam influenciar na resposta;

iv - estudo das tendências de respostas aos tratamentos, pois cada conjunto de unidades de

observações pode ser entendido como um perfil individual de respostas;

v - aumento do tamanho amostral do experimento;

vi - a melhoria, em geral, da precisão das estimativas de contrastes associados às diferenças

entre os valores médios das respostas e de diferentes ocasiões.

Em planejamentos longitudinais, em geral, o objetivo da análise é estudar o

comportamento das variáveis ao longo do tempo, ou seja, estudar o perfil das variáveis ao

longo do tempo, e comparar assim o efeito dos tratamentos, isto é, verificar se existe efeito dos

fatores em estudo, tais como espécies, espaçamento, épocas, e assim por diante. Essa análise é

feita através da comparação dos parâmetros das respectivas curvas. Essa metodologia de ajuste

de curvas é conhecida como Análise de Curvas de Crescimento e uma maior versatilidade na

aplicação desta técnica de análise de dados longitudinais é conseguida com a possibilidade de

modelar a estrutura de covariâncias, buscando estruturas intermediárias entre a completamente
23

parametrizada e a uniforme, através da especificação de modelos de efeitos mistos, que tem o

atrativo adicional de tratar situações em que dados não são balanceados em relação ao tempo

(Lima, 1996). O ajuste dessas curvas de crescimento possibilita fazerem-se previsões da variável

resposta média ao longo do tempo. Situações t́ıpicas de modelos de crescimento não-lineares

ocorrem em estudos de crescimento de plantas e animais (Ogliari, 1998).

Tabela 1 - Estrutura de dados

Tratamentos Blocos Tempos

1 2 · · · t

1 1 y111 y112 · · · y11t1 2 y121 y122 · · · y12t...

......

......

...

1 b y1b1 y1b2 · · · y1bt2 1 y211 y212 · · · y21t2 2 y221 y222 · · · y22t...

......

......

...

2 b y2b1 y2b2 · · · y2bt...

......

......

...

g 1 yg11 yg12 · · · yg1tg 2 yg21 yg22 · · · yg2t...

......

......

...

g b ygb1 ygb2 · · · ygbt

A presença de delineamentos em blocos casualizados nos planejamento longitudi-

nais, em geral, é comum na experimentação agronômica. Este tipo de delineamento consiste no

agrupamento das unidades experimentais (parcelas) similares, formando-se os blocos. O efeito

de bloco deve ser considerado na análise estat́ıstica dos dados, caso contrário, pode ocorrer um

comprometimento dos resultados finais, pois a variabilidade devida a bloco estará totalmente

inclusa no efeito residual, inflacionando o mesmo.
24

A estrutura básica de um conjunto de dados longitudinais proveninentes de um

planejamento em blocos casualizados, pode ser representada através de uma matriz de dados,

como apresentado por Lima (1996), e indicada na Tabela 1, em que yijk representa a medida da

variável resposta obtida no tratamento i (i = 1, · · · , g), bloco j (j = 1, · · · , b) e tempo k (k =

1, · · · , t). Considerando a estrutura apresentada na Tabela 1, a cada unidade experimental (ij)

está associado um vetor y′

ij = [yij1, yij2, · · · , yijt] de dimensão t, o qual é denominado perfil

individual de respostas, cujos componentes são os valores observados da variável resposta ao

longo do tempo.

Andreoni (1989), Lima (1996), Brandão (1996), Ogliari (1998) e Barbosa (2009)

discutiram que as técnicas de análise usualmente empregadas na análise de planejamentos lon-

gitudinais procuram descrever o comportamento da variável de interesse em função do tempo,

através de curvas, e comparar efeitos de tratamentos através da comparação dos parâmetros

das respectivas curvas. Assim, por exemplo, se em um experimento deseja-se comparar o ganho

de peso de animais, submetidos a duas dietas nutricionais, ajusta-se, por exemplo, uma reta

para cada grupo de animais submetidos a cada dieta, e a diferença entre a eficiência das duas

dietas pode ser avaliada através da comparação dos coeficientes lineares e angulares das duas

retas. Estas técnicas de análise podem ser facilmente obtidas nos principais pacotes de análise

estat́ıstica, como o SAS, R, S-Plus, dentre outros.

2.1.2 O Modelo de Gompertz

Em muitos planejamentos longitudinais onde a variável resposta é o crescimento

de uma determinada unidade observacional ao longo do tempo, por exemplo, crescimento de

árvores, crescimento de indiv́ıduos ou crescimento de colônias de bactérias, o uso de modelos

não-lineares tem sido muito empregado, com desempenho satisfatório na descrição dos dados.

Dentre os modelos não-lineares comumente utilizados na modelagem estat́ıstica,

pode-se citar o loǵıstico, exponencial, Richards, Von Bertalanfly, Jenss e Gompertz. Estes

modelos, na literatura estat́ıstica, são conhecidos como modelos de crescimento, pelo fato de

incorporarem as informações sobre o processo de crescimento, o que os diferencia dos modelos

polinomais.

A diferença entre os modelos polinomiais e os modelos não-lineares, além do fato
25

dos modelos não-lineares não apresentarem linearidade nos parâmetros, encontra-se na flexibili-

dade dos modelos não-lineares em incorporar informações sobre o processo de crescimento, pois

ao contrário dos modelos polinomais, os parâmetros dos modelos não-lineares possuem uma

interpretação diretamente ligada ao experimento, por exemplo, alguma interpretação biológica,

f́ısica, e assim por diante.

Em relação a possibilidade de descrever curvas de crescimento, um modelo muito

discutido na literatura, é o modelo de Gompertz. Nokoe, 1980 apud Ogliari 1998, utilizou este

modelo com sucesso no ajuste de dados de volume com idade para Pseudotsuga menziesii

(Mrb). As curvas do modelo apresentam a forma de uma sigmóide (forma de S), assim como

o modelo loǵıstico.

Neste trabalho será considerada para o modelo de Gompertz a paramentrização

dada por,

y = α1 exp

{− exp

{−α3

(x− α2

α3

)}}. (1)

Considerando o modelo de Gompertz, como descrito em (1), com domı́nio R+,

tem-se que,

limx→+∞

(α1 exp

{− exp

{−α3

(x− α2

α3

)}})= α1. (2)

Assim, observa-se que o modelo de Gompertz apresenta asśıntota horizontal, a reta y = α1.

A primeira derivada da função dada em (1) é dada por:

y′= α1α3 exp

{−α3

(x− α2

α3

)}exp

{− exp

{−α3

(x− α2

α3

)}}que pode ser simplificada para,

y′= α1α3 exp {−α3x+ α2 − exp {−α3x+ α2}} .

E assim, pode-se verificar que se a derivada é positiva ∀x ∈ R+, o modelo de Gompertz define

uma função crescente. A segunda derivada da função em (1) é dada por:

y′′

= −α1α23 exp{−α3

(x− α2

α3

)}exp

{− exp

{−α3

(x− α2

α3

)}}+

+α1α23

(exp

{−α3

(x− α2

α3

)})2exp

{− exp

{−α3

(x− α2

α3

)}}
26

que pode ser simplificada para,

y′′

= −α1α23(exp {−α3x+ α2 − exp {−α3x+ α2}} −

− exp {−2α3x+ 2α2 − exp {−α3x+ α2}}).

Assim, igualando a segunda derivada à zero, tem-se,

y′′

= 0⇒ x = α2α3. (3)

Desta forma, o ponto de inflexão do modelo de Gompertz é expresso porα2α3

, o que implica que

o crescimento é rápido até o valor de x atingirα2α3

e depois existe uma mudança no crescimento,

ele se torna menos veloz.

2.1.3 Modelos Não-Lineares

2.1.3.1 Abordagem Clássica

Em geral, modelos não-lineares para medidas repetidas podem ser expressos da

seguinte forma

yi = f(Xi, ai, αi) + �i, i = 1, · · · , n (4)

em que yi = [yi1, · · · , yipi ]′

é um vetor pi × 1 de medidas repetidas na i-ésima unidade expe-

rimental; n é o número de unidades experimentais; X é a matriz modelo, pi × t, de variação

entre os indiv́ıduos; ai é um vetor q × 1 de covariação entre indiv́ıduos; αi é um vetor r × 1

de parâmetros para o i-ésimo indiv́ıduo; f é alguma função espećıfica de (Xi, ai, αi) e �i é

um vetor pi × 1 correspondente ao erro aleatório. Cada modelo apresentado neste trabalho

representa um caso especial de (4) e são derivados pela especificação de uma estrutura apro-

priada para αi e �i. Especificamente, o modelo em (4) foi utilizado na abordagem clássica para

derivar versões não-lineares dos modelos GMANOVA e dos modelos lineares mistos, (Vonesh e

Chinchilli, 1997). Vonesh e Chinchilli (1997) focaram primeiramente na estimação e inferência

estat́ıstica associada a versões não-lineares dos modelos GMANOVA e lineares mistos para

dados normalmente distribúıdos.
27

2.1.3.2 Modelagem do Efeito de Bloco

Ogliari (1998), do ponto de vista clássico, introduziu o efeito de bloco no modelo

como um fator extra de forma linear,

yi = f (Xi, αi) + 1piδi + Λ1/2i �i, i = 1, 2, · · · , b (5)

onde

1. yi = [yi1, yi2, · · · , yini]′

é um vetor ni × 1, da variável resposta para o i-ésimo bloco,

i = 1, · · · , b, e ni é o número de unidades experimentais dentro do bloco i.

2. yij =[yij1, yij2, · · · , yijpij

]′é um vetor pij × 1, das medidas repetidas para a j-ésima

unidade experimental dentro do bloco i, j = 1, · · · , ni.

3.

Xi =

X i1

X i2

· · ·

X i4

,

é a matriz modelo, de dimensão pi × t que acomoda a variação dentro das unidades

experimentais para todos as unidades dentro do bloco i,∑ni

j=1 pij eX ij é a matriz modelo

de dimensão pij × t de variação dentro das unidades para a j-ésima unidade dentro do

i-ésimo bloco.

4. αi é um vetor de parâmetros para o bloco i, de dimensão ri × 1.

5. fi (Xi, αi) é um vetor funcional pi × 1 que é possivelmente não-linear em αi.

6. �i = [�i1, �i2, · · · , �ini]′

onde �ij =[�ij1, �ij2, · · · , �ijpij

]′são vetores de dimensão

pi × 1 que acomoda o erro-aleatório dentro do bloco consistindo de componentes eijque são independentes e identicamente distribúıdos (i.i.d.) e independentes de bi, �i ∼

Npi(0, Ini

⊗[σ2Ipij

]), j = 1, · · · , ni

7. 1pi = [1, 1, · · · , 1]′

é um vetor de dimensão pi × 1.
28

8. δi é o efeito do bloco i, i = 1, · · · , b que são variáveis aleatórias (i.i.d.) com média zero

e variância σ2b , e independente dos outros termos.

9. n =∑b

i=1 ni é o número de unidades experimentais.

10. Λi = Ini⊗

Λij é uma matriz pi × pi conhecida que é função dos αi e Λ1/2i é a Decom-

posição de Cholesky da matriz Λi.

Assim,

E [Y ] = f (Xi, αi) e V ar [Y ] = Σi (α, θ) (6)

onde,

Σi = σ2b1pi1

′

pi+ Ini

⊗(σ2Λij), i = 1, · · · , b e j = 1, · · · , ni.

Se Σi = Ipij , a formulação em (5) induz a uma estrutura de variância-

covariâncias uniforme para as observações tomada no mesmo bloco, o que não é esperado

para este tipo de dados. Em particular, também não é esperado que as observações tomada no

mesmo sujeito (indiv́ıduo) sejam iguais as correlações entre observações tomadas em indiv́ıduos

diferentes do mesmo bloco. É necessário inserir um especificação geral para Σi. Seja Σij uma

matriz de covariâncias de dimensão pi× pi de yij, como se os dados tivessem sido coletados de

um experimento inteiramente casualizado, então,

Σij = σ2b1pi1

′

pi+ Ini

⊗(σ2Λij), j = 1, · · · , b e i = 1, · · · , nj.

onde diferentes especificações para Σi podem ser obtidas de diferentes estruturas de Λij

(Ogliari, 1998).

Ogliari(1998) também inseriu o efeito de blocos no modelo de forma não-linear,

como,

yi = f(Xi, α

∗i

)+ �i, i = 1, 2, · · · , b (7)

com α∗i = g (ai,αi) + Biδi, δi ∼ N(0, σ2b ), Bi é um vetor qj × 1 conhecido, e yi, fi e �icomo definidos no ińıcio desta seção. Em ambos os modelos, (6) e (7) o efeito de bloco foi

considerado como aleatório. Os modelos (6) e (7) foram utilizados por Ogliari (1998) com
29

diferentes estruturas de covariância do ponto de vista clássico e três métodos de estimação: 1)

método dos mı́nimos quadrados generalizados (GLS); 2) método da máxima verossimilhança

(ML) e 3) método da máxima verossimilhança restrista (REML). Pela comparação dos modelos

com e sem efeito aleatório de bloco, foi observado que o modelo (7) estima com mais precisão

que o modelo (6). Ogliari (1998) também observou que existe diferença entre os tratamentos,

formados pela combinação de espaçamento e espécie, mas não observou interação entre eles.

2.1.4 Estat́ıstica Bayesiana

No estudo de dados provenientes de planejamentos longitudinais, do ponto de

vista clássico, Crowder e Hand (1990), Vonesh e Chinchilli (1997), Molenberghs e Verbeke

(2000), Verbeke e Molenberghs (2005) apud Barbosa (2009), apresentaram uma evolução

histórica da utilização de modelos lineares mistos na análise de dados longitudinais, sendo

que a estimação dos parâmetros neste tipo de modelo é baseada na verossimilhança dos dados.

E quando os dados não são normalmente distribúıdos, algumas abordagens envolvendo mo-

delos lineares generalizados foram propostas por Venezuela (2003), Verbek (2005), de acordo

com Barbosa (2009).

Para Lindley (1990) apud Paulino et al.( 2003), a substituição dos métodos

clássicos pelos métodos bayesianos de análise representam uma verdadeira revolução cient́ıfica.

Para Paulino (2003) o ińıcio do paradigma bayesiano foi lançado por Richard Price quando em

1763 publicou a obra póstuma do Rev. Thomas Bayes intitulada “An Essay Towards Solving

a Problem in the Doctrine of Chances”.

Entretanto, em relação propriamente as idéias bayesianas e a sua aplicação à mo-

delagem estat́ıstica, deve citar-se Harold Jeffreys (mais citado nas obras apenas como Jeffreys)

que, reagindo contra a posição predominante clássica em meados de 1939, sem apoio, e segundo

Paulino (2003), solitário, conseguiu ressuscitar o bayesianismo dar-lhe status lógico e avançar

com soluções de problemas estat́ısticos que naquele tempo persistiam sem uma solução, do

ponto de vista clássico. A partir dáı a lista de bayesianos foi aumentando sucessivamente e,

na impossibilidade de citar todos, merecem realce os nomes Good, Savage e Lindley.

Dentro da Estat́ıstica Bayesiana, o Teorema de Bayes ocupa lugar crucial. Consi-

dere inicialmente um espaço de probabilidades (Ω, ζ, P ), em que:
30

i - Ω é um conjunto não-vazio com elementos ω, ω ∈ Ω, e subconjuntos A, A ⊆ Ω;

ii - ζ é uma σ-álgebra de subconjuntos de Ω;

iii - P é uma probabilidade para os acontecimentos (eventos) A ⊆ Ω, A ∈ ζ, em que P (A) é

a probabilidade da ocorrência de A.

Considere uma partição finita ou infinita de Ω

A1, A2, · · · , Am, P (Ai) > 0, Ai ∩ Aj = ∅, i 6= j,∪iAi = Ω.

Dado um outro evento B qualquer, com P (B) > 0, verifica-se a decomposição de B na união

de conjuntos disjuntos

B = ∪i(Ai ∩B).

E consequentemente, pela aditividade da função P e à definição de probabilidade condicionada,

tem-se,

P (B) =∑i

P (Ai ∩B).

E finalmente,

P (Ai ∩B) = P (B|Ai)P (Ai) = P (Ai|B)P (B),

ou equivalentemente

P (Ai|B) =P (B|Ai)P (Ai)

P (B)=

P (B|Ai)P (Ai)∑i P (B|Ai)P (Ai)

, (8)

que é chamado de Teorema de Bayes.

Uma forma de interpretar o Teorema de Bayes consiste em considerar os eventos

Ai = 1, 2, · · · ,m, como “antecedentes”, “causas”, “hipóteses”ou “estados”a que o investigador

atribuir graus de credibilidade (incorpora incerteza) ou probabilidades a priori P (Ai), i =

1, 2, · · · ,m, de natureza subjetiva. Depois da informação adicional que consiste em saber

que o evento B se realizou (o evento B pode ser a observação de um conjunto de dados), o

pesquisador revê as suas probabilidades a priori através da fórmula de Bayes e passa a atribuir

aos Ai, i = 1, 2, · · · ,m as probabilidades a posteriori P (Ai|B), i = 1, 2, · · · ,m.
31

Considerando que o investigador está na completa ignorância a respeito dos

eventos Ai, i = 1, 2, · · · ,m, a proposta de Laplace, também conhecida como prinćıpio da razão

insuficiente ou critério de Bayes-Laplace, consiste em atribuir probabilidades iguais aos Ai,

i = 1, 2, · · · ,m, P (Ai) =1

m, obtendo-se a expressão (8), em vez de (3),

P (Ai|B) =P (B|Ai)∑i P (B|Ai)

. (9)

Os resultados apresentados em (8) e (9) são estendidos para o caso em que os eventos Ai,

i = 1, 2, · · · ,m, estão associados à variáveis aleatórias.

Seja θ uma quantidade desconhecida de interesse, tipicamente não observável. A

informação que se dispõe a respeito de θ, resumida probabilisticamente através de p(θ), pode

ser atualizada observando-se uma quantidade de interesse aleatória X, cuja distribuição de

probabilidade está relacionada com θ. Esta relação pode ser descrita através da distribuição

amostral de p(x|θ). A idéia de que após se observar X = x a quantidade de informação sobre

θ é modificada é bastante intuitiva e o Teorema de Bayes é a regra de atualização utilizada

para quantificar o aumento dessa informação, podendo o mesmo ser expresso por,

p(θ|x) = p(θ, x)p(x)

=p(x|θ)p(θ)p(x)

=p(x|θ)p(θ)∫p(θ, x)dθ

. (10)

Observe que em (10),1

p(x), que não depende de θ, funciona como uma constante

normalizadora de p(θ|x) .

Considerando um valor fixo de x, a função L(θ|x) = p(x|θ) fornece a plausibi-

lidade ou verossimilhança de cada um dos posśıveis valores de θ enquanto p(θ) é chamada

distribuição a priori de θ. Estas duas fontes de informação, verossimilhança e priori, são com-

binadas de forma a levar à distribuição a posteriori de θ, p(θ|x). Sob estas condições, a forma

usual do Teorema de Bayes, é dada por,

p(θ|x) ∝ L(θ|x)p(θ). (11)

Em palavras, tem-se,

distribuição a posteriori ∝ verossimilhança × distribuição a priori.
32

Observe que ao se omitir p(x), a igualdade em (10) foi substitúıda por uma

proporcionalidade. Esta forma simplificada do Teorema de Bayes é útil em problemas que en-

volvam estimação de parâmetros já que o denominador é apenas uma constante normalizadora.

Em outras situações, como seleção de modelos, este termo tem um papel crucial.

A constante normalizadora da posteriori pode ser facilmente recuperada pois

p(θ|x) = kp(x|θ)p(θ) em que

k−1 =

∫p(x|θ)p(θ)dθ = Eθ[p(X|θ)] = p(x),

a qual é chamada de distribuição preditiva a prori. Esta é a distribuição esperada para a

observação x dado θ. A distribuição preditiva de Y dado x é obtida por integração como,

p(y|x) =∫p(y, θ|x)dθ =

∫p(y|θ, x)p(θ|x)dθ.

Em muitos problemas estat́ısticos a hipótese de independência condicional entre X e Y dado

θ está presente e a distribuição preditiva fica

p(y|x) =∫p(y|θ)p(θ|x)dθ.

Nota-se que os conceitos de priori e posteriori são relativos àquela observação que

está sendo considerada no momento. Assim, p(θ|x) é a posteriori de θ em relação a X (que já

foi observado) mas é a priori de θ em relação a Y (que não foi observado ainda). Após observar

Y = y uma nova posteriori (relativa a X = x e Y = y) é obtida aplicando-se novamente o

Teorema de Bayes. Pode-se então questionar se esta posteriori final depende da ordem em

que as observações x e y foram processadas. Observando-se as quantidades x1, x2, · · · , xn,

independentes dado θ e relacionadas a θ através de pi(xi|θ) segue que,

p(θ|x1) ∝ L(θ|x1)p(θ)

p(θ|x2, x1) ∝ L(θ|x2)p(θ)...

p(θ|xn, xn−1, · · · , x1) ∝

[n∏i=1

L(θ|xi)

]p(θ)

p(θ|xn, xn−1, · · · , x1) ∝ L(θ|xn)p(θ|xn−1, · · · , x1).
33

Ou seja, a ordem em que as observações são processadas pelo Teorema de Bayes

é irrelevante.

2.1.4.1 Prinćıpio de Verossimilhança

Seja X1, X2, · · · , Xn uma amostra aleatória de tamanho n da variável aleatória

X com função de densidade (ou de probabilidade) f(x|θ), com θ ∈ Θ, onde Θ é o espaço

paramétrico. A função de verossimilhança de θ correspondente à amostra aleatória observada

é expressa por,

L(θ|x) = Πni=1f(xi|θ)

A função de verossimilhança tem papel fundamental tanto na inferência clássica

como na inferência bayesiana, como véıculo portador da informação contida na amostra. Por-

tanto, o prinćıpio da verossimilhança sustenta que toda a informação dada pela amostra ou

pela experiência está contida na função de verossimilhança, ou seja, a observação particular

ou amostra concreta xi representa o único elemento do espaço amostral Ω, para qualquer que

seja Ω, relevante nas inferências sobre θ; assim os elementos de Ω que poderiam eventualmente

ter sido observados, mas que não o foram, não fornecem qualquer informação adicional que

poderia influenciar nas inferências sobre θ.

2.1.4.2 Distribuição a Priori

A utilização da informação a priori na Estat́ıstica Bayesiana requer uma distri-

buição a priori, que incorpore a incerteza que se tem a respeito da quantidade de interesse

desconhecida θ . Esta distribuição deve representar probabilisticamente a informação a priori

a respeito de θ que se pretende incorporar na análise antes da realização do experimento.

De acordo com Gelman et al. (2004), a distribuição a priori é “chave”da In-

ferência Bayesiana e representa a informação sobre a incerteza a respeito do parâmetro de

interesse, em geral desconhecido, θ, que é combinado com a distribuição de probabilidade dos

novos dados para gerar a distribuição a posteriori, que é utilizada para inferências futuras e

decisões a respeito de θ.
34

2.1.4.2.1 Priori Conjugada

A idéia é que tanto a distribuição a priori como a distribuição a posteriori façam

parte da mesma classe de distribuições de tal maneira que a atualização da informação a

respeito de θ esteja relacionada a apenas uma mudança nos parâmetros dessa distribuição.

Seja então F = {p(x|θ), θ ∈ Θ} uma classe de distribuições amostrais, então

uma classe de distribuições P é conjugada a F se e somente se ∀ p(x|θ) ∈ F e p(θ) ∈ P =⇒

p(θ|x) ∈ P .

O uso de prioris conjugadas deve ser feito de maneira cautelosa, pois nem sempre

a priori será uma representação adequada da incerteza a priori. A famı́lia distribucional a

selecionar onde se vai procurar o membro condizente com os resumos eliciados deve idealmente

satisfazer os seguintes requisitos:

i - Versatilidade para acomodar maior número de crenças a priori;

ii - Acessibilidade interpretativa para facilitar o processo de sumarização dos seus membros;

iii - Simplicidade da derivação anaĺıtica das distribuições a posteriori e preditivas.

No caso da existência de uma constante k tal que

k−1 =

∫L(θ|x)dθ
35

Nota-se então que L(θ|x) é proporcional a densidade de uma Distribuição Beta(t+1, n−t+1).

E desde que p1, p2 sejam as densidades das distribuições Beta(a1, b1) e Beta(a2, b2), segue então

que,

p1p2 ∝ θa1+a2−2(1− θ)b1+b2−2,

ou seja, p1p2 é proporcional a densidade da Distribuição Beta(a1 + a2 − 1, b1 + b2 − 1). Tal

resultado faz com que conclua-se que a famı́lia de distribuições Beta com parâmetros inteiros

é conjugada natural à famı́lia Bernoulli.

2.1.4.2.2 Priori Não-Informativa

Em algumas situações o pesquisador que trabalha com Inferência Bayesiana não

tem um conhecimento a priori palpável, de natureza objetiva ou subjetiva (“indiferença a

priori”), ou em algumas situações, a informação que se tem é pouco significativa relativamente

à informação amostral (conhecimento vago ou difuso). Nestas circunstâncias, focam-se os prin-

cipais métodos que conduzem o pesquisador a distribuições a priori minimamente informativas,

que são denominadas distribuições não informativas.

Essas distribuições eram interpretadas como representações formais de

ignorância, porém hoje existe uma tendência de serem tidas como opções convencionais de

efeito a que se recorre em caso de informação a priori insuficiente. Tais distribuições desem-

penham um papel de referência na Inferência Bayesiana, mesmo quando se dispõe de fortes

crenças a priori, como forma de:

i - Deduzir as crenças a posteriori para quem parte de um conhecimento escasso;

ii - Permitir a comparação com os resultados da Inferência Clássica que “apenas”usa a in-

formação amostral;

iii - Averiguar a influência nas inferências da distribuição a priori subjetiva que descreve

a informação realmente existente, quando confrontada com as que resultam do uso da

distribuição a priori de referência.

A primeira idéia de “não-informação”a priori que se pode ter é pensar em todos
36

os posśıveis valores de θ como igualmente prováveis; porém, esta escolha de priori pode trazer

algumas dificuldades, como,

i - quando o intervalo de θ é ilimitado a distribuição a priori é imprópria, ou seja,∫p(θ)dθ =

∞.

ii - Se ϕ = g(θ) for uma reparametrização não-linear monótona de θ então p(ϕ) é não uni-

forme, pois pelo teorema de transformação de variáveis sabe-se que p(ϕ) = p(θ(ϕ))

∣∣∣∣ dθdϕ∣∣∣∣ ∝∣∣∣∣ dθdϕ

∣∣∣∣.Em situações reais, como o objetivo principal está na informação proveniente

da Distribuição a Posteriori, pouca importância é dada à impropriedade da Distribuição a

Priori, porém, deve-se sempre certificar-se de que a posteriori é própria antes de fazer qualquer

inferência.

A seguir serão apresentados alguns meios de obtenção das Distribuições a Priori

não-informativas.

1. Método de Bayes-Laplace

A primeira tentativa em se gerar distribuições a priori não-informativas foi o

Prinćıpio a Razão Insuficiente, devido a Bayes-Laplace, o qual enuncia que na ausência de

razão suficiente para privilegiar umas possibilidade em detrimento de outras, decorrente da

escassez de informação a priori, deve-se optar a eqüiprobabilidade.

Considere o caso em que Θ é finito, ou seja,Θ = {θ1, · · · , θk}, a distribuição

não-informativa a ser gerada por este argumento será a Distribuição Uniforme Discreta, com,

h(θ) =1

k, θ ∈ Θ.

No caso em que Θ for um conjunto infinito enumerável não existirá nenhuma

distribuição de probabilidade compat́ıvel com a eqüiprobabilidade de todos os valores posśıveis

dos elementos de Θ. A Distribuição Uniforme Discreta nesta situação não satisfaz o axioma

de probabilidade total unitária, sendo nessa situação denominada de distribuição imprópria.

A representação da “indiferença”por distribuições uniformes é inconsistente no

sentido em que se ψ = ψ (Θ) é uma transformação injetora de um parâmetro θ, que assume
37

uma gama cont́ınua de valores posśıveis, as distribuições uniformes para θ e ψ, não são, em

regra, probabilisticamente compat́ıveis. Observa-se que sendo h(θ) uma distribuição a priori

para θ, então,

h(ψ) = h [θ (ψ)]

∣∣∣∣ dθdψ∣∣∣∣

deve ser a correspondente distribuição para a reparametrização injetora , que não é necessa-

riamente uniforme quando h(θ) o é.

Como exemplo, seja um processo de amostragem de parâmetro θ ∈ (0, 1), onde θ

está associado a um processo de Bernoulli. De acordo com o Método de Bayes-Laplace, a não-

informação que se tem sobre θ deve ser formalmente representada pela Distribuição Uniforme

Cont́ınua (0, 1).

Uma usual reparametrização utilizada é o parâmetro natural da subfamı́lia ex-

ponencial, ψ = ln

[θ

1− θ

]. A distribuição para ψ implica em θ ∼ U(0, 1), que é a distribuição

loǵıstica reduzida, com parâmetro de localização 0 e parâmetro de escala 1,

h(ψ) =eψ

(1 + eψ)2, ψ ∈ R,

o que viola o argumento de que a informação a priori deve ser representada por distribuições

uniformes.

Desta forma o uso de uma Distribuição Uniforme para ψ, agora uma distribuição

imprópria, irá corresponder para θ à distribuição,

h(θ) ∝ θ−1(1− θ)−1, θ ∈ (0, 1),

a qual é o núcleo de uma Distribuição Beta(a, b), com a = b = 0. Esta distribuição para θ é

também conhecida como Distribuição Não-Informativa de Haldane.

2. Método de Jeffreys

A cŕıtica a inconsistência da distribuição uniforme na representação da não-

informação a priori denota que esta deve ser invariante. Diante disto Jeffreys se baseia no uso

da medida de informação de Fisher sobre θ ∈ R,

I(θ) = E

[(∂ ln f(X|θ)

∂θ

)2|θ

].
38

o que mostra que a distribuição proposta por Jeffreys para o caso uniparamétrico,

h(θ) = [I(θ)]1/2

goza da propriedade de invariância mencionada anteriormente.

Aqui o conceito de informação está sendo associado a uma espécie de curvatura

média da função de verossimilhança no sentido de quanto maior a curva, mais precisa é a

informação contida na função de verossimilhança, ou equivalentemente, maior o valor de I(θ).

No geral, espera-se que a curvatura seja negativa, e por questões matemáticas, seu valor é

tomado com sinal trocado. Além disso, deve-se notar que I(θ) é tanto maior quanto maior for

a taxa quadrática com θ de ln f(X|θ).

No caso uniparamétrico Jeffreys defendeu os argumentos do prinćıpio da razão

insuficiente para Θ finito, da invariância sob transformações lineares para parâmetros de loca-

lização em que Θ é um intervalo limitado ou R e da invariância sob potências de parâmetros

de escala, como o desvio-padrão em que Θ = R+ , resultando em,

h(θ) ∝ θ−1I(0,+∞)(θ).

Exemplificando, considere que X1, X2, · · · , Xn ∼ Poisson(θ). O logaritmo da

função de probabilidade conjunta é dado por,

log p(x|θ) = −nθ +n∑i=1

xi log θ − logn∏i=1

xi!,

e tomando-se a segunda derivada desta expressão, tem-se que,

∂2 log p(x|θ)∂θ2

=∂

∂θ

[−n+

∑ni=1 xiθ

]=−∑n

i=1 xiθ2

,

logo,

I(θ) =1

θ2E

[n∑i=1

xi

]=n

θ∝ θ−1.

Desta forma, a distribuição priori não-informativa de Jeffreys para θ no Modelo

de Poisson é p(θ) ∝ θ−1/2 , a qual é obtida tomando-se a conjugada natural Gama e fazendo-se

α =1

2e β → 0.

Na prática a priori não-informativa é obtida fazendo-se o parâmetro de escala

da distribuição conjugada tender a zero e fixando-se os demais parâmetros convenientemente.
39

3. Método de Box-Tiao

Box e Tiao procuraram definir critérios que permitissem retratar a idéia vaga

da informação a priori, e deste modo, gerar distribuição a priori não-informativa. Sua idéia

base foi procurar uma reparametrização ψ = ψ(θ) do modelo {f(x|θ : θ ∈ Θ}, para a qual a

verossimilhança fosse apenas transladada pelos dados, de forma que,

L(θ|x) ≈ g [ψ(θ)−m(x)] ,

onde g é uma função cuja forma é independente de x e m(x) a função que descreve a translação

de L com a variação de x. Sendo detectada uma transformação ψ deste tipo, considera-se para

ela uma distribuição que assegure que a respectiva distribuição a posteriori seja essencialmente

a verossimilhança normalizada, de forma que essas distribuições para diferentes amostras de-

firam umas das outras apenas pela localização.

Box e Tiao propuseram para ψ uma distribuição própria cuja densidade seja

sensivelmente constante na gama de valores apreciáveis de L(ψ|x), e que de fora dela os seus

valores não sejam, pelo menos, muito plauśıveis para garantir que, em termos aproximados,

h(ψ|x) ≈ L(ψ|x)∫L(ψ|x)

.

Distribuições desta forma apresentam uma densidade essencialmente uniforme

sobre os valores significativos da verossimilhança, decaindo para zero à medida que se afasta

desses valores, o que significa a designação de distribuições localmente uniformes. Assim, sendo

h(ψ) ∝ c localmente, a distribuição não-informativa para Box-Tiao para o parâmetro original

θ é aproximadamente proporcional ao Jacobiano da transformação ψ(θ), o que é representado

por,

h(θ) ∝∣∣∣∣dψdθ

∣∣∣∣ .Considere como exemplo, o contexto de uma amostra aleatória da Distribuição

de Bernoulli, com parâmetro θ. Considerando-se que θ̂ =t

n, onde t =

∑ni xi com t 6= 0, tem-se

J(θ, t) =

t

nθ2

+1− t

n(1− θ)2

=θ̂

θ2+

1− θ̂(1− θ)2

,
40

de onse segue que,

J(θ̂) = [θ̂(1− θ̂)]−1.

Nota-se então que a Distribuição a Priori Não-Informativa para θ é a Distribuição

Beta

(1

2,1

2

), correspondendo à distribuição localmente uniforme para,

ψ ∝ 2∫ d

dθ

√θ

√1− θ

∝ arcsin√θ

4. Método da Entropia Máxima

Jaynes (1968) propôs o conceito de entropia na formulação de distribuições a

priori que caracterizam a não-informação, o qual é utilizado em F́ısica como medida da quan-

tidade de desordem e imprevisibilidade de um sistema f́ısico.

Da teoria f́ısica sabe-se que quanto mais desordenado e impreviśıvel for um sis-

tema, maior será sua entropia. No contexto de interesse, uma distribuição que se pretende ser

não-informativa acerca de um parâmetro deve originar entropia máxima.

A aplicação desta idéia F́ısica para a Estat́ıstica, no caso discreto em paćıfico,

porém no caso cont́ınuo não o é. Ater-se-á ao caso discreto.

Seja θ um parâmetro discreto com função densidade de probabilidade h(θ) e

suporte Θ, define-se por entropia de h(θ) como sendo o valor esperado de − lnh(θ), ou seja,

E(h(θ)) = −∑θ∈Θ

ln(h(θ))h(θ).

Exemplificando, considere que θ assuma um número finito de valores distintos,

ou seja, θ ∈ Θ = {θ1, θ2, · · · , θn}, com probabilidades p(θ = θi) = pi > 0, i = 1, · · · , k.

O objetivo aqui é encontrar (pi, i = 1, · · · , k) sujeito a restrição∑k

i=1 p1 = 1

que maximize E(h(θ)) = −∑k

i=1 pi ln(pi). Com aux́ılio matemático, usando o Método dos

Multiplicadores de Lagrange, pretende-se maximizar a função lagrangiana,

E∗ (h (θ)) = −k∑i=1

pi ln (pi) + λ

(k∑i=1

pi − 1

).

Derivando-se a função anterior em ordem a pi, para i = 1, · · · , k e igualando a

zero, obtêm-se o sistema de equações,

− ln pi − 1 + λ = 0, i = 1, · · · , k ⇒ ln pi = λ− 1∀i = 1, · · · , k,
41

ou seja, pi tem de ser constante. O valor desta constante é obtido através da restrição imposta

à soma ser unitária, implicando em pi =1

k, i = 1, · · · , k, sendo a entropia associada (máxima)

dada por ln k. Assim, verifica-se que a distribuição que maximiza a entropia é a Distribuição

Uniforme Discreta, o que leva-se a concluir que a representação da não-informação adaptando

o critério de maximização da entropia conduz ao resultado obtido quando se usa o Método de

Bayes-Laplace.

2.1.4.2.3 Prioris Hierárquicas

A utilização de prioris hierárquicas é uma abordagem que facilita as especi-

ficações das informações antes dos experimentos serem realizados, além de ser natural em

determinadas situações experimentais. A idéia é dividir a especificação da distribuição a priori

em estágios.

A Distribuição a Priori de θ depende dos hiperparâmetros ϕ e pode-se escrever

p(θ, ϕ) ao invés de p(θ). E ao invés de fixar valores para os hiperparâmetros, pode-se especificar

uma distribuição a priori p(ϕ) de forma a completar assim o segundo estágio da hierarquia.

Neste contexto, a distribuição a priori conjunta é simplesmente p(θ, ϕ) = p(θ|ϕ)p(ϕ) e a

distribuição marginal de θ pode ser obtida pela integração,

p(θ) =

∫p(θ, ϕ)dϕ =

∫p(θ|ϕ)dϕ.

E assim, a distribuição a posteriori conjunta fica,

p(θ, ϕ|x) ∝ p(x|θ, ϕ)p(θ|ϕ)p(ϕ) ∝ p(x|θ)p(θ|ϕ)p(ϕ),

uma vez que a distribuição dos dados depende apenas de θ.

Ehlers (2008) apresentou como exemplo a seguinte situação: suponha que

X1, X2, · · · , Xn sejam tais que Xi ∼ N(θi, σ2) com σ2 desconhecido e deseja-se especificar

uma distribuição a priori para o vetor de parâmetros θ′

= [θ1, θ2, · · · , θn]. Suponha que no

primeiro estágio assuma-se que θi ∼ N(µ, τ 2), i = 1, · · · , n. Neste caso, ao se fixar o valor

de τ 2 = τ 20 e assumir-se que µ tem distribuição normal, então θ terá distribuição normal

multivariada. Por outro lado, fixando-se um valor para µ = µ0 e assumindo-se que τ−2 tem

distribuição Gama, isto implica em uma distribuição t de Student multivariada para θ.
42

As prioris hierárquicas são especificadas, em geral, em 2 ou 3 estágios. Devido à

dificuldade de interpretação dos hiperparâmetros, em estágios mais altos, é comum se especi-

ficar prioris não-informativas para estes ńıveis.

2.1.4.2.4 O uso de Prioris Informativas

Em situações onde o tamanho da amostra é pequeno, ou quando os dados dis-

pońıveis fornecem apenas informações vagas a respeito dos parâmetros, o conhecimento a priori,

representado pela distribuição a priori é muito importante, Gelman (2002). Neste mesmo tra-

balho, o autor aponta que quando se trabalha com ajuste de modelos hierárquicos, o uso de

prioris informativas, muitas vezes, se faz necessário, entretanto ele salienta a diferença entre o

uso de prioris informativas “fortes”e “moderadas”, que deve ser feito com cautela, sobretudo

se atentando para o número de parâmetros a serem estimados e para a quantidade de dados

que se dispõe. O autor ainda justifica que quando se utiliza modelos hierárquicos e deseja-

se estimar muitos parâmetros, caso seja utilizado prioris não-informativas, as estimativas dos

parâmetros do modelo será fechada sob as informações dos dados, o que trará estimativas

apenas razoáveis, e que é este tipo de problema que deve estimular o pesquisador a especificar

distribuições a priori, usando informações externas.

Abel et al. (2010) em um estudo de séries temporais utilizando estimação baye-

siana, constataram que o uso de prioris informativas pode tornar a distribuição a posteriori

leptocúrtica, alterando a tendência central, entretanto desde que essa informação a priori seja

tomada com cautela, com base em conhecimentos prévios sólidos, a inclusão da distribuição a

priori informativa pode auxiliar na precisão das previsões do modelo de séries temporais, o que

nem sempre é verificado no uso de prioris não-informativas ( prioris flat), onde as estimativas

baseia-se em quase sua totalidade apenas nos dados.

O uso de prioris informativas também pode acelerar o processo de convergência

de estimativas em computação bayesiana, sobretudo quando se dispõe de poucos dados e

muitos parâmetros a serem estimados, o que é comum na modelagem de modelos hierárquicos

(Ntzoufras, 2009).
43

2.1.4.3 Estimação

A distribuição a posteriori de um parâmetro θ contém toda a informação proba-

biĺıstica a respeito deste parâmetro e um gráfico da sua função de densidade a posteriori é a

melhor descrição do processo de inferência. Algumas vezes é necessário resumir a informação

contida na posteriori através de alguns poucos valores numéricos, por exemplo, a estimação

pontual de θ onde se resume a distribuição a posteriori através de um único número, θ̂.

Seja amostra aleatória X1, · · · , Xn de uma distribuição com função densidade de

probabilidade p(x|θ), sendo o verdadeiro valor do parâmetro θ desconhecido e de interesse.

Desde que θ ∈ Θ, então é razoável que os posśıveis valores de um estimador δ(X)

também devam pertencer ao espaço paramétrico de θ, Θ. Assim, um bom estimador de θ é

aquele cujo qual, com alta probabilidade, o erro δ(X) − θ esteja próximo de zero. Para cada

posśıvel valor de θ e cada posśıvel estimativa a ∈ Θ, associa-se uma perda L(a, θ), de tal forma

que quanto maior for a distância entre a e θ, maior será o valor da função perda. Sob estas

condições, a função perda esperada a posteriori é expressa por,

E [L(a, θ)|x] =∫L(a, θ)p(θ|x)dθ

e a Regra de Bayes consiste em escolher a estimativa que minimiza esta perda esperada.

Entretanto, observa-se que estimação pontual possui uma restrição, quando se

esta estimando um parâmetro através de um único valor numérico, toda a informação presente

na distribuição a posteriori é resumida através deste número. É importante também associar

alguma informação sobre o quão precisa é a especificação deste número.

As medidas de incerteza mais usuais são a variância ou o coeficiente de variação

para a média a posteriori, a medida de informação observada de Fisher para a moda a posteriori,

e a distância entre quartis para a mediana a posteriori. E para contornar a restrição da

estimativa pontual, assim como na teoria clássica, existe a estimação por intervalo, dentro da

Estat́ıstica Bayesiana, todavia, aqui a interpretação será dada em termos de credibilidade, ao

contrário da Estat́ıstica Clássica, onde a interpretação é feita em termos de ńıveis de confiança.

Definição: C é um intervalo de credibilidade de 100(1− α)%, ou ńıvel de credibilidade 1− α,

para θ se P (θ ∈ C) ≥ 1− α.

Note que qualquer região de credibilidade é definida numericamente, isto é, não
44

é aleatória, e admite uma interpretação probabiĺıstica direta e ineqúıvoca em contraste com

a região de confiança clássica. A definição expressa de forma probabiĺıstica a pertinência ou

não de θ ao intervalo. Assim, quanto menor for o tamanho do intervalo mais concentrada é a

distribuição do parâmetro, ou seja o tamanho do intervalo informa sobre a dispersão de θ. Uma

vantagem do uso da estimação por intervalos de credibilidade é que os intervalos são invariantes

a transformação 1 a 1, φ(θ). Assim, é posśıvel construir uma infinidade de intervalos usando a

definição acima, mas o interesse está apenas naquele com o menor comprimento posśıvel. Os

intervalos de comprimento mı́nimo são obtidos tomando-se os valores de θ com maior densidade

a posteriori, e esta idéia é expressa matematicamente na definição a seguir.

Definição: Um intervalo de credibilidade C de 100(1 − α)% para θ é de máxima densidade a

posteriori (abreviadamente, do inglês, HPD) se C = {θ ∈ Θ : p(θ|x) ≥ k(α)} onde k(α) é a

maior constante tal que P (θ ∈ C) ≥ 1− α.

Pela definição anterior, nota-se que todos os pontos dentro do intervalo HPD

terão densidade maior do que qualquer ponto fora do intervalo. Além disso, no caso de dis-

tribuições com duas caudas, por exemplo, normal, t de Student, o intervalo HPD é obtido de

modo que as caudas tenham a mesma probabilidade. Todavia, os intervalos HPD possuem

uma restrição, eles não são invariantes a transformações 1 a 1, a não ser para transformações

lineares.

2.1.4.4 Critério de Informação da Deviance Bayesiana - DIC

Spiegelhater et al.(2002) propôs o critério de Informação da Deviance Bayesiana

(DIC) para a comparação de modelos, assim como a seleção de variáveis explicativas a serem

consideradas no modelo. O critério utiliza como medida de qualidade de ajuste a esperança

a posteriori do logaritmo da distribuição condicional dos dados. A medida representa uma

medida de complexidade do modelo, sendo assim, modelos com menores valores de DIC podem

ser considerados mais adequados pois apresentam ajuste ponderado pelo grau de complexidade.

O seguinte critério pode ser adotado da seguinte maneira:

• D = |DICA −DICB| (comparando dois modelos)

i - se D < 5 - não significativo;
45

ii - se 5 ≤ D ≤ 10 - significativo;

iii - de D > 10 - muito significativo.

2.1.4.5 Aspectos Computacionais

Na literatura existem várias maneiras de se mensurar a informação sobre os

parâmetros de interesse, de um determinado modelo, descrita na distribuição a posteriori,

baseando-se em simulação, como por exemplo, Monte Carlo simples, Monte Carlo com função

de importância, métodos de reamostragem e Monte Carlo via Cadeias de Markov (MCMC).

Todos estes algoritmos são não determińısticos, isto é, todos requerem a simulação de números

(pseudo) aleatórios de alguma distribuição de probabilidade, de forma que, em geral, a única

limitação para o processo de simulação são o tempo de computação e a capacidade de arma-

zenamento dos valores simulados.

Com os recursos computacionais atuais, a análise bayesiana vem se desenvol-

vendo cada vez mais, entretanto deve-se ter grande cautela quando se fizer uso da Computação

Bayesiana, pois corre-se o risco de apresentar uma solução certa para um problema errado (erro

tipo III) ou uma solução ruim para o problema correto, de tal forma que os métodos computa-

cionalmente intensivos não devem ser utilizados como substituição do pensamento cŕıtico sobre

o problema que está sendo analisado. E sempre que posśıvel, deve-se utilizar aproximações

exatas, se elas existirem. Em outras palavras, como os métodos computacionais são iterativos,

deve-se ter cautela com a possibilidade de um algoritmo apresentar convergência para um valor

incorreto, o que segundo Spiegelhater et al. (1995), é pior do que um algoritmo não apresentar

convergência.

O objetivo em toda análise estat́ıstica é fazer inferência. Na inferência baye-

siana, a distribuição a posteriori representa (concentra) toda a informação relevante sobre os

parâmetros de interesse, θ, e pode ser convenientemente resumida em termos de esperanças de

funções particulares do parâmetro θ, isto é,

E [g(θ|x)] =∫g(θ)p(θ|x)dθ

e se θ for multidimensional, distribuições a posteriori marginais pode ser obtidas,

p(θ1|x) =∫p(θ|x)dθ2
46

em que θ = (θ1, θ2). Desta forma, o problema geral da Inferência Bayesiana consiste no cálculo

de valores esperados segundo a distribuição a posteriori de θ.

2.1.4.5.1 Método de Monte Carlo via Cadeias de Markov

O Método de Monte Carlo via Cadeias de Markov (MCMC) é uma alternativa

aos métodos não iterativos em problemas complexos, em que em muitas situações é dificultoso

ou até mesmo imposśıvel encontrar uma densidade de importância que seja simultaneamente

uma boa aproximação da distribuição de probabilidade a posteriori e que seja pasśıvel de

amostragem.

Neste caso, a idéia é obter uma amostra da distribuição de probabilidade a

posteriori e obter estimativas amostrais das caracteŕısticas desta distribuição. Nesse processo

são utilizadas técnicas de simulação iterativas. E em decorrência dessa simulação, que serão

baseadas em Cadeias de Markov, os valores gerados serão dependentes.

Essa dependência é devida ao fato de uma cadeia de Markov ser um processo

estocástico de tal forma que a distribuição deXt dado a ocorrência de todos os valores anteriores

X0, X1, · · · , Xt−1 depende apenas da informação anterior Xt−1. Matematicamente,

P (Xt ∈ A|X0, · · · , Xt−1) = P (Xt ∈ A|Xt−1)

para qualquer subconjunto de A. Da Teoria de Processos Estocá