Universidade Estadual de Campinas
Instituto de Matematica, Estatısticae Computacao Cientıfica
Eric Krishna Peres Barbosa
Modelos de mistura para dados longitudinais de habilidadecognitiva em idosos
CAMPINAS
2018
Eric Krishna Peres Barbosa
Modelos de mistura para dados longitudinais de habilidadecognitiva em idosos
Dissertacao apresentada ao Instituto de Ma-
tematica, Estatıstica e Computacao Cientıfica da
Universidade Estadual de Campinas como parte
dos requisitos exigidos para a obtencao do tıtulo
de Mestre em estatıstica.
Orientadora: Hildete Prisco Pinheiro
Este exemplar corresponde a versao final da
dissertacao defendida pelo aluno Eric Krishna
Peres Barbosa, e orientada pela Profa. Dra. Hil-
dete Prisco Pinheiro.
Assinatura da Orientadora
Campinas
2018
Agência(s) de fomento e nº(s) de processo(s): CNPq, 133529/2016-9; CAPES
Ficha catalográficaUniversidade Estadual de Campinas
Biblioteca do Instituto de Matemática, Estatística e Computação CientíficaAna Regina Machado - CRB 8/5467
Barbosa, Eric Krishna Peres, 1993- B234m BarModelos de mistura para dados longitudinais de habilidade cognitiva em
idosos / Eric Krishna Peres Barbosa. – Campinas, SP : [s.n.], 2018.
BarOrientador: Hildete Prisco Pinheiro. BarDissertação (mestrado) – Universidade Estadual de Campinas, Instituto de
Matemática, Estatística e Computação Científica.
Bar1. Misturas finitas. 2. Problemas de ponto de mudança. 3. Análise de
regressão. 4. Distribuição binomial. 5. Cognição. I. Pinheiro, Hildete Prisco,1966-. II. Universidade Estadual de Campinas. Instituto de Matemática,Estatística e Computação Científica. III. Título.
Informações para Biblioteca Digital
Título em outro idioma: Longitudinal mixture models for the analysis of elderly people'scognitionPalavras-chave em inglês:Finite mixturesChange-point problemsRegression analysisBinomial distributionCognitionÁrea de concentração: EstatísticaTitulação: Mestre em EstatísticaBanca examinadora:Hildete Prisco Pinheiro [Orientador]Mariana Rodrigues MottaClarice Garcia Borges DemétrioData de defesa: 23-03-2018Programa de Pós-Graduação: Estatística
Powered by TCPDF (www.tcpdf.org)
Dissertação de Mestrado defendida em 23 de março de 2018 e aprovada
pela banca examinadora composta pelos Profs. Drs.
Prof(a). Dr(a). HILDETE PRISCO PINHEIRO
Prof(a). Dr(a). MARIANA RODRIGUES MOTTA
Prof(a). Dr(a). CLARICE GARCIA BORGES DEMÉTRIO
As respectivas assinaturas dos membros encontram-se na Ata de defesa
Agradecimentos
Agradeco as agencias CAPES e CNPq pelo apoio financeiro e a agencia FAPESP por ter usufruido
do projeto tematico 2013/09357-9.
Ao IMECC pela infraestrutura que me ofereceu durante estes anos. Em particular, ao Celso e
Quintino da informatica, aos professores Alberto Saa e Benilton Sa pelo suporte dado.
As professoras Clarice Garcia Borges Demetrio e Mariana Rodrigues Motta, por terem participado
da banca examinadora e contribuıdo com importantes levantamentos acerca do meu trabalho.
As professoras Tatiana Andrea Benaglia e Graciela Muniz-Terrera pela oportunidade de trabalho,
orientacao e companheirismo. Aos professores Hildete Prisco Pinheiro, Luiz Koodi Hotta, Nancy
Lopes Garcia e Victor Hugo Lachos Davila, pessoas que admiro e fizeram enorme contribuicao para
minha formacao como estatıstico. Em especial, ainda a professora Hildete pelo “apadrinhamento”,
orientacao e ajuda imprescindıvel pra resolver os problemas inerentes ao projeto de mestrado.
Aos meus amigos, aos que me ajudaram e aqueles os quais tive a oportunidade de ajudar.
Obrigado republica XIII de Jau. A todos que tive o prazer de conviver neste lugar e as incontaveis
reflexoes feitas nos finais de tarde vistos da minha querida varanda.
Por ultimo e mais importante, aos meus pais e famılia. Pelo exemplo das suas trajetorias, pelo
respeito e apoio incondicionais aos meus planos.
“Sera que sei tudo que sou?
Sera que sou tudo que sei?
Se eu nao sei tudo que sou
Entao eu nao sou tudo que sei?
Tudo que penso que sei?
Sou humano ou sou um mosquito?
Sou parte do universo, sou parte do infinito
Sou humano ou sou um produto?
Produto do que querem que eu seja
Produto do que me e permitido ser
Sera que sou tudo que sou?
Sera que sei tudo que sei?
Nao, nao sou nada disso
Ou sera que sou tudo isso? [...]
Pois essa busca parece incessante
Historia sem fim, inferno de Dante [...]”
Pedro Augusto de Almeida Rosa,
amigo e poeta.
Resumo
Neste trabalho, propoe-se um modelo de mistura de regressoes para lidar com dados de habilidade
cognitiva em idosos ate seu falecimento. A cognicao e mensurada longitudinalmente por questionarios
padrao em geriatria, com perguntas que avaliam a memoria, linguagem, raciocınio logico, dentre
outros, e compoem um escore enumeravel e finito dos acertos. Diferente de grande parte da literatura
na area, em que aplicam modelos lineares mistos classicos com ou sem transformacoes logarıtmicas,
sao ajustados modelos para variaveis resposta Binomial e Beta-Binomial. A especificacao de mistura
de regressoes e feita para discriminar dois comportamentos prevalentes encontrados nos dados: um
grupo de idosos apresenta declınio cognitivo a taxa constante no tempo; enquanto outro grupo passa,
a partir de um momento, a ter um declınio acelerado. Para o ultimo comportamento, preditores nao
lineares com pontos de quebra aleatorios sao propostos. Um estudo de simulacao e conduzido para
avaliar a qualidade da estimacao Bayesiana dos efeitos fixos e aleatorios sob diferentes configuracoes
amostrais e empıricas do modelo proposto: quantidade de observacoes longitudinais, proporcao de
indivıduos em cada componente da mistura e abruptude da aceleracao do declınio. Na pratica, o
intuito e estudar e quantificar associacoes entre a perda da capacidade cognitiva e o diagnostico de
demencias como a doenca de Alzheimer, alem de fatores sociodemograficos. Por fim, uma aplicacao
dos modelos descritos e feita ao banco de dados produzido pelo Rush Memory and Aging Project da
Universidade Rush – Chicago, Estados Unidos, entre os anos de 1997 e 2016.
Palavras-chave: modelos de mistura, modelos longitudinais, modelos de efeitos mistos, pontos de
quebra aleatorios, habilidade cognitiva em idosos, distribuicao beta-binomial, distribuicao binomial.
Abstract
A regression mixture model to handle elderly’s cognitive ability up to their death is presen-
ted. Cognition is measured across time with standard questionnaires from geriatrics which involve,
amongst others, memory, language and reasoning issues. The output of such questionnaires is recor-
ded with a countable and finite score. Many authors in the literature apply classical linear mixed
models for the raw scores or use some logarithmic transformation. Differently, models for Binomial
and Beta-Binomial response variables are discussed here. The mixture specification rises to discri-
minate two prevalent behaviors in the data: one group of elderly people presents cognition decline
at constant rate; whilst the other experiences a spontaneous accelerated decline at some time. The
latter aspect is dealt with random change points nonlinear predictors. To assess the Bayesian esti-
mation performance of fixed and random effects, a simulation study is conducted under the following
sampling and empirical different aspects: number of repeated measures across time, individuals pro-
portion in each mixture component and the decline’s acceleration abruptness. Finally, the study’s
goal is to quantify associations amidst cognition loss and the diagnostics of dementias like Alzhei-
mer’s disease, besides sociodemographic factors. The proposed model is evaluated in the database
provided by the Rush University – Chicago, United States, through the Rush Memory and Aging
Project from 1997 to 2016.
Keywords: mixture models, longitudinal models, mixed effects models, random change points,
elderly people cognition, beta-binomial distribution, binomial distribution.
Lista de Figuras
2.1 Funcoes de probabilidade da variavel aleatoria 𝑌 ∼ Beta-Binomial(10, 𝜑𝜇, 𝜑(1 − 𝜇))
para diferentes valores de 𝜇 e 𝜑. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2 Limite inferior do espaco parametrico da correlacao intraclasse 𝜌 = (𝜑+1)−1, de acordo
com diferentes valores de 𝜇 = 𝛼1/(𝛼1 + 𝛼2) e quantidade de ensaios 𝑛. . . . . . . . . . 21
2.3 Preditor Broken-Stick com 𝛽2 ∈ (−7,−1). Alem disso, 𝜏 = 5, 𝛽0 = 40 e 𝛽1 = 0, 5. . . . 23
2.4 Preditor em (2.2.2) com 𝐾1 = 1 e 𝐾2 = 2. Em todos os casos, 𝜏 = 5, 𝛽0 = 40 e
𝛽1 = 0, 5. Alem disso, todos os grids de 𝛽2 ou 𝛽3 possuem 14 valores. Especificamente,
(a)𝛽3 = −0, 8 e 𝛽2 ∈ (−7,−1); (b)𝛽2 = −4 e 𝛽3 ∈ (−4;−0, 05); (c)𝛽2 ∈ (−7,−1),enquanto 𝛽3 ∈ (−4;−0, 05). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.1 Exemplo de dados fictıcios gerados pela estrutura (4.1.3). Em todos os casos, a pro-
porcao de indivıduos em cada grupo foi gerada com 𝜆 = (0, 0)′ na expressao (4.1.2)
e os efeitos do preditor (4.1.1) iguais a 𝛽 = (1, 5;−0, 2; 𝛽3;−1)′. Na primeira linha,
𝛽3 = −2, 5; na linha central, 𝛽3 = −1, 5; e na ultima linha, 𝛽3 = −0, 5. . . . . . . . . . 54
4.2 Graficos dos erros quadraticos medios (4.2.1), estratificados pelas caracterısticas de in-
teresse: magnitude do efeito apos o ponto de quebra (𝛽3 ∈ {−2, 5;−1, 5;−0, 5}), pro-porcao de indivıduos no grupo de mistura com decaimento acelerado (𝐺2 ∈ {Pequeno,Medio,Grande} ≈ {14%, 50%, 92%}) e quantidade de medidas repetidas ao longo do
tempo simulado (𝐽 ∈ {5, 10}). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.3 Graficos das probabilidades de cobertura (4.2.2) com 95% de confianca, estratifica-
dos pelas caracterısticas de interesse: magnitude do efeito apos o ponto de quebra
(𝛽3 ∈ {−2, 5;−1, 5;−0, 5}), proporcao de indivıduos no grupo de mistura com decai-
mento acelerado (𝐺2 ∈ {Pequeno,Medio,Grande} ≈ {14%, 50%, 92%}) e quantidade
de medidas repetidas ao longo do tempo simulado (𝐽 ∈ {5, 10}). . . . . . . . . . . . . 60
4.4 Graficos de dispersao entre a Taxa de Verdadeiros Positivos (4.2.3) vs Taxa de Fal-
sos Positivos (4.2.4), estratificados pelas caracterısticas de interesse: magnitude do
efeito apos o ponto de quebra (𝛽3 ∈ {−2, 5;−1, 5;−0, 5}), proporcao de indivıduos
no grupo de mistura com decaimento acelerado (𝐺2 ∈ {Pequeno,Medio,Grande} ≈{14%, 50%, 92%}) e quantidade de medidas repetidas ao longo do tempo simulado
(𝐽 ∈ {5, 10}). Adicionalmente, apresenta-se a Acuracia Media - ACM (4.2.6) para
cada configuracao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.5 Densidades a posteriori para simulacao do modelo Beta-Binomial com 𝐽 = 5, 𝐺2
medio e 𝛽3 = −1, 5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.6 Historico das cadeias a posteriori para simulacao do modelo Beta-Binomial com 𝐽 = 5,
𝐺2 medio e 𝛽3 = −1, 5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.1 Box-plots dos escores mmse dos invidıduos do estudo RUSH, estratificados para cada
tempo ate a morte, de 19 a 0 anos ate o falecimento. . . . . . . . . . . . . . . . . . . 68
5.2 Frequencias de indivıduos para cada quantidade de acompanhamentos feitos. Na pa-
leta de cores, a idade de entrada dos indivıduos no estudo. . . . . . . . . . . . . . . . 69
5.3 Grafico longitudinal dos escores individuais ao longo do tempo ate a morte. A estra-
tificacao e feita com base nas variaveis indicadoras AD - pelo menos um diagnostico da
doenca de Alzheimer e MCI - pelo menos um diagnostico de dano cognitivo moderado. 70
5.4 Mapa de calor dos escores individuais ao longo do tempo ate a morte. A estratificacao
e feita com base nas variaveis indicadoras AD - pelo menos um diagnostico da doenca de
Alzheimer e MCI - pelo menos um diagnostico de dano cognitivo moderado. Truncou-
se a disposicao do grafico para 𝑡 ∈ {−10, . . . , 0} para melhor visualizacao, visto que
entre 𝑡 ∈ {−19, . . . ,−11} os escores sao majoritariamente altos (vide 5.1). . . . . . . . 71
5.5 Mapa de calor dos escores individuais ao longo do tempo ate a morte. A estratificacao
e feita com base na variavel indicadora de educacao superior EDUC: Basica caso ≤ 12
anos de estudo ou Superior, caso contrario. Truncou-se a disposicao do grafico para
𝑡 ∈ {−10, . . . , 0} para melhor visualizacao, visto que entre 𝑡 ∈ {−19, . . . ,−11} os
escores sao majoritariamente altos (vide 5.1). . . . . . . . . . . . . . . . . . . . . . . . 71
5.6 Medianas e intervalos de credibilidade 95% para cadeias finais do modelo com dis-
tribuicao Binomial, preditores dados por (5.3.2) e (5.3.3). Em (a), tem-se a es-
pecificacao com ℳlogito : ℎ(𝑥) = log(𝑥/(1 − 𝑥)), enquanto em (b) ℳcloglog :
ℎ(𝑥) = log(−log(1− 𝑥)). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.7 Graficos de resıduos quantılicos aleatorizados para o modelo ℳ𝑏𝑖𝑛. No grafico (a),
calculam-se 30 conjuntos de resıduos. A curva e uma referencia para o caso ideal.
Nos graficos (b)-(d), por outro lado, apenas um conjunto e utilizado para avaliar,
respectivamente, a relacao com os valores ajustados 𝑦𝑖𝑗, tempo ate a morte e covariavel
que da o efeito apos os pontos de quebra estimados: [𝑡𝑖𝑗−𝜏𝑖]+ = max(0, 𝑡𝑖𝑗−𝜏𝑖). Nestes,as curvas sao suavizacoes dos dados via modelos aditivos genealizados (GAM). . . . . 76
5.8 Historico de cadeias a posteriori do parametro 𝜑 da distribuicao Beta-Binomial como
resultado de ajuste do modeloℳ𝑏𝑏. A esquerda, ajuste com burn-in de 1,1 milhao de
iteracoes, enquanto a direita, com 1,4 milhao de iteracoes. . . . . . . . . . . . . . . . 77
5.9 Graficos de resıduos quantılicos aleatorizados para o modelo Binomial de efeitos mistos
com ajuste Bayesiano. No grafico (a), calculam-se 30 conjuntos de resıduos. A curva
e uma referencia para o caso ideal. Nos graficos (b) e (c), por outro lado, apenas um
conjunto e utilizado para avaliar, respectivamente, a relacao com os valores ajustados
𝑦𝑖𝑗 e tempo ate a morte. Nestes, as curvas sao suavizacoes dos dados via modelos
aditivos generalizados (GAM). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.10 Grafico longitudinal dos escores individuais observados e ajustados ao longo do tempo
ate a morte. A estratificacao e feita com base nas variaveis indicadoras AD - pelo menos
um diagnostico da doenca de Alzheimer e MCI - pelo menos um diagnostico de dano
cognitivo moderado. Linhas tracejadas no modelo com mistura indicam indivıduos
classificados no grupo com decaimento acelerado (𝐺2). . . . . . . . . . . . . . . . . . 79
5.11 Histograma dos pontos de quebra estimados para o grupo com decaimento acelerado
(𝐺2), segundo modelo finalℳ𝑏𝑖𝑛. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.12 Histograma das idades estimadas em que os pontos de quebra aconteceram para o
grupo com decaimento acelerado (𝐺2), segundo modelo finalℳ𝑏𝑖𝑛. . . . . . . . . . . . 81
C.1 Box-plots da variavel resposta escore mmse de acordo com as covariaveis categoricas.
Segundo legenda da Tabela 5.1, (a) - ad; (b) - mci; (c) - educ; (d) - sexo; (e) - etnia. 96
C.2 Diagonal principal: densidades suavizadas dos escores mmse para tempos ate a morte
diferentes, 𝑡 ∈ {−19, . . . ,−10}. Graficos da parte triangular inferior: dispersao entre
escores para tempos cruzados. Informacoes da parte triangular superior: correlacoes
entre escores para tempos cruzados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
C.3 Diagonal principal: densidades suavizadas dos escores mmse para tempos ate a morte
diferentes, 𝑡 ∈ {−9, . . . ,−0}. Graficos da parte triangular inferior: dispersao entre
escores para tempos cruzados. Informacoes da parte triangular superior: correlacoes
entre escores para tempos cruzados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
C.4 Nas primeiras 4 linhas de graficos, densidades a posteriori e nas ultimas 4 linhas,
historico das cadeias a posteriori do modeloℳ𝑏𝑖𝑛. . . . . . . . . . . . . . . . . . . . . 100
Lista de Tabelas
2.1 Funcoes de ligacao comuns para regressao com dados binarios. . . . . . . . . . . . . . 26
3.1 Funcoes de perdas usuais e os respectivos estimadores Bayesianos encontrados pela
minimizacao em (3.1.1). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2 Funcoes de discrepancia comuns para avaliar reproducibilidade dos dados originais sob
modelos Bayesianos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.1 Variaveis retiradas e/ou modificadas do banco de dados Rush Memory and Ageing
Project. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.2 Tempo de ajuste, medidas de diagnostico (valores-p Bayesianos amostrados 𝑠𝑝𝑏(𝑦)) e
comparacao de modelos (DIC7 e LMPL) para modelos com distribuicao Binomial dos
escores mmse condicionais, preditores dados por (5.3.2) e (5.3.3). Valores em negrito
por coluna indicam melhores indicadores. Para os valores-p Bayesianos amostrados
em (3.1.11), tomou-se a moda das cadeias finais como quantidades 𝜃𝑓𝑖𝑥𝑜. . . . . . . . 74
5.3 Tempo de ajuste, numero de iteracoes (burn-in + rodadas finais), medidas de di-
agnostico (valores-p Bayesianos anostrados 𝑠𝑝𝑏(𝑦)) e comparacao de modelos (DIC7 e
LMPL) para modelo com distribuicao Binomial dos escores mmse condicionais e predi-
tor dado por (5.3.5). Para os valores-p Bayesianos amostrados em (3.1.11), tomou-se
a moda das cadeias finais como quantidades 𝜃𝑓𝑖𝑥𝑜. . . . . . . . . . . . . . . . . . . . . 76
5.4 Estatıstica R, mediana, bandas inferior (Inf) e superior (Sup) de credibilidade 95%
para cadeias finais do modelo com distribuicao Binomial, preditores dados por (5.3.5)
e (5.3.3). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
C.1 Mediana, bandas inferior (Inf) e superior (Sup) de credibilidade 95% para cadeias
finais do modelo com distribuicao Binomial, preditores dados por (5.3.2) e (5.3.3).
Os ajustes sao feitos com ℳlogito : ℎ(𝑥) = log(𝑥/(1 − 𝑥)), enquanto ℳcloglog :
ℎ(𝑥) = log(−log(1− 𝑥)). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
Conteudo
Lista de Figuras ix
Lista de Tabelas xii
1 Introducao 15
1.1 Notacao utilizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.2 Organizacao do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2 Modelo de Mistura de Regressoes Com Componente de Declınio Acelerado 18
2.1 Variaveis aleatorias de ensaios com respostas dicotomicas . . . . . . . . . . . . . . . . 18
2.2 Preditores para dados longitudinais com ponto de quebra . . . . . . . . . . . . . . . . 21
2.3 O modelo de mistura de regressoes com componente de declınio acelerado . . . . . . . 24
2.3.1 Verossimilhanca para o modelo proposto . . . . . . . . . . . . . . . . . . . . . 26
3 Metodo de Estimacao 29
3.1 Inferencia Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.1.1 Algoritmos de simulacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.1.2 Softwares para inferencia Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . 38
3.1.3 Diagnostico dos modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.1.4 Comparacao dos modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.2 Estimacao Bayesiana para o modelo proposto de mistura de regressoes . . . . . . . . 43
3.2.1 Amostrador de Gibbs para o caso Beta-Binomial . . . . . . . . . . . . . . . . . 44
3.2.2 Amostrador de Gibbs para o caso Binomial . . . . . . . . . . . . . . . . . . . . 47
4 Estudo de Simulacao 52
4.1 Configuracoes de parametros e exemplos de dados simulados . . . . . . . . . . . . . . 53
4.2 Medidas para avaliacao das cadeias geradas e suas estimativas . . . . . . . . . . . . . 54
4.3 Resultados das simulacoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.4 Consideracoes sobre o caso Beta-Binomial . . . . . . . . . . . . . . . . . . . . . . . . 61
5 Aplicacao do Modelo em Dados Reais 64
5.1 Rush Memory and Aging Project . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.2 Analise descritiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.3 Ajuste do modelo proposto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
6 Consideracoes Finais 83
Bibliografia 85
A Exemplo questionario MMSE 92
B Algoritmos de simulacao 93
C Rush Memory and Aging Project 96
C.1 Graficos analise descritiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
C.2 Material suplementar dos ajustes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
15
Capıtulo 1
Introducao
A tendencia de crescimento da expectativa de vida mundial e evidenciada desde meados da
decada de 1840, de acordo com Oeppen and Vaupel (2002). Com isso, estudos relacionados aos
idosos tem sido uma area de grande interesse em medicina quantitativa e bioestatıstica nos ultimos
anos. Capacidade motora e aspectos neurologicos do envelhecimento sao caracterısticas que podem
estar associadas a doencas cognitivas comuns da idade avancada (como a demencia e, em particular,
a doenca de Alzheimer). Alguns estudos se baseiam no acompanhamento prospectivo de coortes,
tais como o OCTO - Twin (Origins of Variance in the Old-old: Octagenarian Twins) McClearn
et al. (1997), pelo Departamento de Epidemiologia Medica e Bioestatıstica do Karolinska Institutet ;
o Bronx aging study Katzman et al. (1989) e o Honolulu Asia Aging Study, Launer et al. (1995).
Para medir a capacidade neurologica dos participantes, sao aplicados periodicamente questionarios
padrao de habilidade cognitiva e memoria, por exemplo, o Mini Mental Status Examination (MMSE)
Cockrell and Folstein (2002), o Selective Reminding Test Hannay and Levin (1985) e o Cognitive
Abilities Screening Instrument Teng et al. (1994). Estes sao formulados por questoes relacionadas a
pronuncia, domınio de linguagem, memoria, logica e ate a habilidades motoras. Apresenta-se como
resultado um escore ordinal de acertos cuja amplitude varia de teste para teste.
Analises de dados longitudinais relacionados a habilidade cognitiva (como Hall et al. (2007)
e van den Hout et al. (2013)) evidenciam dois tipos prevalentes de comportamento dos idosos,
separando-os essencialmente em dois grupos. Um deles apresenta trajetoria dos escores com perda
da capacidade neurologica a uma taxa que pode ser considerada constante com o passar dos anos;
enquanto no outro grupo, a partir de um determinado momento aleatorio (que pode, inclusive, ser
diferente entre indivıduos), o escore de habilidade cognitiva passa a decair mais rapidamente ate a
morte ou censura. Essa caracterıstica e referenciada na literatura como ponto de quebra ou ponto de
mudanca. Ela aparece em outros tipos de dados, como em series temporais com quebras estruturais
- Bauwens and Rombouts (2012) - e em modelos logısticos para epidemiologia - Muggeo (2003), por
exemplo.
Analises estatısticas dos escores de habilidade cognitiva com repentina aceleracao do declınio
16
sao introduzidos em Hall et al. (2000), em que propoem modelos lineares de efeitos mistos com
o parametro ponto de quebra comum a todos os indivıduos. Artigos posteriores utilizam tecnicas
completa ou parcialmente Bayesianas com o objetivo de estimar pontos de quebra como efeitos
aleatorios dos indivıduos. Alguns exemplos destes estao em Dominicus et al. (2008) com o amostrador
de Gibbs (Casella and George (1992)) ou em van den Hout et al. (2013), com uma estimacao classica
seguida da tecnica de maximo a posteriori MAP (DeGroot (2005)) para o vetor de pontos de quebra.
Ainda assim, dado que nao se pode falar que todos os participantes apresentam o ponto de mudanca,
modelos com tal suposicao podem sub ou superestimar esta caracterıstica. Alem disso, nao ha
garantia de que os efeitos estimados das variaveis explicativas representem adequadamente o conjunto
de dados.
Uma recorrencia notada na literatura e a utilizacao de modelos de efeitos mistos com a distribuicao
gaussiana para as perturbacoes aleatorias. Dessa maneira, alguns autores Hall et al. (2001), Yu and
Ghosh (2010) propoem especificacoes para transformacoes logarıtmicas dos escores, como tentativa
de eliminar a assimetria empırica do desempenho dos participantes. Com tal conduta, os autores
tambem evitam lidar com modelos para variaveis respostas discretas, o que pode enfraquecer a
qualidade do ajuste e/ou previsao.
Outros aspectos que tem sido estudados para obtencao de modelos mais fidedignos e informativos
sao: (i) a inclusao dos pontos de quebra com transicoes suaves, como propostos em Bacon and Watts
(1971), Tishler and Zang (1981), van den Hout et al. (2011); (ii) tratar o problema como um modelo
de mistura, no qual especificacoes de regressao para grupos subjacentes de indivıduos sao feitas -
veja McLachlan and Peel (2004), Benaglia et al. (2009). Neste caso, a distincao entre os grupos e a
presenca ou nao do ponto de quebra. Analises que englobam os quesitos (i) e (ii) encontram-se em
Yu and Ghosh (2010), van den Hout et al. (2013).
O objetivo deste trabalho e propor um modelo de mistura para discriminar entre o grupo de
idosos que possuem decaimento da cognicao a taxa constante e o grupo que apresenta um ponto de
quebra ao longo da trajetoria. A formulacao e feita supondo que a variavel resposta tem distribuicao
condicional Binomial ou Beta-Binomial. Ambas as escolhas levam a uma distribuicao marginal dos
escores mais versatil do que a Binomial. Alem disso, essas escolhas nao negligenciam a natureza dos
escores, diferentemente de grande parte da literatura no assunto, como Hall et al. (2001), Jacqmin-
Gadda et al. (2006), Yu and Ghosh (2010). Alguns aspectos tecnicos como situacoes em que vale a
pena tal postulacao e custo versus benefıcio computacional serao avaliados por meio de simulacoes.
Assim, um estudo de simulacao e conduzido para avaliar a qualidade da estimacao Bayesiana
dos efeitos fixos e aleatorios sob diferentes configuracoes amostrais e empıricas do modelo proposto:
quantidade de observacoes longitudinais, proporcao de indivıduos em cada componente da mistura
e abruptude da aceleracao do declınio.
De uma maneira geral, pesquisadores desta area buscam relacoes entre o ponto de quebra e o
surgimento de algum tipo de demencia, como a doenca de Alzheimer. Ha tambem interesse em
17
verificar o efeito no ponto de quebra de covariaveis como sexo e nıvel de instrucao do participante
Hall et al. (2007), bem como fatores que atrasem o declınio cognitivo acelerado, como a pratica de
esportes. Em primeira instancia, e de interesse saber o que pode estar associado a presenca de tal
caracterıstica, isto e, ser classificado no grupo com mudanca no decaimento da cognicao. Em seguida,
caso pertenca a este grupo, saber que covariaveis podem melhorar o ajuste e/ou previsao da mudanca
na aceleracao da taxa de decaimento.
Uma aplicacao do modelo proposto sera feita usando o banco de dados gerado pelo Rush Memory
and Aging Project, disponibilizado pelo Centro Medico da Universidade RUSH, Bennett et al. (2005a).
Este conjunto contem informacoes longitudinais de uma coorte da regiao metropolitana de Chicago,
nos Estados Unidos, de Setembro/1997 ate Abril/2005. Alem da habilidade cognitiva medida uti-
lizando o Mini Mental Status Examination (MMSE), coletaram-se variaveis dos indivıduos como
genero, etnia, anos de educacao, bem como diagnosticos clınicos da presenca ou nao de demencias.
1.1 Notacao utilizada
Funcoes de probabilidade ou funcoes densidade serao representadas por 𝑓 ou 𝜋. Parametros
conhecidos e fixos serao, por simplicidade, suprimidos da escrita em 𝑓 . Assim, uma variavel aleatoria
pode ser definida pelo seu nome, como em 𝑋 ∼ Normal(𝜇, 𝜎2), por 𝑋 ∼ 𝑓(𝑥;𝛼) = 𝑓(𝑥) ou 𝑋 ∼ 𝜋(𝑥).
Distribuicoes condicionais serao representadas por 𝑋|𝑌 ∼ 𝑓(𝑥|𝑦) ou 𝑋|𝑌 ∼ 𝜋(𝑥|𝑦). Densidades
de variaveis truncadas no conjunto A por 𝑋 ∼ 𝑓(𝑥)1{𝑥 ∈ A}, em que 1{𝑥 ∈ 𝐴} = 1, se 𝑥 ∈ A, e
1{𝑥 ∈ 𝐴} = 0, caso contrario.
A notacao 𝑋𝑞.𝑐.−→ 𝑌 indica convergencia quase certa da variavel aleatoria 𝑋 para a variavel 𝑌 , que
pode tambem ser degenerada.𝑎𝑝𝑟∼ indica distribuicao aproximada,
𝑖𝑛𝑑∼ e𝑖𝑛𝑑= indicam, respectivamente,
com distribuicoes independentes e por independencia. Por ultimo,𝑖𝑖𝑑∼ representa variaveis aleatorias
independentes e identicamente distribuıdas.
1.2 Organizacao do trabalho
No proximo capıtulo, discutem-se algumas caracterısticas tecnicas para construcao do modelo,
e a apresentacao deste na Secao 2.3. Em seguida, apresentam-se a metodologia de estimacao e os
algoritmos necessarios para tal no Capıtulo 3. Os estudos de simulacao e analise do banco de dados
encontram-se, respectivamente, nos capıtulos 4 e 5. Finalmente, uma discussao sobre os resultados
das metodologias e feita no Capıtulo 6.
18
Capıtulo 2
Modelo de Mistura de Regressoes Com
Componente de Declınio Acelerado
A natureza dos escores que medem a habilidade cognitiva e discreta e com suporte finito. E
adequado, portanto, que esses sejam modelados por meio de variaveis aleatorias que contam a quan-
tidade de sucessos dentre um numero de ensaios. Sob esta perspectiva, dentro de um questionario
padrao de mensuracao cognitiva em idosos (conjunto de perguntas que medem memoria, raciocınio
logito, linguagem etc), cada pergunta representa um ensaio e cada resposta correta um sucesso.
As variaveis aleatorias Binomial e Beta-Binomial sao utilizadas como postulacoes as quantidades
de sucessos (ou fracassos) em um conjunto de ensaios Feller (1968). Para modelar o numero de
acertos dos questionarios padrao aqui tratados, entretanto, a suposicao de ensaios independentes
(que e amplamente empregada) pode nao ser adequada. Isto se da porque as perguntas aplicadas
compartilham caracterısticas e areas de enfoque, tais como memoria e linguagem. Por exemplo,
o Mini Mental Status Examination (MMSE) Cockrell and Folstein (2002) e composto por quatro
questoes que avaliam pronuncia/linguagem, duas que demandam reflexos motores, entre outros, vide
exemplo no Apendice A. Logo, se indivıduos tem dificuldade em algum construto do questionario, e
esperado que as respostas para perguntas relacionadas tambem o sejam. Ainda assim, neste trabalho,
nao se explorarao alternativas a essa questao.
2.1 Variaveis aleatorias de ensaios com respostas dicotomicas
Definicao 2.1.1. Uma variavel aleatoria 𝑌 ∈ {0, . . . , 𝑛} tem distribuicao 𝑌 ∼ Binomial(𝑛, 𝑝), 𝑛 ∈ Nsendo a quantidade de ensaios independentes com probabilidade de sucesso 𝑝 ∈ (0, 1), se sua funcao
de probabilidade for da forma
𝑓(𝑦) =
(𝑛
𝑦
)𝑝𝑦(1− 𝑝)𝑛−𝑦, 𝑦 ∈ {0, . . . , 𝑛}. (2.1.1)
19
Tendo em vista que 𝑌 ∼ Binomial(𝑛, 𝑝) ⇔ 𝑌 =∑𝑛
𝑖=1𝑋𝑖, 𝑋𝑖𝑖𝑖𝑑∼ Bernoulli(𝑝), as caracterısticas
de 𝑌 sao obtidas por:
E[𝑌 ] = E[ 𝑛∑
𝑖=1
𝑋𝑖
]=
𝑛∑𝑖=1
E[𝑋𝑖] = 𝑛𝑝, (2.1.2)
Var[𝑌 ] = Var[ 𝑛∑
𝑖=1
𝑋𝑖
]=
𝑛∑𝑖=1
Var[𝑋𝑖] = 𝑛𝑝(1− 𝑝). (2.1.3)
Definicao 2.1.2. Sejam 𝑌 e 𝑝 variaveis aleatorias tais que 𝑌 ∈ {0, ..., 𝑛}, 𝑛 ∈ N fixo e conhecido, e
𝑝 ∈ (0, 1). Considere 𝑌 |𝑝 ∼ Binomial(𝑛, 𝑝) e 𝑝 ∼ Beta(𝛼1, 𝛼2), em que 𝛼1, 𝛼2 > 0 sao parametros fixos
e desconhecidos. Com esta estrutura, 𝑌 tem distribuicao marginal 𝑌 ∼ Beta-Binomial(𝑛, 𝛼1, 𝛼2),
com funcao densidade dada por:
𝑓(𝑦) =
∫ 1
0
𝑓(𝑦|𝑝)𝑓(𝑝) d𝑝
=
∫ 1
0
(𝑛
𝑦
)𝑝𝑦(1− 𝑝)𝑛−𝑦 1
B(𝛼1, 𝛼2)𝑝𝛼1−1(1− 𝑝)𝛼2−1 d𝑝
=
(𝑛
𝑦
)1
B(𝛼1, 𝛼2)
∫ 1
0
𝑝𝑦+𝛼1−1(1− 𝑝)𝑛−𝑦+𝛼2−1 d𝑝
=
(𝑛
𝑦
)B(𝑦 + 𝛼1, 𝑛− 𝑦 + 𝛼2)
B(𝛼1, 𝛼2), 𝑦 ∈ {0, . . . , 𝑛}, (2.1.4)
sendo B(𝑎, 𝑏) = Γ(𝑎)Γ(𝑏)Γ(𝑎+𝑏)
a funcao Beta, e Γ(𝑎) =∫∞0
𝑥𝑎−1𝑒−𝑥 d𝑥 a funcao Gamma.
Uma parametrizacao importante para o contexto de regressao considera a transformacao unıvoca
(𝛼1, 𝛼2) ↦→ (𝜑𝜇, 𝜑(1 − 𝜇)), em que 𝜇 = 𝛼1/(𝛼1 + 𝛼2) e 𝜑 = 𝛼1 + 𝛼2. As caracterısticas da variavel
𝑌 ∼ Beta-Binomial(𝑛, 𝛼1, 𝛼2) = Beta-Binomial(𝑛, 𝜑𝜇, 𝜑(1− 𝜇)) sao dadas por:
E[𝑌 ] = E[E[𝑌 |𝑝]] = 𝑛E[𝑝] = 𝑛𝜇, (2.1.5)
Var[𝑌 ] = E[Var[𝑌 |𝑝]] + Var[E[𝑌 |𝑝]]
= E[𝑛𝑝(1− 𝑝)] + Var[𝑛𝑝]
= 𝑛(E[𝑝]− E[𝑝2]
)+ 𝑛2Var[𝑝]
= 𝑛(E[𝑝]−
(Var[𝑝] + E2[𝑝]
))+ 𝑛2Var[𝑝]
= 𝑛E[𝑝]− 𝑛Var[𝑝]− 𝑛E2[𝑝] + 𝑛2Var[𝑝]
= 𝑛(E[𝑝](1− E[𝑝]) + (𝑛− 1)Var[𝑝]
)= 𝑛
(𝜇(1− 𝜇) + (𝑛− 1)𝜇(1− 𝜇)(𝜑+ 1)−1
)= 𝑛𝜇(1− 𝜇)
[1 +
𝑛− 1
𝜑+ 1
], (2.1.6)
tendo em vista que Var[𝑝] = 𝛼1𝛼2/[(𝛼1 + 𝛼2)2(𝛼1 + 𝛼2 + 1)] = 𝜇(1− 𝜇)(𝜑+ 1)−1.
20
Ve-se pela expressao da variancia (2.1.6) um aspecto essencial que difere a Beta-Binomial da
Binomial: a sobredispersao dos valores gerados pela primeira, em comparacao com a segunda. Num
contexto de regressao para variaveis dicotomicas, a utilizacao da distribuicao Beta-Binomial para os
dados e uma alternativa relevante quando o modelo Binomial nao se faz adequado Williams (1982).
A parametrizacao 𝑌 ∼ Beta-Binomial(𝑛, 𝜑𝜇, 𝜑(1 − 𝜇)) e mais conveniente para desenvolver os
modelos de regressao e, em conformidade com os propositos deste trabalho, adotaremos esta estrutura
de agora em diante. O parametro 𝜇 pode ser interpretado como a probabilidade de sucesso num
ensaio, enquanto 𝜌 = (𝜑+1)−1 e visto como o parametro de correlacao intraclasse, e esta relacionado
a sobredispersao que os dados podem apresentar. Considerando que 𝜑 > 0, 𝜌 e necessariamente nao
negativo. Porem, Prentice (1986) mostra que (2.1.4) e uma funcao de probabilidade valida para certos
valores negativos da correlacao intraclasse, expandindo o espaco parametrico dessa caracterıstica a
𝜌 > −min(
𝜇𝑛−𝜇−1
, 1−𝜇𝑛+𝜇−2
), Ridout et al. (1999). Nas figuras 2.1 e 2.2, sao mostrados alguns exemplos
da versatilidade da distribuicao Beta-Binomial e os valores mınimos que o parametro 𝜌 pode assumir.
µ = 0,25 µ = 0,50 µ = 0,70
φ=
0,5φ
=5
φ=
10φ
=100
0 1 2 3 4 5 6 7 8 910 0 1 2 3 4 5 6 7 8 910 0 1 2 3 4 5 6 7 8 910
0.0
0.2
0.4
0.0
0.2
0.4
0.0
0.2
0.4
0.0
0.2
0.4
k
P(Y
=k)
Figura 2.1: Funcoes de probabilidade da variavel aleatoria 𝑌 ∼ Beta-Binomial(10, 𝜑𝜇, 𝜑(1−𝜇)) paradiferentes valores de 𝜇 e 𝜑.
21
−0.06
−0.04
−0.02
0.00
0.00 0.25 0.50 0.75 1.00
µ
Va
lor
mín
imo
ρ
n
10
20
30
40
50
60
Figura 2.2: Limite inferior do espaco parametrico da correlacao intraclasse 𝜌 = (𝜑+ 1)−1, de acordocom diferentes valores de 𝜇 = 𝛼1/(𝛼1 + 𝛼2) e quantidade de ensaios 𝑛.
2.2 Preditores para dados longitudinais com ponto de que-
bra
Sob a perspectiva dos Modelos Lineares Generalizados Nelder and Wedderburn (1972), tem-se o
intuito de modelar a media condicional da proporcao de sucessos, E[𝑌 *] = E[𝑌/𝑛] = 𝜇, equivalente
a probabilidade de acerto ao responder um questionario. Isto e feito por meio das chamadas funcoes
de ligacao, que relacionam a probabilidade de sucesso a efeitos das variaveis explicativas utilizadas
no estudo.
Segundo Paula (2004), o modelo de regressao para respostas independentes Binomiais 𝑌1, . . . , 𝑌𝑛
com 𝑌𝑖 ∼ Binomial(𝐾,𝜇𝑖) e dado pela expressao 𝑔(𝜇𝑖) = 𝜂𝑖, em que 𝜂𝑖 e o preditor do 𝑖-esimo
indivıduo. 𝑔 : (0, 1) ↦→ R e uma funcao de ligacao, e pode ser da forma 𝑔(𝑥) = log(𝑥/(1 − 𝑥)), por
exemplo. Em geral, avalia-se a relacao de uma variavel explicativa, 𝑥𝑖, com o preditor 𝜂𝑖 de uma
maneira linear no vetor de parametros 𝛽 = (𝛽0, 𝛽1)′, ou seja, 𝑔(𝜇𝑖) = log(𝜇𝑖/(1−𝜇𝑖)) = 𝜂𝑖 = 𝛽0+𝛽1𝑥𝑖.
Adicionalmente, a postulacao de modelos com ponto de quebra para indivıduos e feita por meio
de preditores 𝜂𝑖 nao lineares nos parametros Muggeo (2003). Nesses casos, a dimensao do vetor 𝛽
aumenta para contemplar os efeitos das variaveis explicativas apos a ocorrencia do ponto de mudanca.
Veja a seguinte ilustracao desta nova perspectiva:
Exemplo 2.2.1. Seja 𝑌1, . . . , 𝑌𝑛 com 𝑌𝑖 ∼ Binomial(𝐾,𝜇𝑖). 𝛽 = (𝛽0, 𝛽1, 𝛽2)′ e 𝜏 sao parametros
e 𝑥𝑖 o valor de uma covariavel contınua para o 𝑖-esimo indivıduo. Uma possıvel relacao entre as
quantidades 𝜇𝑖 e as variaveis explicativas 𝑥𝑖 e dada por:
log
(𝜇𝑖
1− 𝜇𝑖
)= 𝛽0 + 𝛽1𝑥𝑖 + 𝛽2(𝑥𝑖 − 𝜏)+,
22
∀𝑖 ∈ {1, . . . , 𝑛}, em que (𝑎)+ = max(𝑎, 0). O interesse neste modelo reside majoritariamente na
estimacao das quantidades 𝛽2 e 𝜏 , sendo os parametros que refletem o surgimento do ponto de
quebra e a magnitude do seu efeito, respectivamente.
Considere agora que cada unidade experimental possui mensuracoes longitudinais em 𝑡𝑖 = (𝑡𝑖1, . . . ,
𝑡𝑖𝑛𝑖)′, ∀𝑖 ∈ {1, . . . , 𝑁} com T sendo a amplitude dos tempos observados. Por simplicidade, suponha
que todos os indivıduos tenham um ponto de quebra desconhecido, denotado por 𝜏𝑖 ∈ T. Neste
contexto, os preditores nao lineares mais comuns sao listados abaixo:
1. O chamado Broken-Stick Toms and Lesperance (2003):
𝜂1,𝑖𝑗 =
{𝛽0 + 𝛽1𝑡𝑖𝑗 𝑡𝑖𝑗 < 𝜏𝑖,
𝛽0 + 𝛽1𝜏𝑖 + 𝛽2(𝑡𝑖𝑗 − 𝜏𝑖) 𝑡𝑖𝑗 ≥ 𝜏𝑖,(2.2.1)
∀(𝑗, 𝑖) ∈ {1, . . . , 𝑛𝑖} × {1, . . . , 𝑁}. Se o ponto de quebra 𝜏𝑖 fosse conhecido, ter-se-ia um
preditor linear em 𝛽. Apesar de nao o ser, preservaremos a notacao tradicional, com subındice
representando que as covariaveis podem depender de 𝜏𝑖. 𝜂1,𝑖𝑗 pode ser escrito, entao, da forma:
𝜂1,𝑖𝑗 = 𝛽0 + 𝛽1min(𝑡𝑖𝑗, 𝜏𝑖) + 𝛽2(𝑡𝑖𝑗 − 𝜏𝑖)+ = 𝑥′
𝑖𝑗,𝜏𝑖𝛽,
com 𝑥𝑖𝑗,𝜏𝑖 = (1,min(𝑡𝑖𝑗, 𝜏𝑖), (𝑡𝑖𝑗 − 𝜏𝑖)+)′ e 𝛽 = (𝛽0, 𝛽1, 𝛽2)
′.
Claramente, as desvantagens de utilizar o modelo Broken-Stick sao pela sua nao diferenciabi-
lidade em 𝑡𝑖𝑗 = 𝜏𝑖,∀𝑗 ∈ {1, . . . , 𝑛𝑖}. Em abordagens de otimizacao classica e uma especificacao
que deve ser evitada.
2. Um conjunto de preditores contınuos, utilizados em diversas aplicacoes Hall et al. (2001),
Jacqmin-Gadda et al. (2006), Yu and Ghosh (2010):
𝜂2,𝑖𝑗 =
⎧⎪⎪⎨⎪⎪⎩𝛽0 +
𝐾1∑𝑘=1
𝛽𝑘𝑡𝑘𝑖𝑗, 𝑡𝑖𝑗 < 𝜏𝑖,
𝛽0 +𝐾1∑𝑘=1
𝛽𝑘𝑡𝑘𝑖𝑗 +
𝐾2∑𝑘=1
𝛽𝑘+𝐾1(𝑡𝑖𝑗 − 𝜏𝑖)𝑘, 𝑡𝑖𝑗 ≥ 𝜏𝑖.
(2.2.2)
Podemos escrever 𝜂2,𝑖𝑗 como:
𝜂2,𝑖𝑗 = 𝛽0 +
𝐾1∑𝑘=1
𝛽𝑘𝑡𝑘𝑖𝑗 +
𝐾2∑𝑘=1
𝛽𝑘+𝐾1 [(𝑡𝑖𝑗 − 𝜏𝑖)+]𝑘 = 𝑥′
𝑖𝑗,𝜏𝑖𝛽,
em que 𝑥𝑖𝑗,𝜏𝑖 =(1, 𝑡1𝑖𝑗, . . . , 𝑡
𝐾1𝑖𝑗 , [(𝑡𝑖𝑗 − 𝜏𝑖)
+]1, . . . , [(𝑡𝑖𝑗 − 𝜏𝑖)+]𝐾2
)′e 𝛽 = (𝛽0, 𝛽1, . . . , 𝛽𝐾1+𝐾2)
′.
O problema da falta de suavidade do preditor com respeito ao tempo 𝑡𝑖𝑗 = 𝜏𝑖 e contornado no
preditor dado em (2.2.2) desde que 𝐾2 ≥ 2 Seber and Wild (1989). Sua desvantagem, por outro
lado, e o acrescimo na dimensao do vetor de efeitos fixos para estimacao, com relacao a especificacao
(2.2.1). O comportamento das duas funcoes e mostrado nas figuras 2.3 e 2.4.
23
10
20
30
40
2.5 5.0 7.5 10.0
TempoP
red
ito
r
Figura 2.3: Preditor Broken-Stick com 𝛽2 ∈ (−7,−1). Alem disso, 𝜏 = 5, 𝛽0 = 40 e 𝛽1 = 0, 5.
−20
0
20
40
2.5 5.0 7.5 10.0
Tempo
Pre
dit
or
(a)
−80
−40
0
40
2.5 5.0 7.5 10.0
Tempo
Pre
dit
or
(b)
−50
0
2.5 5.0 7.5 10.0
Tempo
Pre
dit
or
(c)
Figura 2.4: Preditor em (2.2.2) com 𝐾1 = 1 e 𝐾2 = 2. Em todos os casos, 𝜏 = 5, 𝛽0 = 40 e 𝛽1 = 0, 5.Alem disso, todos os grids de 𝛽2 ou 𝛽3 possuem 14 valores. Especificamente, (a)𝛽3 = −0, 8 e𝛽2 ∈ (−7,−1); (b)𝛽2 = −4 e 𝛽3 ∈ (−4;−0, 05); (c)𝛽2 ∈ (−7,−1), enquanto 𝛽3 ∈ (−4;−0, 05).
A criacao de preditores com pontos de quebra com transicoes suaves e um tema ativo de pesquisa
nessa area. Tem-se, por exemplo, as especificacoes com a funcao tangente hiperbolica de Bacon and
Watts (1971), o Bent-Cable Tishler and Zang (1981), Chiu et al. (2006) e a polinomial van den Hout
et al. (2011). Elas possuem vantagens para o contexto de estimacao classica dos pontos de mudanca,
assim como uma maior flexibilidade de dinamica, considerando que trazem parametros de suavidade
adicionais.
24
2.3 O modelo de mistura de regressoes com componente de
declınio acelerado
Suponha que 𝑌1(𝑡1), . . . ,𝑌𝑁(𝑡𝑁) sejam vetores aleatorios independentes. Cada componente 𝑌𝑖(𝑡𝑖) =
𝑌𝑖 = (𝑌 (𝑡𝑖1), . . . , 𝑌 (𝑡𝑖𝑛𝑖))′ = (𝑌𝑖1, . . . , 𝑌𝑖𝑛𝑖
)′, representa o escore no tempo 𝑡𝑖𝑗 do 𝑖-esimo indivıduo,
𝑗 ∈ {1, . . . , 𝑛𝑖}, 𝑖 ∈ {1, . . . , 𝑁}. 𝑌𝑖𝑗 ∈ {0, . . . , 𝐾}, ∀(𝑖, 𝑗), em que 𝐾 e o numero de questoes do
questionario padrao aplicado longitudinalmente. Alem disso, considere os seguintes agrupamentos:
∙ 𝐺1 - indivıduos com declınio dos escores a taxa constante;
∙ 𝐺2 - indivıduos com ponto de quebra na trajetoria dos escores (total de acertos do questionario).
Sabendo que as especificacoes de preditores em (2.2.1) e (2.2.2) trazem parametros adicionais por
conta do ponto de quebra, deve-se ter cautela ao postular o modelo para os diferentes grupos. Em
outras palavras, e interessante que a proposta garanta a mesma dimensao do espaco gerado pelas
covariaveis entre os grupos 𝐺1 e 𝐺2, como nas especificacoes tradicionais de mistura McLachlan and
Peel (2004). A solucao para a questao da dimensionalidade e dada propondo um ponto de quebra
para cada indivıduo, como um efeito aleatorio, mas que assume a seguinte forma Yu and Ghosh
(2010):
𝜏𝑖 =
{𝜏∞,𝑖, com probabilidade (1− 𝑝𝑖)
𝜏𝑎,𝑖, com probabilidade 𝑝𝑖,
em que 𝜏∞,𝑖𝑞.𝑐.−→ +∞ , 𝜏𝑎,𝑖 ∼ Normal(𝜇𝜏 , 𝜎
2𝜏 )1{𝜏𝑖 ∈ T} e T e a amplitude dos tempos observados.
Assim, se o indivıduo nao apresenta um declınio acelerado na sua trajetoria, entao a variavel assume
algum valor 𝜏𝑖𝑞.𝑐.−→ +∞ e a contribuicao das covariaveis [(𝑡𝑖𝑗 − 𝜏𝑖)
+]𝑘 e nula para todo 𝑘. Pode-se
determinar, ainda, os pontos de quebra com auxılio de variaveis latentes 𝑆1, . . . , 𝑆𝑁𝑖𝑛𝑑∼ Bernoulli(𝑝𝑖)
que indicam a alocacao do 𝑖-esimo indivıduo: caso 𝑆𝑖 = 0, entao, 𝑖 ∈ 𝐺1, e se 𝑆𝑖 = 1, entao, 𝑖 ∈ 𝐺2,
isto e,
𝜏𝑖 =(𝜏∞,𝑖
)1{𝑆𝑖=0}(𝜏𝑎,𝑖)1{𝑆𝑖=1}
,
com 𝜏∞,𝑖 e 𝜏𝑎,𝑖 ja definidos anteriormente.
Assim como na extensao dos Modelos Lineares Generalizados de Efeitos Mistos McCulloch and
Neuhaus (2001), outro conjunto de efeitos aleatorios serao introduzidos no estudo. Considere a
amostra independente 𝑏1, . . . , 𝑏𝑁 ∼ Normal𝑞𝑏(0,D), e componentes 𝑏𝑖 = (𝑏𝑖1, . . . , 𝑏𝑖𝑞𝑏)′. Com estes,
o objetivo e de capturar particularidades dos indivıduos nas trajetorias de escore medio obtidas. A
representacao hierarquica do modelo e, entao, dada por:
𝑌𝑖𝑗|𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖𝑖𝑛𝑑∼ 𝑓(𝑦𝑖𝑗|𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖) (2.3.1)
𝑏𝑖𝑖𝑖𝑑∼ Normal𝑞𝑏(0,D)
𝜏𝑎,𝑖𝑖𝑖𝑑∼ Normal(𝜇𝜏 , 𝜎
2𝜏 )1{𝜏𝑎,𝑖 ∈ T}
25
𝑆𝑖𝑖𝑛𝑑∼ Bernoulli(𝑝𝑖),
𝜏𝑖 =(𝜏∞,𝑖
)1{𝑆𝑖=0}(𝜏𝑎,𝑖)1{𝑆𝑖=1}
𝜇𝑖𝑗 = 𝑔−1(𝑥′𝑖𝑗,𝜏𝑖
𝛽 + 𝑧′𝑖𝑗,𝜏𝑖
𝑏𝑖) (2.3.2)
𝑝𝑖 = ℎ−1(𝑤′𝑖𝜆), (2.3.3)
∀(𝑖, 𝑗) ∈ {1, . . . , 𝑁}×{1, . . . , 𝑛𝑖}. 𝑓(𝑦𝑖𝑗|𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖) assume as formas (2.1.1) ou (2.1.4), isto e, pode-se
ter em (2.3.1) que[𝑌𝑖𝑗|𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖
] 𝑖𝑛𝑑∼ Binomial(𝐾,𝜇𝑖𝑗) ou[𝑌𝑖𝑗|𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖
] 𝑖𝑛𝑑∼ Beta-Binomial(𝐾,𝜑𝜇𝑖𝑗, 𝜑(1−𝜇𝑖𝑗)). Alem disso, 𝑔, ℎ : (0, 1) ↦→ R sao funcoes de ligacao, 𝛽 e 𝜆 vetores de efeitos fixos com di-
mensoes 𝑞𝛽 × 1 e 𝑞𝜆 × 1, respectivamente. 𝑤𝑖 = (𝑤𝑖1, . . . , 𝑤𝑖𝑞𝜆)′ sao as covariaveis para modelar a
probabilidade de classificacao no grupo com ponto de quebra, como em Yu and Ghosh (2010).
De acordo com as expressoes dos preditores nao lineares (2.2.1) e (2.2.2), os vetores de co-
variaveis para os efeitos fixos e aleatorios das medias 𝜇𝑖𝑗 dependem dos valores 𝜏1, . . . , 𝜏𝑁 e dos vetores
𝑡1, . . . , 𝑡𝑁 . Entao, intrinsecamente, 𝑥𝑖𝑗,𝜏𝑖 = (𝑥𝑖𝑗1(𝜏𝑖), . . . , 𝑥𝑖𝑗𝑞𝛽(𝜏𝑖))′ e 𝑧𝑖𝑗,𝜏𝑖 = (𝑧𝑖𝑗1(𝜏𝑖), . . . , 𝑧𝑖𝑗𝑞𝑏(𝜏𝑖))
′.
Tenha em vista, entretanto, que para ındices arbitrarios 𝑘1 e 𝑘2, 𝑥𝑖𝑗𝑘1(𝜏𝑖) e 𝑧𝑖𝑗𝑘2(𝜏𝑖) podem tanto
depender do tempo ou ponto de quebra como ser uma caracterıstica fixa, por exemplo, o genero do
indivıduo.
Segundo as formulas (2.1.2), (2.1.3), (2.1.5) e (2.1.6), as caracterısticas para as variaveis resposta
𝑌𝑖𝑗, ∀(𝑖, 𝑗) ∈ {1, . . . , 𝑁} × {1, . . . , 𝑛𝑖} sob os modelos Binomial e Beta-Binomial se tornam:
∙ Caso 𝑌𝑖𝑗|𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖𝑖𝑛𝑑∼ Binomial(𝐾,𝜇𝑖𝑗) :
E[𝑌𝑖𝑗] = E𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [E[𝑌𝑖𝑗|𝑏𝑖, 𝑆𝑖, 𝜏𝑎,𝑖]]
= 𝐾 E𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [𝜇𝑖𝑗]
= 𝐾 E𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [𝑔−1(𝑥′
𝑖𝑗,𝜏𝑖𝛽 + 𝑧′
𝑖𝑗,𝜏𝑖𝑏𝑖)],
Var[𝑌𝑖𝑗] = E𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [Var[𝑌𝑖𝑗|𝑏𝑖, 𝑆𝑖, 𝜏𝑎,𝑖]] + Var𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [E[𝑌𝑖𝑗|𝑏𝑖, 𝑆𝑖, 𝜏𝑎,𝑖]]
= 𝐾 E𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖
[𝑔−1(𝑥′
𝑖𝑗,𝜏𝑖𝛽 + 𝑧′
𝑖𝑗,𝜏𝑖𝑏𝑖)(1− 𝑔−1(𝑥′
𝑖𝑗,𝜏𝑖𝛽 + 𝑧′
𝑖𝑗,𝜏𝑖𝑏𝑖))]
+𝐾2Var𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [𝑔−1(𝑥′
𝑖𝑗,𝜏𝑖𝛽 + 𝑧′
𝑖𝑗,𝜏𝑖𝑏𝑖)],
Cov[𝑌𝑖𝑗, 𝑌𝑖𝑘] = E𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [Cov[(𝑌𝑖𝑗, 𝑌𝑖𝑘)|𝑏𝑖, 𝑆𝑖, 𝜏𝑎,𝑖]]
+ Cov𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [E[𝑌𝑖𝑗|𝑏𝑖, 𝑆𝑖, 𝜏𝑎,𝑖],E[𝑌𝑖𝑘|𝑏𝑖, 𝑆𝑖, 𝜏𝑎,𝑖]]
= E[0] + Cov𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [𝐾𝜇𝑖𝑗, 𝐾𝜇𝑖𝑘]
= 𝐾2Cov𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [𝑔−1(𝑥′
𝑖𝑗,𝜏𝑖𝛽 + 𝑧′
𝑖𝑗,𝜏𝑖𝑏𝑖), 𝑔
−1(𝑥′𝑖𝑘,𝜏𝑖
𝛽 + 𝑧′𝑖𝑘,𝜏𝑖
𝑏𝑖)], ∀𝑗 = 𝑘;
∙ Caso 𝑌𝑖𝑗|𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖𝑖𝑛𝑑∼ Beta-Binomial(𝐾,𝜑𝜇𝑖𝑗, 𝜑(1− 𝜇𝑖𝑗)) :
E[𝑌𝑖𝑗] = E𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [E[𝑌𝑖𝑗|𝑏𝑖, 𝑆𝑖, 𝜏𝑎,𝑖]]
26
= 𝐾 E𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [𝜇𝑖𝑗]
= 𝐾 E𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [𝑔−1(𝑥′
𝑖𝑗,𝜏𝑖𝛽 + 𝑧′
𝑖𝑗,𝜏𝑖𝑏𝑖)],
Var[𝑌𝑖𝑗] = E𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [Var[𝑌𝑖𝑗|𝑏𝑖, 𝑆𝑖, 𝜏𝑎,𝑖]] + Var𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [E[𝑌𝑖𝑗|𝑏𝑖, 𝑆𝑖, 𝜏𝑎,𝑖]]
= 𝐾
[1 +
𝐾 − 1
𝜑+ 1
]E𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖
[𝑔−1(𝑥′
𝑖𝑗,𝜏𝑖𝛽 + 𝑧′
𝑖𝑗,𝜏𝑖𝑏𝑖)(1− 𝑔−1(𝑥′
𝑖𝑗,𝜏𝑖𝛽 + 𝑧′
𝑖𝑗,𝜏𝑖𝑏𝑖))]
+𝐾2Var𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [𝑔−1(𝑥′
𝑖𝑗,𝜏𝑖𝛽 + 𝑧′
𝑖𝑗,𝜏𝑖𝑏𝑖)],
Cov[𝑌𝑖𝑗, 𝑌𝑖𝑘] = E𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [Cov[(𝑌𝑖𝑗, 𝑌𝑖𝑘)|𝑏𝑖, 𝑆𝑖, 𝜏𝑎,𝑖]]
+ Cov𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [E[𝑌𝑖𝑗|𝑏𝑖, 𝑆𝑖, 𝜏𝑎,𝑖],E[𝑌𝑖𝑘|𝑏𝑖, 𝑆𝑖, 𝜏𝑎,𝑖]]
= E[0] + Cov𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [𝐾𝜇𝑖𝑗, 𝐾𝜇𝑖𝑘]
= 𝐾2Cov𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [𝑔−1(𝑥′
𝑖𝑗,𝜏𝑖𝛽 + 𝑧′
𝑖𝑗,𝜏𝑖𝑏𝑖), 𝑔
−1(𝑥′𝑖𝑘,𝜏𝑖
𝛽 + 𝑧′𝑖𝑘,𝜏𝑖
𝑏𝑖)], ∀𝑗 = 𝑘.
A associacao entre escores em diferentes tempos sera uma decorrencia da distribuicao dos efeitos
aleatorios 𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖,∀𝑖, e das funcoes de ligacao 𝑔, ℎ escolhidas. Nos casos em que o metodo de es-
timacao se der sob a perspectiva Bayesiana, as caracterısticas numericas calculadas ainda dependerao
da distribuicao a priori dos parametros envolvidos.
As funcoes de ligacao mais difundidas sao a logito, logito(𝑝) = log(𝑝/(1 − 𝑝)) e a probito,
probito(𝑝) = Φ−1(𝑝), em que Φ(·) denota a funcao de distribuicao acumulada de uma variavel
aleatoria Normal padrao. A primeira possui uma interpretacao conveniente, pois a razao de chances
entre as probabilidades 𝑝 e (1− 𝑝) e facilmente derivada da expressao. Por outro lado, estas formas
sao pouco flexıveis caso os preditores [𝑥′𝑖𝑗,𝜏𝑖
𝛽+𝑧′𝑖𝑗,𝜏𝑖
𝑏𝑖] em (2.3.2) e [𝑤′𝑖𝜆] em (2.3.3) apresentem assi-
metria em termos de alguma covariavel em 𝑥𝑖𝑗,𝜏𝑖 ou 𝑧𝑖𝑗,𝜏𝑖 . Funcoes de ligacao simetricas e assimetricas
tradicionais sao apresentadas na Tabela 2.1.
Tabela 2.1: Funcoes de ligacao comuns para regressao com dados binarios.
Nome Expressao 1o Quartil Mediana 3o Quartil
Logito 𝑔(𝑥) = log(𝑥/(1− 𝑥)
)-1,099 0,000 1,099
Probito 𝑔(𝑥) = Φ−1(𝑥) -0,674 0,000 0,674
Log-Log complementar 𝑔(𝑥) = log(−log(1− 𝑥)) -1,246 -0,367 0,327
Reversa Log-Log complementar 𝑔(𝑥) = −log(−log(𝑥)) -0,327 0,367 1,246
2.3.1 Verossimilhanca para o modelo proposto
De acordo com a representacao hierarquica em (2.3.1)-(2.3.3) e as suposicoes delineadas na Secao
2.3, a funcao densidade conjunta das variaveis respostas 𝑦𝑖 = (𝑦𝑖1, . . . , 𝑦𝑖𝑛𝑖) de um indivıduo e obtida
27
com base na aplicacao sucessiva do Teorema da Multiplicacao:
𝑓(𝑦𝑖, 𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖) = 𝑓(𝑦𝑖|𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖)𝑓(𝑏𝑖|𝜏𝑎,𝑖, 𝑆𝑖)𝑓(𝜏𝑎,𝑖|𝑆𝑖)𝑓(𝑆𝑖)
𝑖𝑛𝑑=
[ 𝑛𝑖∏𝑗=1
𝑓(𝑦𝑖𝑗|𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖)
]𝑓(𝑏𝑖)𝑓(𝜏𝑎,𝑖)𝑓(𝑆𝑖).
Seja 𝜃 = (𝛽′,𝜆′, vec(D)′, 𝜇𝜏 , 𝜎2𝜏 , 𝜑)
′ o vetor de parametros associados ao modelo. Assim, a funcao
densidade marginal dos escores alcancados por um indivıduo e a verossimilhanca sao dados por:
𝑓(𝑦𝑖) =
∫∫𝐴
1∑𝑆𝑖=0
[ 𝑛𝑖∏𝑗=1
𝑓(𝑦𝑖𝑗|𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖)
]𝑓(𝑏𝑖)𝑓(𝜏𝑎,𝑖)𝑓(𝑆𝑖) d𝑏𝑖 d𝜏𝑎,𝑖,
𝐿(𝜃|𝑦) =𝑁∏𝑖=1
[∫∫𝐴
1∑𝑆𝑖=0
[ 𝑛𝑖∏𝑗=1
𝑓(𝑦𝑖𝑗|𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖)
]𝑓(𝑏𝑖)𝑓(𝜏𝑎,𝑖)𝑓(𝑆𝑖) d𝑏𝑖 d𝜏𝑎,𝑖
], (2.3.4)
∀𝑖 ∈ {1, . . . , 𝑁}, em que 𝐴 = T× R𝑞𝑏 .
Em modelos de regressao com efeitos aleatorios, e recorrente a dificuldade de se trabalhar com
a distribuicao marginal das variaveis resposta, visto que necessitam do calculo de integrais para sua
obtencao Pinheiro and Bates (1995). Portanto, e conveniente calcular a chamada verossimilhanca
completa (ou aumentada), como em Little and Rubin (1983), Tan et al. (2009). Metodos de es-
timacao como o Algoritmo EM (Expectation-Maximization) e suas variacoes Dempster et al. (1977),
Delyon et al. (1999) ou em inferencia Bayesiana Gelman et al. (2014) se utilizam fortemente da
verossimilhanca completa.
Considere Ω = (𝑦′, 𝑏′, 𝜏 ′𝑎,𝑆
′)′ o vetor de observacoes aumentado. As verossimilhancas completas
para as duas postulacoes da variavel resposta condicional 𝑌𝑖𝑗|𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖 sao como se segue:
Caso 𝑌𝑖𝑗|𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖𝑖𝑛𝑑∼ Binomial(𝐾,𝜇𝑖𝑗), o vetor de parametros e reduzido a 𝜃 = (𝛽′,𝜆′, vec(D)′, 𝜇𝜏 , 𝜎
2𝜏 )
′
e tem-se a seguinte verossimilhanca completa:
𝐿𝑐(𝜃|Ω) =𝑁∏𝑖=1
[[ 𝑛𝑖∏𝑗=1
𝑓(𝑦𝑖𝑗|𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖)
]𝑓(𝑏𝑖)𝑓(𝜏𝑎,𝑖)𝑓(𝑆𝑖)
]
=𝑁∏𝑖=1
[[ 𝑛𝑖∏𝑗=1
(𝐾
𝑦𝑖𝑗
)𝜇𝑦𝑖𝑗𝑖𝑗 (1− 𝜇𝑖𝑗)
𝐾−𝑦𝑖𝑗
]× (2𝜋)−𝑞𝑏/2|D|−1/2exp
{− 1
2𝑏′𝑖D
−1𝑏𝑖
}× 𝑝𝑆𝑖
𝑖 (1− 𝑝𝑖)1−𝑆𝑖
× (2𝜋𝜎2𝜏 )
−1/2exp{− 1
2𝜎2𝜏
(𝜏𝑎,𝑖 − 𝜇𝜏 )2}[P(𝜏𝑎,𝑖 ∈ T)]−1
]
=𝑁∏𝑖=1
[[ 𝑛𝑖∏𝑗=1
(𝐾
𝑦𝑖𝑗
)(𝑔−1(𝑥′
𝑖𝑗,𝜏𝑖𝛽 + 𝑧′
𝑖𝑗,𝜏𝑖𝑏𝑖)
)𝑦𝑖𝑗(1− 𝑔−1(𝑥′
𝑖𝑗,𝜏𝑖𝛽 + 𝑧′
𝑖𝑗,𝜏𝑖𝑏𝑖)
)𝐾−𝑦𝑖𝑗]× (2𝜋)−𝑞𝑏/2|D|−1/2exp
{− 1
2𝑏′𝑖D
−1𝑏𝑖
}×[ℎ−1(𝑤′
𝑖𝜆)]𝑆𝑖[1− ℎ−1(𝑤′
𝑖𝜆)]1−𝑆𝑖
28
× (2𝜋𝜎2𝜏 )
−1/2exp{− 1
2𝜎2𝜏
(𝜏𝑎,𝑖 − 𝜇𝜏 )2}[P(𝜏𝑎,𝑖 ∈ T)]−1
].
Caso 𝑌𝑖𝑗|𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖𝑖𝑛𝑑∼ Beta-Binomial(𝐾,𝜑𝜇𝑖𝑗, 𝜑(1− 𝜇𝑖𝑗)), 𝜃 = (𝛽′,𝜆′, vec(D)′, 𝜇𝜏 , 𝜎
2𝜏 , 𝜑)
′ e tem-se
𝐿𝑐(𝜃|Ω) =𝑁∏𝑖=1
[[ 𝑛𝑖∏𝑗=1
𝑓(𝑦𝑖𝑗|𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖)
]𝑓(𝑏𝑖)𝑓(𝜏𝑎,𝑖)𝑓(𝑆𝑖)
]
=𝑁∏𝑖=1
[[ 𝑛𝑖∏𝑗=1
(𝐾
𝑦𝑖𝑗
)B[𝑦𝑖𝑗 + 𝜑𝜇𝑖𝑗, 𝐾 − 𝑦𝑖𝑗 + 𝜑(1− 𝜇𝑖𝑗)
]B[𝜑𝜇𝑖𝑗, 𝜑(1− 𝜇𝑖𝑗)
] ]× (2𝜋)−𝑞𝑏/2|D|−1/2exp
{− 1
2𝑏′𝑖D
−1𝑏𝑖
}
× 𝑝𝑆𝑖𝑖 (1− 𝑝𝑖)
1−𝑆𝑖 × (2𝜋𝜎2𝜏 )
−1/2exp{− 1
2𝜎2𝜏
(𝜏𝑎,𝑖 − 𝜇𝜏 )2}[P(𝜏𝑎,𝑖 ∈ T)]−1
]
=𝑁∏𝑖=1
[[ 𝑛𝑖∏𝑗=1
(𝐾
𝑦𝑖𝑗
)B[𝑦𝑖𝑗 + 𝜑𝑔−1(𝑥′
𝑖𝑗,𝜏𝑖𝛽 + 𝑧′
𝑖𝑗,𝜏𝑖𝑏𝑖), 𝐾 − 𝑦𝑖𝑗 + 𝜑(1− 𝑔−1(𝑥′
𝑖𝑗,𝜏𝑖𝛽 + 𝑧′
𝑖𝑗,𝜏𝑖𝑏𝑖))]
B[𝜑𝑔−1(𝑥′
𝑖𝑗,𝜏𝑖𝛽 + 𝑧′
𝑖𝑗,𝜏𝑖𝑏𝑖), 𝜑(1− 𝑔−1(𝑥′
𝑖𝑗,𝜏𝑖𝛽 + 𝑧′
𝑖𝑗,𝜏𝑖𝑏𝑖))] ]
× (2𝜋)−𝑞𝑏/2|D|−1/2exp
{− 1
2𝑏′𝑖D
−1𝑏𝑖
}×[ℎ−1(𝑤′
𝑖𝜆)]𝑆𝑖[1− ℎ−1(𝑤′
𝑖𝜆)]1−𝑆𝑖
× (2𝜋𝜎2𝜏 )
−1/2exp{− 1
2𝜎2𝜏
(𝜏𝑎,𝑖 − 𝜇𝜏 )2}[P(𝜏𝑎,𝑖 ∈ T)]−1
]. (2.3.5)
29
Capıtulo 3
Metodo de Estimacao
No presente trabalho, as escolhas por delinear o modelo para analise dos escores de habilidade
cognitiva com grupos latentes, efeitos aleatorios tanto para a media como para os pontos de quebra
tornam a verossimilhanca em (2.3.4) de difıcil manuseio. Isto se da pelas integrais e somatorio
inerentes ao calculo das densidades marginais 𝑓(𝑦1), . . . , 𝑓(𝑦𝑁). Optou-se, portanto, pelos metodos
Bayesianos de estimacao dos parametros, os quais carregam vantagens explicadas no decorrer deste
capıtulo.
A inferencia Bayesiana tem como princıpio uma formulacao inteiramente probabilıstica para a
variavel resposta e os parametros de interesse Box and Tiao (2011). As vantagens destes procedimen-
tos de estimacao vem tanto de um ponto de vista pratico como teorico. Os algoritmos de estimacao
sao baseados na combinacao de informacao do pesquisador/usuario (com as distribuicoes a priori
dos parametros, 𝜋(𝜃)), e a informacao vinda dos dados coletados, pela funcao de verossimilhanca.
Com isso, o objetivo e encontrar a forma da distribuicao a posteriori, 𝜋(𝜃|𝑦) Gilks et al. (1995).
No que diz respeito a especificacao do fenomeno, a inferencia Bayesiana permite que parametros
de modelos complexos e com representacoes hierarquicas extensas sejam convenientemente estimados.
Isto e feito ao transformar o paradigma de maximizacao da funcao de verossimilhanca, em inferencia
classica, para um de geracao de (pseudo-) variaveis aleatorias Robert (2007). Assim, algoritmos
de simulacao se fazem necessarios para encontrar amostras da distribuicao a posteriori e extrair
informacao da estrutura delineada. Uma vez que amostras da distribuicao a posteriori dos parametros
sao obtidas, tanto as inferencias como ferramentas de diagnostico e medidas para comparacao de
modelos Bayesianos sao calculadas sem maiores problemas.
Alem disso, para problemas que incluem efeitos aleatorios, o procedimento Bayesiano e bastante
conveniente, pois evita o calculo de integrais para a obtencao da distribuicao marginal dos dados.
Nestes casos, trabalha-se com a estrutura de dados aumentados, como nos algoritmos EM Dempster
et al. (1977) e suas extensoes.
Entretanto, esta perspectiva para lidar com problemas de inferencia deve ser utilizada com cautela.
30
Assim como suposicoes acerca das distribuicoes a priori podem enriquecer as analises, elas tambem
podem levar a conclusoes erroneas: veja Alvarez et al. (2014), por exemplo, sobre a estimacao
Bayesiana de matrizes de covariancia. E sempre valido, tambem, checar a sensibilidade do modelo
para diferentes postulacoes da estrutura a priori dos parametros Berger (1990).
3.1 Inferencia Bayesiana
Suponha que 𝑦 e um vetor de dados observados da distribuicao condicional 𝑌 |𝜃 ∼ 𝑓(·|𝜃), e𝜃 ∈ Θ ⊆ R𝑑 e um vetor aleatorio com distribuicao a priori 𝜃 ∼ 𝜋(·). Pelo Teorema de Bayes, temos
que a distribuicao a posteriori de 𝜃 condicionada aos dados 𝑦, 𝜋(𝜃|𝑦), sera resumida por
𝜋(𝜃|𝑦) = 𝑓(𝜃,𝑦)
𝑓(𝑦)=
𝑓(𝑦|𝜃)𝜋(𝜃)𝑓(𝑦)
∝ 𝑓(𝑦|𝜃)𝜋(𝜃). (3.1.1)
O lado direito da relacao (3.1.1) e o nucleo da distribuicao a posteriori 𝜋(𝜃|𝑦), e determina comple-
tamente sua forma, visto que o denominador 𝑓(𝑦) independe de 𝜃 (e, portanto, somente a constante
de proporcionalidade da densidade).
Toda inferencia sobre o parametro 𝜃 e feita com base na densidade 𝜋(𝜃|𝑦), agora que tambem
considera informacao baseada na amostra obtida. Em problemas de estimacao pontual, opta-se por
encontrar um valor que represente melhor determinado parametro. Note que “representar melhor”
aqui e um conceito subjetivo, e sempre deve ser entendido como um criterio (com ou sem restricoes)
sob o qual a estimacao das quantidades de interesse e feita. Por exemplo, no conhecido metodo de
Mınimos Quadrados para regressao linear simples homocedastica, o objetivo e encontrar os valores
(𝛽0, 𝛽1)′ tais que a funcao 𝑄(𝛽0, 𝛽1) =
∑𝑖(𝑦𝑖 − 𝛽0 − 𝛽1𝑥𝑖)
2 seja mınima.
Sem perda de generalidade, seja 𝜃 o parametro unidimensional com espaco parametrico Θ ⊆ R,𝒟 ⊆ R𝑛 o suporte do vetor aleatorio 𝑌 e 𝛿𝜋(𝑌 ) uma decisao para 𝜃, isto e, um estimador desta
quantidade. Todo procedimento de inferencia Bayesiana deve ser embasado pela determinacao de
tres fatores:
1. a distribuicao das observacoes, 𝑓(𝑦|𝜃);
2. a distribuicao a priori do parametro, 𝜋(𝜃);
3. a funcao de perda ℒ : Θ×𝒟 ↦→ [0,+∞) associada a decisao 𝛿𝜋.
Definicao 3.1.1. O risco integrado e a funcao 𝑟(𝜋, 𝛿) dada por
𝑟(𝜋, 𝛿) =
∫Θ
(∫𝒟ℒ(𝜃, 𝛿(𝑦))𝑓(𝑦|𝜃) d𝑦
)𝜋(𝜃) d𝜃.
31
Teorema 3.1.1 (Robert (2007)). Um estimador 𝛿𝜋 que minimiza a funcao de risco integrado pode
ser obtido ao minimizar a perda esperada a posteriori ,
𝑔(𝜋, 𝛿𝜋(𝑦)|𝑦) =∫Θ
ℒ(𝜃, 𝛿𝜋(𝑦))𝜋(𝜃|𝑦) d𝜃,
para cada 𝑦 ∈ 𝒟.
Prova do Teorema 3.1.1. Como ℒ(𝜃, 𝛿) ≥ 0, vale o Teorema de Fubini para trocar a ordem de inte-
gracao, e
𝛿𝜋 = arg min𝛿
∫∫Θ×𝒟
ℒ(𝜃, 𝛿(𝑦))𝑓(𝑦|𝜃) d𝑦 𝜋(𝜃) d𝜃
= arg min𝛿
∫∫𝒟×Θ
ℒ(𝜃, 𝛿(𝑦))𝑓(𝑦|𝜃)𝜋(𝜃)𝑓(𝑦)
𝑓(𝑦) d𝜃 d𝑦
= arg min𝛿
∫𝒟
𝑔(𝜋, 𝛿(𝑦)|𝑦)𝑓(𝑦) d𝑦
= arg min𝛿
𝑔(𝜋, 𝛿(𝑦)|𝑦), para cada 𝑦 ∈ 𝒟,
Assim, diz-se que 𝛿𝜋 encontrado pela minimizacao da funcao de perda esperada a posteriori
e um estimador de Bayes, sob funcao de perda L e a priori 𝜋(·). De agora em diante, utilizaremos
simplesmente a notacao 𝜃 para denotar estimadores Bayesianos do parametro 𝜃. As funcoes de perda
mais usuais e seus respectivos estimadores sao listadas na Tabela 3.1:
Tabela 3.1: Funcoes de perdas usuais e os respectivos estimadores Bayesianos encontrados pelaminimizacao em (3.1.1).
Nome Expressao Estimador associado
Perda Absoluta ℒ(𝜃, 𝛿) = |𝜃 − 𝛿| 𝜃 = mediana{𝜋(𝜃|𝑦)
}Perda Quadratica ℒ(𝜃, 𝛿) = (𝜃 − 𝛿)2 𝜃 = E[𝜃|𝑦]
Perda 0-1 ℒ(𝜃, 𝛿) =
{0, se 𝜃 = 𝛿
1, se 𝜃 = 𝛿𝜃 = moda
{𝜋(𝜃|𝑦)
}Perda Multilinear ℒ𝑘1,𝑘2(𝜃, 𝛿) =
{𝑘1(𝛿 − 𝜃), se 𝜃 ≤ 𝛿
𝑘2(𝜃 − 𝛿), se 𝜃 > 𝛿𝜃 e o 𝑘2
𝑘1+𝑘2-esimo quantil de 𝜋(𝜃|𝑦)
Na pratica, a distribuicao 𝜋(𝜃|𝑦) e dificilmente obtida de maneira explıcita. A solucao para en-
contrar os estimadores do vetor 𝜃 e conseguir uma amostra da densidade a posteriori, por metodos
de simulacao de variaveis aleatorias Gelman et al. (2014). Ainda assim, em casos multiparametricos,
32
nem sempre o nucleo de 𝜋(𝜃|𝑦) e de alguma distribuicao completamente conhecida. Uma das es-
trategias possıveis e entao obter amostras via simulacao das chamadas distribuicoes condicionais
completas, que nada mais sao do que a colecao de densidades {𝜋(𝜃𝑘|𝑦,𝜃−𝑘);∀𝑘 ∈ {1, . . . , 𝑑}}, emque 𝜃−𝑘 = (𝜃1, . . . , 𝜃𝑘−1, 𝜃𝑘+1, . . . , 𝜃𝑑)
′. Esta tecnica pertence aos conhecidos algoritmosMarkov Chain
Monte Carlo - MCMC Gilks et al. (1995).
Desde que o suporte da densidade 𝜋(𝜃|𝑦) seja o produto cartesiano dos suportes das condicionais
completas {𝜋(𝜃𝑘|𝑦,𝜃−𝑘);∀𝑘 ∈ {1, . . . , 𝑑}}, as cadeias de amostras das condicionais completas geradas
via MCMC sao ergodicas Robert (2007). Cuidados adicionais devem ser tomados para eliminar
a dependencia das cadeias de cada parametro: escolher uma amostra gerada a cada 𝑙 valores e
eliminar as 𝐵 primeiras simulacoes, para desconsiderar o efeito dos valores iniciais. Assim, conforme o
numero de simulacoes cresce, espera-se que as amostras obtidas sejam representativas da distribuicao
estacionaria 𝜋(𝜃|𝑦). Os calculos das estimativas Bayesianas sao feitos com base nas versoes amostrais
das estatısticas mostradas na Tabela 3.1.
3.1.1 Algoritmos de simulacao
Ferramentas tradicionais para encontrar estimativas Bayesianas se baseiam em conceitos de inte-
gracao numerica, aproximacao analıtica de Laplace ou metodos de Monte Carlo para calcular inte-
grais da distribuicao a posteriori Robert (2004). Por exemplo, supondo funcao de perda quadratica,
o estimador de 𝜃 e dado por:
𝜃 = E[𝜃|𝑦] =∫
𝜃 𝜋(𝜃|𝑦) d𝜃 =
∫𝜃𝑓(𝑦|𝜃)𝜋(𝜃) d𝜃∫𝑓(𝑦|𝜃)𝜋(𝜃) d𝜃
. (3.1.2)
Assim, 𝜃 poderia ser estimado por quadraturas gaussianas ou gerando uma amostra 𝜃(1), . . . , 𝜃(𝑀) da
distribuicao a priori 𝜋(𝜃) e aproximando (3.1.2) por 𝜃 ≈ 𝐴𝐵, 𝐵 > 0, com
𝐴 =1
𝑀
𝑀∑𝑘=1
𝜃(𝑘)𝑓(𝑦|𝜃(𝑘)) 𝑞.𝑐.−→∫
𝜃𝑓(𝑦|𝜃)𝜋(𝜃) d𝜃, (3.1.3)
𝐵 =1
𝑀
𝑀∑𝑘=1
𝑓(𝑦|𝜃(𝑘)) 𝑞.𝑐.−→∫
𝑓(𝑦|𝜃)𝜋(𝜃) d𝜃, (3.1.4)
visto que 𝐴𝐵
𝑞.𝑐.−→ E[𝜃|𝑦]. Este resultado e decorrente das propriedades de convergencia quase certa,
juntamente com (3.1.3) e (3.1.4). Esta abordagem torna-se menos acurada a medida que a dimensao
do espaco parametrico cresce. Alem disso, a inferencia acerca destes estimadores nao e feita de
maneira direta.
Com o avanco das capacidades de processamento e armazenamento de informacao dos computa-
dores na decada de 1990, os algoritmos MCMC tornaram-se mais vantajosos em relacao aos metodos
Monte Carlo tradicionais. Eles sao, em princıpio, amplamente aplicaveis a problemas de inferencia
33
Bayesiana e trabalham melhor com espacos parametricos de alta dimensao.
Os algoritmos MCMC baseiam-se na construcao de cadeias de Markov dos parametros, de forma
que sua distribuicao estacionaria seja a densidade de interesse 𝜋(𝜃|𝑦). Como o numero de simulacoes
para que a estacionariedade e nao correlacao das cadeias seja atingida pode ser grande, estes metodos
tem um custo computacional alto. Dentro desta categoria de algoritmos, encontram-se os conhecidos
metodos de simulacao Amostrador de Gibbs Casella and George (1992) e Metropolis-Hastings Has-
tings (1970). E possıvel ainda combinar tecnicas de simulacao como o Slice Sampling Neal (1997)
ou o metodo de Aceitacao-Rejeicao Devroye (1986) dentro do Amostrador de Gibbs, por exemplo.
Amostrador de Gibbs
O Amostrador de Gibbs, as vezes chamado de amostragem condicional alternada, e uma ferra-
menta importante e muito utilizada quando o parametro de interesse 𝜃 e multidimensional. Considere
ainda a estrutura 𝜃 ∈ Θ ⊆ R𝑑. O algoritmo em questao faz uso das distribuicoes condicionais com-
pletas, definidas na Secao 3.1, e o procedimento e descrito no Algoritmo B.2.
Caso as condicionais completas tenham a forma de distribuicoes conhecidas, opera-se com metodos
de simulacao de variaveis aleatorias tradicionais, como o Metodo da Inversao, o Metodo da Aceitacao-
Rejeicao, Metodo da Composicao ou Metodo da Representacao Estocastica, para explicacao e exem-
plos, veja Tan et al. (2009).
Por outro lado, se para pelo menos um 𝑘, a distribuicao 𝜋(𝜃𝑘|𝜃−𝑘) nao tiver forma conhecida,
deve-se simular desta(s) variavel(is) aleatoria(s) com outros metodos, como os que seguem.
Metropolis-Hastings
Suponha que queiramos simular uma variavel aleatoria da densidade ℎ(·), de suporte ℋ. Escolhe-se uma densidade auxiliar 𝑔 : ℋ ↦→ [0,+∞), da qual se sabe gerar valores aleatorios. Sob o algoritmo
de Metropolis-Hastings, ℎ e vista como a distribuicao estacionaria de um processo aleatorio Markovi-
ano. Assim, seus valores sao gerados atraves de uma cadeia de Markov e, de acordo com um criterio
das condicoes de balanco, estes valores podem ou nao ser aceitos, segundo o esquema do Algoritmo
B.1.
Note que da maneira como se define a probabilidade de aceitacao, 𝑎, e suficiente saber o nucleo
da densidade objetivo ℎ para que o algoritmo funcione. Uma desvantagem desta ferramenta e a
arbitrariedade na escolha da funcao 𝑔, visto que ela interfere na taxa de aceitacao e define, entao, a
velocidade/eficacia do procedimento Chib and Greenberg (1995).
34
Slice sampler
Uma alternativa interessante para a simulacao de valores provenientes de condicionais completas
desconhecidas e o Slice sampler. Alem de ter operacoes computacionalmente menos custosas, em
diversos cenarios (multimodalidade, por exemplo) ele e mais eficiente do que o Metropolis-Hastings.
Como discutido em Neal (2003), ele e introduzido justamente com o objetivo de ser adaptativo
e de uso automatizado, ao contrario das formulacoes tradicionais do Metropolis-Hastings. Genera-
lizacoes para casos multivariados e demonstracao dos resultados de invariancia da amostra gerada
sao apresentadas no mesmo artigo.
Novamente, suponha que a densidade objetivo e proporcional a funcao ℎ : ℋ ↦→ [0,+∞). Defi-
nindo uma variavel auxiliar, 𝑧, a ideia do algoritmo e obter uma amostra da distribuicao conjunta
uniforme de (𝑋,𝑍) sobre o conjunto 𝑈 = {(𝑥, 𝑧) : 0 < 𝑧 < ℎ(𝑥)}, e em sequencia projeta-los sobre o
eixo das abscissas para obter uma amostra da densidade determinada por ℎ(𝑥). Sendo um metodo
robusto para simular de funcoes de probabilidade e ate densidades multimodais, ha diferentes pos-
sibilidades para implementacao de algumas etapas do algoritmo. O procedimento geral consiste em,
com base num valor inicial 𝑥(0):
i. Gerar 𝑧 ∼ Uniforme(0, ℎ(𝑥(0))), e definir o corte horizontal 𝑆 = {𝑥 : 𝑧 < ℎ(𝑥)}.
ii. Encontrar um intervalo 𝐼 = (𝐿,𝑅) ao redor de 𝑥(0) que contenha todos, ou grande parte
dos pontos de 𝑆. Este passo pode ser feito pelo procedimento stepping out, que incrementa
alternadamente a vizinhanca do ponto 𝑥(0) ate que 𝑆 ⊂ 𝐼; ou pelo procedimento doubling, que
incrementa a vizinhanca ao redor de 𝑥(0) sempre duplicando seu tamanho, ate que 𝑆 ⊂ 𝐼.
iii. O novo valor 𝑥(1) e simulado de uma distribuicao uniforme sobre o conjunto 𝐼, e aceito se
pertencer ao conjunto 𝐴 = {𝑥 : 𝑥 ∈ 𝑆 ∩ 𝐼 e P(𝐼 | estado 𝑥) = P(𝐼 | estado 𝑥0)}.
Como exemplo, o algoritmo slice sampling para distribuicoes unimodais com procedimento doubling
e mostrado pelo Algoritmo B.3.
Simulacao com variaveis auxiliares para modelos logısticos Binomiais
A estimacao Bayesiana de Modelos Lineares Generalizados e complicada sob um ponto de vista
computacional, pelo fato do valor esperado condicional das variaveis resposta nao mais ser uma
funcao linear nos parametros. As distribuicoes condicionais completas dos efeitos das covariaveis
tornam-se desconhecidas por conta da funcao de ligacao entre os preditores e a densidade da variavel
resposta, exigindo algoritmos mais sofisticados de simulacao para gerar valores das suas distribuicoes,
tais como o Metropolis-Hastings e/ou Slice sampling.
35
Em alguns casos dentro da famılia exponencial, entretanto, e possıvel construir um amostrador de
Gibbs que herda caracterısticas desejaveis das estimacoes Bayesianas de modelos lineares gaussianos,
sem precisar dos referidos algoritmos adicionais. Tais procedimentos tem como base a determinacao
de variaveis auxiliares para criacao de uma verossimilhanca completa Tanner and Wong (1987), e
servem em particular para regressao com distribuicao de Poisson e Binomial, sob certas funcoes de
ligacao.
Dentro dos modelos de regressao Bernoulli, o novo procedimento foi desenvolvido para o caso com
ligacao probito Albert and Chib (1993), enquanto os autores Holmes and Held (2006) estenderam
para o caso com ligacao logito. Desde entao, os metodos mais interessantes e eficientes elaborados
para regressao Binomial logıstica estao descritos em Fruhwirth-Schnatter and Fruhwirth (2007) e
Fruhwirth-Schnatter et al. (2009). A ideia sera introduzida para o caso com respostas Bernoulli, e
depois generalizado para 𝐾 ensaios com resposta dicotomica.
Suponha o modelo de regressao 𝑌1, . . . , 𝑌𝑛𝑖𝑛𝑑∼ Bernoulli(𝑝𝑖), logito(𝑝𝑖) = 𝑥′
𝑖𝛽, em que 𝑥𝑖 e o vetor
de covariaveis e 𝛽 um vetor de parametros com distribuicao gaussiana multivariada. Em primeira
instancia, definem-se variaveis latentes 𝑦𝑢0𝑖 e 𝑦𝑢𝑖 (denominadas de utilidades de escolha das categorias
0 e 1, respectivamente) para cada unidade experimental, de forma que
𝑦𝑖 =
{0, se 𝑦𝑢𝑖 ≤ 𝑦𝑢0𝑖
1, se 𝑦𝑢𝑖 > 𝑦𝑢0𝑖e 𝑦𝑢𝑖 = 𝑥′
𝑖𝛽 + 𝜀𝑖, (3.1.5)
com 𝑦𝑢0𝑖, 𝜀𝑖𝑖𝑖𝑑∼ Gumbel(0, 1). 𝑋 ∼ Gumbel(𝑎, 𝑏) representa a distribuicao Gumbel do maximo com
locacao 𝑎 e escala 𝑏 (tambem conhecida como distribuicao do valor extremo tipo I Johnson et al.
(1995)). Note que pela representacao, 𝑦𝑢𝑖𝑖𝑛𝑑∼ Gumbel(𝑥′
𝑖𝛽, 1). Sob esta estrutura, a distribuicao
marginal dos dados 𝑦𝑖 e equivalente a do modelo postulado Bernoulli(𝑝𝑖), 𝑝𝑖 = logito−1(𝑥′𝑖𝛽). Para
que o modelo tenha identificabilidade, as utilidades 𝑦𝑢0𝑖 independem de covariaveis. Note que esta
formulacao traz a conveniencia de se ter uma expressao para as utilidades que e linear nos parametros
𝛽, mas que ainda possui perturbacoes aleatorias com forma nao tratavel diretamente.
Adicionalmente, os autores Fruhwirth-Schnatter and Fruhwirth (2007) aproximam a distribuicao
de 𝜀𝑖 por uma mistura finita de variaveis aleatorias gaussianas com L componentes, 𝑓(𝜀𝑖) ≈∑𝐿
𝑙=1 𝑟𝑙×𝜑(𝜀𝑖|𝑚𝑙, 𝑠
2𝑙 ), com
∑𝑙 𝑟𝑙 = 1. 𝜑(·|𝜇, 𝜎2) representa a densidade gaussiana univariada com media 𝜇 e
variancia 𝜎2. A dimensao 𝐿 (em geral igual a 10) e os parametros 𝑚𝑙, 𝑠2𝑙 , ∀𝑙 ∈ {1, . . . , 𝐿} foram
obtidos anteriormente minimizando a distancia de Kullback-Leibler entre a mistura e a densidade
da Gumbel padrao Fruhwirth-Schnatter and Fruhwirth (2007). Deve-se, portanto, incluir mais um
conjunto de variaveis latentes, 𝑅1, . . . , 𝑅𝑛, sendo estas as alocacoes das componentes da mistura.
Assim, a representacao do modelo logıstico com os dados aumentados (𝑦,𝑦𝑢,𝑅) fica:
𝑦𝑖|𝑦𝑢𝑖 , 𝑅𝑖𝑖𝑛𝑑∼ 𝑓(𝑦𝑖|𝑦𝑢𝑖 , 𝑅𝑖), 𝑦𝑢𝑖 |𝑅𝑖 = 𝑙
𝑎𝑝𝑟∼ Normal(𝑥′𝑖𝛽 +𝑚𝑙, 𝑠
2𝑙 ) e 𝑅𝑖
𝑖𝑖𝑑∼ Multinomial(1, 𝑟1, . . . , 𝑟𝐿),
em que 𝑓(𝑦𝑖|𝑦𝑢𝑖 , 𝑅𝑖) e desconhecida, e este fato nao afeta o procedimento. Alem disso, como {𝑦𝑢0𝑖 :
36
𝑖 = 1, . . . , 𝑛} nao dependem dos parametros de interesse 𝛽, eles sao considerados quantidades nui-
sance, e podem ser marginalizados da estrutura dos dados. A distribuicao a posteriori neste caso,
por condicionamento, e da forma 𝜋(𝑦𝑢,𝑅,𝛽|𝑦) ∝ 𝑓(𝑦,𝑦𝑢,𝑅|𝛽)𝜋(𝛽), com condicionais completas
𝜋(𝛽|𝑦,𝑦𝑢,𝑅) e 𝜋(𝑦𝑢,𝑅|𝑦,𝛽), que pode ser decomposta em 𝜋(𝑅|𝑦𝑢,𝑦,𝛽)𝜋(𝑦𝑢|𝑦,𝛽).
Algumas propriedades importantes antes de encontrar a forma das distribuicoes acima mencio-
nadas:
∙ Pela representacao (3.1.5), argumenta-se em Fruhwirth-Schnatter and Fruhwirth (2007) que
𝜋(𝑅|𝑦𝑢,𝑦,𝛽) =𝑛∏
𝑖=1
𝜋(𝑅𝑖|𝑦𝑢𝑖 ,𝛽) e 𝜋(𝛽|𝑦,𝑦𝑢,𝑅) = 𝜋(𝛽|𝑦𝑢,𝑅);
∙ Se 𝑋 ∼ Gumbel(𝑎, 1), entao 𝑍 = 𝑒−𝑋 ∼ Exponencial(𝑒𝑎), com taxa de falha 𝑒𝑎. Consequente-
mente, no atual contexto, temos exp(−𝑦𝑢0𝑖) ∼ Exponencial(1) e exp(−𝑦𝑢𝑖 ) ∼ Exponencial(𝑒𝑥′𝑖𝛽);
∙ Se 𝑋𝑖𝑖𝑛𝑑∼ Exponencial(𝜆𝑖), 𝑖 ∈ {1, 2}, entao min{𝑋1, 𝑋2} ∼ Exponencial(𝜆1 + 𝜆2). Em particu-
lar, min{exp(−𝑦𝑢0𝑖), exp(−𝑦𝑢𝑖 )} ∼ Exponencial(1 + 𝑒𝑥′𝑖𝛽).
Agora, para simular valores de 𝜋(𝑦𝑢𝑖 |𝑦𝑖,𝛽), considere a densidade aumentada 𝜋(𝑦𝑢𝑖 , 𝑦𝑢0𝑖|𝑦𝑖,𝛽). Os
autores encontram, de forma argumentativa, a distribuicao condicional de 𝑦𝑢𝑖 por duas situacoes:
1. Caso 𝑦𝑖 = 1, a utilidade da categoria 1 e maior do que da categoria 0, e 𝑦𝑢𝑖 > 𝑦𝑢0𝑖 ⇐⇒ exp(−𝑦𝑢𝑖 ) <exp(−𝑦𝑢0𝑖) ⇐⇒ min{exp(−𝑦𝑢𝑖 ), exp(−𝑦𝑢0𝑖)} = exp(−𝑦𝑢𝑖 ). Assim, exp(−𝑦𝑢𝑖 ) ∼ Exponencial(1 +
𝑒𝑥′𝑖𝛽) diretamente;
2. Caso 𝑦𝑖 = 0, a utilidade da categoria 0 e maior do que da categoria 1, e 𝑦𝑢𝑖 ≤ 𝑦𝑢0𝑖 ⇐⇒exp(−𝑦𝑢𝑖 ) ≥ exp(−𝑦𝑢0𝑖) ⇐⇒ min{exp(−𝑦𝑢𝑖 ), exp(−𝑦𝑢0𝑖)} = exp(−𝑦𝑢0𝑖). Assim, 𝜋(𝑦𝑢𝑖 , 𝑦
𝑢0𝑖|𝑦𝑖 =
1,𝛽) = 𝜋(𝑦𝑢𝑖 |𝑦𝑢0𝑖, 𝑦𝑖 = 0,𝛽)𝜋(𝑦𝑢0𝑖|𝑦𝑖 = 0,𝛽). Pela falta de memoria das variaveis aleatorias
Exponenciais, a densidade de exp(−𝑦𝑢𝑖 ) sera deslocada pelo min{exp(−𝑦𝑢𝑖 ), exp(−𝑦𝑢0𝑖)} reali-
zado, que neste caso vale exp(−𝑦𝑢0𝑖). Portanto, obtem-se exp(−𝑦𝑢0𝑖) ∼ Exponencial(1 + 𝑒𝑥′𝑖𝛽) e
exp(−𝑦𝑢𝑖 )|[exp(−𝑦𝑢0𝑖) = 𝑐] ∼ Exponencial(𝑒𝑥′𝑖𝛽)1{exp(−𝑦𝑢𝑖 ) ∈ (𝑐,+∞)}.
As condicionais completas das alocacoes 𝑅𝑖 tem a mesma forma das alocacoes em modelos Baye-
sianos de misturas gaussianas finitas Fruhwirth-Schnatter (2006), isto e, para todo 𝑖 ∈ {1, . . . , 𝑛},
𝜋(𝑅𝑖 = 𝑙|𝑦𝑢𝑖 ,𝛽L) ∝𝑟𝑙𝑠𝑙exp
{1
2𝑠2𝑙
(𝑦𝑢𝑖 − 𝑥′
𝑖𝛽 −𝑚𝑙
)2}, 𝑙 ∈ {1, . . . , 𝐿}. (3.1.6)
Por ultimo, fixados os valores 𝑦𝑢1 , . . . , 𝑦𝑢𝑛 e 𝑅1, . . . , 𝑅𝑛, a simulacao de 𝛽 e feita da mesma forma
como no modelo linear gaussiano, em que possui condicional completa com distribuicao Normal
multivariada Zellner (1971), por conta da representacao (3.1.5). Assim, a estimacao Bayesiana de
parametros para um modelo linear generalizado e feita com simulacoes de quantidades equivalentes
aquelas de um modelo linear.
37
Apresenta-se agora a metodologia para regressao longitudinal com o numero de sucessos dentre
𝐾 ensaios independentes como variavel resposta e com inclusao de efeitos aleatorios, isto e, 𝑌𝑖𝑗𝑖𝑛𝑑∼
Binomial(𝐾, 𝑝𝑖𝑗), logito(𝑝𝑖𝑗) = 𝑥′𝑖𝑗𝛽+𝑧′
𝑖𝑗𝑏𝑖, em que 𝑥𝑖𝑗 e 𝑧𝑖𝑗 sao vetores de covariaveis para os efeitos
𝛽 ∼ Normal𝑞𝛽(𝜇𝛽, I𝛽) e 𝑏𝑖 ∼ Normal𝑞𝑏(0,D), respectivamente. Embora nao seja necessario, supoe-se
que a matriz de covariancias D tem uma distribuicao Inversa Wishart. Considere a decomposicao
da quantidade de sucessos no tempo 𝑗 como 𝑦𝑖𝑗 =∑𝐾
𝑘=1 𝑠𝑘𝑖𝑗, com
𝑠𝑘𝑖𝑗 =
{1, se 1 ≤ 𝑘 ≤ 𝑦𝑖𝑗
0, se 𝑦𝑖𝑗 < 𝑘 ≤ 𝐾,
em que P[𝑠𝑘𝑖𝑗 = 1|𝑝𝑖𝑗] = 𝑝𝑖𝑗,∀𝑘 ∈ {1, . . . , 𝐾}, ∀𝑗 ∈ {1, . . .L, 𝑛𝑖} e ∀𝑖 ∈ {1, . . . , 𝑛}. As utilidades
𝑦𝑢𝑘𝑖𝑗,∀(𝑘, 𝑗) da 𝑖-esima unidade experimental sao criadas como em (3.1.5), para cada 𝑠𝑘𝑖𝑗. Da mesma
forma, 𝑦𝑢0𝑖𝑗 tem distribuicao conhecida e independente de covariaveis, por questoes de identificabili-
dade. O modelo de regressao para as utilidades latentes fica:
𝑦𝑢𝑘𝑖𝑗 = 𝑥′𝑖𝑗𝛽 + 𝑧′
𝑖𝑗𝑏𝑖 + 𝜀𝑘𝑖𝑗, (3.1.7)
∀𝑘 ∈ {1, . . . , 𝐾} e ∀𝑗 ∈ {1, . . . , 𝑛𝑖}, em que 𝑦𝑢0𝑖𝑗, 𝜀𝑘𝑖𝑗𝑖𝑖𝑑∼ Gumbel(0, 1). Negativando e tomando o
exponencial em ambos os lados da expressao (3.1.7), tem-se a relacao
exp(−𝑦𝑢𝑘𝑖𝑗) = exp(−𝑥′𝑖𝑗𝛽 − 𝑧′
𝑖𝑗𝑏𝑖) exp(−𝜀𝑘𝑖𝑗)⇒𝐾∑𝑘=1
exp(−𝑦𝑢𝑘𝑖𝑗) = exp(−𝑥′𝑖𝑗𝛽 − 𝑧′
𝑖𝑗𝑏𝑖)𝐾∑𝑘=1
exp(−𝜀𝑘𝑖𝑗)⇒
𝑦*𝑖𝑗 = 𝑥′𝑖𝑗𝛽 + 𝑧′
𝑖𝑗𝑏𝑖 + 𝜉𝑖𝑗, (3.1.8)
em que 𝑦*𝑖𝑗 = −log(∑𝐾
𝑘=1 exp(−𝑦𝑢𝑘𝑖𝑗))e 𝜉𝑖𝑗 = −log
(∑𝐾𝑘=1 exp(−𝜀𝑘𝑖𝑗)
)= −log(Gamma(𝐾, 1)), ∀𝑖, 𝑗.
𝑋 ∼ Gamma(𝑎, 𝑏) indica a parametrizacao com E[𝑋] = 𝑎/𝑏. Assim como no caso Bernoulli, no
inıcio desta secao, aproxima-se a variavel 𝜉𝑖𝑗 por uma mistura finita gaussiana de 𝐿 componentes.
A vantagem agora e que, de acordo com o Teorema Central do Limite, conforme a quantidade
de categorias 𝐾 cresce, a aproximacao da variavel aleatoria −log(Gamma(𝑢, 1)) para a Normal e
melhor. Assim, conforme 𝐾 −→ +∞, a quantidade de componentes na mistura finita necessaria
para aproximar 𝜉𝑖𝑗 diminui. Para 𝐾 = 30, por exemplo, utiliza-se 𝐿 = 4 componentes.
A simulacao das utilidades agregadas 𝑦*𝑖𝑗 e feita de maneira analoga ao caso de regressao Ber-
noulli. O processo e descrito em Fruhwirth-Schnatter et al. (2009), e culmina em: para 𝑦𝑖𝑗 = 𝐾,
𝑦*𝑖𝑗 = −log(
𝑈𝑖𝑗
1+𝜆𝑖𝑗
); enquanto para 𝑦𝑖𝑗 < 𝐾, 𝑦*𝑖𝑗 = −log
(𝑈𝑖𝑗
1+𝜆𝑖𝑗+
𝑉𝑖𝑗
𝜆𝑖𝑗
), em que 𝜆𝑖𝑗 = exp(𝑥′
𝑖𝑗𝛽 + 𝑧′𝑖𝑗𝑏𝑖),
𝑈𝑖𝑗 ∼ Gamma(𝐾, 1) e 𝑉𝑖𝑗 ∼ Gamma(𝐾 − 𝑦𝑖𝑗, 1), independentes. As variaveis latentes de alocacao
nas componentes de mistura sao geradas exatamente como em (3.1.6), com acrescimo dos efeitos
aleatorios na media das utilidades. Por ultimo, dentro do processo iterativo de simulacao, condici-
onados em {𝑦*𝑖𝑗 : 𝑗 = 1, . . . , 𝑛𝑖; 𝑖 = 1, . . . , 𝑛} e {𝑅𝑖𝑗 : 𝑗 = 1, . . . , 𝑛𝑖; 𝑖 = 1, . . . , 𝑛}, a condicional
completa das quantidades (𝛽′, 𝑏′1, . . . , 𝑏′𝑛) e D assumem as formas do modelo linear misto com erros
38
gaussianos multivariados. Assim, elas sao obtidas, respectivamente, ao gerar pontos de uma Normal
(𝑞𝛽 + 𝑛𝑞𝑏) - multivariada e de uma Inversa Wishart (dadas as escolhas de distribuicoes a priori ci-
tadas). A simulacao em blocos do caso Binomial com efeitos mistos e funcao logito e descrita no
Algoritmo B.4, no Apendice B.
3.1.2 Softwares para inferencia Bayesiana
Atualmente, ha diversas opcoes de softwares convenientemente desenvolvidos para implementacao
de algoritmos para inferencia Bayesiana. Alguns dos mais conhecidos sao o WinBUGS (com versao
gratuita OpenBUGS) - Lunn et al. (2000), o Just Another Gibbs Sampler (JAGS) - Plummer et al.
(2003), o BayesX - Brezger et al. (2003) e o Stan - Carpenter et al. (2016). Em geral, eles foram
desenvolvidos para que, do ponto de vista do usuario, os modelos sejam especificados de maneira
simples na sua estrutura hierarquica; enquanto do ponto de vista de processamento, sejam mais
eficientes do que algoritmos criados pelos proprios usuarios, por se basearem na representacao dos
modelos em grafos direcionados Lunn et al. (2012).
A vantagem da utilizacao destes programas e que todos possuem integracao com o software R,
como listado abaixo. Os principais atributos e diferencas das plataformas sao:
∙ WinBUGS/OpenBUGS: baseados em rotinas MCMC, com utilizacao do Amostrador de
Gibbs, Metodo da Rejeicao e Metropolis-Hastings adaptativos quando a densidade condicional
completa nao tem forma conhecida. Integracao com o R por meio dos pacotes BUGS,R2WinBUGS,
R2OpenBUGS;
∙ JAGS: baseados em rotinas MCMC, com utilizacao do Amostrador de Gibbs e Slice sam-
pling quando a densidade condicional completa nao tem forma conhecida. Possui modulo
glm, que faz simulacao com variaveis auxiliares e por blocos para algumas distribuicoes da
famılia exponencial. Este invoca recursos da linguagem C, e por isso e mais eficiente do que
os WinBUGS/OpenBUGS. Recurso de paralelizar cadeias e possıvel com pacotes adicionais.
Integracao com o R por meio das bibliotecas rjags,R2jags;
∙ BayesX: baseados em rotinas MCMC, com utilizacao do Amostrador de Gibbs. E aplicavel
tambem a problemas de regressao quantılica e possui rotinas prontas para selecao de modelos.
Integracao com o R por meio dos pacotes R2BayesX,BayesR;
∙ Stan: baseados em rotinas Hamiltonian Monte Carlo (HMC) - Neal (2011). Os passos deste al-
goritmo costumam contemplar todo o suporte da densidade objetivo completamente de maneira
mais rapida. Sendo assim, a convergencia das cadeias geradas por esta plataforma e, em geral,
mais rapida. Sua linguagem e a mesma do software C. Paraleliza cadeias automaticamente nas
versoes atuais. Integracao com o R por meio do pacote rstan.
39
3.1.3 Diagnostico dos modelos
Ferramentas de diagnostico podem ser utilizadas para avaliar a adequabilidade de modelos a
alguma caracterıstica de interesse dos dados, bem como para identificar observacoes possivelmente
atıpicas e qual a influencia destes pontos no ajuste do modelo Cook and Weisberg (1982).
No contexto parametrico classico, em geral, se avalia a adequabilidade das estimativas de um
ajuste com graficos de resıduos, discrepancias entre valores ajustados e observados, alem de re-
plicacoes dos dados em graficos de envelope Paula (2004).
Sob a perspectiva Bayesiana, o diagnostico e mais focado em ferramentas baseadas na funcao
preditiva a posteriori : 𝑓(𝑦𝑟𝑒𝑝|𝑦) =∫𝑓(𝑦𝑟𝑒𝑝,𝜃|𝑦) d𝜃 =
∫𝑓(𝑦𝑟𝑒𝑝|𝜃)𝜋(𝜃|𝑦) d𝜃, que tem o intuito
de inferir se o modelo gera replicacoes (representadas por 𝑦𝑟𝑒𝑝) fidedignas dos dados originais. Esta
verificacao deve ser feita com base numa funcao de discrepancia entre as replicas e os dados coletados,
e pode se dar em diferentes nıveis do modelo (fixando efeitos aleatorios e simulando variaveis resposta
condicionais ou gerando valores de todos os nıveis da estrutura hierarquica, por exemplo).
Discrepancia preditiva a posteriori
Gelman et al. (1996) propoem o uso da discrepancia preditiva a posteriori para analisar a coerencia
do modelo ajustado frente aos dados observados. Sob um modeloℳ, ha uma extensao natural dos
valores-p classicos 𝑝𝑐(𝑦) = P𝜃[𝑈(𝑌 ) ≥ 𝑈(𝑦))|ℳ] definida por
𝑝𝑏(𝑦) = P[𝑊 (𝑌 𝑟𝑒𝑝,𝜃) ≥ 𝑊 (𝑦,𝜃)|ℳ,𝑦]
=
∫ (P[𝑊 (𝑌 𝑟𝑒𝑝,𝜃) ≥ 𝑊 (𝑦,𝜃)|𝜃,ℳ,𝑦]
)𝜋(𝜃|𝑦) d𝜃
=
∫ (∫1{𝑊 (𝑦𝑟𝑒𝑝,𝜃) ≥ 𝑊 (𝑦,𝜃)}𝑓(𝑦𝑟𝑒𝑝|𝜃,ℳ) d𝑦𝑟𝑒𝑝
)𝜋(𝜃|𝑦) d𝜃
=
∫∫1{𝑊 (𝑦𝑟𝑒𝑝,𝜃) ≥ 𝑊 (𝑦,𝜃)}𝑓(𝑦𝑟𝑒𝑝|𝜃,ℳ)𝜋(𝜃|𝑦) d𝑦𝑟𝑒𝑝 d𝜃, (3.1.9)
em que 𝑊 (·, ·) e uma funcao de discrepancia a qual pode ser escolhida de acordo com a caracterıstica
de interesse nos dados, como a diferenca entre as estatısticas de ordem extremas ou a amplamente
utilizada estatıstica qui-quadrado de Pearson para bondade de ajuste.
Definida uma funcao 𝑊 e tomando como base os valores simulados finais da distribuicao a poste-
riori de 𝜃, (𝜃(1), . . . ,𝜃(𝑀)), criam-se as discrepancias realizadas 𝑤𝑟𝑒𝑎 = {𝑊 (𝑦,𝜃(1)), . . . ,𝑊 (𝑦,𝜃(𝑀))}.Alem disso, para cada 𝑙 ∈ {1, . . . ,𝑀}, geram-se replicacoes 𝑦𝑟𝑒𝑝,𝑙 e, assim, e construıdo o conjunto
de discrepancias das replicacoes 𝑤𝑟𝑒𝑝 = {𝑊 (𝑦𝑟𝑒𝑝,1,𝜃(1)), . . . ,𝑊 (𝑦𝑟𝑒𝑝,𝑀 ,𝜃(𝑀))}. E possıvel, entao,
verificar a adequabilidade do modelo ℳ pelo grafico de dispersao dos pontos 𝑤𝑟𝑒𝑎 versus 𝑤𝑟𝑒𝑝, ou
calcular (3.1.9) pela aproximacao de integrais via Monte Carlo com as amostras (𝜃(1), . . . ,𝜃(𝑀)) e
(𝑦𝑟𝑒𝑝,1, . . . ,𝑦𝑟𝑒𝑝,𝑀). No segundo caso, Gelman et al. (2014) aponta que valores muito altos (≥ 0, 9) ou
40
muito baixos (≤ 0, 1) de 𝑝𝑏(𝑦) indicam falta de adequacao do ajuste, segundo a funcao de discrepancia
𝑊 e a caracterıstica que ela intrinsecamente pretende avaliar.
Em trabalhos mais recentes, autores como Johnson (2004, 2007), Gosselin (2011) propoem um
uso levemente diferente das discrepancias preditivas a posteriori, de forma a garantir melhores ca-
racterısticas teoricas dos valores-p Bayesianos, como distribuicao uniforme sob as hipoteses nulas
estabelecidas (considerando que o modelo e especificado corretamente Gosselin (2011)). Define-se
entao o valor-p Bayesiano amostrado como
𝑠𝑝𝑏(𝑦) =
∫1{𝑊 (𝑦𝑟𝑒𝑝,𝜃𝑓𝑖𝑥𝑜) ≥ 𝑊 (𝑦,𝜃𝑓𝑖𝑥𝑜)}𝑓(𝑦𝑟𝑒𝑝|𝜃𝑓𝑖𝑥𝑜,ℳ)𝜋(𝜃𝑓𝑖𝑥𝑜|𝑦) d𝑦𝑟𝑒𝑝, (3.1.10)
em que 𝜃𝑓𝑖𝑥𝑜 ∼ 𝜋(𝜃|𝑦). Assim, a diferenca entre 𝑝𝑏(𝑦) e 𝑠𝑝𝑏(𝑦) e que o ultimo requer somente um
ponto da distribuicao a posteriori 𝜋(𝜃|𝑦) e, caso a obtencao deste valor seja feita via integracao
Monte Carlo, todas as simulacoes de 𝑦𝑟𝑒𝑝 sao obtidas da densidade 𝑓(𝑦𝑟𝑒𝑝|𝜃𝑓𝑖𝑥𝑜). O autor Zhang
(2014) resume a vantagem de (3.1.10) sobre (3.1.9) em dois casos: (i) - quando os dados 𝑦 sao
corretamente especificados e a distribuicao a priori 𝜋(𝜃) postulada e a “verdadeira”, 𝜃𝑓𝑖𝑥𝑜 sera
de fato um ponto de 𝜋(𝜃|𝑦), entao as distribuicoes das discrepancias 𝑊 (𝑦,𝜃𝑓𝑖𝑥𝑜) e 𝑊 (𝑦𝑟𝑒𝑝,𝜃𝑓𝑖𝑥𝑜),
condicionadas em 𝜃𝑓𝑖𝑥𝑜 serao identicas. Portanto, 𝑠𝑝𝑏(𝑦) tera distribuicao uniforme; (ii) - quando os
dados 𝑦 sao corretamente especificados, mas 𝜋(𝜃) nao o e, entao o valor-p Bayesiano tera distribuicao
assintoticamente uniforme, sob condicoes de regularidade e independencia dos dados. Ainda neste
artigo, ha estudos de simulacao e uma discussao sobre as demandas computacionais das diferentes
abordagens.
Neste trabalho, os valores-p Bayesianos amostrados serao calculados segundo a seguinte formula:
𝑠𝑝𝑏(𝑦) =1
𝑀
𝑀∑𝑚=1
1{𝑊 (𝑦𝑟𝑒𝑝,𝑚,𝜃𝑓𝑖𝑥𝑜) ≥ 𝑊 (𝑦,𝜃𝑓𝑖𝑥𝑜)}, (3.1.11)
em que 𝜃𝑓𝑖𝑥𝑜 e algum ponto da cadeia final obtida pelos algoritmos MCMC, e 𝑦𝑟𝑒𝑝,𝑚 = {𝑦𝑟𝑒𝑝,𝑚𝑖𝑗 : 𝑖 =
1, . . . , 𝑛; 𝑗 = 1, . . . , 𝑛𝑖} sao valores simulados da distribuicao condicional (2.3.1), sob a suposicao de
independencia. Funcoes de discrepancia usuais sao dadas na Tabela 3.2:
Tabela 3.2: Funcoes de discrepancia comuns para avaliar reproducibilidade dos dados originais sobmodelos Bayesianos.
Nome 𝑊 (𝑦,𝜃)
Qui-quadrado de Pearson(𝑦 − E(𝑌 |𝜃)
)′Cov(𝑌 |𝜃)−1
(𝑦 − E(𝑌 |𝜃)
)Desvio −2 log(𝑓(𝑦|𝜃))Percentis 𝑝-esimo percentil de {𝑦}Mınimo min{𝑦}Maximo max{𝑦}
41
3.1.4 Comparacao dos modelos
No contexto de analise de dados Bayesiana, a ferramenta mais tradicional para auxiliar na selecao
de modelos e o fator de Bayes Kass and Raftery (1995). Ele e uma medida para comparacao de pares
de modelos, digamos,ℳ1 eℳ2:
B12 =𝑓(𝑦|ℳ1)
𝑓(𝑦|ℳ2)=
∫𝑓(𝑦|𝜃,ℳ1)𝜋(𝜃|ℳ1) d𝜃∫𝑓(𝑦|𝜃,ℳ2)𝜋(𝜃|ℳ2) d𝜃
.
Como constatado em Gelman et al. (2014), seu uso e de difıcil acesso para estruturas complexas e
dimensao de espaco parametrico muito elevada. Assim, surgem outras ferramentas de comparacao que
podem ser mais facilmente adaptaveis a casos complicados, alem da conveniencia de serem medidas
para comparacao direta entre uma quantidade arbitraria de modelos, como o Deviance Information
Criterion (DIC) e Log Pseudo Marginal Likelihood (LPML).
Deviance Information Criterion - DIC
Analogamente aos criterios de informacao classicos, AIC (Akaike Information Criterion) - Akaike
(1974) e BIC (Bayesian Information Criterion) - Schwarz (1978), o DIC Spiegelhalter et al. (2002) e
apresentado com a proposta de ser uma medida de bondade penalizada pela complexidade do modelo
ajustado.
Seja a funcao desvio dada por D(𝜃) = −2 𝑙𝑜𝑔𝑓(𝑦|𝜃). Considere D(𝜃) = E𝜃[D(𝜃)|𝑦] representandoa bondade do ajuste e 𝑝𝐷 = D(𝜃) − D(𝜃), para algum estimador Bayesiano 𝜃, representando a
complexidade do modelo. Visto como uma “versao Bayesiana” do AIC, o DIC e definido e calculado
por
DIC = D(𝜃) + 𝑝𝐷 = 2D(𝜃)−D(𝜃) = −4E𝜃[𝑙𝑜𝑔𝑓(𝑦|𝜃)|𝑦]−D(𝜃),
Assim como nos criterios de Akaike e Schwarz, dentre os ajustes feitos, o melhor modelo e aquele
que apresenta menor DIC.
Ha, entretanto, crıticas a formulacao e ao uso do DIC, principalmente pelo fato da dimensao
efetiva do modelo, 𝑝𝐷, poder ser negativa em alguns casos, como em regressao com misturas finitas.
O debate do artigo Spiegelhalter et al. (2002) fomentou, entao, a pesquisa para propostas mais
adequadas desta medida com utilizacao de verossimilhancas aumentadas. Consequentemente, em
Celeux et al. (2006) ha o estudo de oito versoes do DIC, cujas definicoes se baseiam no uso dos dados
faltantes (como parametros de interesse ou auxiliares). No presente trabalho, utiliza-se o DIC7, que
e uma adequacao do criterio para modelos com efeitos aleatorios, quando estes sao parametros de
interesse.
DIC7 = −4E𝜃,𝑍 [𝑙𝑜𝑔𝑓(𝑦|𝑍,𝜃)|𝑦] + 2𝑙𝑜𝑔𝑓(𝑦|��,𝜃),
42
em que �� e algum estimador Bayesiano de 𝑍. Na pratica, em modelos longitudinais, obtem-se o
DIC7 estimado por:
DIC7 = −4
𝑀
( 𝑀∑𝑚=1
𝑁∑𝑖=1
𝑛𝑖∑𝑗=1
log𝑓(𝑦𝑖𝑗|𝑍(𝑚),𝜃(𝑚))
)+ 2
( 𝑁∑𝑖=1
𝑛𝑖∑𝑗=1
log𝑓(𝑦𝑖𝑗|��,𝜃)
),
em que {(𝑍(𝑚),𝜃(𝑚)) : 𝑚 = 1, . . . ,𝑀} sao amostras da distribuicao a posteriori 𝜋(𝑍,𝜃|𝑦).
Log Pseudo Marginal Likelihood - LPML
Outros criterios importantes para escolha de modelos sao construıdos com base na distribuicao
preditiva a posteriori, 𝑓(𝑦𝑟𝑒𝑝|𝑦) =∫𝑓(𝑦𝑟𝑒𝑝|𝜃)𝜋(𝜃|𝑦) d𝜃. Na pratica, esta funcao e utilizada para
avaliar a capacidade de reproducao das caracterısticas dos dados com base no modelo ajustado.
Como a visualizacao bruta dos dados replicados em comparacao aos dados observados pode ser
impraticavel, trabalha-se com medidas que unem a distribuicao preditiva com a ideia de validacao
cruzada. O autor Geisser (1987) apresenta a Conditional Predictive Ordinate a posteriori (CPO) do
𝑖-esimo indivıduo como
CPO𝑖 = 𝑓(𝑦𝑖|𝑦−𝑖) =
∫𝑓(𝑦𝑖|𝜃)𝜋(𝜃|𝑦−𝑖) d𝜃 =
𝑓(𝑦)
𝑓(𝑦−𝑖),
em que o subındice da expressao 𝑦−𝑖 representa o vetor 𝑦 sem a 𝑖-esima coordenada. No mesmo
artigo, ainda se discute maneiras de calcular as CPO’s dos indivıduos com base na amostra da
distribuicao a posteriori ja simulada, verificando que
CPO𝑖 =
(𝑓(𝑦−𝑖)
𝑓(𝑦)
)−1
=
(∫𝑓(𝑦−𝑖|𝜃)𝜋(𝜃)
𝑓(𝑦)d𝜃
)−1
=
(∫𝑓(𝑦𝑖|𝜃)𝑓(𝑦𝑖|𝜃)
𝑓(𝑦−𝑖|𝜃)𝜋(𝜃)𝑓(𝑦)
d𝜃
)−1
=
(∫1
𝑓(𝑦𝑖|𝜃)𝜋(𝜃|𝑦) d𝜃
)−1
= E𝜃
[1
𝑓(𝑦𝑖|𝜃)
𝑦
]Assim, pode-se estimar esta quantidade por
CPO𝑖 =
(1
𝑀
𝑀∑𝑚=1
1∏𝑛𝑖
𝑗=1 𝑓(𝑦𝑖𝑗|𝜃(𝑚))
)−1
, (3.1.12)
em que (𝜃(1), . . . ,𝜃(𝑀)) constitui uma amostra da distribuicao a posteriori de 𝜃. Para contornar o
problema do calculo das integrais no caso de efeitos aleatorios, opta-se pela mesma solucao do DIC7
mencionado no topico anterior: na equacao (3.1.12) utiliza-se a densidade condicional das respostas,
𝑓(𝑦𝑖|𝑍(𝑚)𝑖 ,𝜃(𝑚)), no lugar de 𝑓(𝑦𝑖|𝜃(𝑚)).
Com base nas CPO’s para cada indivıduo que compoe a amostra, define-se o LPML como uma
43
medida resumo das ordenadas preditivas a posteriori :
LPML = log
( 𝑛∏𝑖=1
𝑓(𝑦𝑖|𝑦−𝑖)
)=
𝑛∑𝑖
log(CPO𝑖). (3.1.13)
Para obtencao do LPML estimado, basta encontrar as estimativas de (3.1.12) e aplica-las em (3.1.13).
Como buscamos um ajuste capaz de reproduzir bem a distribuicao dos dados, o melhor modelo e
aquele que apresenta maior LPML, ja que este e obtido ao aplicar uma funcao nao decrescente no
produto das densidades 𝑓(𝑦𝑖|𝑦−𝑖),∀𝑖 ∈ {1, . . . , 𝑛}.
3.2 Estimacao Bayesiana para o modelo proposto de mis-
tura de regressoes
Considere 𝜃 = (𝛽′,𝜆′, vec(D)′, 𝜇𝜏 , 𝜎𝜏 , 𝜑)′ o vetor de parametros para o caso Beta-Binomial. Su-
pondo que a distribuicao conjunta de 𝜋(𝜃) pode ser escrita como
𝜋(𝜃) = 𝜋(𝛽)𝜋(𝜆)𝜋(D)𝜋(𝜇𝜏 )𝜋(𝜎𝜏 )𝜋(𝜑). (3.2.1)
Cada funcao acima que compoe a densidade conjunta 𝜋(𝜃) depende de hiperparametros conhecidos
e fixos, portanto, suprimidos da notacao.
Durante a escolha das distribuicoes a priori, tomou-se como base a distribuicao gaussiana para
os efeitos das covariaveis em (2.3.2), (2.3.3) e para a media dos pontos de quebra:
𝛽 ∼ Normal𝑞𝛽(0, 𝜎2𝛽I𝑞𝛽), 𝜆 ∼ Normal𝑞𝜆(0, 𝜎
2𝜆I𝑞𝜆), 𝜇𝜏 ∼ Normal(��𝜏 , 𝜎
2𝜇𝜏)1{𝜇𝜏 ∈ T},
em que I𝑛 indica a matriz identidade de dimensao 𝑛 e 𝜎2𝛽, 𝜎
2𝜆, ��𝜏 , 𝜎
2𝜇𝜏
sao hiperparametros: valores
escolhidos pelo proponente do modelo, de forma que as distribuicoes a priori tenham as caracterısticas
desejadas (em geral, nao informativas).
Escolhe-se a distribuicao uniforme para o desvio padrao dos pontos de quebra, 𝜎𝜏 , e para 𝜑
(quando aplicavel). Sobre a postulacao das covariancias dos efeitos aleatorios, a escolha mais comum
e assumir uma distribuicao Inversa Wishart para a matriz D. Assim,
𝜎𝜏 ∼ Uniforme(0, 𝑢𝜏 ), 𝜑 ∼ Uniforme(0, 𝑢𝜑), D ∼ Inversa Wishart𝑞𝑏(D0, 𝜈),
com 𝑢𝜏 , 𝑢𝑏, 𝑢𝜑,D0, 𝜈 sendo hiperparametros. A parametrizacao X ∼ Inversa Wishart𝑞(A, 𝜈) indica
que (X)(𝑞×𝑞) tem distribuicao Inversa Wishart Kotz et al. (2004) com matriz de escalas A, positiva
definida de entradas positivas e 𝜈 > 𝑞 − 1 representando os graus de liberdade. Em alguns casos,
entretanto, tal suposicao pode levar a amostras muito correlacionadas dos componentes (𝑏𝑖1, . . . , 𝑏𝑖𝑛𝑖)′
quando esta caracterıstica nao e verdadeira, de acordo com Alvarez et al. (2014). Como alternativa,
44
podem-se assumir distribuicoes uniformes no suporte (0, 𝑢𝜎), 𝑢𝜎 >> 0 para os desvios padroes de D
e distribuicoes uniformes em (−1, 1) para as correlacoes, segundo Gelman (2006).
A distribuicao a priori em (3.2.1) para o caso Beta-Binomial fica:
𝜋(𝜃) = 𝜋(𝛽)𝜋(𝜆)𝜋(D)𝜋(𝜇𝜏 )𝜋(𝜎𝜏 )𝜋(𝜑)
∝ exp
{− 1
2𝜎2𝛽
𝛽′𝛽
}exp
{− 1
2𝜎2𝜆
𝜆′𝜆
}exp
{− 1
2𝜎2𝜇𝜏
(𝜇𝜏 − ��𝜏 )2
}1{𝜇𝜏 ∈ T}
× |D|−𝜈+𝑞𝑏+1
2 exp
{− 1
2tr(D0D
−1)}
1{𝜎𝜏 ∈ (0, 𝑢𝜏 )}1{𝜑 ∈ (0, 𝑢𝜑)}, (3.2.2)
em que tr(·) e o operador traco de matrizes quadradas.
Para a especificacao Binomial, a expressao da distribuicao a priori e como em (3.2.2), sem o
termo 𝜋(𝜑).
3.2.1 Amostrador de Gibbs para o caso Beta-Binomial
De acordo com a motivacao de se trabalhar com os dados aumentados apresentada na Secao 2.3.1,
a densidade a posteriori das quantidades de interesse desconhecidas (parametros e efeitos aleatorios)
e da seguinte forma:
𝜋(𝜃, 𝑏, 𝜏𝑎,𝑆|𝑦) ∝ 𝑓(𝑦|𝑏, 𝜏𝑎,𝑆,𝜃)𝑓(𝑏, 𝜏𝑎,𝑆,𝜃)
= 𝑓(𝑦|𝑏, 𝜏𝑎,𝑆,𝜃)𝑓(𝑏|𝜏𝑎,𝑆,𝜃)𝑓(𝜏𝑎|𝑆,𝜃)𝑓(𝑆|𝜃)𝜋(𝜃)
= 𝑓(𝑦|𝑏, 𝜏𝑎,𝑆, 𝜑)𝑓(𝑏|D)𝑓(𝜏𝑎|𝜇𝜏 , 𝜎2𝜏 )𝑓(𝑆|𝜆)⏟ ⏞
𝐿𝑐(𝜃|Ω)
𝜋(𝜃)
= 𝐿𝑐(𝜃|Ω)𝜋(𝛽)𝜋(𝜆)𝜋(D)𝜋(𝜇𝜏 )𝜋(𝜎𝜏 )𝜋(𝜑),
com 𝐿𝑐(𝜃|Ω) definida em (2.3.5) e 𝜋(𝜃) em (3.2.1).
Apresenta-se nesta secao a forma das distribuicoes condicionais completas das quantidades 𝛽, 𝜆,
D, 𝜇𝜏 , 𝜎𝜏 , 𝜑, 𝑏, 𝜏𝑎 e 𝑆. Lembrando que 𝜏𝑖 =(𝜏∞,𝑖
)1{𝑆𝑖=0}(𝜏𝑎,𝑖)1{𝑆𝑖=1}
, 𝜇𝑖𝑗 = 𝑔−1(𝑥′𝑖𝑗,𝜏𝑖
𝛽 + 𝑧′𝑖𝑗,𝜏𝑖
𝑏𝑖) e
𝑝𝑖 = ℎ−1(𝑤′𝑖𝜆), ∀(𝑖, 𝑗) ∈ {1, . . . , 𝑁} × {1, . . . , 𝑛𝑖}, tem-se, para os efeitos fixos,
𝜋(𝛽|𝜃−𝛽, 𝑏, 𝜏 ,𝑆,𝑦) ∝
[𝑁∏𝑖=1
𝑛𝑖∏𝑗=1
(𝐾
𝑦𝑖𝑗
)B(𝑦𝑖𝑗 + 𝜑𝜇𝑖𝑗, 𝐾 − 𝑦𝑖𝑗 + 𝜑(1− 𝜇𝑖𝑗))
B(𝜑𝜇𝑖𝑗, 𝜑(1− 𝜇𝑖𝑗))
]exp
{− 1
2𝜎2𝛽
𝛽′𝛽
},
(3.2.3)
𝜋(𝜆|𝜃−𝜆, 𝑏, 𝜏 ,𝑆,𝑦) ∝[ 𝑁∏
𝑖=1
[ℎ−1(𝑤′
𝑖𝜆)]𝑆𝑖[1− ℎ−1(𝑤′
𝑖𝜆)]1−𝑆𝑖
]exp
{− 1
2𝜎2𝜆
𝜆′𝜆
}, (3.2.4)
45
𝜋(𝜑|𝜃−𝜑, 𝑏, 𝜏 ,𝑆,𝑦) ∝
[𝑁∏𝑖=1
𝑛𝑖∏𝑗=1
(𝐾
𝑦𝑖𝑗
)B(𝑦𝑖𝑗 + 𝜑𝜇𝑖𝑗, 𝐾 − 𝑦𝑖𝑗 + 𝜑(1− 𝜇𝑖𝑗))
B(𝜑𝜇𝑖𝑗, 𝜑(1− 𝜇𝑖𝑗))
], 𝜑 ∈ (0, 𝑢𝜑), (3.2.5)
𝜋(𝜇𝜏 |𝜃−𝜇𝜏 , 𝑏, 𝜏 ,𝑆,𝑦) ∝ exp
{− 1
2𝜎2𝜏
𝑁∑𝑖=1
(𝜏𝑎,𝑖 − 𝜇𝜏 )2 − 1
2𝜎2𝜇𝜏
(𝜇𝜏 − ��𝜏 )2
}, 𝜇𝜏 ∈ T, (3.2.6)
𝜋(𝜎𝜏 |𝜃−𝜎𝜏 , 𝑏, 𝜏 ,𝑆,𝑦) ∝ 𝜎−𝑁𝜏 exp
{− 1
2𝜎2𝜏
𝑁∑𝑖=1
(𝜏𝑎,𝑖 − 𝜇𝜏 )2
}, 𝜎𝜏 ∈ (0, 𝑢𝜏 ), (3.2.7)
𝜋(D|𝜃−D, 𝑏, 𝜏 ,𝑆,𝑦) ∝[ 𝑁∏
𝑖=1
|D|−1/2exp
{− 1
2tr(𝑏𝑖𝑏
′𝑖D
−1)}]|D|−
𝜈+𝑞𝑏+1
2 exp
{− 1
2tr(D0D
−1)}
(3.2.8)
Pelas expressoes (3.2.6), (3.2.7) e (3.2.8), deduz-se que os respectivos efeitos fixos tem distribuicoes
condicionais completas conhecidas, com seguintes formas:
D|𝜃−D, 𝑏, 𝜏 ,𝑆,𝑦 ∼ Inversa Wishart𝑞𝑏
( 𝑁∑𝑖=1
𝑏𝑖𝑏′𝑖 +D0, 𝜈 + 𝑞𝑏
),
𝜎𝜏 |𝜃−𝜎𝜏 , 𝑏, 𝜏 ,𝑆,𝑦 ∼
⎯⎸⎸⎷Inversa Gamma
(𝑁
2− 1,
1
2
𝑁∑𝑖=1
(𝜏𝑎,𝑖 − 𝜇𝜏
)2)1{𝜎𝜏 ∈ (0, 𝑢𝜏 )},
𝜇𝜏 |𝜃−𝜇𝜏 , 𝑏, 𝜏 ,𝑆,𝑦 ∼ Normal
((∑𝑖 𝜏(𝑎,𝑖)𝜎2𝜏
+��
𝜎2𝜇𝜏
)(𝑁
𝜎2𝜏
+1
𝜎2𝜇𝜏
)−1
,
(𝑁
𝜎2𝜏
+1
𝜎2𝜇𝜏
)−1)1{𝜇𝜏 ∈ T}.
As condicionais completas para os efeitos aleatorios ∀𝑖 ∈ {1, . . . , 𝑁} sao:
𝜋(𝜏𝑎,𝑖|𝜃, 𝑏𝑖, 𝑆𝑖,𝑦𝑖) ∝[ 𝑛𝑖∏
𝑗=1
(𝐾
𝑦𝑖𝑗
)B(𝑦𝑖𝑗 + 𝜑𝜇𝑖𝑗, 𝐾 − 𝑦𝑖𝑗 + 𝜑(1− 𝜇𝑖𝑗))
B(𝜑𝜇𝑖𝑗, 𝜑(1− 𝜇𝑖𝑗))
]× exp
{− 1
2𝜎2𝜏
(𝜏𝑎,𝑖 − 𝜇𝜏 )2}, 𝜏𝑎,𝑖 ∈ T, (3.2.9)
𝜋(𝑏𝑖|𝜃, 𝜏(𝑎,𝑖), 𝑆𝑖,𝑦𝑖) ∝[ 𝑛𝑖∏
𝑗=1
(𝐾
𝑦𝑖𝑗
)B(𝑦𝑖𝑗 + 𝜑𝜇𝑖𝑗, 𝐾 − 𝑦𝑖𝑗 + 𝜑(1− 𝜇𝑖𝑗))
B(𝜑𝜇𝑖𝑗, 𝜑(1− 𝜇𝑖𝑗))
]exp
{− 1
2𝑏′𝑖D
−1𝑏𝑖
}, (3.2.10)
𝜋(𝑆𝑖|𝜃, 𝑏𝑖, 𝜏(𝑎,𝑖),𝑦𝑖) ∝
{ [∏𝑛𝑖
𝑗=1 𝑓(𝑦𝑖𝑗|𝑏𝑖, 𝑆𝑖 = 0)][1− ℎ−1(𝑤′
𝑖𝜆)], 𝑆𝑖 = 0,[∏𝑛𝑖
𝑗=1 𝑓(𝑦𝑖𝑗|𝑏𝑖, 𝜏(𝑎,𝑖), 𝑆𝑖 = 1)][ℎ−1(𝑤′
𝑖𝜆)], 𝑆𝑖 = 1,
(3.2.11)
em que
𝑓(𝑦𝑖𝑗|𝑏𝑖, 𝑆𝑖 = 0) = 𝑙𝑖𝑚𝜏𝑖→+∞
{(𝐾
𝑦𝑖𝑗
)B(𝑦𝑖𝑗 + 𝜑𝜇𝑖𝑗, 𝐾 − 𝑦𝑖𝑗 + 𝜑(1− 𝜇𝑖𝑗))
B(𝜑𝜇𝑖𝑗, 𝜑(1− 𝜇𝑖𝑗))
},
46
𝑓(𝑦𝑖𝑗|𝑏𝑖, 𝜏(𝑎,𝑖), 𝑆𝑖 = 1) =
(𝐾
𝑦𝑖𝑗
)B(𝑦𝑖𝑗 + 𝜑𝜇𝑖𝑗, 𝐾 − 𝑦𝑖𝑗 + 𝜑(1− 𝜇𝑖𝑗))
B(𝜑𝜇𝑖𝑗, 𝜑(1− 𝜇𝑖𝑗))
𝜏𝑖=𝜏𝑎,𝑖
.
Destas, temos distribuicao conhecida apenas das alocacoes 𝑆𝑖,∀𝑖 ∈ {1, . . . , 𝑁}:
𝑆𝑖|𝜃, 𝑏𝑖, 𝜏(𝑎,𝑖), 𝑆𝑖,𝑦𝑖 ∼ Bernoulli(𝑝*𝑖 ),
𝑝*𝑖 =
[∏𝑛𝑖
𝑗=1 𝑓(𝑦𝑖𝑗|𝑏𝑖, 𝜏(𝑎,𝑖), 𝑆𝑖 = 1)][ℎ−1(𝑤′
𝑖𝜆)][∏𝑛𝑖
𝑗=1 𝑓(𝑦𝑖𝑗|𝑏𝑖, 𝜏(𝑎,𝑖), 𝑆𝑖 = 1)][ℎ−1(𝑤′
𝑖𝜆)]+[∏𝑛𝑖
𝑗=1 𝑓(𝑦𝑖𝑗|𝑏𝑖, 𝑆𝑖 = 0)][1− ℎ−1(𝑤′
𝑖𝜆)] .
De posse das distribuicoes condicionais completas (3.2.3)-(3.2.8) e (3.2.9)-(3.2.11), pode-se cons-
truir o algoritmo para obtencao das cadeias dos parametros. Para as variaveis que nao possuem
distribuicao conhecida (e.g. 𝛽,𝜆, 𝜑, 𝑏𝑖, 𝜏𝑎,𝑖), opta-se pelo Slice Sampler. O amostrador de Gibbs para
o modelo proposto com resposta condicional Beta-Binomial e dado pelo Algoritmo 3.1.
Saıda: Amostras de tamanho 𝑀 de cada parametro 𝛽1, . . . , 𝛽𝑞𝛽 , 𝜆1, . . . , 𝜆𝑞𝜆 ,D, 𝜇𝜏 , 𝜎𝜏 , 𝜑 e dos
efeitos aleatorios 𝑆1, . . . , 𝑆𝑁 , 𝜏(𝑎,1), . . . , 𝜏(𝑎,𝑁), 𝑏1, . . . , 𝑏𝑁 .
Valores iniciais: (𝛽(0),𝜆(0),D(0), 𝜇(0)𝜏 , 𝜎
(0)𝜏 , 𝜑(0), 𝑆
(0)1 , . . . , 𝑆
(0)𝑁 , 𝜏
(0)(𝑎,1), . . . , 𝜏
(0)(𝑎,𝑁), 𝑏
(0)1 , . . . , 𝑏
(0)𝑁 ), 𝑀
Inıcio
𝑡← 0;
Enquanto 𝑡 ≤𝑀 faca
𝛽(𝑡+1)𝑘 ∼ 𝜋(𝛽𝑘|𝜆(𝑡),D(𝑡), 𝜇
(𝑡)𝜏 , 𝜎
(𝑡)𝜏 , 𝜑(𝑡), 𝑏(𝑡), 𝜏
(𝑡)𝑎 ,𝑆(𝑡),𝑦), 1 ≤ 𝑘 ≤ 𝑞𝛽 em (3.2.3);
𝜆(𝑡+1)𝑘 ∼ 𝜋(𝜆𝑘|𝛽(𝑡+1),D(𝑡), 𝜇
(𝑡)𝜏 , 𝜎
(𝑡)𝜏 , 𝜑(𝑡), 𝑏(𝑡), 𝜏
(𝑡)𝑎 ,𝑆(𝑡),𝑦), 1 ≤ 𝑘 ≤ 𝑞𝜆 em (3.2.4);
𝜑(𝑡+1) ∼ 𝜋(𝜑| 𝛽(𝑡+1),𝜆(𝑡+1),D(𝑡), 𝜇(𝑡)𝜏 , 𝜎
(𝑡)𝜏 , 𝑏(𝑡), 𝜏
(𝑡)𝑎 ,𝑆(𝑡),𝑦) em (3.2.5);
D(𝑡+1) ∼ Inversa Wishart𝑞𝑏
(∑𝑁𝑖=1 𝑏
(𝑡)𝑖 𝑏
(𝑡)′𝑖 +D0, 𝜈 + 𝑞𝑏
)𝜎(𝑡+1)𝜏 ∼
√Inversa Gamma
(𝑁2− 1, 1
2
∑𝑁𝑖=1
(𝜏(𝑡)𝑎,𝑖 − 𝜇
(𝑡)𝜏
)2)1{𝜎𝜏 ∈ (0, 𝑢𝜏 )}
𝜇(𝑡+1)𝜏 ∼ Normal
((∑𝑖 𝜏
(𝑡)(𝑎,𝑖)
𝜎2𝜏(𝑡+1) + ��
𝜎2𝜇𝜏
)(𝑁
𝜎2𝜏(𝑡+1) +
1𝜎2𝜇𝜏
)−1
,
(𝑁𝜎2𝜏+ 1
𝜎2𝜇𝜏
)−1)1{𝜇𝜏 ∈ T}
𝑖← 1;
Enquanto 𝑖 ≤ 𝑁 faca
𝑏(𝑡+1)𝑖 ∼ 𝜋(𝑏𝑖|𝛽(𝑡+1),𝜆(𝑡+1),D(𝑡+1), 𝜇
(𝑡+1)𝜏 , 𝜎
(𝑡+1)𝜏 , 𝜑(𝑡+1), 𝜏
(𝑡)(𝑎,𝑖), 𝑆
(𝑡)𝑖 ,𝑦) em (3.2.10)
𝜏(𝑡+1)𝑎,𝑖 ∼ 𝜋(𝜏𝑎,𝑖|𝛽(𝑡+1),𝜆(𝑡+1),D(𝑡+1), 𝜇
(𝑡+1)𝜏 , 𝜎
(𝑡+1)𝜏 , 𝜑(𝑡+1), 𝑏
(𝑡+1)𝑖 , 𝑆
(𝑡)𝑖 ,𝑦) em (3.2.9)
𝑆(𝑡+1)𝑖 ∼ 𝜋(𝑆𝑖|𝛽(𝑡+1),𝜆(𝑡+1),D(𝑡+1), 𝜇
(𝑡+1)𝜏 , 𝜎
(𝑡+1)𝜏 , 𝜑(𝑡+1), 𝑏
(𝑡+1)𝑖 , 𝜏
(𝑡+1)(𝑎,𝑖) ,𝑦) em (3.2.11)
𝑖← 𝑖+ 1;
𝑡← 𝑡+ 1;
Fim
Algoritmo 3.1: Amostrador de Gibbs para modelo proposto com distribuicao Beta-Binomial
das respostas condicionais.
47
3.2.2 Amostrador de Gibbs para o caso Binomial
Nesta secao, suponha que a funcao 𝑔 em (2.3.2) seja 𝑔(𝑥) = log(𝑥/(1 − 𝑥)
). Sob o caso de
respostas condicionais com distribuicoes Binomial, e de interesse utilizar o Amostrador de Gibbs com
variaveis auxiliares descrito na secao (3.1.1). Para tal, a representacao dos dados em (2.3.1) - (2.3.3)
deve ainda ser aumentada pelo conjunto de variaveis latentes {𝑦*𝑖𝑗 : 𝑗 = 1, . . . , 𝑛𝑖; 𝑖 = 1, . . . , 𝑁}e {𝑅𝑖𝑗 : 𝑗 = 1, . . . , 𝑛𝑖; 𝑖 = 1, . . . , 𝑁}. Lembrando que estas sao, respectivamente, as utilidades
agregadas das observacoes {𝑌𝑖𝑗 : 𝑗 = 1, . . . , 𝑛𝑖; 𝑖 = 1, . . . , 𝑁} e as alocacoes nas componentes da
mistura finita gaussiana na aproximacao de {𝜉𝑖𝑗 ∼ Gumbel(0, 1) : 𝑗 = 1, . . . , 𝑛𝑖; 𝑖 = 1, . . . , 𝑁} em(3.1.8).
Com a criacao das variaveis auxiliares que refletem a dinamica original dos dados, as quantidades
[𝑌𝑖𝑗|𝑦*𝑖𝑗, 𝑅𝑖𝑗 = 𝑙, 𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖] permanecem aleatorias e desconhecidas. Apesar disso, suas distribuicoes
nao sao de interesse, tampouco necessarias. Tem-se a seguinte representacao do modelo:
𝑌𝑖𝑗|𝑦*𝑖𝑗, 𝑅𝑖𝑗 = 𝑙, 𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖𝑖𝑛𝑑∼ 𝑓(𝑦𝑖𝑗|𝑦*𝑖𝑗, 𝑅𝑖𝑗 = 𝑙, 𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖)
𝑦*𝑖𝑗|𝑅𝑖𝑗 = 𝑙, 𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖𝑖𝑛𝑑∼ Normal(𝑥′
𝑖𝑗,𝜏𝑖𝛽 + 𝑧′
𝑖𝑗,𝜏𝑖𝑏𝑖 +𝑚𝑙, 𝑠
2𝑙 ) (3.2.12)
𝑅𝑖𝑗𝑖𝑖𝑑∼ Multinomial(1, 𝑟1, . . . , 𝑟𝐿)
𝑏𝑖𝑖𝑖𝑑∼ Normal𝑞𝑏(0,D)
𝜏𝑎,𝑖𝑖𝑖𝑑∼ Normal(𝜇𝜏 , 𝜎
2𝜏 )1{𝜏𝑎,𝑖 ∈ T}
𝑆𝑖𝑖𝑛𝑑∼ Bernoulli(𝑝𝑖),
∀𝑙 ∈ {1, . . . , 𝐿}, ∀(𝑖, 𝑗) ∈ {1, . . . , 𝑛} × {1, . . . , 𝑛𝑖}, em que 𝜏𝑖 =(𝜏∞,𝑖
)1{𝑆𝑖=0}(𝜏𝑎,𝑖)1{𝑆𝑖=1}
e 𝑝𝑖 =
ℎ−1(𝑤′𝑖𝜆), como apresentado anteriormente.
Considere 𝜃 = (𝛽′,𝜆′, vec(D)′, 𝜇𝜏 , 𝜎𝜏 )′ o vetor de parametros para o caso Binomial. As escolhas
de distribuicoes a priori sao iguais aos da Secao (3.2.1), e a suposicao de independencia mantida.
Assim, a distribuicao 𝜋(𝜃) e da forma (3.2.2), excluindo o termo 1{𝜑 ∈ (0, 𝑢𝜑)}.
Sob a premissa de que qualquer outra variavel, condicionada aos dados aumentados (𝑦,𝑦*) in-
depende dos dados originais 𝑦 em Fruhwirth-Schnatter and Fruhwirth (2007), Fruhwirth-Schnatter
et al. (2009), generaliza-se o resultado para o presente modelo, implicando em 𝜋(𝛾𝑑|𝑦,𝑦*,𝛾−𝛾𝑑) =
𝜋(𝛾𝑑|𝑦*,𝛾−𝛾𝑑) para qualquer parametro 𝛾𝑑 ∈ 𝛾 = {𝛽,𝜆,D, 𝜇𝜏 , 𝜎𝜏 , 𝑏, 𝜏𝑎,𝑆,𝑅}.
Com uso deste resultado, a simulacao das variaveis de locacao 𝛽 e 𝑏 pode ser feita simultanea-
mente, de acordo com as distribuicoes a priori elicitadas. Seja B = (𝛽′, 𝑏′1, . . . , 𝑏′𝑁)
′. A estrategia e
escrever o modelo condicional (3.2.12) na sua forma vetorial, isto e, dadas as variaveis 𝑦*, 𝑅, 𝜃−𝛽,
48
𝜏𝑎 e 𝑆, tem-se para o 𝑖-esimo indivıduo:⎡⎢⎢⎢⎢⎣𝑦*𝑖1 −𝑚𝑅𝑖1
𝑦*𝑖2 −𝑚𝑅𝑖2
...
𝑦*𝑖𝑛𝑖−𝑚𝑅𝑖𝑛𝑖
⎤⎥⎥⎥⎥⎦ =
⎡⎢⎢⎢⎢⎣𝑥′𝑖1,𝜏𝑖
𝑥′𝑖2,𝜏𝑖...
𝑥′𝑖𝑛𝑖,𝜏𝑖
⎤⎥⎥⎥⎥⎦𝛽 +
⎡⎢⎢⎢⎢⎣𝑧′𝑖1,𝜏𝑖
𝑧′𝑖2,𝜏𝑖...
𝑧′𝑖𝑛𝑖,𝜏𝑖
⎤⎥⎥⎥⎥⎦ 𝑏𝑖 +
⎡⎢⎢⎢⎢⎣𝜉𝑖1
𝜉𝑖2...
𝜉𝑖𝑛𝑖
⎤⎥⎥⎥⎥⎦ ,
que e equivalente a
𝑦*𝑖 −𝑚𝑅𝑖
= X𝑖,𝜏𝑖𝛽 + Z𝑖,𝜏𝑖𝑏𝑖 + 𝜉𝑖,
𝜉𝑖|𝑅𝑖 ∼ Normal𝑛𝑖(0,Σ𝑖)
𝛽 ∼ Normal𝑞𝛽(𝜇𝛽,Σ𝛽)
𝑏𝑖 ∼ Normal𝑞𝑏(0,D)
com Σ𝑖 = diag(𝑠2𝑅𝑖1, . . . , 𝑠2𝑅𝑖𝑛𝑖
) e as matrizes possuindo dimensoes(𝑦*𝑖−𝑚𝑖
)𝑛𝑖×1
,(X𝑖,𝜏𝑖
)𝑛𝑖×𝑞𝛽
,(Z𝑖,𝜏𝑖
)𝑛𝑖×𝑞𝑏
.
As observacoes de todos os indivıduos concatenadas ficam da seguinte forma:
Y*𝑚 =
⎡⎢⎢⎢⎢⎣𝑦*1 −𝑚𝑅1
𝑦*2 −𝑚𝑅2
...
𝑦*𝑁 −𝑚𝑅𝑁
⎤⎥⎥⎥⎥⎦ , X𝜏 =
⎡⎢⎢⎢⎢⎣X1,𝜏1
X2,𝜏2...
X𝑁,𝜏𝑁
⎤⎥⎥⎥⎥⎦ , Z𝜏 =𝑁⨁𝑖=1
Z𝑖,𝜏𝑖 e 𝜉 =
⎡⎢⎢⎢⎢⎣𝜉1
𝜉2...
𝜉𝑁
⎤⎥⎥⎥⎥⎦ ,
em que ⊕ e o operador de soma direta entre matrizes. A representacao matricial geral fica, entao:
Y*𝑚 = WB+ 𝜉 (3.2.13)
𝜉|𝑅 ∼ Normal∑𝑁𝑖=1 𝑛𝑖
(0,Σ𝜉)
B ∼ Normal(𝑞𝛽+𝑞𝑏𝑁)(𝜇B,ΣB), em que
W =[X𝜏 Z𝜏
], Σ𝜉 = ⊕𝑁
𝑖=1Σ𝑖, 𝜇B =(𝜇′
𝛽,0′, . . . ,0′)′ e ΣB = Σ𝛽 ⊕
(⊕𝑁
𝑖=1 D
),
em que(Y*
𝑚
)(∑
𝑖 𝑛𝑖)×1e(W)(∑
𝑖 𝑛𝑖)×(𝑞𝛽+𝑞𝑏𝑁). Para o modelo linear geral de regressao multivariada com
erros gaussianos, a expressao da condicional completa de B e amplamente conhecida, e encontrada
por meio de:
𝜋(B|𝑦*,𝑅,𝜃−𝛽, 𝜏𝑎,𝑆) ∝ exp
{− 1
2
[(Y*
𝑚 −WB)′Σ−1
𝜉
(Y*
𝑚 −WB)+(B− 𝜇B
)′Σ−1
B
(B− 𝜇B
)]}∝ exp
{− 1
2
[B′W′Σ−1
𝜉 WB− 2B′W′Σ−1𝜉 Y*
𝑚 +B′Σ−1
B B− 2B′Σ−1
B 𝜇B
]}= exp
{− 1
2
[B′(W′Σ−1
𝜉 W+ Σ−1
B
)B− 2B′(W′Σ−1
𝜉 Y*𝑚 + Σ−1
B 𝜇B)]}
,
que e o nucleo de uma distribuicao gaussiana multivariada. Sendo assim, a condicional completa de
49
B = (𝛽′, 𝑏′1, . . . , 𝑏′𝑁)
′ e da forma
B|(𝑦*,𝑅,𝜃−𝛽,𝜏𝑎,𝑆) ∼ Normal(𝑞𝛽+𝑞𝑏𝑁)
(��*B, Σ
*B),
Σ*B =
(W′Σ−1
𝜉 W+ Σ−1
B
)−1
��*B = Σ*
B
(W′Σ−1
𝜉 Y*𝑚 + Σ−1
B 𝜇B
).
Na pratica, W pode ser esparsa por conta da matriz de desenho dos efeitos aleatorios, Z𝜏 . Sendo
assim, tanto para encontrar a media ��*B como para gerar valores aleatorios da distribuicao gaussiana
multivariada, nao se calcula diretamente a inversa Σ*B, e resolve-se o sistema linear Σ*−1
B ��*B =(
W′Σ−1𝜉 Y*
𝑚 + Σ−1
B 𝜇B
)com uso da fatoracao de Cholesky para encontrar a media a posteriori em
questao.
Como mostrado na Secao 3.1.1, a atualizacao das variaveis auxiliares 𝑦*𝑖𝑗 e 𝑅𝑖𝑗 dar-se-a com base na
condicional completa conjunta 𝜋(𝑅,𝑦*|𝜃, 𝑏, 𝜏𝑎,𝑆,𝑦) = 𝜋(𝑅|𝑦*,𝜃, 𝑏, 𝜏𝑎,𝑆)𝜋(𝑦*|𝜃, 𝑏, 𝜏𝑎,𝑆,𝑦). Ade-
quando a expressao (3.1.6) para o modelo de mistura de regressoes, tem-se, para cada (𝑖, 𝑗) ∈{1, . . . , 𝑁} × {1, . . . , 𝑛𝑖} :
𝜋(𝑅𝑖𝑗 = 𝑙|𝑦*𝑖𝑗,𝜃, 𝑏𝑖, 𝜏(𝑎,𝑖), 𝑆𝑖) ∝𝑟𝑙𝑠𝑙exp
{1
𝑠2𝑙
(𝑦*𝑖𝑗 − 𝑥′
𝑖𝑗,𝜏𝑖𝛽 − 𝑧′
𝑖𝑗,𝜏𝑖𝑏𝑖 −𝑚𝑙
)2}, 𝑙 ∈ {1, . . . , 𝐿},
em que os parametros (𝑟𝑙,𝑚𝑙, 𝑠2𝑙 ),∀𝑙 ∈ {1, . . . , 𝐿} e 𝐿 sao conhecidos e tabelados conforme a quanti-
dade de ensaios 𝐾 das variaveis Binomiais Fruhwirth-Schnatter et al. (2009). As utilidades agregadas
a posteriori ∀(𝑖, 𝑗) ∈ {1, . . . , 𝑁} × {1, . . . , 𝑛𝑖} sao obtidas segundo:
𝑦*𝑖𝑗|(𝜃, 𝑏𝑖, 𝜏(𝑎,𝑖), 𝑆𝑖, 𝑦𝑖𝑗) = −log(𝑈𝑖𝑗
𝛿𝑖𝑗+
𝑉𝑖𝑗1{𝑦𝑖𝑗 < 𝐾}1 + 𝛿𝑖𝑗
),
em que 𝑈𝑖𝑗 ∼ Gamma(𝑦𝑖𝑗, 1), 𝑉𝑖𝑗 ∼ Gamma(𝐾 − 𝑦𝑖𝑗, 1) e 𝛿𝑖𝑗 = exp(𝑥′𝑖𝑗,𝜏𝑖
𝛽 + 𝑧′𝑖𝑗,𝜏𝑖
𝑏𝑖).
Agora, para as quantidades D, 𝜇𝜏 e 𝜎𝜏 e 𝜆, tem-se resultados equivalentes aos da secao 3.2.1:
D|𝜃−D, 𝑏, 𝜏𝑎,𝑆,𝑦*,𝑅 ∼ Inversa Wishart𝑞𝑏
( 𝑁∑𝑖=1
𝑏𝑖𝑏′𝑖 +D0, 𝜈 + 𝑞𝑏
)
𝜎𝜏 |𝜃−𝜎𝜏 , 𝑏, 𝜏𝑎,𝑆,𝑦*,𝑅 ∼
⎯⎸⎸⎷Inversa Gamma
(𝑁
2− 1,
1
2
𝑁∑𝑖=1
(𝜏𝑎,𝑖 − 𝜇𝜏
)2)1{𝜎𝜏 ∈ (0, 𝑢𝜏 )},
𝜇𝜏 |𝜃−𝜇𝜏 , 𝑏, 𝜏𝑎,𝑆,𝑦*,𝑅 ∼ Normal
((∑𝑖 𝜏(𝑎,𝑖)𝜎2𝜏
+��
𝜎2𝜇𝜏
)(𝑁
𝜎2𝜏
+1
𝜎2𝜇𝜏
)−1
,
(𝑁
𝜎2𝜏
+1
𝜎2𝜇𝜏
)−1)1{𝜇𝜏 ∈ T},
𝜋(𝜆|𝜃−𝜆, 𝑏, 𝜏𝑎,𝑆,𝑦*,𝑅) ∝
[ 𝑁∏𝑖=1
[ℎ−1(𝑤′
𝑖𝜆)]𝑆𝑖[1− ℎ−1(𝑤′
𝑖𝜆)]1−𝑆𝑖
]𝑒𝑥𝑝
{− 1
2𝜎2𝜆
𝜆′𝜆
}. (3.2.14)
50
As condicionais completas das componentes aleatorias dos pontos de quebra sao, ∀𝑖 ∈ {1, . . . , 𝑁}:
𝜋(𝜏𝑎,𝑖|𝜃, 𝑏𝑖, 𝑆𝑖,𝑦*𝑖 ,𝑅𝑖) ∝
[ 𝑛𝑖L∏𝑗=1
𝐿∏𝑙=1
(𝑟𝑙𝜑(𝑦
*𝑖𝑗|𝑥′
𝑖𝑗,𝜏𝑖𝛽 + 𝑧′
𝑖𝑗,𝜏𝑖𝑏𝑖 +𝑚𝑙, 𝑠
2𝑙 ))1{𝑅𝑖𝑗=𝑙}
]× 𝑒𝑥𝑝
{− 1
2𝜎2𝜏
(𝜏𝑎,𝑖 − 𝜇𝜏 )2}, 𝜏𝑎,𝑖 ∈ T. (3.2.15)
Analogamente ao caso Beta-Binomial, a alocacao a posteriori dos indivıduos ao grupo com decai-
mento cognitivo acelerado sera dada por uma distribuicao Bernoulli:
𝑆𝑖|𝜃, 𝑏𝑖, 𝜏(𝑎,𝑖),𝑦*𝑖 ,𝑅𝑖 ∼ Bernoulli
(𝑞*𝑖1
𝑞*𝑖1 + 𝑞*𝑖0
),
𝑞*𝑖0 =
[𝑛𝑖∏𝑗=1
𝐿∏𝑙=1
(𝑟𝑙𝑓(𝑦
*𝑖𝑗|𝑅𝑖𝑗 = 𝑙, 𝑏𝑖, 𝑆𝑖 = 0)
)1{𝑅𝑖𝑗=𝑙}][
1− ℎ−1(𝑤′
𝑖𝜆)], (3.2.16)
𝑞*𝑖1 =
[𝑛𝑖∏𝑗=1
𝐿∏𝑙=1
(𝑟𝑙𝑓(𝑦
*𝑖𝑗|𝑅𝑖𝑗 = 𝑙, 𝑏𝑖, 𝜏(𝑎,𝑖), 𝑆𝑖 = 1)
)1{𝑅𝑖𝑗=𝑙}][
ℎ−1(𝑤′
𝑖𝜆)], (3.2.17)
em que
𝑓(𝑦*𝑖𝑗|𝑅𝑖𝑗 = 𝑙, 𝑏𝑖, 𝑆𝑖 = 0) = 𝑙𝑖𝑚𝜏𝑖→+∞
𝜑(𝑦*𝑖𝑗|𝑥′
𝑖𝑗,𝜏𝑖𝛽 + 𝑧′
𝑖𝑗,𝜏𝑖𝑏𝑖 +𝑚𝑙, 𝑠
2𝑙
)e
𝑓(𝑦*𝑖𝑗|𝑅𝑖𝑗 = 𝑙, 𝑏𝑖, 𝜏(𝑎,𝑖), 𝑆𝑖 = 1) = 𝜑(𝑦*𝑖𝑗|𝑥′
𝑖𝑗,𝜏𝑖𝛽 + 𝑧′
𝑖𝑗,𝜏𝑖𝑏𝑖 +𝑚𝑙, 𝑠
2𝑙
)𝜏𝑖=𝜏(𝑎,𝑖)
.
O algoritmo para o modelo de mistura de regressoes com resposta condicional Binomial e resumido
pelo Algoritmo 3.2.
Com as cadeias geradas pelo Algoritmo 3.1 ou 3.2, elimina-se um numero burn de elementos de
cada parametro simulado, para evitar a (possıvel) ma influencia dos valores iniciais. Em seguida, as
cadeias finais sao determinadas mantendo elementos com um numero thin de espacamento, para evi-
tar autocorrelacao alta entre parametros. Assim, o tamanho final das cadeias e de ⌈(𝑀−𝑏𝑢𝑟𝑛)/𝑡ℎ𝑖𝑛⌉.As escolhas de burn e thin variam de acordo com a complexidade do modelo.
Em Fruhwirth-Schnatter (2006), a autora discute diferentes funcoes de perda e seus correspon-
dentes estimadores das alocacoes 𝑆1, . . . , 𝑆𝑁 . A escolha mais adequada e considerar a perda 0-1,
dada por ℒ(𝑆,𝑆) = 0, se todas as alocacoes sao corretas, e ℒ(𝑆,𝑆) = 1, caso contrario. Assim, o
risco integrado fica E[ℒ(𝑆,𝑆)|𝑦] = 1 − P[𝑆1 = 𝑆1, . . . , 𝑆𝑁 = 𝑆𝑁 |𝑦], e e minimizado com a moda a
posteriori de 𝑆. Para todos os outros parametros e efeitos aleatorios, opta-se pela perda absoluta, e
os estimadores Bayesianos serao dados pela mediana das cadeias finais.
51
Saıda: Amostras de tamanho 𝑀 de cada parametro 𝛽1, . . . , 𝛽𝑞𝛽 , 𝜆1, . . . , 𝜆𝑞𝜆 ,D, 𝜇𝜏 , 𝜎𝜏 e dosefeitos aleatorios 𝑆1, . . . , 𝑆𝑁 , 𝜏(𝑎,1), . . . , 𝜏(𝑎,𝑁), 𝑏1, . . . , 𝑏𝑁 .
Valores iniciais: (𝛽(0),𝜆(0),D(0), 𝜇(0)𝜏 , 𝜎
(0)𝜏 , 𝑆
(0)1 , . . . , 𝑆
(0)𝑁 , 𝜏
(0)(𝑎,1), . . . , 𝜏
(0)(𝑎,𝑁), 𝑏
(0)1 , . . . , 𝑏
(0)𝑁 ), 𝑀
Inıcio𝑡← 0;Defina 𝐿, (𝑚𝑙, 𝑠
2𝑙 , 𝑟𝑙),∀𝑙 ∈ {1, . . . , 𝐿} com base em 𝐾, segundo Fruhwirth-Schnatter et al.
(2009).
Defina valores iniciais para as variaveis auxiliares {𝑦*(0)𝑖𝑗 , 𝑅(0)𝑖𝑗 : 𝑗 = 1, . . . , 𝑛𝑖; 𝑖 = 1, . . . , 𝑁.}
Enquanto 𝑡 ≤𝑀 faca
Construa Y*(𝑡)𝑚 ,W(𝑡),Σ
(𝑡)𝜉 ,Σ
(𝑡)
B pelas definicoes em (3.2.13);
A←(W(𝑡)′Σ
(𝑡)𝜉
−1W(𝑡) + Σ
(𝑡)
B−1);
Encontre 𝜇 solucionando o sistema linear A𝜇 =(W(𝑡)′Σ
(𝑡)𝜉
−1Y*(𝑡)
𝑚 + Σ(𝑡)
B−1𝜇B
);
(𝛽(𝑡+1)′, 𝑏(𝑡+1)′1 , . . . , 𝑏
(𝑡+1)′𝑁 )′ ∼ Normal(𝑞𝛽+𝑞𝑏𝑁)(𝜇,A
−1);
D(𝑡+1) ∼ Inversa Wishart𝑞𝑏
(∑𝑁𝑖=1 𝑏
(𝑡)𝑖 𝑏
(𝑡)′𝑖 +D0, 𝜈 + 𝑞𝑏
);
𝜎(𝑡+1)𝜏 ∼
√Inversa Gamma
(𝑁2− 1, 1
2
∑𝑁𝑖=1
(𝜏(𝑡)𝑎,𝑖 − 𝜇
(𝑡)𝜏
)2)1{𝜎𝜏 ∈ (0, 𝑢𝜏 )};
𝜇(𝑡+1)𝜏 ∼ Normal
((∑𝑖 𝜏
(𝑡)(𝑎,𝑖)
𝜎2𝜏(𝑡+1) + ��
𝜎2𝜇𝜏
)(𝑁
𝜎2𝜏(𝑡+1) +
1𝜎2𝜇𝜏
)−1
,
(𝑁𝜎2𝜏+ 1
𝜎2𝜇𝜏
)−1)1{𝜇𝜏 ∈ T};
𝜆(𝑡+1) ∼ 𝜋(𝜆|𝜃(𝑡+1)−𝜆 , 𝑏(𝑡+1), 𝜏
(𝑡)𝑎 ,𝑆(𝑡),𝑦*(𝑡),𝑅(𝑡)) em (3.2.14);
𝑖← 1;𝑗 ← 1;Enquanto 𝑖 ≤ 𝑁 faca
𝜏(𝑡+1)𝑎,𝑖 ∼ 𝜋(𝜏𝑎,𝑖|𝜃(𝑡+1), 𝑏
(𝑡+1)𝑖 , 𝑆
(𝑡)𝑖 ,𝑦
*(𝑡)𝑖 ,𝑅
(𝑡)𝑖 ) em (3.2.15);
𝑆(𝑡+1)𝑖 ∼ Bernoulli
(𝑞*𝑖1
𝑞*𝑖1+𝑞*𝑖0
)com 𝑞*𝑖0 e 𝑞*𝑖1 dados por (3.2.16) e (3.2.17);
Enquanto 𝑗 ≤ 𝑛𝑖 faca
𝛿𝑖𝑗 = exp(𝑥′𝑖𝑗,𝜏
(𝑡+1)𝑖
𝛽(𝑡+1) + 𝑧′𝑖𝑗,𝜏
(𝑡+1)𝑖
𝑏(𝑡+1)𝑖 );
Se 𝑦𝑖𝑗 = 𝐾 entao𝑉𝑖𝑗 ← 0
Senao𝑉𝑖𝑗 ∼ Gamma(𝐾 − 𝑦𝑖𝑗, 1)
𝑈𝑖𝑗 ∼ Gamma(𝐾, 1);
𝑦*(𝑡+1)𝑖𝑗 ← −log
(𝑈𝑖𝑗
1+𝛿𝑖𝑗+
𝑉𝑖𝑗
𝛿𝑖𝑗
);
𝑟*𝑙 ←𝑟𝑙𝑠𝑙exp
{1
2𝑠2𝑙
(𝑦*(𝑡+1)𝑖𝑗 −𝑥′
𝑖𝑗,𝜏(𝑡+1)𝑖
𝛽(𝑡+1)−𝑧′𝑖𝑗,𝜏
(𝑡+1)𝑖
𝑏(𝑡+1)𝑖 −𝑚𝑙
)2}, 𝑙 ∈ {1, . . . , 𝐿};
𝑟*𝑙 ← 𝑟*𝑙 /(∑
𝑙 𝑟*𝑙
), 𝑙 ∈ {1, . . . , 𝐿};
𝑅(𝑡+1)𝑖𝑗 ∼ Multinomial(1, 𝑟*1, . . . , 𝑟
*𝐿);
𝑡← 𝑡+ 1;
Fim
Algoritmo 3.2: Amostrador de Gibbs para modelo proposto com distribuicao Binomial pararespostas condicionais.
52
Capıtulo 4
Estudo de Simulacao
Nesta secao, por meio da aplicacao do modelo proposto na Secao 2.3 (estrutura (2.3.1)) a dados
simulados da distribuicao Binomial, avalia-se a performance da estimacao de parametros pelo Al-
goritmo 3.2. Para cada caso de variavel resposta, e de interesse verificar a influencia dos seguintes
fatores nas estimativas: (i) - proporcao de indivıduos em cada grupo da mistura de regressoes (𝐺1-
decaimento dos escores a taxa constante e 𝐺2- componente com declınio acelerado); (ii) - magnitude
do coeficiente 𝛽 que produz o declınio acelerado e (iii) - quantidade de respostas por indivıduos ao
longo do tempo.
Os bancos de dados relacionados a estudos prospectivos com coortes de idosos contem, em geral,
centenas de indivıduos observados ao longo do tempo. Em particular, dois exemplos destes dados que
utilizam o questionario de avaliacao da habilidade cognitiva MMSE (Mini Mental Status Examina-
tion) sao compostos por 656 (OCTO-Twin McClearn et al. (1997)) e 1163 (Rush Memory and Aging
Project Bennett et al. (2005a)) idosos acompanhados ate a morte. Baseado nessas quantidades, mas
pensando num caso mais conservador, foi fixado um tamanho de amostra 𝑁 = 500.
Outro aspecto importante a ser considerado em modelos longitudinais e o numero de vezes que
cada participante respondeu o questionario com o passar dos anos. Nos mesmos exemplos apontados
acima, temos numero maximo de respostas por indivıduo iguais a 5 para o OCTO-Twin e 19 para
o Rush Memory and Aging Project. Assim, consideraremos casos balanceados com 𝐽 = 5 e 𝐽 = 10
medidas repetidas das unidades experimentais.
As demais caracterısticas a serem avaliadas - a proporcao de indivıduos em cada componente da
mistura e a magnitude do efeito apos a ocorrencia do ponto de quebra - sao alteradas de acordo com
tres configuracoes dos parametros 𝜆 e 𝛽 nas expressoes (2.3.2) e (2.3.3). Os valores escolhidos sao
apresentados na continuacao deste capıtulo. Assim, tem-se 18 combinacoes de parametros e tamanhos
amostrais para a simulacao dos escores e covariaveis (3 distincoes do efeito fixo da covariavel (𝑡𝑖𝑗−𝜏𝑖)+,3 distincoes de 𝜆 e 2 casos de medidas repetidas). Com cada uma destas combinacoes, sao gerados
100 conjuntos de dados para calcular medidas de qualidade do metodo de modelagem escolhido.
53
4.1 Configuracoes de parametros e exemplos de dados si-
mulados
Considere dem𝑖,∀𝑖 ∈ {1, . . . , 𝑁} uma variavel explicativa dicotomica que simula o diagnostico de
demencia. Os preditores da probabilidade de acerto das questoes e da probabilidade de alocacao nos
grupos 𝐺1 e 𝐺2 sao gerados com o preditor nao linear em 𝑡, o Broken-Stick (2.2.1), por meio de:
log
(𝜇𝑖𝑗
1− 𝜇𝑖𝑗
)= 𝛽1 + 𝑏𝑖 + 𝛽2min(𝑡𝑖𝑗, 𝜏𝑖) + 𝛽3 (𝑡𝑖𝑗 − 𝜏𝑖)
+ + 𝛽4 dem𝑖 (4.1.1)
log
(𝑝𝑖
1− 𝑝𝑖
)= 𝜆1 + 𝜆2dem𝑖, (4.1.2)
em que 𝜏𝑖 =(𝜏∞,𝑖
)1{𝑆𝑖=0}(𝜏𝑎,𝑖)1{𝑆𝑖=1}
. As demais variaveis sao simuladas de acordo com
𝑌𝑖𝑗|𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖𝑖𝑛𝑑∼ Binomial(𝐾,𝜇𝑖𝑗) (4.1.3)
𝜏𝑎,𝑖𝑖𝑖𝑑∼ Normal(𝜇𝜏 , 𝜎
2𝜏 )1{𝜏𝑎,𝑖 ∈ T}
𝑏𝑖𝑖𝑖𝑑∼ Normal(0, 𝜎2
𝑏 )
𝑆𝑖𝑖𝑛𝑑∼ Bernoulli(𝑝𝑖),
∀(𝑖, 𝑗) ∈ {1, . . . , 𝑁} × {1, . . . , 𝐽}. Os seguintes parametros tem valores fixos para todas as confi-
guracoes: 𝜎2𝑏 = 1, 5, 𝜇𝜏 = −5, 𝜎2
𝜏 = 1, 𝛽1 = 2, 5, 𝛽2 = −0, 2 e 𝛽4 = −1. As demais quantidades
assumem os seguintes valores:
∙ Questionarios por indivıduo: 𝐽 ∈ {5, 10};
∙ Proporcao de pessoas nos grupos 𝐺2, determinados por 𝜆′ ∈ {(−1,−4), (0, 0), (3,−1)}, corres-pondentes a proporcoes medias de 13,72%, 50,00% e 91,61% dos indivıduos, respectivamente,
dentro da componente com declınio acelerado (estes foram os valores observados dos bancos de
dados simulados no caso Binomial);
∙ Magnitude do efeito apos ponto de quebra: 𝛽3 ∈ {−2, 5;−1, 5;−0, 5}. Estas escolhas levam a
um aumento relativo com respeito ao decaimento linear no tempo (𝛽3/𝛽2) iguais a 12,5, 7,5 e
2,5 vezes, respectivamente.
Exemplos acerca das diferentes configuracoes de parametros sao dados na Figura 4.1.
Acerca da configuracao das rodadas MCMC, optou-se por gerar, inicialmente, duas cadeias com
burn-in de 100 mil pontos, seguido de 100 mil iteracoes com espacamento de 100, resultando assim
em amostras a posteriori de tamanho 1000 para cada parametro. Com estes numeros de iteracoes,
entretanto, nem todos os ajustes convergiram. Assim, para atingir o numero desejado de 100 ajustes
em cada configuracao, rodadas adicionais foram feitas com duas cadeias e burn-in de 300 mil pontos,
54
Grupo decaimento linear Grupo decaimento aceleradoβ
3=
−2,5
β3
=−
1,5
β3
=−
0,5
−9 −8 −7 −6 −5 −4 −3 −2 −1 0 −9 −8 −7 −6 −5 −4 −3 −2 −1 0
10
50
90
10
50
90
10
50
90
Tempo até a morte
Es
co
re s
imu
lad
o
Figura 4.1: Exemplo de dados fictıcios gerados pela estrutura (4.1.3). Em todos os casos, a proporcaode indivıduos em cada grupo foi gerada com 𝜆 = (0, 0)′ na expressao (4.1.2) e os efeitos do preditor(4.1.1) iguais a 𝛽 = (1, 5;−0, 2; 𝛽3;−1)′. Na primeira linha, 𝛽3 = −2, 5; na linha central, 𝛽3 = −1, 5;e na ultima linha, 𝛽3 = −0, 5.
seguido de 100 mil iteracoes com espacamento de 100. Este procedimento foi suficiente para obter
os resultados a respeito da simulacao com distribuicao Binomial (exceto para a configuracao 𝐽 =
5, 𝐺2 pequeno e 𝛽3 = −0, 5).
4.2 Medidas para avaliacao das cadeias geradas e suas esti-
mativas
Um importante diagnostico realizado na estimacao de modelos Bayesianos diz respeito a con-
vergencia das cadeias geradas por metodos MCMC para a verdadeira distribuicao estacionaria. Au-
tores como Ripley (2009), Gelfand and Smith (1990) ja discutiam o problema, mas somente com
solucoes qualitativas e, portanto, com reproducibilidade comprometida. Gelman and Rubin (1992),
entretanto, propoem uma ferramenta precisa e que pode ser aplicada em configuracoes MCMC bas-
tante gerais. Este e chamado fator potencial de reducao de escala, comumente conhecido como
55
Estatıstica R, calculada relacionando as variancias das cadeias independentes de um parametro com
as variancias globais:
R =
√1 +
1
𝐻
(𝐵
𝑊− 1
),
𝐵 =𝐻
(𝐶 − 1)
𝐶∑𝑐=1
(𝜃𝑐. − 𝜃..
)2, 𝑊 =
1
𝐶
𝐶∑𝑐=1
(1
(𝐻 − 1)
𝐻∑ℎ=1
(𝜃𝑐,ℎ − 𝜃𝑐.)2
),
em que 𝜃𝑐,ℎ e ℎ−esimo valor do parametro univariado na 𝑐-esima cadeia, 𝜃𝑐. = (1/𝐻)∑𝐻
ℎ=1 𝜃𝑐,ℎ
(media em cada cadeia) e 𝜃.. = (1/𝐶𝐻)∑𝐻
ℎ=1
∑𝐶𝑐=1 𝜃𝑐,ℎ (media geral concatenando cadeias), com 𝐶
sendo a quantidade de cadeias independentes geradas e 𝐻 o numero de iteracoes finais apos burn-in
e composicao da cadeia com o espacamento desejado.
Conforme a estatıstica R e seu limite superior de confianca se aproximam de 1, o poder para
assumir que o parametro convergiu para sua verdadeira distribuicao estacionaria em todas as cadeias
geradas aumenta. Neste estudo de simulacao, o criterio para assumir que a cadeia de um parametro
convergiu foi de que sua estatıstica R estivesse proxima por menos de 0,1 em valor absoluto, isto
e, para o 𝑘-esimo parametro univariado 𝜃𝑘, caso R𝜃𝑘 < 1, 1, acredita-se que a cadeia obtida vem da
verdadeira distribuicao estacionaria.
Os efeitos fixos serao avaliados pelas tradicionais medidas de erro quadratico medio (EQM) e
probabilidade de cobertura (PC), dadas por:
EQM(𝜃) =1
𝑀
𝑀∑𝑚=1
(𝜃(𝑚) − 𝜃𝑣)2, (4.2.1)
PC𝛼(𝜃) =1
𝑀
𝑀∑𝑚=1
1{𝜃𝑣 ∈ [𝜃(𝑚)𝛼/2 ; 𝜃
(𝑚)1−𝛼/2]}, (4.2.2)
em que 𝑀 e a quantidade de conjuntos de dados simulados, 𝜃(𝑚) e o estimador Bayesiano da 𝑚-
esima simulacao sob funcao de perda absoluta para todo parametro verdadeiro 𝜃𝑣 ∈ {𝛽0, . . . , 𝛽𝑞𝛽} ∪{𝜆0, . . . , 𝜆𝑞𝜆 , 𝜎𝑏, 𝜇𝜏 , 𝜎𝜏 , 𝜑}; e [𝜃
(𝑚)𝛼/2 ; 𝜃
(𝑚)1−𝛼/2] representa o intervalo de credibilidade de nıvel 𝛼 para
o parametro 𝜃. Os efeitos aleatorios da media dos escores, 𝑏1, . . . , 𝑏𝑁 , e os pontos de quebra
𝜏(𝑎,1), . . . , 𝜏(𝑎,𝑁) nao serao avaliados diretamente, mas somente pelos parametros que os caracteri-
zam - 𝜎𝑏, 𝜇𝜏 e 𝜎𝜏 , com as medidas EQM e PC.
Por outro lado, com as alocacoes 𝑆(𝑚)1 , . . . , 𝑆
(𝑚)𝑁 provenientes da 𝑚-esima simulacao, pode-se
verificar a sensibilidade da classificacao de acordo com os fatores de interesse mencionados. Uma
maneira de o fazer e coletar a matriz de confusao Fawcett (2006) para cada modelo ajustado e obter
as taxas de verdadeiros positivos (TVP) e de falsos positivos (TFP), alem da acuracia (AC):
TVP(𝑆(𝑚)1 , . . . , 𝑆
(𝑚)𝑁 ) =
∑𝑁𝑖=1 1{𝑆
(𝑚)𝑖 = 0 e 𝑆
(𝑚)𝑖,𝑣 = 0}∑𝑁
𝑖=1 1{𝑆(𝑚)𝑖 = 0 e 𝑆
(𝑚)𝑖,𝑣 = 0}+
∑𝑁𝑖=1 1{𝑆
(𝑚)𝑖 = 1 e 𝑆
(𝑚)𝑖,𝑣 = 0}
, (4.2.3)
56
TFP(𝑆(𝑚)1 , . . . , 𝑆
(𝑚)𝑁 ) =
∑𝑁𝑖=1 1{𝑆
(𝑚)𝑖 = 0 e 𝑆
(𝑚)𝑖,𝑣 = 1}∑𝑁
𝑖=1 1{𝑆(𝑚)𝑖 = 0 e 𝑆
(𝑚)𝑖,𝑣 = 1}+
∑𝑁𝑖=1 1{𝑆
(𝑚)𝑖 = 1 e 𝑆
(𝑚)𝑖,𝑣 = 1}
, (4.2.4)
AC(𝑆(𝑚)1 , . . . , 𝑆
(𝑚)𝑁 ) =
1
𝑁
𝑁∑𝑖=1
[1{𝑆(𝑚)
𝑖 = 0 e 𝑆𝑖,𝑣 = 0}+ 1{𝑆(𝑚)𝑖 = 1 e 𝑆𝑖,𝑣 = 1}
], (4.2.5)
em que 𝑆(𝑚)1,𝑣 , . . . , 𝑆
(𝑚)𝑁,𝑣 sao as verdadeiras alocacoes para a 𝑚-esima simulacao. De maneira geral,
pode-se avaliar tambem a media geral de acertos das classificacoes dentre as 𝑀 simulacoes em cada
configuracao de parametros, pela acuracia media (ACM), com
ACM =1
𝑀
𝑀∑𝑚=1
AC(𝑆(𝑚)1 , . . . , 𝑆
(𝑚)𝑁 ). (4.2.6)
Acredita-se que a classificacao erronea mais grave (equivalente ao conceito de Erro Tipo I em
testes de hipoteses Casella and Berger (2002)) e nao indicar o declınio acelerado para um indivıduo
quando este se faz presente, isto e, classifica-lo no grupo 𝐺1, dado que pertence ao grupo 𝐺2. Num
contexto clınico, este erro pode incorrer na falta de cuidados adicionais a um idoso que possivelmente
necessita deles. Por outro lado, classificar uma pessoa como tendo o declınio acelerado quando nao
se faz presente e um erro mais ameno.
Dados os resultados das simulacoes, o modelo ajustado sera considerado melhor conforme as
quantidades EQM (4.2.1) e TFP (4.2.4) diminuem, e a medida que PC (4.2.2), TVP (4.2.3) e AC
(4.2.5) crescem.
4.3 Resultados das simulacoes
A estimacao dos modelos Bayesianos foi feita no software Just Another Gibbs Sampler - JAGS
versao 4.3.0, processado dentro do software R, versao 3.4.3 com o pacote rjags Plummer (2016).
Embora tenha-se optado por gerar duas cadeias para cada MCMC por banco de dados gerado, as
rodadas independentes nao foram paralelizadas. Os ajustes foram feitos em computadores Intel Xeon
2,40GHz com 251Gb RAM e Intel Core i7 3,33GHz com 15Gb RAM. Para os modelos com 𝐽 = 5
medidas repetidas, o tempo de modelagem (cada ajuste) foi cerca de 8 horas, enquanto para 𝐽 = 10,
cerca de 16 horas (burn-in de 300 mil, seguidos de 100 mil iteracoes).
Diferentemente da secao de modelagem do banco de dados real, em nenhuma configuracao de
parametros foi necessario fornecer pontos iniciais mais especıficos do que valores aleatorios. Os
ajustes apresentados sao compostos por cadeias de tamanho 200 ou 400 mil com espacamento de
100 ındices. Esta disparidade surge por conta da necessidade de rodadas adicionais para os casos
em que nao se obtiveram 100 representantes de cada configuracao. Para aferir a convergencia dos
algoritmos MCMC, utilizou-se a regra R𝜃𝑘 < 1, 1. Os resultados das medidas de qualidade de ajuste
57
sao apresentados nas figuras 4.2, 4.3 e 4.4.
As estimativas dos parametros em (4.2.1) foram obtidas pela mediana a posteriori. Na Figura
4.2 ve-se, claramente, que e mais difıcil ser assertivo nos efeitos fixos de variaveis preditoras da
probabilidade de alocacao nos grupos 𝐺1 e 𝐺2. Em particular, para o parametro 𝜆2, que e o coeficiente
para a presenca de demencia no preditor da probabilidade de alocacao, tem-se maior desvio do caso
nao viciado. Este fato nao ocorre necessariamente por se ter caudas muito pesadas (portanto, que
influenciem a estimativa pontual do parametro), visto que as probabilidades de cobertura desta
medida comportam-se bem (Figura 4.3). Sendo assim, credita-se as aparentes diferencas um vies
intrınseco. Ainda para 𝜆2 e, adicionalmente, para o intercepto da probabilidade de alocacao, 𝜆1, e
aparente que nos casos em que o numero de indivıduos no grupo de decaimento acelerado 𝐺2 e grande
ou pequeno, ha um maior vıcio nas estimativas pontuais. Isto pode ocorrer porque os ajustes para
quaisquer configuracoes de parametros foram feitos com base na funcao logito: ℎ(𝑝𝑖) = log(𝑝𝑖/(1−𝑝𝑖)).Assim, por mais que os dados tenham sido gerados pela funcao logito, especificar outra ligacao
assimetrica (veja 2.1) pode melhorar os ajustes. Todos os outros parametros apresentam desempenho
bastante satisfatorio.
Sobre as probabilidades de cobertura na Figura 4.3, nao ha padroes de melhoria aparentes con-
forme mudancas nas configuracoes de parametros. Quando estimados modelos com 200 mil iteracoes,
notou-se a recorrencia de probabilidades de cobertura baixas para 𝛽3 ∈ {−2, 5;−0, 5} com 𝐽 = 10.
A este comportamento indesejado, atribuiu-se a causa dos valores discrepantes um efeito de confun-
dimento entre 𝛽1 e (𝑏1, . . . , 𝑏𝑁). Esta caracterıstica foi amenizada com o aumento da quantidade de
iteracoes para 400 mil. Adicionalmente, para os parametros 𝛽1, 𝛽3, 𝜆1, 𝜎𝑏 nao se ve melhoria relevante
na cobertura a nıvel 95% ao aumentar o numero de medidas repetidas das unidades experimentais.
As estimativas das alocacoes {𝑆1, . . . , 𝑆𝑁} nos grupos 𝐺1 e 𝐺2 foram obtidas pela moda a posteri-
ori, de acordo com sugestao em Fruhwirth-Schnatter (2006) para modelos de mistura finita. Apesar
dos parametros 𝜆1 e 𝜆2 mostrarem os maiores erros quadraticos medios ao longo da estimacao (Figura
4.2), este fato nao parece ter prejudicado a correta estimacao da alocacao das unidades experimentais.
Ve-se pela Figura 4.4 que todas as configuracoes com 𝛽3 ∈ {−2, 5;−1, 5} e 𝛽3 = −0, 5 para 𝐺2 medio
tem alocacoes excelentes. O pior caso acontece para 𝛽3 = 0, 5 e 𝐺2 pequeno, pois ha um aumento na
Taxa de Falsos Positivos (4.2.4), que indica o pior erro de classificacao: alocar um indivıduo em 𝐺1
quando na verdade pertence a 𝐺2. De certa forma, dada a dificuldade de estimacao e assertividade
do modelo para o caso com 𝐺2 pequeno, este resultado era esperado. Para 𝐺2 grande, o aumento na
Taxa de Verdadeiros Positivos (4.2.3) reflete um erro mais ameno, de alocar um indivıduo no grupo
com decaimento acelerado quando esta caracterıstica nao e verificada. Em ambos os casos, pode ser
que a alocacao melhore com a especificacao de funcoes de ligacao assimetrica em ℎ(𝑝𝑖) para os casos
notadamente nao balanceados em termos da proporcao de indivıduos em 𝐺1 e 𝐺2.
A falta de exemplos com convergencia aferida para a configuracao 𝐽 = 5, 𝐺2 pequeno e 𝛽3 = −0, 5nao e de todo inusitada. Neste caso, torna-se particularmente difıcil de se obter resultados bons para
o modelo proposto de misturas: em termos da geracao dos dados, ele tem o efeito mais sutil de
58
decaimento acelerado apos o ponto de quebra 𝜏 (Figura 4.1); enquanto em termos de ajuste possui
poucas observacoes longitudinais (𝐽 = 5) e poucos indivıduos com a informacao do ponto de quebra
para conseguir estimar os parametros a ele associados (𝜇𝜏 , 𝜎𝜏 , 𝜆1, 𝜆2, 𝜏𝑖, 𝑆𝑖).
De maneira geral, aprende-se pelo estudo de simulacao que o modelo de mistura com pontos de
quebra aleatorios proposto deve ser utilizado de maneira cautelosa, isto e, sugere-se que esta espe-
cificacao seja aplicada quando haja de fato indıcios graficos de um declınio acelerado na variavel
que mede cognicao para um grupo medio/grande de unidades experimentais. O modelo nao e indi-
cado para bancos de dados com baixo numero (≤ 5) de observacoes longitudinais dos participantes.
Adicionalmente, na pratica, ao mesmo tempo que parametrizar a probabilidade de alocacao 𝑝𝑖 com
covariaveis pode ser bastante informativo, estes novos efeitos possuem convergencia demorada. Uma
opcao e aplicar primeiro a mistura com pontos de quebra para 𝑆𝑖𝑖𝑖𝑑∼ Bernoulli(𝑝) e, caso aparente ser
uma postulacao valida, avaliar o caso nao identicamente distribuıdo para a variavel latente 𝑆𝑖.
59
β1 β2 β3 βdem λ1 λ2µτ στ σb
5 m
ed
idas
rep
etid
as
10 m
ed
idas
rep
etid
as
−2.5 −1.5 −0.5 −2.5 −1.5 −0.5 −2.5 −1.5 −0.5 −2.5 −1.5 −0.5 −2.5 −1.5 −0.5 −2.5 −1.5 −0.5 −2.5 −1.5 −0.5 −2.5 −1.5 −0.5 −2.5 −1.5 −0.5
0.0
0.5
1.0
0.0
0.5
1.0
β3
Err
o Q
ua
drá
tic
o M
éd
io
G2 Pequeno Medio Grande
Figura 4.2: Graficos dos erros quadraticos medios (4.2.1), estratificados pelas caracterısticas de interesse: magnitude do efeito apos o ponto dequebra (𝛽3 ∈ {−2, 5;−1, 5;−0, 5}), proporcao de indivıduos no grupo de mistura com decaimento acelerado (𝐺2 ∈ {Pequeno, Medio,Grande} ≈{14%, 50%, 92%}) e quantidade de medidas repetidas ao longo do tempo simulado (𝐽 ∈ {5, 10}).
60
β1 β2 β3 βdem λ1 λ2µτ στ σb
5 m
ed
idas
rep
etid
as
10 m
ed
idas
rep
etid
as
−2.5 −1.5 −0.5 −2.5 −1.5 −0.5 −2.5 −1.5 −0.5 −2.5 −1.5 −0.5 −2.5 −1.5 −0.5 −2.5 −1.5 −0.5 −2.5 −1.5 −0.5 −2.5 −1.5 −0.5 −2.5 −1.5 −0.5
0.80
0.85
0.90
0.95
1.00
0.80
0.85
0.90
0.95
1.00
β3
Pro
ba
bil
ida
de
de
Co
be
rtu
ra 9
5%
G2 Pequeno Medio Grande
Figura 4.3: Graficos das probabilidades de cobertura (4.2.2) com 95% de confianca, estratificados pelas caracterısticas de interesse: magnitudedo efeito apos o ponto de quebra (𝛽3 ∈ {−2, 5;−1, 5;−0, 5}), proporcao de indivıduos no grupo de mistura com decaimento acelerado (𝐺2 ∈{Pequeno,Medio,Grande} ≈ {14%, 50%, 92%}) e quantidade de medidas repetidas ao longo do tempo simulado (𝐽 ∈ {5, 10}).
61
ACM = 1
ACM = 1
ACM = 1
ACM = 1
ACM = 1
ACM = 1
ACM = 1
ACM = 1
ACM = 1
ACM = 1
ACM = 1
ACM = 1
ACM = NA
ACM = 0.933
ACM = 0.969
ACM = 0.977
ACM = 0.955
ACM = 0.979
β3 = −2,5 β3 = −1,5 β3 = −0,5P
eq
ue
no
J=
5
Me
dio
J=
5
Gra
nd
e
J=
5
Pe
qu
en
o
J=
10
Me
dio
J=
10
Gra
nd
e
J=
10
0.00 0.25 0.50 0.75 1.000.00 0.25 0.50 0.75 1.000.00 0.25 0.50 0.75 1.00
0.00
0.25
0.50
0.75
1.00
0.00
0.25
0.50
0.75
1.00
0.00
0.25
0.50
0.75
1.00
0.00
0.25
0.50
0.75
1.00
0.00
0.25
0.50
0.75
1.00
0.00
0.25
0.50
0.75
1.00
Taxa de Falsos Positivos
Ta
xa
de
Ve
rda
de
iro
s P
os
itiv
os
Figura 4.4: Graficos de dispersao entre a Taxa de Verdadeiros Positivos (4.2.3) vs Taxa de FalsosPositivos (4.2.4), estratificados pelas caracterısticas de interesse: magnitude do efeito apos o pontode quebra (𝛽3 ∈ {−2, 5;−1, 5;−0, 5}), proporcao de indivıduos no grupo de mistura com decaimentoacelerado (𝐺2 ∈ {Pequeno,Medio,Grande} ≈ {14%, 50%, 92%}) e quantidade de medidas repetidasao longo do tempo simulado (𝐽 ∈ {5, 10}). Adicionalmente, apresenta-se a Acuracia Media - ACM(4.2.6) para cada configuracao.
4.4 Consideracoes sobre o caso Beta-Binomial
Durante o estudo de simulacao para a distribuicao Binomial, viu-se que 400 mil simulacoes era
um numero suficiente para se ter convergencia em parte razoavel dos bancos de dados gerados sob
diferentes configuracoes de parametros. Entretanto, para o caso Beta-Binomial, este numero cresce
consideravelmente, impossibilitando a replicacao de modelos e ajustes diversas vezes. Sendo as-
62
sim, mostra-se nesta secao apenas um ajuste obtido com resultados satisfatorios e discutem-se as
difererencas das duas abordagens.
Considere as mesmas formulacoes em (4.1.1) e (4.1.2). Agora, as variaveis sao simuladas de acordo
com 𝑌𝑖𝑗| 𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖𝑖𝑛𝑑∼ Beta-Binomial(𝐾,𝜑𝜇𝑖𝑗, 𝜑 (1 − 𝜇𝑖𝑗)) no lugar de (4.1.3), ∀(𝑖, 𝑗) ∈ {1, . . . , 𝑁} ×
{1, . . . , 𝐽}. Os parametros recebem valores 𝜎2𝑏 = 1, 5, 𝜇𝜏 = −5, 𝜎2
𝜏 = 1, 𝛽1 = 2, 5, 𝛽2 = −0, 2,𝛽4 = −1 e 𝜑 = 10. A quantidade 𝜑 = 10 foi escolhida de modo que a distribuicao Beta-Binomial fosse
unimodal, e consideravelmente mais dispersa do que a Binomial (valores 𝜑 ≥ 50 tornam as funcoes
de probabilidade bastante semelhantes). Alem disso, fixaram-se as caracterısticas de interesse em
𝐽 = 5, 𝛽3 = −1, 5 e 𝜆 = (0, 0)′.
Esta configuracao e considerada um dos casos mais faceis (dentro do grupo 𝐽 = 5) de se atingir
a convergencia dos parametros, segundo resultados da distribuicao Binomial. Processado no mesmo
computador Intel Xeon 2,40GHz com 251Gb RAM, este ajuste contou com 1 milhao de iteracoes
(burn-in de 900 mil seguido de 100 mil com espacamento de 100 ındices) para convergir e demorou
98,84 horas de processamento (o ajuste Binomial com mesmas configuracoes levou cerca de 8 horas).
Esta gritante diferenca nao e atribuıda ao fato de ter que simular o novo parametro 𝜑 | · · · , mas se
deve a perda do vantajoso amostrador de Gibbs com variaveis auxiliares para a regressao Binomial
logıstica descrito na Secao 3.1.1.
Apesar disso, a recuperacao das quantidades simuladas do modelo Beta-Binomial e correta. As
densidades a posteriori, bem como as series temporais das cadeias sao mostradas nas figuras 4.5 e
4.6:
φ
9 10 11 12 13
0.0
0.4
στ
0.8 1.0 1.2 1.4 1.6
01
23
4
σb
1.0 1.1 1.2 1.3 1.4
02
46
µτ
−5.6 −5.4 −5.2 −5.0 −4.8 −4.6
0.0
1.5
3.0
λ1
−0.6 −0.4 −0.2 0.0 0.2 0.4
0.0
1.0
2.0
3.0
λ2
0.0 0.5 1.0
0.0
1.0
2.0
β1
2.4 2.6 2.8 3.0 3.2
0.0
1.5
3.0
β2
−0.24 −0.22 −0.20 −0.18 −0.16
010
30
β3
−1.65 −1.60 −1.55 −1.50 −1.45 −1.40
04
812
βdem
−1.8 −1.6 −1.4 −1.2 −1.0 −0.8
0.0
1.5
3.0
Figura 4.5: Densidades a posteriori para simulacao do modelo Beta-Binomial com 𝐽 = 5, 𝐺2 medioe 𝛽3 = −1, 5.
63
φ
900000 940000 980000
911
13
στ
900000 940000 980000
1.0
1.4
σb
900000 940000 980000
1.0
51.2
01.3
5
µτ
900000 940000 980000
−5.4
−5.0
λ1
900000 940000 980000
−0.6
−0.2
0.2
λ2
900000 940000 980000
−0.2
0.4
1.0
β1
900000 940000 980000
2.6
3.0
β2
900000 940000 980000
−0.2
4−
0.1
8
β3
900000 940000 980000
−1.6
0−
1.4
5
βdem
900000 940000 980000
−1.6
−1.2
−0.8
Figura 4.6: Historico das cadeias a posteriori para simulacao do modelo Beta-Binomial com 𝐽 = 5,𝐺2 medio e 𝛽3 = −1, 5.
64
Capıtulo 5
Aplicacao do Modelo em Dados Reais
Nesta secao aplica-se o modelo proposto em (2.3) a um dos estudos prospectivos que motiva a
analise da habilidade cognitiva em idosos: o Rush Memory and Aging Project. Todas as informacoes
por vir acerca deste projeto, quando nao indicadas por outras referencias, sao baseadas nos artigos
Bennett et al. (2005a, 2012). Antes do ajuste propriamente dito na Secao 5.3, apresentaremos a
descricao desta coorte e uma analise descritiva das variaveis utilizadas em 5.1 e 5.2, respectivamente.
Comumente, e de interesse avaliar e quantificar relacoes entre o diagnostico de demencias e fatores
de risco, tanto geneticos como comportamentais. Em especıfico, entende-se por demencias as doencas
neurologicas que afetam a memoria e habilidades cognitivas em diversos nıveis. Um frequente objeto
de estudo, por exemplo, e a Doenca de Alzheimer: um caso particular de demencia que acontece
majoritariamente em idosos e deteriora progressivamente a memoria de curto e medio prazos. Alem
desta, diagnostico de outras doencas como a Demencia com Corpos de Lewy Schneider et al. (2004)
e acontecimentos como o Acidente Vascular Cerebral (AVC) sao levados em conta para estudar os
cenarios clınicos de uma maneira mais geral.
Os fatores de risco mencionados diferem amplamente em escala. Alguns deles sao facilitadores
anatomicos para o surgimento das doencas, como o acumulo (ou formacao) de proteınas com funcoes
degeneradas em locais do cerebro Bennett et al. (2005b), ao passo que outros sao caracterısticas
comportamentais dos indivıduos, tais como depressao, desordens psicologicas e ate o seu nıvel de
educacao Bennett et al. (2003, 2004). Num cenario platonico, seria desejavel encontrar relacoes
causais entre fatores de risco e doencas. Entretanto, considerando que atualmente e impossıvel
descobrir tais efeitos determinısticos, por conta da variabilidade intrınseca dos atributos, o interesse
e voltado para o estudo de associacoes entre eles. Aliado a isso, surge um conceito heurıstico bastante
destacado na area em questao: a reserva neural ou reserva cognitiva. Esta e entendida como a
justificativa para quando demencias nao se manifestam, mesmo com quadros clınicos graves (como o
acumulo das proteınas degeneradas no cerebro). Assim, acredita-se que atividades fısicas, cerebrais
(por meio de leitura e nao sedentarismo da mente) e estudos constantes atrasem algumas patologias
neurologicas Katzman et al. (1988), Scarmeas and Stern (2004), Staff et al. (2004).
65
Nos Estados Unidos, os gastos anuais inerentes aos cuidados dos pacientes com algum tipo de
demencia podem exceder 100 bilhoes de dolares, dentre enfermeiros, terapias e remedios. Alem
disso, de acordo com Hebert et al. (2003), espera-se que o numero de indivıduos com Doenca de
Alzheimer no mesmo paıs triplique ate meados dos anos 2050. Ha um consenso, entao, assim como
com qualquer outra patologia, de que se deve tomar medidas preventivas eficazes para retardar ou
eliminar o surgimento destas desordens cognitivas. Para satisfazer esta polıtica, se faz necessario o
entendimento quantitativo da relacao entre os fatores de risco e as demencias.
5.1 Rush Memory and Aging Project
O objetivo a longo prazo dos pesquisadores responsaveis ao iniciar o Rush Memory and Aging
Project (em 1997) era identificar, apos a morte dos indivıduos, os ındices geneticos e fatores com-
portamentais que influenciavam o desenvolvimento da Doenca de Alzheimer. Para tal, a coorte foi
delineada de maneira que cada idoso participante nunca fora diagnosticado com qualquer tipo de
demencia, alem de passar por avaliacoes clınicas (no mınimo anuais) e permitir a doacao dos seus
orgaos para pesquisas. Com estas garantias, ao final do estudo, os autores pretendiam ter em maos
as seguintes informacoes: (i) - fatores de risco comportamentais obtidos antes do diagnostico de
demencias (quando presente); (ii) - DNA para documentar fatores de risco geneticos; (iii) - acom-
panhamento clınico regular dos idosos, de forma que a habilidade cognitiva pudesse ser avaliada ate
a morte; (iv) - autopsia dos cerebros daqueles que faleceram, para mensurar ındices patologicos das
doencas.
Localizada em Chicago, nos Estados Unidos, a Universidade Rush contou, entao, com parti-
cipacao dos idosos da regiao metropolitana desta cidade, sem demencias previas e que aceitassem as
condicoes acerca da doacao de orgaos apos obito. Os dados foram obtidos longitudinalmente (sem
uma frequencia regular dos participantes), e possuem registros desde Setembro de 1997. A obtencao
dos dados era feita com visitas regulares a lares de idosos aposentados, por uma equipe composta de
enfermeiros treinados, tecnicos de testes neuropsicologicos, assistentes de pesquisa e um flebotomista
(pessoa encarregada por coletar sangue dos indivıduos).
Como produto da coleta, ha uma serie de informacoes que podem ser separadas em demograficas;
medicas; testes de performance cognitiva; testes de performance motora; atividades diarias; fatores
de risco por experiencias vividas e comportamentais; ındices geneticos pre falecimento e ındices pos
falecimento. Contudo, nem todas as vertentes sao disponibilizadas livremente para pesquisadores.
Entao, aqui, o estudo sera restrito ao uso das caracterısticas demograficas - idade ao entrar no
estudo, idade ao falecimento (quando disponıvel), sexo, educacao durante a vida (em anos), etnia
(branco, negro/afro-descendente, ındio/americano nativo, asiatico/das ilhas do pacıfico) -, medicas
(diagnosticos clınicos) e dos testes de performance cognitiva.
Dentre os testes de performance cognitiva, como medida global da cognicao, foi utilizado o MMSE
66
Cockrell and Folstein (2002) (escore de 0 a 30 que avalia memoria, logica, pronuncia e linguagem).
Separadamente, aplicaram-se diversos testes para os construtos de memoria, habilidade visual e
velocidade de percepcao, culminando com ındices ponderados para cada um destes, como em Wilson
et al. (2005), Fleischman et al. (2005).
Os diagnosticos clınicos sobre a presenca ou nao de demencias foram feitos a cada visita dos
grupos de coleta aos lares de idosos. Alem da avaliacao clınica por medicos, era aplicada uma bateria
de testes neuropsicologicos por tecnicos treinados, com geracao de um escore final relativizado pela
educacao do idoso. Esta medida, que era uma ponderacao dos testes com informacoes sobre as
suas ocupacoes, deficits sensoriais e motores, formava a base da classificacao ou nao no grupo com
danos cognitivos. Assim, para o 𝑖-esimo indivıduo, a cada 𝑗-esima visita, a variavel explicativa do
diagnostico de demencias e dada por:
∙ 1 - sem danos cognitivos;
∙ 2 - dano cognitivo moderado. Esta classificacao era atribuıda aqueles cujos resultados da bateria
de testes indicavam prejuızo cognitivo, mas que nao houve diagnostico clınico de demencia pelo
medico responsavel;
∙ 3 - dano cognitivo moderado e outro tipo de demencia;
∙ 4 - Doenca de Alzheimer, classificado de acordo com criterios conjuntos das agencias NINCDS
(National Institute of Neurological and Communicative Disorders and Stroke) e ADRDA (Alzhei-
mer’s Disease and Related Disorders Association), em McKhann et al. (1984);
∙ 5 - Doenca de Alzheimer e outro tipo de demencia;
∙ 6 - outro tipo de demencia. Por outros tipos, entende-se a ocorrencia de demencia vascular
(com Acidente Vascular Cerebral), demencia com corpos de Lewy, entre outros.
5.2 Analise descritiva
De 1997 ate 2016, o estudo contou com 3295 participantes no total. Deste numero, selecionaram-
se aqueles que faleceram e tiveram pelo menos dois acompanhamentos da equipe de coleta no perıodo
mencionado, resultando em 1163 indivıduos (aproximadamente 36% do total). Com base nas variaveis
originais do banco de dados, algumas transformacoes foram feitas para poder proceder com a analise
descritiva e modelagem.
Primeiramente, com a idade de entrada no estudo e idade ao falecimento, criou-se a variavel
arredondada tempo ate a morte, isto e, se um indivıduo em 1997 entrou no estudo com 80 anos e
foi acompanhado por mais 5 anos consecutivos ate sua morte, entao os seus tempos em anos ate a
morte observados sao 𝑡1 = −5, 𝑡2 = −4, . . . , 𝑡6 = 0. Quando presente, o tempo 𝑡 = 0 representa
67
a ultima coleta do participante, e indica os dados a 6 ou menos meses da sua morte. Alem desta,
para a variavel educacao, criaram-se categorias de acordo com os anos estudados e os nıveis escolares
comumente atribuıdos a eles: ensino fundamental, ensino medio, graduacao e pos graduacao.
Como citado na Secao 5.1, a avaliacao acerca dos tipos de demencia era feita a cada visita e possi-
velmente por profissionais diferentes. Esta questao resultou numa incompatibilidade de diagnosticos
clınicos para mesmos indivıduos em tempos diferentes, isto e, para o 𝑖-esimo participante, pode ser
que ele tenha sido diagnosticado com doenca de Alzheimer em 𝑡𝑖1 = −5, enquanto em 𝑡𝑖3 = −2com dano cognitivo moderado. Entretanto, nem toda responsabilidade deve ser atribuıda a rota-
tividade das equipes medicas. A severidade dos sintomas associados as demencias pode variar de
acordo com o nıvel de estresse ou desgaste dos indivıduos num determinado dia. Para contornar
esta disparidade, criaram-se variaveis indicadoras (0 ou 1) para cada pessoa com a presenca de pelo
menos um diagnostico de dano cognitivo moderado (itens 2 ou 3 da lista na Secao 5.1) e pelo menos
um diagnostico de doenca de Alzheimer (itens 4 ou 5 da mesma lista). Assim, tem-se as variaveis
utilizadas e suas respectivas descricoes na Tabela 5.1:
Tabela 5.1: Variaveis retiradas e/ou modificadas do banco de dados Rush Memory and AgeingProject.
Variavel Descricao Suporte ou Categorias
projid Identificacao do indivıduo
tempo Tempo ate a morte {−19,−18, . . . , 0}mmse Escore do teste MMSE Cockrell and Folstein (2002) {0, 1, . . . , 30}ad Doenca de Alzheimer e/ou outra demencia 0 - Nao; 1 - Sim
mci Dano cognitivo moderado e/ou outra demencia 0 - Nao; 1 - Sim
sexo Genero do indivıduo 0 - Feminino; 1 - Masculino
etnia Etnia do indivıduo
1 - Branco
2 - Negro
3 - Americano Nativo
4 - Asiatico
educ Nıvel de instrucao do indivıduo
1 - Ensino Fundamental
2 - Ensino Medio
3 - Graduacao
4 - Pos Graduacao
De acordo com os objetivos tracados com a coleta do banco de dados, salienta-se que mmse
e a variavel resposta do estudo. Na Figura C.1, Apendice C, apresentam-se cruzamentos desta
caracterıstica com as outras variaveis explicativas, demograficas e clınicas, por meio de boxplots.
Ve-se que as unicas diferencas sobressalentes nos valores medios de mmse se dao (i) - com a presenca
ou nao de pelo menos um diagnostico da doenca de Alzheimer (grafico (a) da referida figura) e (ii) -
tendo pelo menos escolaridade de ensino medio (grafico (c)). Estas aparencias reforcam a ideia dos
68
artigos Bennett et al. (2003, 2005a). As demais mudancas no nıvel dos escores mmse para diferentes
atributos de mci, sexo e etnia serao avaliadas pelos resultados dos modelos de regressao da Secao
5.3. Sob a perspectiva Bayesiana, uma maneira de avaliar a relevancia de variaveis explicativas em
modelos de regressao e verificar se o intervalo de credibilidade associado ao determinado coeficiente
inclui o valor 0. Caso inclua, entao diz-se (ou pode-se assumir, para o nıvel de confianca escolhido)
que a covariavel em questao nao traz ganhos significativos para o entendimento da variabilidade da
variavel resposta, sob a relacao postulada (linear, nao-linear, etc).
Sobre os escores mmse observados, trazem-se medidas resumos na Figura 5.1. Fica evidente que
ha um grupo com prevalencia de boas performances nas respostas ao questionario padrao MMSE ao
longo do tempo. Contudo, a partir do tempo 𝑡 = −9 os escores mınimos passam a ser menores do
que um terco da nota maxima e dispersao entre eles aumenta consideravelmente. Isto indica que,
alem da clara mudanca de comportamento, o questionario MMSE acaba sendo muito facil para os
idosos que nao estao em fase terminal. Esta peculiaridade e conhecida na literatura como ceiling
effect, e e citada em van den Hout et al. (2013).
0
5
10
15
20
25
30
−19 −18 −17 −16 −15 −14 −13 −12 −11 −10 −9 −8 −7 −6 −5 −4 −3 −2 −1 0Tempo até a morte
Es
co
re M
MS
E
Figura 5.1: Box-plots dos escores mmse dos invidıduos do estudo RUSH, estratificados para cadatempo ate a morte, de 19 a 0 anos ate o falecimento.
As figuras C.2 e C.3, Apendice C, mostram as dispersoes dos valores de mmse entre tempos diferen-
tes. Por elas, nota-se que as associacoes entre escores de tempos que se distanciam vao enfraquecendo
(veja, por exemplo, a primeira coluna de graficos da Figura C.3); ao passo que para tempos conse-
cutivos a correlacao positiva e aparentemente prevalente (graficos imediatamente abaixo da diagonal
principal nas referidas figuras). Estas caracterısticas ajudam na especificacao da estrutura da matriz
de covariancia em modelos lineares mistos. Aqui, servirao de base para a determinacao dos efeitos
aleatorios na proporcao de acertos dentro do questionario padrao.
69
A quantidade de observacoes longitudinais e apresentada na Figura 5.2. Ve-se tambem, pelo
mesmo grafico, que a distribuicao da idade em que os indivıduos entraram no estudo e razoavelmente
homogenea intra quantidade de medidas repetidas. Um aspecto dos dados que pode interferir no
desempenho da estimacao Bayesiana de parametros e a nao liquidez das variaveis respostas, isto e,
mesmo que um indivıduo tenha participado de 15 coletas, por exemplo, nao implica que todas elas
foram em anos consecutivos.
0
50
100
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18Quantidade de observações longitudinais
Fre
quên
cia
abso
luta
60
70
80
90
100
Idade de entrada
Figura 5.2: Frequencias de indivıduos para cada quantidade de acompanhamentos feitos. Na paletade cores, a idade de entrada dos indivıduos no estudo.
Os graficos longitudinais (ou spaghetti) dos escores mmse observados sao apresentados na Figura
5.3. Claramente, vai se tornando difıcil analisar as trajetorias individuais conforme a quantidade de
unidades experimentais cresce. Ainda assim, e possıvel ver que ha uma discrepancia na tendencia
geral dos caminhos que os escores tomam para aqueles que foram diagnosticados com doenca de
Alzheimer. Neste sentido, os dados corroboram as suspeitas associacoes entre esta demencia e a
habilidade cognitiva, como mostrado na Secao 5.1. Porem, ainda assim, e arriscado tentar ser
assertivo sobre o que acontece detalhadamente nos graficos longitudinais com muitas observacoes
sobrepostas.
A escolha por postular um modelo de misturas com pontos de quebra aleatorios e embasada
por uma avaliacao detalhada dos escores e seus estratos de acordo com covariaveis. Uma solucao
para o problema da superposicao entre trajetorias longitudinais de variaveis e analisar estas com suas
intensidades traduzidas em cores gradativas dispostas numa matriz (𝑁×𝐽), em que 𝑁 e a quantidade
de unidades experimentais e 𝐽 o valor maximo de medidas repetidas. Assim, observacoes de distintos
indivıduos sao expressas sem sobreposicao. Esta ferramenta grafica e comumente conhecida como
mapa de calor (heat map), e em analises de dados longitudinais, tambem e tida como grafico lasagna
(em referencia aos tradicionais graficos spaghetti) Swihart et al. (2010).
Alem da vantagem acima mencionada para visualizar os dados, a nova abordagem permite: (i) -
70
AD = 0 AD = 1
MC
I = 0M
CI = 1
−19 −17 −15 −13 −11 −9 −7 −5 −3 −1 −19 −17 −15 −13 −11 −9 −7 −5 −3 −1
0
10
20
30
0
10
20
30
Tempo até a morte
Esc
ore
MM
SE
Figura 5.3: Grafico longitudinal dos escores individuais ao longo do tempo ate a morte. A estra-tificacao e feita com base nas variaveis indicadoras AD - pelo menos um diagnostico da doenca deAlzheimer e MCI - pelo menos um diagnostico de dano cognitivo moderado.
que as linhas (isto e, as trajetorias) sejam ordenadas sucessivamente pelas intensidades da variavel
resposta, a cada tempo observado; (ii) - estratificacao por outras variaveis categoricas e (iii) - no
nosso contexto, ter uma melhor ideia sobre o momento em que os decaimentos abruptos acontecem. O
ultimo caso e importante para ter impressoes acerca da relevancia em propor um modelo de mistura.
Em contrapartida, a analise dos mapas de calor pode ser complicada caso haja demasiados valores
faltantes, e/ou com numero de unidades experimentais que torne difıcil distinguir as evolucoes nas
trajetorias.
Especificamente, as figuras 5.4 e 5.5 mostram os mapas de calor para o banco de dados processado
a partir do Rush Memory and Aging Project descrito na Secao 5.1. Considerando que, de acordo com
a Figura 5.3, os decaimentos acontecem razoavelmente a taxa constante ate o tempo 𝑡 = −10, osgraficos de calor sao construıdos com 𝑡 ∈ {−10, . . . , 0}, para melhor visualizacao. Do primeiro deles,
ve-se que ha uma clara distincao entre padroes de decaimento para aqueles que foram diagnosticados
pelo menos uma vez com doenca de Alzheimer e os que nao foram. Este quesito mostra que pode ser
interessante introduzir a variavel ad no preditor da probabilidade de alocacao nos grupos 𝐺1 e 𝐺2,
na expressao (2.3.3). A discriminacao pela variavel indicadora de danos cognitivos moderados nao
parece trazer uma informacao tao relevante acerca do decaimento acelerado, diferente da intuicao
colocada anteriormente. Na Figura 5.5, ve-se um comportamento menos discrepante entre aqueles
com educacao basica e superior, em comparacao com o diagnostico de Alzheimer.
71
Tempo até a morte
−10 −
9
−8
−7
−6
−5
−4
−3
−2
−1 0
MMSE
0102030
ADNãoSim
MCINãoSim
Figura 5.4: Mapa de calor dos escores individuais ao longo do tempo ate a morte. A estratificacaoe feita com base nas variaveis indicadoras AD - pelo menos um diagnostico da doenca de Alzheimere MCI - pelo menos um diagnostico de dano cognitivo moderado. Truncou-se a disposicao do graficopara 𝑡 ∈ {−10, . . . , 0} para melhor visualizacao, visto que entre 𝑡 ∈ {−19, . . . ,−11} os escores saomajoritariamente altos (vide 5.1).
Tempo até a morte
−10 −
9
−8
−7
−6
−5
−4
−3
−2
−1 0
MMSE
0102030
EDUCBásicaSuperior
Figura 5.5: Mapa de calor dos escores individuais ao longo do tempo ate a morte. A estratificacaoe feita com base na variavel indicadora de educacao superior EDUC: Basica caso ≤ 12 anos de estudoou Superior, caso contrario. Truncou-se a disposicao do grafico para 𝑡 ∈ {−10, . . . , 0} para melhorvisualizacao, visto que entre 𝑡 ∈ {−19, . . . ,−11} os escores sao majoritariamente altos (vide 5.1).
72
5.3 Ajuste do modelo proposto
Como visto no estudo de simulacao da Secao 4, a introducao de pontos de quebra aleatorios no
modelo demanda uma quantidade alta de iteracoes para a convergencia do metodo MCMC. Alem
disso, a postulacao da distribuicao Beta-Binomial para a variavel resposta traz um amostrador de
Gibbs (Algritmo 3.1) que pode ser muito lento conforme o numero de efeitos aleatorios aumenta, por
nao ter a estrutura de atualizacao por blocos, como na Binomial.
Sendo assim, a modelagem dos dados Rush Memory and Aging Project sera feita em duas eta-
pas. Primeiramente, a significancia de todas as variaveis explicativas descritas na Tabela 5.1 sera
avaliada por meio de modelos Binomiais com preditor Broken-Stick (2.2.1), funcoes de ligacao logito
e complemento log-log (Tabela 2.1) para a probabilidade de alocacao 𝑝𝑖 = ℎ−1(𝑤′𝑖𝜆). Com base nes-
tes resultados, selecionar-se-a a melhor ligacao para a probabilidade 𝑝𝑖 por meio do DIC7 e LPML,
ao passo que as covariaveis nao significativas sairao das especificacoes dos preditores. Em seguida,
modelos Binomiais e Beta-Binomiais com as variaveis significativas e funcao de ligacao para 𝑝𝑖 mais
adequada serao comparados para os preditores Broken-Stick (2.2.1) e a proposta dada em (2.2.2).
Destes, apos a checagem preditiva a posteriori, sera selecionado aquele que possuir a combinacao de
melhores indicadores (menor DIC7 e maior LPML).
Para os modelos da primeira etapa, assumimos entao que as variaveis resposta 𝑦𝑖𝑗 = 𝑦𝑖(𝑡𝑖𝑗) serao
os escores mmse medidos para o 𝑖-esimo indivıduo no tempo ate a morte 𝑡𝑖𝑗,∀𝑖 ∈ {1, . . . , 1163}, 𝑗 ∈{1, . . . , 𝑛𝑖}, 𝑛𝑖 ∈ {2, . . . , 19}. Com as medidas de educacao, etnia e sexo, criaram-se variaveis di-
cotomicas indicadoras de seus nıveis (Tabela 5.1) segundo a parametrizacao de casela de referencia
Agresti (2003). Assim, tem-se educ𝐸𝑀𝑖valendo 1 se o indivıduo tem educacao ate o Ensino Medio
e 0 caso contrario; educ𝐺𝑖valendo 1 se o indivıduo tem educacao ate Graduacao e 0 caso contrario,
e assim por diante para as outras categorias e subındices auto-explicativos. No caso em que todas
as variaveis indicadoras criadas forem nulas, entao a unidade experimental e do sexo feminino, teve
educacao ate o Ensino Fundamental e e branca.
As caracterısticas comuns aos modelos iniciais sao dadas pelas seguintes expressoes:
𝑦𝑖𝑗|𝑏𝑖, 𝜏(𝑎,𝑖), 𝑆𝑖𝑖𝑛𝑑∼ Binomial(30, 𝜇𝑖𝑗), 𝜏𝑎,𝑖
𝑖𝑖𝑑∼ Normal(𝜇𝜏 , 𝜎2𝜏 )1{𝜏𝑎,𝑖 ∈ T}, (5.3.1)
𝑏𝑖𝑖𝑖𝑑∼ Normal2(0,D), 𝑆𝑖
𝑖𝑖𝑑∼ Bernoulli(𝑝𝑖),
log
(𝜇𝑖𝑗
1− 𝜇𝑖𝑗
)= 𝑥′
𝑖𝑗,𝜏𝑖𝛽 + 𝑧′
𝑖𝑗,𝜏𝑖𝑏𝑖
= 𝛽1 + 𝑏1𝑖 + (𝛽2 + 𝑏2𝑖)min(𝑡𝑖𝑗, 𝜏𝑖) + 𝛽3 (𝑡𝑖𝑗 − 𝜏𝑖)+ + 𝛽4 ad𝑖 + 𝛽5mci𝑖
+ 𝛽6 educ𝐸𝑀𝑖+ 𝛽7 educ𝐺𝑖
+ 𝛽8 educ𝑃𝐺𝑖+ 𝛽9 sexo𝑚𝑎𝑠𝑐𝑖 + 𝛽10 etnia𝑛𝑒𝑔𝑟𝑜𝑖
+ 𝛽11 etnia𝐴𝑚𝑁𝑎𝑡𝑖 + 𝛽12 etnia𝑎𝑠𝑖𝑖 + 𝛽13 (ad𝑖 𝑡𝑖𝑗), (5.3.2)
ℎ(𝑝𝑖) = 𝑤′𝑖𝜆 = 𝜆1 + 𝜆2 ad𝑖, (5.3.3)
em que T = {min(𝑡),max(𝑡)}, 𝑧𝑖𝑗,𝜏𝑖 =(1,min(𝑡𝑖𝑗, 𝜏𝑖)
)′, 𝑏𝑖 = (𝑏1𝑖, 𝑏2𝑖)
′, 𝛽 = (𝛽1, 𝛽2, . . . , 𝛽13)′, 𝑤𝑖 =
73
(1, ad𝑖)′ e 𝜆 = (𝜆1, 𝜆2)
′. Todos os outros termos da combinacao linear (5.3.2) compoem o vetor
coluna 𝑥𝑖𝑗,𝜏𝑖 . Sobre as distribuicoes a priori, escolheram-se 𝜇𝜏 ∼ Normal(med(𝑡), 105)1{𝜇𝜏 ∈ T},𝜎𝜏 ∼ Uniforme(0, 100), 𝛽 ∼ Normal13(0, 10
4 I13) e 𝜆 ∼ Normal2(0, 104 I2). A matriz de covariancia
dos efeitos aleatorios e parametrizada por
D =
(𝜎2𝑏1
𝜌 𝜎𝑏1𝜎𝑏2
𝜌 𝜎𝑏1𝜎𝑏2 𝜎2𝑏2
), (5.3.4)
com distribuicoes a priori segundo sugestao em Gelman (2006): 𝜌 ∼ Uniforme(−1, 1), 𝜎𝑏𝑙 ∼ Uniforme(0, 100), 𝑙 ∈{1, 2}.
Nos primeiros modelos ajustados, alguns parametros se mostraram sensıveis a escolha dos valo-
res iniciais. Quando numeros aleatorios eram gerados para todas essas quantidades, nao se tinha
confluencia das duas cadeias independentes dos parametros 𝜇𝜏 e 𝜎𝜏 . Uma alternativa foi centrar
𝜇(0)𝜏,1 = mediana(𝑡) para uma cadeia e 𝜇
(0)𝜏,2 = mediana(𝑡) + 𝜀, em que 𝜀 ∼ Normal(0, 1) para a ou-
tra. Alem disso, valores iniciais para 𝛽−3 em (5.3.2) foram gerados com base no ajuste classico de
quase-verossimilhanca penalizada para modelos lineares generalizados de efeitos mistos Schall (1991),
Wolfinger and O’connell (1993), biblioteca MASS do software R Venables and Ripley (2002). Para
o efeito pos ponto de quebra na media dos acertos, 𝛽3, estimou-se o modelo linear generalizado de
intercepto aleatorio logito(𝜇𝑖𝑗) = (𝛼0 + 𝑎𝑖) + 𝛼1 (𝑡𝑖𝑗 − 𝜇(0)𝜏,1) com as observacoes que tivessem valores
(𝑡𝑖𝑗 − 𝜇(0)𝜏,1) positivos; assim, 𝛽
(0)3 = ��1. Para obter valores diferentes de 𝛽 nas cadeias independentes,
mudou-se o numero maximo de iteracoes da funcao glmmPQL(). Todos os outros parametros nao
mencionados receberam valores iniciais aleatorios.
A estimacao dos modelos Bayesianos foi feita no software Just Another Gibbs Sampler - JAGS
versao 4.3.0, processado dentro do software R, versao 3.4.3 com o pacote rjags Plummer (2016). As
cadeias independentes foram obtidas em paralelo num computador Intel Core i7 3,60GHz com 7,9Gb
RAM.
Selecionando ℎ e avaliando significancia de covariaveis
Agora, sob as formulacoes gerais em (5.3.1)-(5.3.2), considere os modelos concorrentes para
probabilidade de alocacao nos grupos 𝐺1 e 𝐺2 - ℳlogito : ℎ(𝑥) = log(𝑥/(1 − 𝑥)) e ℳcloglog :
ℎ(𝑥) = log(−log(1 − 𝑥)). A ligacao logito e escolhida pela conveniente interpretacao em razao de
chances, enquanto a complementar log-log pelo fato das proporcoes de indivıduos com o diagnostico
de Alzheimer (ad) nao ser balanceada.
Em ambos os ajustes, foram geradas duas cadeias independentes com burn-in de 700 mil iteracoes
seguidas de 100 mil rodadas. Ao armazenar os resultados, utilizou-se espacamento de 100 ındices para
compor as amostras finais de tamanho 1000. Para calculo das medidas de diagnostico e comparacao,
as duas cadeias de cada parametro foram concatenadas depois de ter suas convergencias aferidas pela
estatıstica R. Os resultados sao apresentados nas tabelas 5.2, C.1 (Apendice C) e na Figura 5.6.
74
De acordo com as medidas de diagnostico da Tabela 5.2, ve-se que o ajuste ℳ𝑙𝑜𝑔𝑖𝑡𝑜 nao possui
reprodutibilidade dos dados originais adequada (valor-p maior do que 0, 9), segundo as funcoes de
discrepancia qui-quadrado de Pearson e desvio. Os quesitos de comparacao de modelos DIC7 e
LPML nao confluem. Assim, escolhe-se o modeloℳ𝑐𝑙𝑜𝑔𝑙𝑜𝑔, pois apresenta melhores comportamentos
no diagnostico baseado na funcao preditiva a posteriori.
Tabela 5.2: Tempo de ajuste, medidas de diagnostico (valores-p Bayesianos amostrados 𝑠𝑝𝑏(𝑦)) ecomparacao de modelos (DIC7 e LMPL) para modelos com distribuicao Binomial dos escores mmsecondicionais, preditores dados por (5.3.2) e (5.3.3). Valores em negrito por coluna indicam melhoresindicadores. Para os valores-p Bayesianos amostrados em (3.1.11), tomou-se a moda das cadeiasfinais como quantidades 𝜃𝑓𝑖𝑥𝑜.
𝑠𝑝𝑏(𝑦)
Tempo (h) DIC7 LPML 𝜒2 Desvio Mediana
ℳ𝑙𝑜𝑔𝑖𝑡𝑜 18,78 31445 -16270 0,916 0,973 0,468
ℳ𝑐𝑙𝑜𝑔𝑙𝑜𝑔 18,86 31454 -16232 0,620 0,864 0,706
−4 −2 0 2 4
λ2
λ1
β13
β12
β11
β10
β9
β8
β7
β6
β5
β4
β3
β2
β1
µτ
στ
ρ
σb2
σb1
(a)
−4 −2 0 2 4
λ2
λ1
β13
β12
β11
β10
β9
β8
β7
β6
β5
β4
β3
β2
β1
µτ
στ
ρ
σb2
σb1
(b)
Figura 5.6: Medianas e intervalos de credibilidade 95% para cadeias finais do modelo com distribuicaoBinomial, preditores dados por (5.3.2) e (5.3.3). Em (a), tem-se a especificacao com ℳlogito :
ℎ(𝑥) = log(𝑥/(1− 𝑥)), enquanto em (b)ℳcloglog : ℎ(𝑥) = log(−log(1− 𝑥)).
A relevancia das variaveis sexo𝑚𝑎𝑠𝑐 (𝛽9), etnia𝑛𝑒𝑔𝑟𝑜 (𝛽10), etnia𝐴𝑚𝑁𝑎𝑡 (𝛽11) e etnia𝑎𝑠𝑖 (𝛽12) nao foi
verificada segundo os dois graficos da Figura 5.6 e a Tabela C.1, Apendice C, a um nıvel de signi-
ficancia 𝛼 = 0, 05. Isto se da pelo fato dos intervalos de credibilidade (com cobertura 95%) dos efeitos
(𝛽9, 𝛽10, 𝛽11, 𝛽12) conterem o valor zero. Este resultado indica que nao ha diferenca significativa entre
os valores medios de acertos do questionario mmse para indivıduos considerados negros, americanos
nativos e asiaticos frente a etnia branca. Da mesma forma, nao ha diferenca relevante no desempenho
dos idosos do sexo masculino ou feminino.
75
Comparando modelos Binomial vs Beta-Binomial
Com base nas consideracoes da ultima subsecao 5.3, os proximos modelos a serem apresentados
desconsideram as covariaveis categoricas sexo e etnia, alem de utilizarem a funcao de ligacao comple-
mento log-log para o preditor da probabilidade de alocacao nos grupos 𝐺1 ou 𝐺2. A caracterıstica de
interesse agora sera a distribuicao condicional da variavel resposta mmse - Binomial ou Beta-Binomial,
analisadas com mais ferramentas de diagnostico.
Considere as seguintes suposicoes, as quais serao mantidas para todos os modelos que vem a
seguir:
𝜏𝑎,𝑖𝑖𝑖𝑑∼ Normal(𝜇𝜏 ,𝜎
2𝜏 )1{𝜏𝑎,𝑖 ∈ T}, 𝑏𝑖
𝑖𝑖𝑑∼ Normal2(0,D), 𝑆𝑖𝑖𝑖𝑑∼ Bernoulli(𝑝𝑖),
log(− log(1− 𝑝𝑖)
)= 𝜆1 + 𝜆2 ad𝑖,
em que T = {min(𝑡),max(𝑡)}. Alem disso, mantem-se a forma da matriz de covariancia dos efeitos
aleatorios D em (5.3.4). O preditor para media de acertos dos escores mmse tera a seguinte forma:
log
(𝜇𝑖𝑗
1− 𝜇𝑖𝑗
)= 𝛽1 + 𝑏1𝑖 + (𝛽2 + 𝑏2𝑖)min(𝑡𝑖𝑗, 𝜏𝑖) + 𝛽3 (𝑡𝑖𝑗 − 𝜏𝑖)
+ + 𝛽4 ad𝑖 + 𝛽5mci𝑖
+ 𝛽6 educ𝐸𝑀𝑖+ 𝛽7 educ𝐺𝑖
+ 𝛽8 educ𝑃𝐺𝑖+ 𝛽9 (ad𝑖 𝑡𝑖𝑗). (5.3.5)
Sobre as distribuicoes condicionais dos escores mmse, pode-se ter [𝑦𝑖𝑗|𝑏𝑖, 𝜏(𝑎,𝑖), 𝑆𝑖𝑖𝑛𝑑∼ Binomial(30, 𝜇𝑖𝑗)]
ou [𝑦𝑖𝑗| 𝑏𝑖, 𝜏(𝑎,𝑖), 𝑆𝑖𝑖𝑛𝑑∼ Beta-Binomial(30, 𝜑𝜇𝑖𝑗, 𝜑(1−𝜇𝑖𝑗))]. As diferencas entre modelos serao indicadas
pela notacaoℳ𝑑𝑖𝑠𝑡, em que 𝑑𝑖𝑠𝑡 ∈ {binomial, beta-binomial} = {bin, bb}.
As distribuicoes a priori para todos os parametros sao mantidas, salvo correcao das novas di-
mensoes do vetor de efeitos fixos 𝛽. Adicionalmente, foi escolhida 𝜑 ∼ Uniforme(0, 100). Os valores
iniciais sao gerados da mesma forma como na primeira etapa de modelagem.
Ao comparar diferentes distribuicoes para a variavel resposta, e interessante avaliar as suas ade-
quabilidades aos dados por analises residuais. Uma especificacao bastante geral e a dos resıduos
quantılicos Dunn and Smyth (1996), que se baseiam na transformacao integral da probabilidade. Es-
tes sao encontrados ao aplicar aos valores observados {𝑦𝑖𝑗 : 𝑖 = 1, . . . , 𝑁 ; 𝑗 = 1, . . . , 𝑛𝑖} suas propriasfuncoes de distribuicao acumulada, pelo modelo assumido. Como trata-se aqui de postulacoes com
natureza discreta, o resıduo quantılico aleatorizado e calculado por:
𝑟𝑖𝑗 = Φ
(Uniforme
(lim𝑦→𝑦−𝑖𝑗
𝐹 (𝑦|𝜃), 𝐹 (𝑦𝑖𝑗|𝜃)))
,
em que 𝐹 (·,𝜃) e a funcao de distribuicao acumulada da Binomial ou Beta-Binomial avaliadas nos
estimadores Bayesianos 𝜃 e Φ(·) representa a funcao de distribuicao acumulada da variavel aleatoria
Normal(0, 1).
76
Para ambos os modelos desta etapa, foram geradas duas cadeias independentes com burn-in
seguido de 100 mil rodadas e espacamento de 100 ındices para compor as amostras finais de tamanho
1000. Dada a diferente complexidade das especificacoes e distribuicoes trabalhadas, o valor de burn-
in teve que ser aumentado para o caso Beta-Binomial: multiplas tentativas com burn-in de 1 milhao,
1,1 milhao, e 1,4 milhao foram feitas, todas sem sucesso. Assim, a convergencia das cadeias so foi
aferida no caso Binomial.
Apresenta-se as informacoes deℳ𝑏𝑖𝑛 na Tabela 5.3. Alem disso, respectivos graficos com resıduos
quantılicos aleatorizados sao mostrados na Figura 5.7.
Tabela 5.3: Tempo de ajuste, numero de iteracoes (burn-in + rodadas finais), medidas de diagnostico(valores-p Bayesianos anostrados 𝑠𝑝𝑏(𝑦)) e comparacao de modelos (DIC7 e LMPL) para modelo comdistribuicao Binomial dos escores mmse condicionais e preditor dado por (5.3.5). Para os valores-pBayesianos amostrados em (3.1.11), tomou-se a moda das cadeias finais como quantidades 𝜃𝑓𝑖𝑥𝑜.
𝑠𝑝𝑏(𝑦)
Iteracoes (milhares) Tempo (h) DIC7 LPML 𝜒2 Desvio Mediana
ℳ𝑏𝑖𝑛 700 + 100 18,43 31437 -16218 0,982 0,961 0,631
Figura 5.7: Graficos de resıduos quantılicos aleatorizados para o modelo ℳ𝑏𝑖𝑛. No grafico (a),calculam-se 30 conjuntos de resıduos. A curva e uma referencia para o caso ideal. Nos graficos(b)-(d), por outro lado, apenas um conjunto e utilizado para avaliar, respectivamente, a relacaocom os valores ajustados 𝑦𝑖𝑗, tempo ate a morte e covariavel que da o efeito apos os pontos de quebraestimados: [𝑡𝑖𝑗 − 𝜏𝑖]
+ = max(0, 𝑡𝑖𝑗 − 𝜏𝑖). Nestes, as curvas sao suavizacoes dos dados via modelosaditivos genealizados (GAM).
77
Sobre os ajustes com a distribuicao Beta-Binomial para variavel resposta condicional, a con-
vergencia dos parametros do modelo nao foi aferida em nenhuma das tentativas mencionadas (com
diferentes valores de burn-in). Especificamente, as cadeias MCMC que mal convergiam, ou tinham
comportamentos imprevisıveis nos diversos ajustes, eram das caracterısticas 𝜇𝜏 , 𝜎𝜏 e 𝜑.
Na Figura 5.8, mostram-se dois exemplos de resultados de ajuste para o parametro adicional
da distribuicao Beta-Binomial, 𝜑. Nota-se que nao necessariamente ha confluencia das duas cadeias
quando se tem maior burn-in, e este fato pode indicar lentidao na convergencia para a distribuicao
estacionaria desse parametro.
Ademais, em todas as tentativas de ajuste Beta-Binomial, as cadeias finais de 𝜑 assumiam valores
majoritariamente acima de 40. Entao, uma possıvel explicacao para a falta de convergencia do ajuste
ℳ𝑏𝑏 e o fato do parametro 𝜑 com magnitudes elevadas serem estimativas instaveis. Sob outro ponto
de vista, 𝜑 alto implica correlacao intraclasse 𝜌 = (𝜑 + 1)−1 pequena, isto e, com pontos perto do
limite inferior do seu espaco parametrico (veja Figura 2.2), e esta proximidade a fronteira se torna
justificativa para a questao.
De toda forma, para o banco de dados apresentado, espera-se que nao se perca tanto por nao
conseguir estimar o modeloℳ𝑏𝑏. Isto se da porque conforme 𝜑 −→ +∞, mais a distribuicao Beta-
Binomial tem caracterısticas parecidas com a distribuicao Binomial. Para casos em que ha indıcios
empıricos de que 𝜑 nao e tao elevado, vale a pena insistir na especificacao Beta-Binomial.
φ
1100000 1120000 1140000 1160000 1180000 1200000
40
45
50
55
φ
1400000 1420000 1440000 1460000 1480000 1500000
40
50
60
70
80
90
Figura 5.8: Historico de cadeias a posteriori do parametro 𝜑 da distribuicao Beta-Binomial comoresultado de ajuste do modelo ℳ𝑏𝑏. A esquerda, ajuste com burn-in de 1,1 milhao de iteracoes,enquanto a direita, com 1,4 milhao de iteracoes.
78
Comparando modelo final com respectivo benchmark
Visto que tiveram-se problemas de convergencia nas tentativas de ajuste para o modelo Beta-
Binomial,ℳ𝑏𝑏, considerar-se-a que o modelo final escolhido eℳ𝑏𝑖𝑛. Assim, de acordo com os obje-
tivos tracados inicialmente, o referido modelo sera contrastado com a sua versao sem a mistura de
regressoes, que nesse caso e a especificacao logıstica Binomial de efeitos mistos. As variaveis explica-
tivas utilizadas, bem como as distribuicoes a priori dos parametros sao iguais aos da Secao 5.3. Os
resultados da analise de resıduos sao mostrados na Figura 5.9.
Na referida figura, os resıduos quantılicos aleatorizados contra os valores ajustados (grafico (b))
apresentam o mesmo comportamento do caso ℳ𝑏𝑖𝑛, com indıcios de heterocedasticidade e muitos
pontos em valor absoluto maiores do que 4. No grafico (c), a suavizacao via modelos aditivos
generalizados (GAM) indica que uma especificacao para o preditor logito(𝜇𝑖𝑗) = 𝑥′𝑖𝑗𝛽 + 𝑧′
𝑖𝑗𝑏𝑖 com
termo quadratico no tempo pode ser mais adequada (decaimento a partir do tempo -2). Nota-se
entao uma vantagem da especificacao com a mistura de regressoes: o efeito no tempo e corretamente
capturado com um coeficiente simples em 𝑡𝑖𝑗 e a introducao do efeito apos o ponto de quebra,
max(0, 𝑡𝑖𝑗 − 𝜏𝑖), levando a uma interpretacao mais simples do tempo nos escores, com relacao ao que
seria com o termo quadratico em 𝑡𝑖𝑗. Ainda na mesma figura, o grafico (a) indica levemente menor
adequabilidade dos resıduos a linha de referencia, em comparacao a Figura 5.7, grafico (a).
Figura 5.9: Graficos de resıduos quantılicos aleatorizados para o modelo Binomial de efeitos mistoscom ajuste Bayesiano. No grafico (a), calculam-se 30 conjuntos de resıduos. A curva e uma referenciapara o caso ideal. Nos graficos (b) e (c), por outro lado, apenas um conjunto e utilizado para avaliar,respectivamente, a relacao com os valores ajustados 𝑦𝑖𝑗 e tempo ate a morte. Nestes, as curvas saosuavizacoes dos dados via modelos aditivos generalizados (GAM).
79
Na Figura 5.10, comparam-se tambem os valores ajustados dos escores mmse discriminados pe-
las variaveis explicativas ad (indicadora de pelo menos um diagnostico da doenca de Alzheimer) e
mci (indicadora de pelo menos um diagnostico de dano cognitivo moderado). Ve-se que o modelo
benchmark nao resulta em valores ajustados ruins, mas subestima o decaimento do escore mmse de
indivıduos (veja graficos da coluna da direita).
AD = 0 AD = 1
Se
m m
istu
ra
MC
I = 0
Ob
se
rva
do
MC
I = 0
Co
m m
istu
ra
MC
I = 0
Se
m m
istu
ra
MC
I = 1
Ob
se
rva
do
MC
I = 1
Co
m m
istu
ra
MC
I = 1
−19 −15 −10 −5 0 −19 −15 −10 −5 0
0
10
20
30
0
10
20
30
0
10
20
30
0
10
20
30
0
10
20
30
0
10
20
30
Tempo até a morte
Esco
re m
mse (
ob
serv
ad
o o
u a
justa
do
)
Figura 5.10: Grafico longitudinal dos escores individuais observados e ajustados ao longo do tempoate a morte. A estratificacao e feita com base nas variaveis indicadoras AD - pelo menos um di-agnostico da doenca de Alzheimer e MCI - pelo menos um diagnostico de dano cognitivo moderado.Linhas tracejadas no modelo com mistura indicam indivıduos classificados no grupo com decaimentoacelerado (𝐺2).
80
Interpretando resultados do modelo final
As estimativas Bayesianas dos efeitos fixos do modelo ℳ𝑏𝑖𝑛, sob funcao de perda absoluta sao
apresentadas na Tabela 5.4. Para indivıduos “a tempos de morte iguais”, ter algum dos graus
de escolaridade Ensino Medio aumenta em media a chance de acertos nas questoes do MMSE em
exp (0, 502) = 1, 652 vezes com relacao aqueles que possuem somente o Ensino Fundamental. O
mesmo acontece para Graduacao ou Pos-Graduacao, mas com fatores de aumento exp (0, 724) =
2, 063 e exp (0, 898) = 2, 455, respectivamente.
Tabela 5.4: Estatıstica R, mediana, bandas inferior (Inf) e superior (Sup) de credibilidade 95% paracadeias finais do modelo com distribuicao Binomial, preditores dados por (5.3.5) e (5.3.3).
ℳ𝑏𝑖𝑛
Parametro Inf(95%) Mediana Sup(95%) Estatıstica R
𝛽1 (Intercepto) 1,617 1,966 2,311 1,02
𝛽2 (min(𝑡𝑖𝑗, 𝜏𝑖)) -0,082 -0,069 -0,055 1,01
𝛽3 ((𝑡𝑖𝑗 − 𝜏𝑖)+) -1,442 -1,324 -1,186 1,04
𝛽4 (Alzheimer) -2,190 -2,027 -1,870 1,00
𝛽5 (Demencia moderada) -0,351 -0,240 -0,132 1,03
𝛽6 (Ensino Medio) 0,144 0,502 0,856 1,01
𝛽7 (Graduacao) 0,386 0,724 1,077 1,01
𝛽8 (Pos-Graduacao) 0,561 0,898 1,246 1,01
𝛽9 (Alzheimer × tempo) -0,174 -0,152 -0,131 1,00
𝜆1 (Intercepto) -4,026 -3,143 -2,513 1,00
𝜆2 (Alzheimer) 2,423 3,066 3,976 1,00
𝜎𝑏1 0,930 0,996 1,062 1,00
𝜎𝑏2 0,086 0,097 0,109 1,02
𝜌 0,636 0,699 0,752 1,00
𝜎𝜏 2,638 2,934 3,257 1,01
𝜇𝜏 -0,637 -0,135 -0,007 1,00
O impacto de se ter pelo menos um diagnostico de demencia moderada (mci) e de exp (−0, 24) =0, 787, isto e, para indivıduos com mesmas caracterısticas escolares e “a mesmo tempo da morte”,
ter algum diagnostico de demencia moderada diminui em media (1− 0, 787)100% = 21, 3% a chance
de acertos em questoes do MMSE. Ja para a presenca da doenca de Alzheimer, este fator e mais
drastico: num tempo 𝑡, a chance de acertos e diminuıda em media por 𝑓(𝑡) =(1 − exp (−2, 027 −
0, 152 𝑡))100% =
(1 − 0, 132 exp (−0, 152 𝑡)
)100%. Por exemplo, para um indivıduo “a 10 anos da
morte”, tem-se uma diminuicao de 𝑓(−10) = 39, 6% e “a 5 anos da morte”, 𝑓(−5) = 71, 8% na
assertividade de questoes.
Sobre as alocacoes 𝑆𝑖 ∀𝑖 nos grupos 𝐺1 e 𝐺2, a probabilidade de pertencer a componente com
81
declınio acelerado e obtida por P[𝑆𝑖 = 1|ad𝑖] = 1 − exp(− exp (𝜆1 + 𝜆2 ad𝑖)
), e estimada porP[𝑆𝑖 = 1|ad𝑖] = 1− exp
(− exp (−3, 143 + 3, 066 ad𝑖)
). Tem-se, entao
∙ P[apresentar declınio acelerado | sem Alzheimer] = P[𝑆𝑖 = 1|ad𝑖 = 0] = 0, 042, com intervalo
de credibilidade 95% igual a(0, 018 ; 0, 078
);
∙ P[apresentar declınio acelerado | com Alzheimer] = P[𝑆𝑖 = 1|ad𝑖 = 1] = 0, 604, com intervalo
de credibilidade 95% igual a(0, 522 ; 0, 683
).
0.0
0.1
0.2
0.3
0.4
0.5
−13 −12 −11 −10 −9 −8 −7 −6 −5 −4 −3 −2 −1 0
Pontos de quebra estimados (tempo até a morte)
Fre
qu
ên
cia
rela
tiva
Figura 5.11: Histograma dos pontos de quebra estimados para o grupo com decaimento acelerado(𝐺2), segundo modelo finalℳ𝑏𝑖𝑛.
Para aqueles classificados no grupo com pontos de quebra, (287 indivıduos, 24,7% do total),
os pontos de quebra estimados constam na Figura 5.11. Destes idosos, calcula-se que 25% deles
tiveram o declınio acelerado ate aproximadamente 3 anos e 2 meses antes da sua morte, e 75% ate
aproximadamente 1 ano e 5 meses antes da sua morte. O valor mais frequente dos pontos de quebra
estimados aconteceu a pouco mais de 2 anos do falecimento.
0.00
0.02
0.04
0.06
60 65 70 75 80 85 90 95 100 105 110
Idade estimada do surgimento do ponto de quebra
Fre
qu
ên
cia
rela
tiva
Figura 5.12: Histograma das idades estimadas em que os pontos de quebra aconteceram para o grupocom decaimento acelerado (𝐺2), segundo modelo finalℳ𝑏𝑖𝑛.
82
Sob a perspectiva das idades de ocorrencia dos declınios acelerados, na Figura 5.12, calcula-se
que 25% dos indivıduos o tiveram antes dos 83 anos (incluso), e 75% antes dos 92 (incluso). O valor
mais frequente das idades estimadas nas quais houve surgimento de pontos de quebra aconteceu nos
indivıduos com 87 anos.
83
Capıtulo 6
Consideracoes Finais
No presente trabalho, estudou-se um modelo de mistura de regressoes para analisar a habilidade
cognitiva de idosos com o passar do tempo. Diferentemente da literatura na area Hall et al. (2000,
2001), van den Hout et al. (2011), Yu and Ghosh (2010), postularam-se distribuicoes de suporte
discreto para a variavel resposta (escore obtido pela aplicacao de questionarios da area de geriatria
em cognicao). Um componente da mistura representa indivıduos que experimentam um declınio
cognitivo acelerado a partir de um tempo espontaneo, enquanto na outra ha decaimento a taxa
constante. Aqui, o enfoque se voltou para o estudo da estimacao Bayesiana, e como ela se comportava
de acordo com mudancas nas caracterısticas do modelo, e nao na interpretacao do problema em si.
Assim, diversos aspectos importantes para o entendimento pleno do declınio cognitivo em idosos nao
foram explorados, como o estudo da dependencia dos escores no tempo, o cruzamento mais detalhado
de variaveis explicativas para verificar efeitos de interacao e a especificacao da funcao de ligacao da
probabilidade de acerto dentro do questionario padrao.
No estudo de simulacao, a proposta foi avaliada sob diferentes combinacoes de parametros e
as estimativas das variaveis explicativas criadas foram comparadas com os valores reais pelo seus
erros quadraticos medios e probabilidades de cobertura realizadas. Com as alocacoes das unidades
experimentais estimadas, calcularam-se as acuracias de classificacao, sensitividade e taxa de falsos
positivos da matriz de confusao. Segundo estes resultados, fica claro que a proposta nao e robusta
a casos diversos. Ha que se ter indıcios razoaveis de que existem dois comportamentos dıspares, e
o sucesso da estimacao ainda dependera da quantidade de indivıduos com declınio acelerado, bem
como da diferenca entre o decaimento natural dos escores no tempo e o que se espera da trajetoria
com ponto de quebra.
Uma aplicacao ao conjunto de dados Rush Memory and Aging Project foi feita, possibilitando a
comparacao do modelo sugerido com outros ja estabelecidos na literatura (modelos lineares genera-
lizados de efeitos mistos). Os resultados indicam que, embora pequeno, ha um ganho na adequacao
dos valores estimados frente ao que se observa da variavel resposta. Um aspecto interessante e que a
nova especificacao permite discriminar um grupo de risco dentre os idosos, e assim cruzar informacoes
84
com variaveis explanatorias (como diagnostico de demencias e graus de escolaridade) para quantificar
associacoes.
Trabalhos futuros podem ser feitos por dois caminhos diferentes. O primeiro deles e um melhor
entendimento do modelo aqui desenvolvido, com estudos de simulacao para outras propostas de pre-
ditores nao lineares com pontos de quebra, respostas Beta-Binomial mudando o efeito do parametro
de sobredispersao, com quantidades maiores de unidades experimentais, alem da sensitividade na
escolha de distribuicoes a priori no caso Bayesiano. Em outra oportunidade, pode-se explorar como
se daria a estimacao do modelo sob a perspectiva de inferencia classica, a utilizacao de transicoes
suaves para o preditor nao linear com ponto de quebra, o uso de informacoes de indivıduos que
nao faleceram (com censuras, portanto, para evitar o desperdıcio de informacao), a postulacao de
mistura em conjunto com um modelo de sobrevivencia para o risco de demencias. Adicionalmente, a
suposicao de que se possuem escores compostos por questoes independentes ainda nao se faz valida.
Assim, estudos sobre como modelar as relacoes dos construtos dentro de questionarios padrao em
geriatria (memoria, pronuncia/linguagem, reflexos motores, etc) podem ser bastante uteis.
85
Bibliografia
Agresti, A. (2003). Categorical data analysis, volume 482. John Wiley & Sons.
Akaike, H. (1974). A new look at the statistical model identification. IEEE transactions on automatic
control, 19(6):716–723.
Albert, J. H. and Chib, S. (1993). Bayesian analysis of binary and polychotomous response data.
Journal of the American statistical Association, 88(422):669–679.
Alvarez, I., Niemi, J., and Simpson, M. (2014). Bayesian inference for a covariance matrix. arXiv
preprint arXiv:1408.4050.
Bacon, D. W. and Watts, D. G. (1971). Estimating the transition between two intersecting straight
lines. Biometrika, 58(3):525–534.
Bauwens, L. and Rombouts, J. V. K. (2012). On marginal likelihood computation in change-point
models. Computational Statistics & Data Analysis, 56(11):3415–3429.
Benaglia, T., Chauveau, D., Hunter, D., and Young, D. (2009). mixtools: An r package for analyzing
finite mixture models. Journal of Statistical Software, 32(6):1–29.
Bennett, D. A., Schneider, J. A., Buchman, A. S., Barnes, L. L., Boyle, P. A., and Wilson, R. S.
(2012). Overview and findings from the rush memory and aging project. Current Alzheimer
Research, 9(6):646–663.
Bennett, D. A., Schneider, J. A., Buchman, A. S., de Leon, C. M., Bienias, J. L., and Wilson, R. S.
(2005a). The rush memory and aging project: study design and baseline characteristics of the
study cohort. Neuroepidemiology, 25(4):163–175.
Bennett, D. A., Schneider, J. A., Wilson, R. S., Bienias, J. L., Berry-Kravis, E., and Arnold, S. E.
(2005b). Amyloid mediates the association of apolipoprotein e e4 allele to cognitive function in
older people. Journal of Neurology, Neurosurgery & Psychiatry, 76(9):1194–1199.
Bennett, D. A., Wilson, R. S., Schneider, J. A., Bienias, J. L., and Arnold, S. E. (2004). Cerebral
infarctions and the relationship of depression symptoms to level of cognitive functioning in older
persons. The American journal of geriatric psychiatry, 12(2):211–219.
86
Bennett, D. A., Wilson, R. S., Schneider, J. A., Evans, D. A., Leon, C. F. M. D., Arnold, S. E.,
Barnes, L. L., and Bienias, J. L. (2003). Education modifies the relation of ad pathology to level
of cognitive function in older persons. Neurology, 60(12):1909–1915.
Berger, J. O. (1990). Robust bayesian analysis: sensitivity to the prior. Journal of statistical planning
and inference, 25(3):303–328.
Box, G. E. P. and Tiao, G. C. (2011). Bayesian inference in statistical analysis, volume 40. John
Wiley & Sons.
Brezger, A., Kneib, T., and Lang, S. (2003). Bayesx: Analysing bayesian structured additive re-
gression models. Technical report, Discussion paper//Sonderforschungsbereich 386 der Ludwig-
Maximilians-Universitat Munchen.
Carpenter, B., Gelman, A., Hoffman, M., Lee, D., Goodrich, B., Betancourt, M., Brubaker, M. A.,
Guo, J., Li, P., and Riddell, A. (2016). Stan: A probabilistic programming language. Journal of
Statistical Software, 20:1–37.
Casella, G. and Berger, R. L. (2002). Statistical inference, volume 2. Duxbury Pacific Grove, CA.
Casella, G. and George, E. I. (1992). Explaining the gibbs sampler. The American Statistician,
46(3):167–174.
Celeux, G., Forbes, F., Robert, C. P., and Titterington, D. M. (2006). Deviance information criteria
for missing data models. Bayesian analysis, 1(4):651–673.
Chib, S. and Greenberg, E. (1995). Understanding the metropolis-hastings algorithm. The american
statistician, 49(4):327–335.
Chiu, G., Lockhart, R., and Routledge, R. (2006). Bent-cable regression theory and applications.
Journal of the American Statistical Association, 101(474):542–553.
Cockrell, J. R. and Folstein, M. F. (2002). Mini-mental state examination. Principles and practice
of geriatric psychiatry, pages 140–141.
Cook, R. D. and Weisberg, S. (1982). Residuals and influence in regression. New York: Chapman
and Hall.
DeGroot, M. H. (2005). Optimal statistical decisions, volume 82. John Wiley & Sons.
Delyon, B., Lavielle, M., and Moulines, E. (1999). Convergence of a stochastic approximation version
of the em algorithm. Annals of statistics, pages 94–128.
Dempster, A. P., Laird, N. M., and Rubin, D. B. (1977). Maximum likelihood from incomplete data
via the em algorithm. Journal of the royal statistical society. Series B (methodological), pages
1–38.
87
Devroye, L. (1986). Sample-based non-uniform random variate generation. In Proceedings of the
18th conference on Winter simulation, pages 260–265. ACM.
Dominicus, A., Ripatti, S., Pedersen, N. L., and Palmgren, J. (2008). A random change point
model for assessing variability in repeated measures of cognitive function. Statistics in medicine,
27(27):5786–5798.
Dunn, P. K. and Smyth, G. K. (1996). Randomized quantile residuals. Journal of Computational
and Graphical Statistics, 5(3):236–244.
Fawcett, T. (2006). An introduction to roc analysis. Pattern recognition letters, 27(8):861–874.
Feller, W. (1968). An introduction to probability theory and its applications: volume I, volume 3.
John Wiley & Sons New York.
Fleischman, D. A., Wilson, R. S., Bienias, J. L., and Bennett, D. A. (2005). Parkinsonian signs and
cognitive function in old age. Journal of the International Neuropsychological Society, 11(5):591–
597.
Fruhwirth-Schnatter, S. (2006). Finite mixture and Markov switching models. Springer Science &
Business Media.
Fruhwirth-Schnatter, S. and Fruhwirth, R. (2007). Auxiliary mixture sampling with applications to
logistic models. Computational Statistics & Data Analysis, 51(7):3509–3528.
Fruhwirth-Schnatter, S., Fruhwirth, R., Held, L., and Rue, H. (2009). Improved auxiliary mixture
sampling for hierarchical models of non-gaussian data. Statistics and Computing, 19(4):479–492.
Geisser, S. (1987). Influential observations, diagnostics and discovery tests. Journal of Applied
Statistics, 14(2):133–142.
Gelfand, A. E. and Smith, A. F. M. (1990). Sampling-based approaches to calculating marginal
densities. Journal of the American statistical association, 85(410):398–409.
Gelman, A. (2006). Prior distributions for variance parameters in hierarchical models (comment on
article by browne and draper). Bayesian analysis, 1(3):515–534.
Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., and Rubin, D. B. (2014).
Bayesian data analysis, volume 2. CRC press Boca Raton, FL.
Gelman, A., Meng, X., and Stern, H. (1996). Posterior predictive assessment of model fitness via
realized discrepancies. Statistica sinica, pages 733–760.
Gelman, A. and Rubin, D. B. (1992). Inference from iterative simulation using multiple sequences.
Statistical science, pages 457–472.
Gilks, W. R., Richardson, S., and Spiegelhalter, D. (1995). Markov chain Monte Carlo in practice.
CRC press.
88
Gosselin, F. (2011). A new calibrated bayesian internal goodness-of-fit method: Sampled posterior
p-values as simple and general p-values that allow double use of the data. PloS one, 6(3):e14770.
Hall, C. B., Derby, C., LeValley, A., Katz, M. J., Verghese, J., and Lipton, R. B. (2007). Educa-
tion delays accelerated decline on a memory test in persons who develop dementia. Neurology,
69(17):1657–1664.
Hall, C. B., Lipton, R. B., Sliwinski, M., and Stewart, W. F. (2000). A change-point model for
estimating the onset of cognitive decline in preclinical alzheimer’s disease. Statistics in Medicine,
19:1555–1566.
Hall, C. B., Ying, J., Kuo, L., Sliwinski, M., Buschke, H., Katz, M., and Lipton, R. B. (2001).
Estimation of bivariate measurements having different change points, with application to cognitive
ageing. Statistics in medicine, 20(24):3695–3714.
Hannay, H. J. and Levin, H. S. (1985). Selective reminding test: an examination of the equivalence
of four forms. Journal of Clinical and Experimental Neuropsychology, 7(3):251–263.
Hastings, W. K. (1970). Monte carlo sampling methods using markov chains and their applications.
Biometrika, 57(1):97–109.
Hebert, L. E., Scherr, P. A., Bienias, J. L., Bennett, D. A., and Evans, D. A. (2003). Alzheimer
disease in the us population: prevalence estimates using the 2000 census. Archives of neurology,
60(8):1119–1122.
Holmes, C. C. and Held, L. (2006). Bayesian auxiliary variable models for binary and multinomial
regression. Bayesian analysis, 1(1):145–168.
Jacqmin-Gadda, H., Commenges, D., and Dartigues, J. (2006). Random changepoint model for joint
modeling of cognitive decline and dementia. Biometrics, 62(1):254–260.
Johnson, N. L., Kotz, S., and Balakrishnan, N. (1995). Continuous univariate distributions, vol. 2.
Johnson, V. E. (2004). A bayesian 𝜒2 test for goodness-of-fit. The Annals of Statistics, 32(6):2361–
2384.
Johnson, V. E. (2007). Bayesian model assessment using pivotal quantities. Bayesian Analysis,
2(4):719–733.
Kass, R. E. and Raftery, A. E. (1995). Bayes factors. Journal of the american statistical association,
90(430):773–795.
Katzman, R., Aronson, M., Fuld, P., Kawas, C., Brown, T., Morgenstern, H., Frishman, W., Gidez,
L., Eder, H., and Ooi, W. L. (1989). Development of dementing illnesses in an 80-year-old volunteer
cohort. Annals of neurology, 25(4):317–324.
89
Katzman, R., Terry, R., DeTeresa, R., Brown, T., Davies, P., Fuld, P., Renbing, X., and Peck, A.
(1988). Clinical, pathological, and neurochemical changes in dementia: a subgroup with preserved
mental status and numerous neocortical plaques. Annals of neurology, 23(2):138–144.
Kotz, S., Balakrishnan, N., and Johnson, N. L. (2004). Continuous multivariate distributions, Volume
1: Models and applications, volume 1. John wiley & sons.
Launer, L. J., Masaki, K., Petrovitch, H., Foley, D., and Havlik, R. J. (1995). The association between
midlife blood pressure levels and late-life cognitive function: the honolulu-asia aging study. Jama,
274(23):1846–1851.
Little, R. J. A. and Rubin, D. B. (1983). On jointly estimating parameters and missing data by
maximizing the complete-data likelihood. The American Statistician, 37(3):218–220.
Lunn, D., Jackson, C., Best, N., Thomas, A., and Spiegelhalter, D. (2012). The BUGS book: A
practical introduction to Bayesian analysis. CRC press.
Lunn, D. J., Thomas, A., Best, N., and Spiegelhalter, D. (2000). Winbugs-a bayesian modelling
framework: concepts, structure, and extensibility. Statistics and computing, 10(4):325–337.
McClearn, G. E., Johansson, B., Berg, S., Pedersen, N. L., Ahern, F., Petrill, S. A., and Plomin, R.
(1997). Substantial genetic influence on cognitive abilities in twins 80 or more years old. Science,
276(5318):1560–1563.
McCulloch, C. E. and Neuhaus, J. M. (2001). Generalized linear mixed models. Wiley Online Library.
McKhann, G., Drachman, D., Folstein, M., Katzman, R., Price, D., and Stadlan, E. M. (1984).
Clinical diagnosis of alzheimer’s disease report of the nincds-adrda work group* under the auspices
of department of health and human services task force on alzheimer’s disease. Neurology, 34(7):939–
939.
McLachlan, G. and Peel, D. (2004). Finite mixture models. John Wiley & Sons.
Muggeo, V. M. R. (2003). Estimating regression models with unknown break-points. Statistics in
medicine, 22(19):3055–3071.
Neal, R. M. (1997). Markov chain monte carlo methods based on slicing the density function.
Technical Report 9722, The University of Toronto.
Neal, R. M. (2003). Slice sampling. Annals of statistics, pages 705–741.
Neal, R. M. (2011). Mcmc using hamiltonian dynamics. Handbook of Markov Chain Monte Carlo,
2(11).
Nelder, J. A. and Wedderburn, R. W. M. (1972). Generalized linear models. Journal of the Royal
Statistical Society Series A., 135(3):370–384.
Oeppen, J. and Vaupel, J. W. (2002). Broken limits to life expectancy. Science, 296(5570):1029–1031.
90
Paula, G. A. (2004). Modelos de regressao: com apoio computacional. IME-USP Sao Paulo.
Pinheiro, J. C. and Bates, D. M. (1995). Approximations to the log-likelihood function in the
nonlinear mixed-effects model. Journal of computational and Graphical Statistics, 4(1):12–35.
Plummer, M. (2016). rjags: Bayesian Graphical Models using MCMC. R package version 4-6.
Plummer, M. et al. (2003). Jags: A program for analysis of bayesian graphical models using gibbs
sampling. In Proceedings of the 3rd international workshop on distributed statistical computing,
volume 124, page 125. Vienna, Austria.
Prentice, R. (1986). Binary regression using an extended beta-binomial distribution, with discus-
sion of correlation induced by covariate measurement errors. Journal of the American Statistical
Association, 81(394):321–327.
Ridout, M. S., Demetrio, C. G. B., and Firth, D. (1999). Estimating intraclass correlation for binary
data. Biometrics, 55(1):137–148.
Ripley, B. D. (2009). Stochastic simulation, volume 316. John Wiley & Sons.
Robert, C. P. (2004). Monte carlo methods. Wiley Online Library.
Robert, C. P. (2007). The Bayesian choice: from decision-theoretic foundations to computational
implementation. Springer Science & Business Media.
Scarmeas, N. and Stern, Y. (2004). Cognitive reserve: implications for diagnosis and prevention of
alzheimer’s disease. Current neurology and neuroscience reports, 4(5):374–380.
Schall, R. (1991). Estimation in generalized linear models with random effects. Biometrika, 78(4):719–
727.
Schneider, J. A., Wilson, R. S., Bienias, J. L., Evans, D. A., and Bennett, D. A. (2004). Cerebral
infarctions and the likelihood of dementia from alzheimer disease pathology. Neurology, 62(7):1148–
1155.
Schwarz, G. (1978). Estimating the dimension of a model. The annals of statistics, 6(2):461–464.
Seber, G. A. F. and Wild, C. J. (1989). Nonlinear regression. New York: John Wiley and Sons.
Spiegelhalter, D., Best, N. G., Carlin, B. P., and van der Linde, A. (2002). Bayesian measures of model
complexity and fit. Journal of the Royal Statistical Society: Series B (Statistical Methodology),
64(4):583–639.
Staff, R. T., Murray, A. D., Deary, I. J., and Whalley, L. J. (2004). What provides cerebral reserve?
Brain, 127(5):1191–1199.
Swihart, B. J., Caffo, B., James, B. D., Strand, M., Schwartz, B. S., and Punjabi, N. M. (2010).
Lasagna plots: a saucy alternative to spaghetti plots. Epidemiology (Cambridge, Mass.), 21(5):621.
91
Tan, M. T., Tian, G., and Ng, K. W. (2009). Bayesian missing data problems: EM, data augmentation
and noniterative computation. CRC Press.
Tanner, M. A. and Wong, W. H. (1987). The calculation of posterior distributions by data augmen-
tation. Journal of the American statistical Association, 82(398):528–540.
Teng, E. L., Hasegawa, K., Homma, A., Imai, Y., Larson, E., Graves, A., Sugimoto, K., Yamaguchi,
T., Sasaki, H., Chiu, D., et al. (1994). The cognitive abilities screening instrument (casi): a
practical test for cross-cultural epidemiological studies of dementia. International Psychogeriatrics,
6(1):45–58.
Tishler, A. and Zang, I. (1981). A new maximum likelihood algorithm for piecewise regression.
Journal of the American Statistical Association, 76(376):980–987.
Toms, J. D. and Lesperance, M. L. (2003). Piecewise regression: a tool for identifying ecological
thresholds. Ecology, 84(8):2034–2041.
van den Hout, A., Muniz-Terrera, G., and Matthews, F. E. (2011). Smooth random change point
models. Statistics in medicine, 30(6):599–610.
van den Hout, A., Muniz-Terrera, G., and Matthews, F. E. (2013). Change point models for cog-
nitive tests using semi-parametric maximum likelihood. Computational statistics & data analysis,
57(1):684–698.
Venables, W. N. and Ripley, B. D. (2002). Modern Applied Statistics with S. Springer, New York,
fourth edition. ISBN 0-387-95457-0.
Williams, D. A. (1982). Extra-binomial variation in logistic linear models. Applied statistics, pages
144–148.
Wilson, R. S., Barnes, L. L., Krueger, K. R., Hoganson, G., Bienias, J. L., and Bennett, D. A. (2005).
Early and late life cognitive activity and cognitive systems in old age. Journal of the International
Neuropsychological Society, 11(4):400–407.
Wolfinger, R. and O’connell, M. (1993). Generalized linear mixed models a pseudo-likelihood appro-
ach. Journal of statistical Computation and Simulation, 48(3-4):233–243.
Yu, B. and Ghosh, P. (2010). Joint modeling for cognitive trajectory and risk of dementia in the
presence of death. Biometrics, 66(1):294–300.
Zellner, A. (1971). An introduction to bayesian inference in econometrics. Technical report.
Zhang, J. L. (2014). Comparative investigation of three bayesian p values. Computational Statistics
& Data Analysis, 79:277–291.
92
Apendice A
Exemplo questionario MMSE
Mini-Mental State Examination (MMSE)
Patient’s Name: Date:
Instructions: Score one point for each correct response within each question or activity.
MaximumScore
Patient’sScore
Questions
5 “What is the year? Season? Date? Day? Month?”
5 “Where are we now? State? County? Town/city? Hospital? Floor?”
3
The examiner names three unrelated objects clearly and slowly, thenthe instructor asks the patient to name all three of them. The patient’sresponse is used for scoring. The examiner repeats them until patientlearns all of them, if possible.
5“I would like you to count backward from 100 by sevens.” (93, 86, 79,72, 65, …)Alternative: “Spell WORLD backwards.” (D-L-R-O-W)
3 “Earlier I told you the names of three things. Can you tell me whatthose were?”
2 Show the patient two simple objects, such as a wristwatch and a pencil,and ask the patient to name them.
1 “Repeat the phrase: ‘No ifs, ands, or buts.’”
3 “Take the paper in your right hand, fold it in half, and put it on the floor.”(The examiner gives the patient a piece of blank paper.)
1 “Please read this and do what it says.” (Written instruction is “Closeyour eyes.”)
1 “Make up and write a sentence about anything.” (This sentence mustcontain a noun and a verb.)
1
“Please copy this picture.” (The examiner gives the patient a blankpiece of paper and asks him/her to draw the symbol below. All 10angles must be present and two must intersect.)
30 TOTAL
93
Apendice B
Algoritmos de simulacao
Saıda: Um ponto da distribuicao objetivo ℎ(𝑥)/∫ℎ(𝑥)𝑑𝑥.
Valores iniciais: 𝑥(0)
Inıcio𝑡← 0;novo = 0;Enquanto novo ← 0 faca
𝑥* ∼ 𝑔(𝑥*|𝑥(𝑡));
𝑎← min{1, ℎ(𝑥*)𝑔(𝑥(𝑡)|𝑥*)
ℎ(𝑥(𝑡))𝑔(𝑥*|𝑥(𝑡))
};
𝑈 ∼ Uniforme(0, 1);Se 𝑈 ≤ 𝑎 entao
𝑥(𝑡+1) ← 𝑥*;novo ← 1;
Retorna 𝑥(𝑡+1);
Senao𝑥(𝑡+1) ← 𝑥(𝑡);𝑡← 𝑡+ 1;
Fim
Algoritmo B.1: Algoritmo Metropolis-Hastings.
94
Saıda: Amostras de tamanho 𝑀 de cada parametro 𝜃𝑘,∀𝑘 ∈ {1, . . . , 𝑑}.Valores iniciais: (𝜃
(0)1 , . . . , 𝜃
(0)𝑑 ), 𝑀
Inıcio𝑡← 0;Enquanto 𝑡 ≤𝑀 faca
𝜃(𝑡+1)1 ∼ 𝜋(𝜃1|𝜃(𝑡)2 , . . . , 𝜃
(𝑡)𝑑 ,𝑦);
𝜃(𝑡+1)2 ∼ 𝜋(𝜃2|𝜃(𝑡+1)
1 , 𝜃(𝑡)3 , . . . , 𝜃
(𝑡)𝑑 ,𝑦);
...𝜃(𝑡+1)𝑑 ∼ 𝜋(𝜃𝑑|𝜃(𝑡+1)
1 , . . . , 𝜃(𝑡+1)𝑑−1 ,𝑦);
𝑡← 𝑡+ 1;
Fim
Algoritmo B.2: Amostrador de Gibbs.
Saıda: Um ponto da densidade de interesse ℎ(𝑥)/∫ℎ(𝑥)𝑑𝑥.
Valores iniciais: 𝑥(0), 𝑤// 𝑤 determina o tamanho da vizinhanca. Pode-se usar a distancia media entre
valores ja simulados de ℎ(𝑥).Inıcio
𝑍 ∼ Uniforme(0, ℎ(𝑥(0)));𝑈 ∼ Uniforme(0, 1);
𝐿← 𝑥(0) − 𝑤𝑈 ;𝑅← 𝐿+ 𝑤;Enquanto 𝑍 < ℎ(𝐿) ou 𝑍 > ℎ(𝑅) faca
𝑉 ∼ Uniforme(0, 1);Se 𝑉 < 1/2 entao
𝐿← 𝐿− (𝑅− 𝐿)Senao
𝑅← 𝑅 + (𝑅− 𝐿)𝐼 ← (𝐿,𝑅);𝑥* ∼ Uniforme(𝐼);Retorna 𝑥*;
Fim
Algoritmo B.3: Slice sampling com procedimento doubling.
95
Saıda: Amostras de tamanho 𝑀 para os parametros 𝛽, 𝑏1, . . . , 𝑏𝑛 e DValores iniciais: 𝛽(0), 𝑏
(0)1 , . . . , 𝑏
(0)𝑛 ,D(0), 𝑀
// O ındice 1 indica que a condicional completa em quest~ao e de uma
distribuic~ao Normal (𝑞𝛽 + 𝑛𝑞𝑏)-variada, enquanto 2 indica uma distribuic~ao
Inversa Wishart. O vetor de medias e matriz de covariancias para o
primeiro caso, assim como a matriz de locac~ao e o parametro de escala da
Inversa Wishart mudam de acordo com a especificac~ao dos efeitos fixos e
aleatorios.
Inıcio𝑡← 0;Defina 𝐿, (𝑚𝑙, 𝑠
2𝑙 , 𝑟𝑙),∀𝑙 ∈ {1, . . . , 𝐿} com base em 𝐾, segundo Fruhwirth-Schnatter et al.
(2009).
Defina valores iniciais para as variaveis auxiliares {𝑦*(0)𝑖𝑗 , 𝑅(0)𝑖𝑗 : 𝑗 = 1, . . . , 𝑛𝑖; 𝑖 = 1, . . . , 𝑛.}
Enquanto 𝑡 ≤𝑀 faca
(𝛽(𝑡+1)′, 𝑏(𝑡+1)′1 , . . . , 𝑏
(𝑡+1)′𝑛 )′ ∼ 𝜋(𝛽, 𝑏1, . . . , 𝑏𝑛|𝑦*(𝑡),𝑅(𝑡),𝑦)1;
D(𝑡+1) ∼ 𝜋(D|𝛽(𝑡+1), 𝑏(𝑡+1)1 , . . . , 𝑏
(𝑡+1)𝑛 ,𝑦*(𝑡),𝑅(𝑡),𝑦)2;
𝑖← 1;𝑗 ← 1;Enquanto 𝑖 ≤ 𝑛 e 𝑗 ≤ 𝑛𝑖 faca
𝜆𝑖𝑗 = exp(𝑥′𝑖𝑗𝛽
(𝑡+1) + 𝑧′𝑖𝑗𝑏
(𝑡+1)𝑖 );
Se 𝑦𝑖𝑗 = 𝐾 entao𝑉𝑖𝑗 ← 0
Senao𝑉𝑖𝑗 ∼ Gamma(𝐾 − 𝑦𝑖𝑗, 1)
𝑈𝑖𝑗 ∼ Gamma(𝐾, 1);
𝑦*(𝑡+1)𝑖𝑗 ← −log
(𝑈𝑖𝑗
1+𝜆𝑖𝑗+
𝑉𝑖𝑗
𝜆𝑖𝑗
);
𝑟*𝑙 ←𝑟𝑙𝑠𝑙exp
{1
2𝑠2𝑙
(𝑦*(𝑡+1)𝑖𝑗 − 𝑥′
𝑖𝑗𝛽(𝑡+1) − 𝑧′
𝑖𝑗𝑏(𝑡+1)𝑖 −𝑚𝑙
)2}, 𝑙 ∈ {1, . . . , 𝐿};
𝑟*𝑙 ← 𝑟*𝑙 /(∑
𝑙 𝑟*𝑙
), 𝑙 ∈ {1, . . . , 𝐿};
𝑅(𝑡+1)𝑖𝑗 ∼ Multinomial(1, 𝑟*1, . . . , 𝑟
*𝐿);
𝑡← 𝑡+ 1;
Fim
Algoritmo B.4: Amostrador de Gibbs com atualizacao por blocos para modelo Binomial comligacao logito e distribuicoes gaussianas das priori ’s dos efeitos fixos e aleatorios.
96
Apendice C
Rush Memory and Aging Project
C.1 Graficos analise descritiva
0
10
20
30
Não SimDiagnóstico Doença de Alzheimer
Esc
ore
MM
SE
(a)
0
10
20
30
Não SimDiagnóstico Dano Cognitivo Moderado
Esc
ore
MM
SE
(b)
0
10
20
30
Ensino Fundamental
Ensino Médio
Graduação Pós Graduação
Nível Educacional
Esc
ore
MM
SE
(c)
0
10
20
30
Feminino MasculinoGênero
Esc
ore
MM
SE
(d)
0
10
20
30
Americano nativo
Asiático Branco Negro
Etnia
Esc
ore
MM
SE
(e)
Figura C.1: Box-plots da variavel resposta escore mmse de acordo com as covariaveis categoricas.Segundo legenda da Tabela 5.1, (a) - ad; (b) - mci; (c) - educ; (d) - sexo; (e) - etnia.
97
Corr:
−0.134
Corr:
0.607
Corr:
0.567
Corr:
−0.0458
Corr:
0.416
Corr:
0.403
Corr:
0.4
Corr:
0.289
Corr:
0.0966
Corr:0.629
Corr:
0.733
Corr:
0.247
Corr:
0.189
Corr:0.643
Corr:
0.618
Corr:
0.764
Corr:
0.127
Corr:
0.0516
Corr:0.579
Corr:
0.56
Corr:
0.644
Corr:
0.629
Corr:
0.352
Corr:
0.224
Corr:0.629
Corr:
0.611
Corr:
0.725
Corr:
0.658
Corr:
0.535
Corr:
0.293
Corr:
0.285
Corr:0.715
Corr:
0.594
Corr:
0.702
Corr:
0.671
Corr:0.767
Corr:
−0.327
Corr:
0.439
Corr:
0.434
Corr:0.665
Corr:
0.583
Corr:
0.674
Corr:
0.618
Corr:0.737
Corr:0.715
t19 t18 t17 t16 t15 t14 t13 t12 t11 t10t19
t18t17
t16t15
t14t13
t12t11
t10
Figura C.2: Diagonal principal: densidades suavizadas dos escores mmse para tempos ate a morte diferentes, 𝑡 ∈ {−19, . . . ,−10}. Graficosda parte triangular inferior: dispersao entre escores para tempos cruzados. Informacoes da parte triangular superior: correlacoes entre escorespara tempos cruzados.
98
Corr:
0.754
Corr:
0.762
Corr:
0.797
Corr:
0.732
Corr:
0.757
Corr:
0.821
Corr:
0.671
Corr:
0.749
Corr:
0.771
Corr:0.826
Corr:
0.574
Corr:
0.66
Corr:
0.688
Corr:0.761
Corr:
0.829
Corr:
0.596
Corr:
0.67
Corr:
0.678
Corr:0.752
Corr:
0.779
Corr:
0.851
Corr:
0.532
Corr:
0.58
Corr:
0.615
Corr:0.661
Corr:
0.719
Corr:
0.749
Corr:
0.874
Corr:
0.395
Corr:
0.541
Corr:
0.519
Corr:0.611
Corr:
0.646
Corr:
0.702
Corr:
0.792
Corr:0.869
Corr:
0.481
Corr:
0.536
Corr:
0.446
Corr:0.506
Corr:
0.604
Corr:
0.577
Corr:
0.706
Corr:0.77
Corr:0.823
t9 t8 t7 t6 t5 t4 t3 t2 t1 t0t9
t8t7
t6t5
t4t3
t2t1
t0
Figura C.3: Diagonal principal: densidades suavizadas dos escores mmse para tempos ate a morte diferentes, 𝑡 ∈ {−9, . . . ,−0}. Graficos daparte triangular inferior: dispersao entre escores para tempos cruzados. Informacoes da parte triangular superior: correlacoes entre escores paratempos cruzados.
99
C.2 Material suplementar dos ajustes
Tabela C.1: Mediana, bandas inferior (Inf) e superior (Sup) de credibilidade 95% para cadeias finaisdo modelo com distribuicao Binomial, preditores dados por (5.3.2) e (5.3.3). Os ajustes sao feitoscomℳlogito : ℎ(𝑥) = log(𝑥/(1− 𝑥)), enquantoℳcloglog : ℎ(𝑥) = log(−log(1− 𝑥)).
ℳ𝑙𝑜𝑔𝑖𝑡𝑜 ℳ𝑐𝑙𝑜𝑔𝑙𝑜𝑔
Parametro Inf(95%) Mediana Sup(95%) Inf(95%) Mediana Sup(95%)
𝛽1 (Intercepto) 1,618 1,977 2,336 1,613 1,976 2,343
𝛽2 (min(𝑡𝑖𝑗, 𝜏𝑖)) -0,082 -0,069 -0,055 -0,082 -0,068 -0,054
𝛽3 ((𝑡𝑖𝑗 − 𝜏𝑖)+) -1,452 -1,307 -1,191 -1,467 -1.333 -1.223
𝛽4 (Alzheimer) -2,183 -2,025 -1,879 -2,193 -2,038 -1,886
𝛽5 (Demencia moderada) -0,349 -0,236 -0,130 -0,345 -0,233 -0,116
𝛽6 (Ensino Medio) 0,138 0,499 0,850 0,128 0,494 0,851
𝛽7 (Graduacao) 0,386 0,721 1,054 0,357 0,713 1,060
𝛽8 (Pos-Graduacao) 0,556 0,888 1,209 0,529 0,883 1,237
𝛽9 (Sexo masculino) -0,084 0,019 0,116 -0,089 0,015 0,115
𝛽10 (Negro) -0,258 -0,072 0,107 -0,266 -0,079 0,118
𝛽11 (Americano nativo) -1,106 -0,210 0,767 -1,088 -0,196 0,737
𝛽12 (Asiatico) -1,570 -0,667 0,172 -1,517 -0,666 0,143
𝛽13 (Alzheimer × tempo) -0,172 -0,151 -0,131 -0,174 -0,154 -0,133
𝜆1 (Intercepto) -3,921 -3,141 -2,488 -3,924 -3,117 -2,534
𝜆2 (Alzheimer) 2,396 3,077 3,859 2,432 3,031 3,808
𝜎𝑏1 0,934 0,997 1,062 0,941 1,005 1,066
𝜎𝑏2 0,087 0,097 0,108 0,088 0,098 0,108
𝜌 0,638 0,700 0,749 0,646 0,703 0,751
𝜎𝜏 2,646 2,931 3,245 2,597 2,904 3,232
𝜇𝜏 -0,625 -0,139 -0,006 -0,633 -0,137 -0,005
100
ρ
0.60 0.70 0.80
04
814
β1
1.5 2.0 2.5
0.0
1.0
2.0
β2
−0.10 −0.07 −0.04
020
40
β3
−1.6 −1.4 −1.2
02
46
β4
−2.4 −2.2 −2.0 −1.8
02
4
β5
−0.4 −0.2 0.0
02
46
β6
0.0 0.5 1.0
0.0
1.0
2.0
β7
0.0 0.5 1.0 1.5
0.0
1.0
2.0
β8
0.5 1.0 1.5
0.0
1.0
2.0
β9
−0.20 −0.16 −0.12
020
λ1
−5.0 −4.0 −3.0 −2.00.0
0.6
λ2
1.5 2.5 3.5 4.5
0.0
0.6
σb1
0.85 0.95 1.05 1.15
04
812
σb2
0.08 0.10 0.12
030
60
στ
2.4 2.8 3.2 3.6
0.0
1.5
µτ
−1.5 −1.0 −0.5 0.0
02
4
ρ
700000 740000 780000
0.6
00.7
5
β1
700000 740000 780000
1.4
2.0
2.6
β2
700000 740000 780000
−0.0
9−
0.0
5
β3
700000 740000 780000
−1.5
−1.2
β4
700000 740000 780000
−2.3
−2.0
β5
700000 740000 780000
−0.4
−0.1
β6
700000 740000 780000
0.0
0.6
β7
700000 740000 780000
0.2
0.8
β8
700000 740000 780000
0.4
1.0
1.6
β9
700000 740000 780000
−0.1
9−
0.1
4
λ1
700000 740000 780000
−5.0
−3.5
λ2
700000 740000 780000
2.0
3.5
σb1
700000 740000 780000
0.9
01.0
5
σb2
700000 740000 780000
0.0
80
0.1
05
στ
700000 740000 780000
2.6
3.2
µτ
700000 740000 780000
−1.4
−0.6
Figura C.4: Nas primeiras 4 linhas de graficos, densidades a posteriori e nas ultimas 4 linhas, historicodas cadeias a posteriori do modeloℳ𝑏𝑖𝑛.