Modelos para dados de contagem espacial com sobredispers~ao · Modelos para dados de contagem...
Transcript of Modelos para dados de contagem espacial com sobredispers~ao · Modelos para dados de contagem...
Modelos para dados de contagem espacial
com sobredispersao
Luiz Fernando Lima Costa
Universidade Federal do Rio de Janeiro
Instituto de Matematica
Departamento de Metodos Estatısticos
2015
Modelos para dados de contagem espacial com
sobredispersao
Luiz Fernando Lima Costa
Dissertacao de Mestrado submetida ao Programa de Pos-Graduacao em Estatıstica
do Instituto de Matematica da Universidade Federal do Rio de Janeiro - UFRJ, como
parte dos requisitos necessarios a obtencao do tıtulo de Mestre em Estatıstica.
Aprovada por:
Thais Cristina Oliveira da Fonseca
DME/IM - UFRJ - Orientadora.
Alexandra Mello Schmidt
DME/IM - UFRJ.
Aline Araujo Nobre
FIOCRUZ.
Rio de Janeiro, RJ - Brasil
2015
ii
CIP - Catalogação na Publicação
Elaborado pelo Sistema de Geração Automática da UFRJ com osdados fornecidos pelo(a) autor(a).
C837mCosta, Luiz Fernando Lima Modelos para dados de contagem espaciais comsobredispersão / Luiz Fernando Lima Costa. -- Riode Janeiro, 2015. 53 f.
Orientador: Thais Cristina Oliveira da Fonseca. Dissertação (mestrado) - Universidade Federaldo Rio de Janeiro, Instituto de Matemática,Programa de Pós-Graduação em Estatística, 2015.
1. Geoestatística. 2. Inferência Bayesiana. 3.Sobredispersão. 4. Poisson. 5. Dados de contagem.I. Fonseca, Thais Cristina Oliveira da, orient.II. Título.
iii
Changing is inevitable...
iv
Agradecimentos
Primeiramente a Deus pela dadiva da vida. Sem sua misericordia e graca eu nao teria
chegado ate aqui.
A toda minha famılia e em especial aos meus pais, Luiz Henrique e Silvia, por todo
apoio e incentivo dado desde o comeco da minha carreira estudantil. Obrigado por
acreditarem que eu seria capaz e terem me dado todo suporte necessario.
Aos meus amigos que entenderam e aceitaram as varias vezes que deixamos de nos
ver pois eu estava muito ocupado com a dissertacao. Valeu a pena esperar.
Aos amigos especiais que reencontrei e conheci durante o Mestrado: Caroline Ponce,
Juliana Freitas e Rafael Erbist. Sem duvida a amizade e o companherismo que criamos
nesse perıodo nos fortaleceu e nos deu forca para continuar. Sem contar as pizzas de toda
terca-feira que ajudava a relaxar depois de um dia inteiro de estudo. A Liga sobreviveu.
Aos amigos do IBGE que sempre acreditaram em mim e me apoiaram. Seus conselhos
foram providenciais para o termino deste trabalho. Em especial quero destacar Daniela
Barreto, Roberta Souza, Samela Arantes, Sofia Monti e Viviane Quintaes.
A minha orientadora Thais Fonseca por ter aceitado prontamente me orientar e ter
me dado todo suporte necessario para concluir esta etapa da minha vida.
A professora Aline Nobre por ter aceito fazer parte da banca e ter disponibilizado
tempo para discutir e contribuir com a presente dissertacao.
A professora Alexandra M. Schmidt por ter sido peca importante na minha caminhada
no Mestrado. Desde o curso de verao, passando por professora de disciplina, depois
trabalhando comigo na monitoria e, fechando o ciclo, fazendo parte dessa banca. Suas
palavras de apoio e seu exemplo foram de suma importancia. Muito obrigado.
A todos que de alguma forma, direta ou indireta, contribuiram para minha formacao
tanto na ENCE quanto na UFRJ.
v
Resumo
A analise estatıstica de dados tem passado por grande desenvolvimento devido ao
avanco tecnologico que permite armazenamento e estudo de dados mais complexos. Em
particular, a analise de dados espaciais tem avancado significativamente. O objetivo deste
trabalho e contribuir com a analise de dados de contagem georeferenciados com sobre-
dispersao. Para isto, e proposto um modelo chamado Modelo Combinado Lognormal-
Poisson-Lognormal (LN-P-LN) para tratar destas especificidades com foco em dados de
geoestatıstica. O processo inferencial utilizado foi Bayesiano e para estimacao o algoritmo
de Monte Carlo via Cadeias de Markov (MCMC) foi escolhido. Para ilustrar a metodo-
logia foram estudados dados artificiais e dados reais referentes ao numero de internacoes
por meningite viral nos hospitais do estado do Rio de Janeiro. O modelo combinado LN-
P-LN se mostrou satisfatorio para ambos os dados. Para uma analise da convergencia
das cadeias foram aplicados criterios de convergencia amplamente utilizados na literatura.
Vimos tambem que ha necessidade de se estudar melhor os testes disponıveis na litera-
tura para verificacao da presenca de sobredispersao nos dados e tambem que a insercao
de novas covariaveis para o modelo com dados reais seria interessante.
Palavras-Chaves: geoestatıstica, inferencia bayesiana, sobredispersao, Poisson, dados
de contagem.
vi
Abstract
The statistical data analysis has improved due to the technological progress which
allows storage and study of more complex data. In particular the analysis of statistical
data has advanced significantly. The purpose of this work is to contribute to the analysis
of georeferenced count data with overdispersion. In this context, it’s proposed a mo-
del called Combined Model Lognormal-Poisson-Lognormal (LN-P-LN) to address these
specificities. The Bayesian inferential process was used and so the Monte Carlo Markov
Chains (MCMC) algorithm has been chosen for estimation. To illustrate the methodo-
logy simulated and real data on the number of hospitalizations due to viral meningitis
in hospitals in Rio de Janeiro were studied. The Combined Model Lognormal-Poisson-
Lognormal (LN-P-LN) proved satisfactory for both data. Convergence criteria widely
used in the literature were applied for the analysis of the convergence of chains. We have
also seen that there is need to better study the hypoteses tests available in the literature
for the presence of overdispersion in the data and also the insertion of new covariates for
the model with real data would be interesting.
Keywords: geostatistics, bayesian inference, overdispersion, Poisson, count data.
vii
Sumario
1 Introducao 1
1.1 Exemplo ilustrativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Delineamento da dissertacao . . . . . . . . . . . . . . . . . . . . . . . . . 5
2 Sobredispersao 7
2.1 O problema da sobredispersao . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 Testes para investigar a evidencia de sobredispersao . . . . . . . . . . . . 9
2.2.1 Teste classico - Dean . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.2 Teste Bayesiano - Savage-Dickey . . . . . . . . . . . . . . . . . . . 10
2.2.3 Obtendo o Fator de Bayes . . . . . . . . . . . . . . . . . . . . . . 12
3 Dados georreferenciados 13
3.1 Definicoes e conceitos de Estatıstica Espacial . . . . . . . . . . . . . . . . 13
3.2 Modelo Linear Generalizado com Estrutura Espacial . . . . . . . . . . . . 15
3.3 Questoes de implementacao do Modelo Linear Generalizado com Estrutura
Espacial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4 Modelo Proposto 19
4.1 Modelo Gaussian-log-Gaussian (GLG) . . . . . . . . . . . . . . . . . . . 20
4.2 Descricao do modelo proposto . . . . . . . . . . . . . . . . . . . . . . . . 21
4.3 Funcao de verossimilhanca e especificacao da priori . . . . . . . . . . . . 23
4.4 Procedimentos de inferencia e implementacao . . . . . . . . . . . . . . . 24
4.4.1 Distribuicoes a posteriori . . . . . . . . . . . . . . . . . . . . . . . 25
viii
4.4.2 Algoritmo de MCMC - Especificacoes . . . . . . . . . . . . . . . . 27
4.5 Problema de identificabilidade . . . . . . . . . . . . . . . . . . . . . . . . 29
5 Analise de Dados 30
5.1 Dados Artificiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.1.1 Exemplo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.1.2 Exemplo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.2 Dados de Meningite Viral . . . . . . . . . . . . . . . . . . . . . . . . . . 40
6 Conclusoes e Discussao 48
ix
Lista de Tabelas
2.1 Valores crıticos para o Fator de Bayes . . . . . . . . . . . . . . . . . . . . 12
5.1 Resumo da distribuicao a posteriori - Exemplo 1 . . . . . . . . . . . . . . 32
5.2 Resumo da distribuicao a posteriori - Exemplo 2 . . . . . . . . . . . . . . 35
5.3 Resumo da distribuicao a posteriori - Dados reais. . . . . . . . . . . . . . 41
x
Lista de Figuras
1.1 Histograma do numero de internacoes devido a meningite viral por hospital
do estado do Rio de Janeiro no perıodo de Janeiro de 2008 a Maio de 2015 4
1.2 Intensidade do numero de internacoes devido a meningite viral por hospital
do estado do Rio de Janeiro . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.1 Estrutura de dependencia . . . . . . . . . . . . . . . . . . . . . . . . . . 16
5.1 Tracos das cadeias e funcoes densidade de probabilidade suavizadas das
distribuicoes a posteriori de φ, σ2, β0, β1 e β2 . Linha vermelha: valor
verdadeiro - Exemplo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.2 Sumario da distribuicao a posteriori da funcao de correlacao - Exemplo 1 34
5.3 Sumario da distribuicao a posteriori da funcao de correlacao - Exemplo 2 36
5.4 Tracos das cadeias e funcoes densidade de probabilidade suavizadas das
distribuicoes a posteriori de φ, σ2, β0, β1 e β2 . Linha vermelha: valor
verdadeiro -Exemplo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.5 Boxplot da distribuicao a posteriori das componentes α(xi) - Exemplo 2 . 38
5.6 Traco das cadeias das distribuicoes a posteriori de alguns α(xi). Linha
vermelha: abscissa de valor 1 - Exemplo 2 . . . . . . . . . . . . . . . . . 39
5.7 Estatısticas do Teste Bayesiano para sobredispersao - Dados reais . . . . 40
5.8 Mapa da evidencia de sobredispersao . . . . . . . . . . . . . . . . . . . . 42
5.9 Sumario da distribuicao a posteriori da funcao de correlacao - Dados reais 43
5.10 Boxplot da distribuicao a posteriori das componentes α(xi) - Dados reais 44
5.11 Traco das cadeias das distribuicoes a posteriori de φ, σ2, β0, β1, β2 e β3 -
Dados reais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
xi
5.12 Histogramas e funcoes densidade de probabilidade suavizadas das distri-
buicoes a posteriori de φ, σ2, β0, β1, β2 e β3 - Dados reais . . . . . . . . . 46
5.13 Histograma e traco da cadeia da distribuicao a posteriori de ν - Dados reais 47
xii
Capıtulo 1
Introducao
A analise estatıstica de dados passou por grande desenvolvimento ao longo dos anos
devido ao avanco tecnologico que permite armazenamento e analise de dados cada vez
mais complexos. Com este avanco e possıvel aplicarmos tecnicas estatısticas mais realistas
nas mais diversas areas da ciencia.
Um tipo de dado de interesse e aquele composto por contagens observadas num deter-
minado perıodo de interesse. Esses dados sao obtidos a partir da observacao do numero
de ocorrencias de um determinado evento de interesse. Por exemplo, a quantidade de
pessoas atendidas numa loja em um dia de trabalho, ou a quantidade de internacoes por
doencas cardıacas em diversos hospitais.
A esses dados da-se o nome de dados de contagem e para eles existe um tratamento
diferente. Esses dados sao sempre nao negativos e obtidos a partir de uma contagem
e nao de uma classificacao. Eles podem ainda apresentar caracterısticas que sao usuais
para este tipo de dado, tais como sobredispersao e excesso de zeros. Para dados que
apresentam sobredispersao e necessaria uma abordagem diferente do modelo usual de
Poisson.
Em determinados casos os dados carregam consigo uma informacao a mais, a sua
localizacao geografica. Espera-se assim que observacoes obtidas em locais proximos te-
nham maior correlacao e, que uma menor correlacao seja observada paraobservacoes em
locais distantes.
Com isso se faz necessaria uma analise diferenciada pois, em grande parte das aplicacoes,
1
e de extrema importancia que se leve em consideracao a estrutura de correlacao espacial
existente. A esses dados da-se o nome de dados espaciais e existe uma area na estatıstica
especializada para trabalhar com esse tema, chamada Estatıstica Espacial.
Diversas areas fazem uso dessas tecnicas para seus estudos como epidemiologia, agro-
nomia, demografia, sensoriamento remoto. Cressie (1993) divide a estatıstica espacial
em tres grandes areas que contem os seguintes tipos de dados: dados de geoestatıstica,
dados de area e processos pontuais.
Dados de area sao observados a partir de uma regiao fixa no espaco que pode ou
nao ter forma regular. Esta regiao estara particionada em um numero finito de sub-
regioes. Assim a realizacao do processo estocastico estara ligada a essa regiao definida
pela particao. Usualmente, esse processo representara uma medida da variavel numa
determinada regiao.
Processos pontuais sao definidos como um conjunto de pontos com coordenadas
aleatorias no espaco. O principal objetivo na analise deste tipo de dado e estudar a
distribuicao espacial destes pontos e determinar se o padrao observado e aleatorio ou, se
os pontos sao regularmente distribuıdos segundo um padrao sistematico ou, ate mesmo,
verificar se os pontos se distribuem em aglomerados.
Este trabalho tem foco em dados de geoestatıstica que sao considerados uma realizacao
particular de um processo indexado pela localizacao que pode variar de forma contınua
ao longo de uma regiao fixa definida no espaco, conforme descrito em Banerjee et al.
(2004).
Segundo Cressie (1993) dados de geoestatıstica sao realizacoes de um processo es-
tocastico num subconjunto com volume p-dimensonal. Atraves de modelos espaciais e
possıvel fazer inferencia sobre os parametros, para aplicacoes onde ha necessidade em
entender o processo que gerou os dados e alem disso, fazer previsao que no caso espacial
pode ser vista como uma estimacao de uma realizacao do processo em um local onde nao
houve medicao.
Sendo assim, este trabalho propoe uma forma alternativa de acomodar a sobredis-
persao em modelos para dados de contagem levando em consideracao a disposicao espacial
dos mesmos e aplicando tecnicas estatısticas especıficas para dados de geoestatıstica.
2
1.1 Exemplo ilustrativo
A seguir, descreve-se uma aplicacao a dados de meningite viral que serao usados para
ilustrar o modelo de Poisson espacial com sobredispersao utilizado nesse trabalho.
Ha um interesse crescente no estudo e desenvolvimento de estudos epidemiologicos e
da dinamica dos agentes de doencas infecciosas. Uma forma de agregar mais informacoes
a esses estudos e levar em consideracao a estrutura espacial presente nos dados referentes
a doencas infecciosas.
A meningite viral e caracterizada por um quadro clınico de alteracao neurologica,
que, em geral, evolui de forma benigna e pode ser causada por varios microrganismos,
como vırus, bacterias, fungos e parasitas. A transmissao pode ser feita pelo ar, por
contato direto (gotıculas de saliva ou muco, sangue e/ou produtos sanguıneos) e indireto
(utensılios, agua e alimentos contaminados ou picada de animais). Os casos podem
ocorrer isoladamente, embora o aglomerado de casos seja comum.
A literatura mostra que as criancas menores de 18 meses, alem de serem as mais
atingidas pela doenca, sao as que mais evoluem para obito pois nao tem seus anticorpos
tao desenvolvidos para sua defesa. Porem o adulto corre risco de contrair a doenca
tambem.
Neste trabalho estudamos o numero de internacoes, diagnosticadas como meningite
viral, por hospitais do estado do Rio de Janeiro. O perıodo de referencia desses dados
e de Janeiro de 2008 a Maio de 2015. A populacao de estudo neste trabalho e formada
por 107 hospitais. Com esses dados espera-se chegar num modelo que consiga explicar
de forma eficiente a ocorrencia dos casos de meningite viral ao longo do espaco do estado
do Rio de Janeiro.
Os dados em questao foram obtidos atraves do DATASUS 1, o departamento de
informatica do SUS que tem como um dos objetivos fomentar, regulamentar e avaliar as
acoes de informatizacao dos dados do SUS, possibilitando assim o estudo com essas bases
de dados.
1http://www2.datasus.gov.br/DATASUS
3
Figura 1.1: Histograma do numero de internacoes devido a meningite viral por hospital
do estado do Rio de Janeiro no perıodo de Janeiro de 2008 a Maio de 2015
Figura 1.2: Intensidade do numero de internacoes devido a meningite viral por hospital
do estado do Rio de Janeiro
4
Na figura 1.1 vemos a grande concentracao de hospitais com 0 a 10 internacoes de
pacientes com meningite viral. Este fato sugere que o modelo Gaussiano nao seria uma
boa aproximacao para esses dados.
A figura 1.2 mostra como os casos de internacoes por meningite viral se distribuem
espacialmente no estado do Rio de Janeiro e alem disso podemos ver que as maiores
intensidades de internacoes acontece em locais mais proximos, salvo algumas excecoes.
Atraves de uma analise descritiva dos dados verificamos que 50% dos hospitais perten-
centes a populacao de estudo internaram 3 pacientes com meningite viral neste perıodo.
A media de internacao por hospital e 7,03 com uma variancia dos dados da ordem de
71,24 o que revela indıcios da presenca de sobredispersao nas observacoes.
Dentre os 107 estabelecimentos de saude, 70% pertencem a esfera publica e 30% a
esfera privada. O tipo de dependencia administrativa tambem sera incluıdo no modelo
como uma variavel explicativa.
1.2 Delineamento da dissertacao
A dissertacao esta organizada da seguinte maneira, no capıtulo 2 e apresentado o
problema da sobredispersao e como o mesmo vem sendo tratado na literatura. Sao
descritos testes para verificar a presenca de sobredispersao nos dados de interesse.
No capıtulo 3 sao introduzidos conceitos e definicoes pertinentes em Estatıstica Espa-
cial, assim como e introduzido o modelo trabalhado por Diggle et al. (1998) para dados
com estrutura espacial e algumas questoes de implementacao do mesmo.
No capıtulo 4 e feita uma revisao do modelo Gaussian-log-Gaussian proposo por Pa-
lacios e Steel (2006) e como a ideia presente neste modelo ajudara na construcao do
modelo proposto pela dissertacao. Apresentamos um modelo capaz de capturar a sobre-
dispersao presente nos dados que o processo espacial nao consegue identificar. Tambem
sao descritos os procedimentos de implementacao e inferencia utilizados para este modelo.
O capıtulo 5 apresenta a analise de dados artificiais e reais utilizando o modelo apre-
sentado por Diggle et al. (1998) e o modelo proposto neste trabalho. Primeiramente, e
feita uma analise para os dados artificiais utilizando o modelo proposto por Diggle et al.
5
(1998) e o modelo proposto. Em seguida, o conjunto de dados referentes ao numero de
internacoes de pacientes com meningite viral por hospital do estado do Rio de Janeiro e
analisado atraves do modelo proposto nesta dissertacao.
Por fim, o capıtulo 6 apresenta um resumo sobre os resultados da dissertacao e pos-
siveis extensoes para trabalhos futuros.
6
Capıtulo 2
Sobredispersao
2.1 O problema da sobredispersao
Quando estamos interessados em realizar uma analise estatıstica de dados de contagem
usualmente faz-se uso da distribuicao Poisson para modelar esse tipo de dado. Porem,
para esse tipo de distribuicao sabemos que ha uma relacao de igualdade entre media e
variancia dos dados. Na pratica essa relacao e muito restritiva e ha situacoes onde a
variancia dos dados pode ser maior que a media. A esse fenomeno e dado o nome de
sobredispersao e ele ocorre de forma frequente na pratica para dados de contagem. Assim,
o modelo de Poisson usual nao consegue capturar essa caracterıstica das observacoes.
McCullagh e Nelder (1989) dizem que sobredispersao e o mais usual de se observar
no mundo real e a dispersao nominal e excecao. Algumas possıveis causas para sobre-
dispersao podem ser: correlacao entre as respostas individuais, o modo como foi feita a
amostragem, nıvel agregado dos dados, variaveis explicativas omitidas, excesso de zero,
entre outras.
O modelo Poisson-lognormal, obtido atraves da inclusao de um efeito aleatorio normal
no preditor linear, tem a capacidade de captar a sobredispersao. Esta distribuicao e
grandemente utilizada para tratar de dados de contagem. Em Bulmer (1974) vemos a
verossimilhanca para o modelo Poisson-lognormal e como obter estimativas para este
modelo.
E possivel ainda tratar a sobredispersao pressupondo um modelo em dois estagios:
7
Yi|λi ∼ Poisson(λi) e λi ∼ Gama(α, β). Assim, a distribuicao marginal de Yi sera uma
Binomial Negativa e a sobredispersao nesse caso sera interpretada como a heterogeneidade
nao observada entre as observacoes, segundo Gschloßl e Czado (2006).
Neyens et al. (2011) trabalham com um modelo combinado que acomoda a sobre-
dispersao e a correlacao espacial do dado utilizando um modelo Poisson-gamma com
estrutura espacial de dados de area. Segundo Besag et al. (1991), este modelo e uma
alternativa ao modelo de convolucao usual que utiliza a componente CAR (conditio-
nal autoregressive) na sua estrutura. O modelo apresentado por Neyens et al. (2011),
aplicavel a dados de area, e capaz de aprimorar a modelagem quando os dados contem
uma alta heterogenidade nao correlacionada. A distribuicao Gama utilizada permite que
o modelo acomode bem a sobredispersao em sua estrutura.
Em Molenberghs et al. (2007) propoe-se um modelo para cenarios onde e necessario
estudar a sobredispersao levando em consideracao a estrutura hierarquica dos dados. A
flexibilidade deste modelo permite adicionar covariaveis e efeitos aleatorios. Esses efeitos
aleatorios introduzidos em Molenberghs et al. (2007) podem ter distribuicao Normal ou
Gama. O efeito introduzido com intuito de estudar a variacao causada pela estrutura
hierarquica dos dados de contagem seguira uma distribuicao Normal. Ja o efeito aleatorio
introduzido para captar a sobredispersao presente nos dados sera distribuıdo segundo uma
Gama.
Gschloßl e Czado (2006) trabalham com a heterogeneidade nao observada nos dados
fazendo uso de modelos mais flexıveis que o modelo Poisson usual captando assim o efeito
da sobredispersao. Para dados espaciais e utilizado efeitos aleatorios associados a cada
regiao no espaco permitindo assim modelar a estrutura de dependencia espacial presente.
Gschloßl e Czado (2006) consideram diferentes modelos comparando a incorporacao ou
nao da dependencia espacial utilizando a abordagem Bayesiana. Quando se trata da
incorporacao da depedencia espacial, sao trabalhados dados de area.
A analise temporal para dados de contagem com sobredispersao tambem e possıvel.
Schmidt e Pereira (2011) consideram um modelo dinamico Poisson que permite a iden-
tificacao da sobredispersao para cada momento no tempo que o dado e observado, alem
da estrutura temporal presente nos dados.
8
A nao incorporacao da sobredispersao ao fazer a analise dos dados pode causar alguns
problemas. Um deles e que o erro padrao obtido sera incorreto e, consequentemente, isto
nos levara a conclusoes incorretas sobre a significancia dos parametros.
Outro problema pode ser a escolha de modelos mais complexos do que o necessario
para explicar os dados em questao. E por fim, a interpretacao do modelo ficara compro-
metida assim como as previsoes obtidas.
Ainda que o modelo Poisson-lognormal seja capaz de captar a sobredispersao presente
nos dados, e possıvel que alguma variabilidade nao seja capturada. Assim, ha um interesse
em estudar essa variabilidade extra presente nos dados e, para isso, o presente trabalho
propoe uma maneira alternativa de captar esta sobredispersao excedente.
A seguir, descrevem-se alguns testes propostos na literatura para investigar a existencia
de sobredispersao em dados de contagem.
2.2 Testes para investigar a evidencia de sobredis-
persao
2.2.1 Teste classico - Dean
Ha anos vem sendo discutidos testes para detectar se os dados em estudo apresentam
uma variacao extra, no caso Poisson se a variancia observada e maior que a media. Dean
(1992) apresenta uma unificacao dessas teorias e trabalha com um teste desenvolvido
para lidar com distribuicoes arbitrarias onde somente os dois primeiros momentos sao
especificados.
Assuma o seguinte modelo,
Yi ∼ Poisson(λi),
onde λi = eZTi β e portanto θi = ln(λi) = ZT
i β. Para apurar a sobredispersao diremos que
o parametro canonico θi nao e fixo e sim aleatorio representado por θi∗ onde E(θi∗) = θi
e V (θi∗) = τki(θi) para τ > 0 e ki(θi) diferenciavel. Neste mesmo cenario a variancia de
Yi sera dada por V (Yi) = λi(1 + τλi).
9
Assim, o interesse sera em testar se τ = 0 ou τ > 0. Se τ = 0 concluımos que nao ha
evidencias de sobredispersao para o conjunto de dados. Se o contrario e observado, os
dados apresentam sobredispersao.
Dean (1992) apresenta tres maneiras de se representar um modelo Poisson com so-
bredispersao, porem o foco aqui sera em apenas uma dessas. Um modelo com inflacao
simples da variancia, outro com efeitos aleatorios multiplicativos e o modelo log-linear.
Este ultimo tem a mesma representacao do modelo utilizado neste trabalho e por isso
sera dado enfoque a ele.
Em Dean (1992) e Yang et al. (2008) e apresentada a seguinte estatıstica de teste:
S =
n∑i=1
{[yi − λi]2–yi}√2
n∑i=1
λ2i
. (2.1)
Assintoticamente a estatıstica de teste S tera uma distribuicao Normal Padrao. A um
nıvel de significancia α se S for maior que z1−α2, o percentil 100(1 − α
2)% desta normal,
rejeitamos a hipotese nula, com isso conclui-se que um modelo usual Poisson nao seria o
indicado para os dados em questao.
Para o tipo de dado que este trabalho tem foco, dados de contagem georreferenci-
ados, o teste classico nao e indicado uma vez que ele nao foi construıdo para levar em
consideracao a estrutura espacial do conjunto de dados que esta sendo testado.
2.2.2 Teste Bayesiano - Savage-Dickey
Segundo a perspectiva Bayesiana podemos testar a existencia de sobredispersao nos
dados a partir de um teste de hipoteses que envolvera o calculo do Fator de Bayes que
consiste na divisao entre a razao das densidades a posteriori e a razao das densidades a
priori. Esta medida e calculada da seguinte forma,
P(H0|y)/P(H1|y)
P(H0)/P(H1)(2.2)
10
Assim, pode-se testar a hipotese de que α(xi) = 1 o que representa nao haver sobre-
dispersao na localizacao xi. Neste caso α(xi) e a componente introduzida no modelo com
o intuito de captar a variabilidade excedente na localizacao xi.
Apresentado em Dickey (1971), o teste de Savage-Dickey pode ser considerado uma
representacao do fator de Bayes e trabalhara com uma razao entre distribuicoes a poste-
riori e a priori dado a hipostese alternativa que esta sendo testada.
A hipotese nula do teste sera dada pelo modelo onde αi pode assumir qualquer valor.
Ja a hipotese alternativa neste caso sera o modelo onde α(xi) = 1 e todos os outros
elementos de α(x) livres. Ou seja, o parametro responsavel por representar a sobredis-
persao no modelo e igual a 1 o que significa que nao ha evidencias para afirmacao de que
ha sobredispersao nos dados. Assim as hipoteses para este teste seriam:
H0 : α(x) livres X H1 : α(xi) = 1 e α(xj) livres,∀ i 6= j
A razao de Savage-Dickey proposta sera,
Ri =p(α(xi)|Y )
p(α(xi))|αi = 1. (2.3)
Assim, Ri grande sera favoravel ao modelo da hipotese alternativa com α(xi) = 1 e os
demais α(xj) variando livremente versus o modelo da hipotese nula com α(xi) variando
livremente para todo valor de i.
Em Kass e Raftery (1995) e apresentada uma tabela contendo os valores do Fator de
Bayes crıticos para decisao do teste de hipotese, ou seja, para quais valores ha ou nao
evidencia para rejeitarmos a hipotese nula. Para Kass e Raftery (1995), quanto maior o
Fator de Bayes, representado por B10, maior sera a evidencia a favor da hipotese alter-
nativa. No nosso, caso a hipotese que estamos interessados e a de que ha sobredispersao,
logo devemos olhar para 1B10
e assim tomar a decisao do teste do Bayesiano. A tabela e
apresentada a seguir:
11
B101B10
= Ri Decisao
1 a 3 1/3 a 1 A sobredispersao nao e significativa
3 a 20 1/20 a 1/3 Ha evidencia positiva de sobredispersao
20 a 150 1/150 a 1/20 Ha forte evidencia de sobredispersao
> 150 < 1/150 Ha evidencia extremamente forte de sobredispersao
Tabela 2.1: Valores crıticos para o Fator de Bayes
2.2.3 Obtendo o Fator de Bayes
Na implementacao do Teste Bayesiano para sobredispersao e necessario calcular a
densidade marginal a posteriori das componentes αi. Essa densidade e calculada atraves
de uma suavizacao onde a massa da funcao de distribuicao empırica e calculada a partir de
uma grade regular e apos isto uma transformacao de Fourier e utilizada para alcancar uma
aproximacao com a versao discreta do nucleo. Depois disto e utilizada uma aproximacao
linear para avaliar, finalmente, a densidade aplicada em determinados pontos.
Apos isto temos condicoes de calcular a estatıstica de teste expressa na equacao 2.3
e determinar se ha evidencias ou nao para assumirmos que ha sobredispersao nos dados.
12
Capıtulo 3
Dados georreferenciados
3.1 Definicoes e conceitos de Estatıstica Espacial
Considere o processo espacial {Y (x) : x ∈ D} observado em n localizacoes, onde
D ⊂ Rd. Como pressuposto, assume-se que
Y = [Y (x1), ..., Y (xn)] ∼ Nn(µ,Σ),
onde µ e o vetor de medias do processo e Σ a matriz de covariancia do processo.
Usualmente adota-se a representacao
Y = ZTβ + S,
onde Z e a matriz de covariaveis, β o vetor de parametros destas covariaveis e S e um
Processo Gaussiano e, portanto, possui distribuicao Nn(0,Σ).
Considera-se ainda que a matriz de covariancia sera composta da variancia do pro-
cesso e de uma funcao de correlacao espacial valida. Assim, os elementos da matriz de
covarancia serao obtidos a partir de
Σ = σ2C(h),
sabendo que a funcao de correlacao C(h) dependera da distancia euclidiana h entre duas
localizacoes e pode depender de algum parametro a mais. Portanto, σ2 e a variancia do
processo e C(h) a funcao de correlacao espacial como dito anteriormente.
13
Para trabalhar com os dados de geoestatıstica se faz necessario conhecer primeiro
algumas definicoes e especificidades desse tipo de dado. Os modelos propostos devem ter
a capacidade de captar e processar a dependencia espacial presente nos dados.
• Estacionariedade
Suponha um processo Y (x) onde x ∈ D. Existe a possibilidade de um processo ser
estritamente estacionario, fracamente estacionario ou intrinsecamente estacionario.
Quando a funcao de distribuicao conjunta do processo e invariante com respeito a
qualquer translacao do vetor Y = Y (x1), ..., Y (xn) o processo e dito estritamente esta-
cionario.
Se a media do processo e constante e a Cov(Y (xi), Y (xi +h)) = C(h), ∀xi, xi +h ∈ D
entao o processo e chamado de fracamente estacionario.
O processo e dito intrinsecamente estacionario quando E(Y (xi + h)–Y (xi)) = 0 ∀
xi, xi + h ∈ D e V ar(Y (xi + h)–Y (xi)) = 2γ(h) ∀ Y (x) e Y (x + h). A funcao γ(h) e
chamada de semivariograma do processo espacial em estudo.
• Isotropia
A isotropia e outro conceito importante a ser apresentado. Um processo e isotropico
se, para quaisquer duas localizacoes, a covariancia dependera somente da distancia eu-
clidiana entre esses dois pontos. Ou seja, Cov(Y (x), Y (x + h)) = C(||h||),onde ||h|| e a
norma do vetor.
• Funcao de Covariancia
Algumas funcoes de covariancia sao definidas na literatura para se trabalhar com
dados espaciais. Entre as mais utilizadas estao a funcao de covariancia exponencial, a
Gaussiana, a esferica, a Matern e a Cauchy, conforme pode ser visto em Banerjee et al.
(2004). Iremos trabalhar com a funcao de covariancia exponencial definida por,
C(h) = exp
{−hφ
}.
14
O parametro φ e definido como parametro de alcance e esta ligado a distancia a
partir da qual duas observacoes quaisquer podem ser consideradas independentes, ou
seja, quando a correlacao entre os dois pontos assumira valores desprezıveis.
3.2 Modelo Linear Generalizado com Estrutura Es-
pacial
No contexto de dados de contagem os pressupostos de normalidade, utilizados usual-
mente na analise espacial, nao sao preservados. Logo, os metodos usuais da geoestatıstica
nao sao indicados.
Uma alternativa e uma abordagem que utiliza a ideia de Modelos Lineares Genera-
lizados Mistos (MLGM). Estes modelos sao extensoes dos conhecidos Modelos Lineares
Generalizados (MLG ou GLM) que permitem o estudo de fontes de variabilidade adici-
onais devido a efeitos aleatorios. Considere o modelo proposto em Diggle et al. (1998)
onde:
a) As variaveis aleatorias Yi sao mutuamente independentes dado S(xi) e tambem
E[Yi|S(xi)] = Mi = M(xi);
b) Atraves de uma funcao de ligacao, q(•), Mi e relacionado com o preditor linear de
tal forma que q{M(x)} = ZTβ + S(x);
c) S(xi) e um efeito aleatorio incluıdo para captar a variacao nao observada em ZTβ
com E[S(xi)] = 0 e Cov[S(xi), S(xj)] = σ2C(||xi − xj||). Assim, condicional a S, que
e um processo Gaussiano, o modelo apresentado fica na forma de um MLGM citado
anteriomente.
No caso de dados de contagem temos
Yi|λi(xi) ∼ Pois(λ(xi)), (3.1)
onde,
log(λ(xi)) = Z’β + S(xi). (3.2)
No procedimento de inferencia Bayesiana, que sera utilizado neste trabalho, estamos
15
interessados em obter amostras das distribuicoes a posteriori dos parametros de interesse.
Para isso utiliza-se usualmente o metodo de Monte Carlo via Cadeias de Markov (MCMC)
onde se faz necessario conhecer as condicionais completas dos parametros de interesse.
Neste contexto, precisamos tambem amostrar das variaveis latentes S, onde S=(S1,...,Sn)
e Si = S(xi). O algoritmo utilizado e o de Metropolis-Hastings para sortear da condi-
cional de S. A cada passo gera-se uma proposta para mover a cadeia. Esta proposta e
aceita ou rejeitada segundo uma probabilidade. Para estimar o vetor parametrico usa-se
um amostrador de Gibbs hıbrido com passos de Metropolis-Hastings.
Diggle et al. (1998) fazem uma representacao da estrutura de dependencia entre as
variaveis do modelo e os parametros. Atraves da figura 3.1 podemos ver que condicional
a S, ou seja, dado S, Y e independente de θ e que dado S, β e θ sao independentes. S∗
e o vetor com os valores de S nos locais onde procura-se prever a variavel de interesse.
Figura 3.1: Estrutura de dependencia
E importante ressaltar que o modelo apresentado em Diggle et al. (1998) e capaz de
capturar a sobredispersao presente nos dados, atraves do Processo Gaussiano responsavel
pela acomodacao da estrutura espacial. Porem, e possıvel que alguma variabilidade
extra presente nos dados nao seja captada por esse processo, assim pode ser necessaria
a inclusao de um outro processo que identifique onde ha mais variabilidade que nao foi
capturada pelo processo espacial.
16
3.3 Questoes de implementacao do Modelo Linear
Generalizado com Estrutura Espacial
Diggle et al. (1998) trabalham com um modelo espacial para dados na famılia ex-
ponencial, em particular ele apresenta um modelo para dados de contagem onde a taxa
e modelada atraves de um processo latente log normal. Condicional a variavel latente
sabe-se que a variavel de interesse e mutuamente independente, ou seja, as observacoes
dos dados de contagem sao condicionalmente independentes.
O algoritmo de estimacao via MCMC tera um passo de atualizacao de S dado por:
a) Amostrar S ′i da funcao proposta q(Si, S′i)= p (Si|S−i,θ) igual a priori ;
b) Aceite S ′i com probabilidade de aceitacao α(Si, S′i) = min
{f(yi|s′i,β)
f(yi|si,β), 1}
;
c) Repita (a) e (b), para i = 1, ..., n.
Este algoritmo requer um tempo computacional muito grande uma vez que as com-
ponentes Si sao atualizadas uma a cada vez. Tendo em vista que temos n componentes,
quanto mais dados, maior sera o tempo computacional invibializando a aplicacao deste
algoritmo de forma eficaz.
Como alternativa Christensen e Waagepetersen (2002) propoem um algoritmo que
atualiza os efeitos aleatorios simultaneamente atraves de uma proposta Normal Multiva-
riada utilizando o algoritmo Langevin-Hastings que usa o gradiente do log da posteriori
chegando assim num resultado melhor que a proposta passeio aleatorio.
Diggle e Ribeiro Jr (2007) ainda acrescentam que para melhorar a eficiencia do algo-
ritmo e aconselhavel ajustar a variancia da proposta de forma a obter aproximadamente
60% de aceitacao desta proposta e ainda trabalhar com espacamento da cadeia de 100
unidades.
Outra alternativa proposta por Diggle e Ribeiro Jr (2007) e trabalhar com um algo-
ritmo que utiliza a informacao do gradiente na distribuicao proposta, ou seja, utiliza o
gradiente do log da posteriori. Em Christensen e Waagepetersen (2002) conclui-se que a
abordagem que utiliza o gradiente apresenta melhor resultado em comparacao ao passeio
aleatorio no passo de proposta do algoritmo ja que houve uma reducao no erro de Monte
Carlo para covariancia de alguns parametros.
17
Papaspiliopoulos et al. (2007) descrevem tambem uma parametrizacao em modelos
que envolvem variaveis latentes. Dois tipos de parametrizacao sao apresentados: centra-
lizada e nao centralizada. Essas parametrizacoes tem vantagens como uma convergencia
mais rapida e a possibilidade de identificar, antes mesmo de rodar o algoritmo, qual
a parametrizacao e mais indicada apenas identificando a estrutura do modelo. Porem,
neste trabalho esta reparametrizacao de variavel latente nao sera abordada.
Diggle et al. (1998) propoem uma reparametrizacao nos parametros de regressao o
que resulta numa atualizacao mais ortogonal tornando assim o algoritmo mais rapido.
Christensen et al. (2006) tambem propoem reparametrizacoes com o intuito de padronizar
e ortogonalizar as componentes.
A ortogonalizacao das componentes do modelo melhora o desempenho do amostrador
de Gibbs, quando ele esta sendo utilizado, e a padronizacao das componentes individuais
ajuda na hora de dimensionar a distribuicao proposta no passo de Metropolis-Hastings
o que torna a atualizacao mais eficiente.
Christensen et al. (2006) ainda alertam que a reparametrizacao nao e uma trans-
formacao linear o que nao garante que funcione para todos os dados, mas ainda assim e
uma alternativa para melhorar a convergencia do algoritmo ja que Diggle e Ribeiro Jr
(2007) tambem citam a reparametrizacao como algo positivo para o modelo.
18
Capıtulo 4
Modelo Proposto
Tendo em vista um conjunto de dados de contagem com dependencia espacial e so-
bredispersao e necessaria uma abordagem especial levando em consideracao essas carac-
terısticas importantes que vao influenciar no processo inferencial e de predicao.
A sobredispersao pode ser modelada de uma forma alternativa aos modelos usuais
quando estamos tratando de dados georreferenciaos. E possivel incluir uma componente
no modelo responsavel por capturar a variabilidade extra que o processo espacial nao
consegue identificar.
Antes de apresentarmos o modelo proposto neste trabalho, que tem como objetivo
captar a sobredispersao que o processo espacial nao foi capaz de captar, e introduzido o
Modelo Gaussian-log-Gaussian (GLG) apresentado em Palacios e Steel (2006) utilizado
como norte para inclusao da componente responsavel pela incorporacao no modelo da
sobredispersao que nao foi captada pelo processo espacial.
Em Neyens et al. (2011) e Molenberghs et al. (2007) para capturar outras fontes de
variabilidade alem da variabilidade espacial e introduzido um efeito aleatorio diferente.
Assim tomando como base esses trabalhos, nesta dissertacao estamos interessados em
incluir um efeito aleatorio espacial usual do modelo Poisson Lognormal e tambem permitir
uma variacao extra que nao e captada pelo efeito espacial. Este efeito responsavel por
capturar a variabilidade extra e introduzido de maneira multiplicativa assim como em
Neyens et al. (2011) e Molenberghs et al. (2007).
19
4.1 Modelo Gaussian-log-Gaussian (GLG)
No modelo proposto por Palacios e Steel (2006) trabalha-se com uma variavel latente
que tem uma acao direta na variancia do processo o que permite a acomodacao da
dependencia espacial presente no modelo.
Assim no modelo GLG, dado o processo de variancia, pode-se chegar numa distri-
buicao normal o que da mais praticidade a implementacao dos algoritmos.
Seja Y (x) um processo aleatorio nas localizacoes x numa determinada regiao. O
modelo inicial e dado por
Y (x) = ZTβ + σε(x) + τρ(x),
onde ε(x) e um vetor estacionario de segunda ordem com media zero, variancia unitaria
e com uma funcao de correlacao que depende apenas da distancia entre os pontos,
corr[ε(xi), ε(xj)] = Cθ(||xi–xj||),
onde Cθ(d) e uma funcao de correlacao valida em funcao da distancia euclidiana. τ e cha-
mado de efeito pepita e representa um processo Gaussiano nao correlacionado utilizado
para auxiliar na medicao de erro e deteccao de variacao em pequena escala.
Na proposta estocastica alternativa trazida por Palacios e Steel (2006) ha uma mistura
de processos envolvendo ε(x). Introduz-se uma variavel de mistura λi associada a cada
observacao e portanto o novo modelo sera,
Y (xi) = ZTi β + σ
ε(xi)√λi
+ τρ(xi).
Assume-se que ρ(xi), ε(xi) e λi sao independentes e conclui-se que a componente
de mistura incluıda afeta apenas o processo que representa a dependencia espacial. A
distribuicao de mistura sera dada por,
ln(λ) = (ln(λ1), ..., ln(λn))T ∼ Nn
(−ν
21, νCθ
).
O vetor 1 de tamanho n e composto apenas por entradas iguais a 1. A matriz de
20
correlacao neste caso sera a mesma determinada para Y (x) pois isto auxilia no momento
de fazer a inferencia de cada parametro, segundo Palacios e Steel (2006).
Cada λi tera uma distribuicao log-normal e assim este modelo permite a modelagem
em regioes onde a variacao e maior.
4.2 Descricao do modelo proposto
O modelo proposto neste trabalho envolvera a ideia de modelos lineares generalizados
utilizada por Diggle et al. (1998), acrescentando uma componente responsavel por captar
o fenomeno de sobredispersao dos dados que nao foi captado pelo processo espacial como
foi exposto por Gschloßl e Czado (2006) e Neyens et al. (2011). Porem diferente de
Gschloßl e Czado (2006) e Neyens et al. (2011) o modelo tratara de dados de geoestatıstica
e essa nova componente tera as caracterısticas da componente introduzida por Palacios
e Steel (2006) que naquele contexto trabalhava com a mistura de escala com o processo
Gaussiano presente no modelo apresentado por eles.
Em Neyens et al. (2011) ao incluir um efeito aleatorio capaz de captar a sobredis-
persao presente nos dados eles nomeiam o modelo como Modelo Combinado. A com-
ponente αi foi incluıda de forma multiplicativa assim como em Neyens et al. (2011) e o
nome do modelo proposto neste trabalho e dado de maneira similar: Modelo Combinado
Lognormal-Poisson-Lognormal (LN-P-LN).
No caso de Neyens et al. (2011) e utilizada uma distribuicao Gama nao correlacionada
para captacao da sobredispersao, enquanto no Modelo Combinado LN-P-LN e utilizada
uma distribuicao lognormal correlacionada para captar a sobredispersao extra que o
processo espacial nao conseguiu captar, assim como e feito em Palacios e Steel (2006).
Os dados de geoestatıstica tem a caracterıstica de variar continuamente na regiao
onde eles estao definidos, usualmente numa regiao pertencente ao Rd. Neste trabalho
d = 2 sendo representado pela latitude e longitude do dado observado.
Diferente da abordagem apresentada em Palacios e Steel (2006) que introduz a variavel
de mistura atraves de uma relacao direta com o processo espacial, a componente α(xi) e
introduzida no modelo combinado LN-P-LN multiplicando o preditor linear. Esta decisao
21
foi tomada com base nos trabalhos de Gschloßl e Czado (2006) e Neyens et al. (2011).
Reforcando que Gschloßl e Czado (2006) e Neyens et al. (2011) apresentam modelos cujo
o enfoque e para dados de area.
O modelo combinado LN-P-LN e representado da seguinte maneira,
Y (xi) ∼ Poisson(λ(xi)) (4.1)
λ(xi) = α(xi)exp{Zi
Tβ + S(xi)}
(4.2)
observado nas localizacoes espaciais xi em alguma regiao espacial D ⊂ Rd. ZT repre-
senta as covariaveis do modelo e β o vetor de coeficientes desconhecidos relacionados as
covariaveis.
S(x) e um Processo Gaussiano definido em D ⊂ Rd que entra no modelo represen-
tando a correlacao espacial dos dados. Por ser um Processo Gaussiano, S = (S(x1), ..., S(xn))
tera uma distribuicao normal multivariada com as seguintes especificacoes,
S ∼ Nn(0,Σ).
Definindo Σ = σ2C(dij, φ), matriz de correlacao representada por C(dij) sera defi-
nida a partir da estrutura de correlacao exponencial definida como e
{−dijφ
}onde dij e
a distancia euclidiana entre duas observacoes (ver Banerjee et al. (2004)). Neste traba-
lho nao iremos considerar o efeito pepita porem, ele pode ser incluıdo no modelo se for
preciso.
A componente α(x) = (α(x1), ..., α(xn)) ∈ R+ entra no modelo para capturar a
sobredispersao presente nos dados e como pressuposto assumimos que
ln(α) = (ln[α(x1)], ..., ln[α(xn)])T ∼ Nn
(−ν
21, νC(dij, φ)
), (4.3)
onde ν ∈ R+ e um parametro de escala introduzido na distribuicao do logaritmo de α.
A inclusao de α(xi),assim como em Palacios e Steel (2006), tem como objetivo captu-
rar a variabilidade extra que Processo Gaussiano, introduzido para capturar a correlacao
espacial, nao conseguiu identificar. O que justifica a inclusao da mesma e que, por exem-
plo, poderıamos estar com um modelo onde nao ha variaveis espaciais que deveriam estar
incluıdas e o processo espacial pode nao capturar a variabilidade neste caso.
22
Como modelamos a sobredispersao como um processo contınuo no Modelo Combinado
Lognormal-Poisson-Lognormal (LN-P-LN) e possivel fazer um mapa da sobredispersao
do processo. Alem disso podemos prever a sobredispersao em lugares sem observacoes e
ter previsoes mais realistas levando em consideracao a sobredispersao.
4.3 Funcao de verossimilhanca e especificacao da pri-
ori
Por pressuposto, os Yi sao independentes condicionais a S. Portantoa funcao de ve-
rossimilhanca e dada por,
p(Y|S,β,α, ν) =n∏i=1
e−λiλyiiyi!
A escolha da distribuicao atribuıda a priori aos parametros de interesse e de suma
importancia no paradigma Bayesiano. Portanto, primeiramente fazemos um estudo des-
sas distribuicoes a priori atribuıdas aos parametros. Neste trabalho foi tomada como
base algumas conclusoes apresentadas por Palacios e Steel (2006) e Diggle et al. (1998)
com relacao a distribuicoes a priori dos parametros.
A priori considera-se os parametros independentes e portanto,
p(β, σ2, φ,α, ν) = p(β)p(σ2)p(φ)p(α)p(ν).
Para β foi proposta uma priori proporcional a uma constante, ou seja, uma priori
uniforme. Para σ2 foi feito uma reparametrizacao de maneira a chegar numa conjugacao
entre a verossimilhanca e a priori. Trabalhando assim com a precisao, τ = 1σ2 , definimos
a seguinte priori,
τ ∼ Ga(c1, c2).
Os valores de c1 e c2 sao usualmente baixos de forma que a priori nao seja muito
informativa e assim os dados tenham mais peso que a priori.
23
Conforme sugerido em Palacios e Steel (2006), foi atribuıda uma priori exponencial
para φ denotada por,
φ ∼ Exp
(1
med(dij)
),
onde med(dij) e a mediana de todas as distancias euclidianas entre quaisquer 2 ob-
servacoes. Eles ainda afirmam que a distribuicao exponencial assegura que tenha uma
grande massa em volta do zero que e o caso limite onde nao ha correlacao. Entao se ha
evidencia de correlacao, isto deve ser dito pelo dado e nao pela priori.
O parametro ν teve uma priori nao informativa uma vez que este parametro e mais
restrito e assim foi atribuıda uma priori com media numericamente baixa e uma variancia
alta,
ν ∼ Gama(c3, c4),
onde c3 e c4 sao constantes arbitrarias
A priori sugerida por Diggle et al. (1998) para S e uma Normal obtida a partir
da distribuicao Normal Multivariada oriunda do Processo Gaussiano que S segue por
pressuposto. Sabe-se que a distribuicao condicional de uma Normal Multivariada tambem
sera Normal. Assim, a priori para S sera dada por,
(S(k)|S−(k),θ),∼ Nn(A;B), (4.4)
onde A e B e o vetor de medias e a matriz de covariancias, respectivamente, obtidas a
partir das propriedades da Normal Multivariada.
A componente α(x) tera distribuicao a priori p(α(k)|α−(k),θ, ν) derivada de (4.3).
Neste contexto, S(k) e α(k) representam as componentes de S e α pertencentes ao bloco
K. Esta divisao em blocos esta relacionada ao passo de atualizacao dessas componentes
que e explicitado mais a frente.
4.4 Procedimentos de inferencia e implementacao
A abordagem escolhida para fazer a inferencia dos parametros do modelo neste tra-
balho e a Bayesiana e o metodo de Monte Carlo via cadeias de Markov (MCMC) e usado
24
em grande escala nessa abordagem. Este metodo permite o ajuste de modelos mais
complexos e de difıcil tratamento.
Quando usamos inferencia bayesiana temos como principal objetivo a obtencao de
uma amostra da distribuicao a posteriori dos parametros de interesse e a partir dessa
amostra fazer algumas inferencias. O MCMC e uma tecnica que permite a utilizacao de
diferentes algoritmos iterativos que fornecem essa amostra da distribuicao a posteriori
dos parametros. Os mais conhecidos e usados sao o amostrador de Gibbs e o Metropolis-
Hastings.
Pelo Teorema de Bayes sabemos que a distribuicao a posteriori de um parametro
qualquer e dada pelo produto entre a funcao de verossimilhanca e a distribuicao a priori
definida para o parametro. Quando essa distribuicao a posteriori apresenta uma forma
fechada e previamente conhecida, nao se faz necessaria uma aproximacao da amostra da
distribuicao a posteriori dos parametros do modelo.
Ha tambem a possibilidade da distribuicao a posteriori nao ter uma forma fechada
e neste caso faz-se uso de um passo de Metropolis-Hastings. Quando temos alguns
parametros com distribuicao condicional completa conhecida e outros com distribuicao
condicional completa desconhecida e possivel implementarmos passos de Metropolis-
Hastings dentro de um amostrador de Gibbs.
Para isso, e necessario obtermos os nucleos das distribuicoes a posteriori de cada
parametro de interesse do modelo. Vemos isso na subsecao seguinte.
4.4.1 Distribuicoes a posteriori
Com as distribuicoes a priori definidas anteriormente temos condicoes de achar as
distribuicoes condicionais completas necessarias para desenvolver o metodo do MCMC.
Vemos a seguir os nucleos dessas distribuicoes.
• θ = (φ, τ):
Sabemos que,
p(θ|Y,S,β,α, ν) = p(θ|S) ∝ p(S|θ)p(θ)
25
p(φ, τ |Y,S,β,α, ν) ∝ |Σ|−1/2exp{−1
2STΣ−1S
}p(φ)p(τ)
Assumindo a priori que τ ∼ Ga(c1, c2) e φ ∼ Exp(
1med(dij)
), obtemos
p(τ |Y,S,β,α, ν, φ) ∝ |Σ|−1/2exp{−1
2STΣ−1S
}τ c1−1e−τc2
p(φ|Y,S,β,α, ν, τ) ∝ |Σ|−1/2exp{−1
2STΣ−1S
}e
−φmed(dij)
• β = (β1, ..., βp):
p(β|Y,S,θ,α, ν) = p(β|Y,S) ∝ p(Y|S,β)p(β)
p(β|Y,S,θ,α, ν) ∝n∏i=1
e−λiλyii p(β)
• ν:
p(ν|Y,S,β,α,θ) ∝ p(Y|S, ν)p(ν)
p(ν|Y,S,β,α,θ) ∝
[n∏i=1
e−λiλyii
]νc3−1e−νc4
As distribuicoes condicionais completas para S e α serao obtidas em blocos conforme
a tecnica utilizada para amostrar dessas componentes durante o passo de Metropolis-
Hastings. Essa abordagem sera tratada logo apos a apresentacao dos nucleos dessas
distribuicoes a posteriori.
• S = (S(x1), ..., S(xn)):
p(S(k)|S−(k),Y ,θ,β,α, ν) ∝ p(Y |S,β)p(S(k)|S−(k),θ),
p(S(k)|S−(k),Y ,θ,β,α, ν) ∝
[n∏i=1
e−λiλyii
]exp
{−1
2(S(k) − A)TB−1(S(k) − A)
}onde S(k) e o vetor formado apenas com as componentes de S pertencentes ao bloco k
pre definido. A e B sao vetor de medias e matriz de covariancia, respectivamente, da
Normal Multivariada condicional.
26
• α = (α(x1), ..., α(xn)):
p(α(k)|α−(k),Y ,θ,β,S, ν) ∝ p(Y |S,β)p(α(k)|α−(k),θ, ν),
p(α(k)|α−(k),Y ,θ,β,S, ν) ∝
[n∏i=1
e−λiλyii
]|B|−1/2exp
{−1
2(α(k) − C)TD−1(α(k) − C)
}onde α(k) e o vetor formado apenas com as componentes de α pertencentes ao bloco k
tambem pre definido. C eD sao vetor de medias e matriz de covariancia, respectivamente,
da Normal Multivariada condicional expressa na equacao (4.3).
4.4.2 Algoritmo de MCMC - Especificacoes
Diggle et al. (1998) atualizam as componentes de S uma a cada vez e isso toma um
tempo computacional muito grande uma vez que e necessario fazer inversoes de matrizes
grandes a cada iteracao. E quanto maior for o conjunto de dados, maior se torna esse
gasto computacional e assim o processo comeca a ficar inviavel.
Uma opcao poderia ser amostrar essas componentes de forma conjunta reduzindo
assim o custo computacional porem, isso nao permitiria que as cadeias se movessem em
direcoes diferentes.
Dado isto, usaremos uma abordagem utilizada por Palacios e Steel (2006) onde se par-
ticiona os elementos da componente em questao em blocos, onde cada bloco corresponde
a um cluster de observacoes que estao relativamente proximas.
Palacios e Steel (2006) utilizaram este procedimento para componente introduzida
no modelo com o intuito de captar observacoes mais distantes. No Modelo Combinado
Lognormal-Poisson-Lognormal (LN-P-LN) esta componente sera responsavel por cap-
turar o fenomeno da sobredispersao sendo representada por α e aplicaremos a mesma
divisao em blocos para o S.
Espera-se que ao amostrar o bloco inteiro de uma vez o algoritmo se torne mais eficaz
ja que o custo computacional reduzira em grande escala pois, ao inves de atualizar as n
componentes individualmente a cada iteracao como foi proposto anteriormente, iremos
27
atualiza-las em 4 blocos.
Pode-se escrever o vetor α como a seguinte particao,
α =
α(k)
α−(k)
.
A matriz de covariancia podera ser escrita da seguinte maneira,
C(θ) =
C11C12
C21C22
,
onde α(k) representa os elementos de α dentro do bloco k e α−(k) os elementos restantes.
As mesmas particoes foram consideradas para S.
Ao reparametrizar σ2 pela precisao τ e possıvel chegar numa distribuicao conhecida
da condicional completa. Entao para obter uma amostra a posteriori de σ2 amostramos
diretamente da distribuicao Gama.
Conforme visto anteriormente, para os demais parametros do modelo nao foi possıvel
obter uma distribuicao condicional completa numa forma conhecida. Assim, dentro do
algoritmo e aplicado um passo de Metropolis-Hastings onde sao definidas distribuicoes
propostas das quais sao amostrados possıveis valores para compor a amostra a posteriori
dos parametros do modelo. A partir de uma probabilidade de aceitacao esses valores
propostos sao aceitos ou nao.
Utilizar um passeio aleatorio no momento de propor um novo valor para cadeia e
usual nos metodos de Metropolis-Hastings. Neste caso propomos valores de uma distri-
buicao simetrica que depende do valor da cadeia no passo anterior. Isto significa que a
probabilidade da cadeia se mover dependera da distancia entre o estado atual e o estado
proposto. Assim, faz-se uso de uma distribuicao Normal centrada no valor da cadeia
no passo anterior e com variancia calibrada de maneira que o algoritmo tenha taxa de
aceitacao em torno de 20% a 40%. Ha ainda a possibilidade de trabalharmos com uma
proposta do tipo passeio aleatorio no log, onde propomos valores de uma distribuicao
Normal centrada no logaritmo do valor da cadeia no passo anterior.
28
Portanto foi utilizado um passeio aleatorio no log como distribuicao proposta para φ,
ν e α. Na atualizacao de S e β foi utilizado um passeio aleatorio como proposta.
Outra questao abordada e a busca por um aprimoramento do MCMC aplicado para
este modelo. Neste sentido, com o intuito de obter uma melhora na convergencia do
algoritmo, aplica-se uma reparametrizacao no parametro de regressao β0. Essa repara-
metrizacao permite que a atualizacao dos parametros ocorra de forma mais ortogonal, o
que acelera o andamento do algoritmo diminuindo assim o tempo computacional. Deste
modo, a reparametrizacao e dada da seguinte maneira,
β∗0 = β0 + s,
onde s e a media dos valores correntes da cadeia de S.
O algoritmo apresentado neste capıtulo sera utilizado na analise de dados reais e
artificiais no capıtulo seguinte.
4.5 Problema de identificabilidade
Uma dificuldade que pode se apresentar neste tipo de estudo e a identificabilidade
da variabilidade dos dados. Pode ser que nao seja possıvel analisar os parametros de
variabilidade separadamente. Para alguns conjuntos de dados puramente espaciais os
parametros de variancia λi podem se confundir com a variancia global σ2 e neste caso
somente identifica-se a razao σ2√λi
.
Uma falta de identificabilidade analoga poderia ocorrer para dados puramente espa-
ciais nos modelos combinados LN-P-LN, trazendo assim uma limitacao para o modelo.
Porem neste trabalho este fato nao foi observado a partir dos exemplos estudados.
Uma possıvel solucao para este problema seria incorporar e analisar observacoes ao
longo do tempo como e apresentado em Fonseca e Steel (2011). Para o caso de dados
com resposta Poisson essa seria uma possıvel extensao do modelo utilizado aqui.
29
Capıtulo 5
Analise de Dados
Neste capıtulo iremos trabalhar com a aplicacao dos algortimos citados e propostos nas
secoes anteriores em dados artificiais e dados reais. Primeiramente para dados artificiais
teremos dois exemplos, no primeiro e aplicado o modelo proposto por Diggle et al. (1998)
e no segundo exemplo, o Modelo Combinado Lognormal-Poisson-Lognormal (LN-P-LN)
proposto neste trabalho. Esses dados foram simulados a partir de um modelo usual
Poisson Lognormal.
Em seguida modelaremos os dados reais do numero de internacoes de pacientes com
meningite viral por hospital do estado do Rio de Janeiro atraves do Modelo Combinado
Lognormal-Poisson-Lognormal (LN-P-LN).
5.1 Dados Artificiais
5.1.1 Exemplo 1
Foram simulados dados de contagem com estrutura espacial para validar e estudar
o desempenho do algoritmo anteriormente explanado. Primeiramente iremos estudar o
modelo proposto por Diggle et al. (1998).
Suponha o modelo,
Y (xi)|λ(xi) ∼ Poisson(λ(xi)) (5.1)
30
log(λ(xi)) = β0 + β1lati + β2loni + S(xi) (5.2)
onde E[S(x)] = 0 , Cov[S(x), S(x′)] = σ2ρ(||x−x′||) e ρ (||x−x′||) = exp{−dijφ
}sendo S
um Processo Gaussiano e dij a distancia euclidiana entre dois pontos xi e xj quaisquer. As
variaveis explicativas neste caso serao a latitude e longitude e os parametros regressores
β1 e β2, respectivamente.
Banerjee et al. (2004) trabalham com uma estrutura de covariancia chamada Expo-
nencial com funcao de correlacao espacial ρ que depende das distancias euclidianas dij
e de um parametro φ. Esta e a estrutura adotada para os dados artificiais. Banerjee
et al. (2004) ainda sugerem que a correlacao da distancia maxima entre as observacoes
seja menor que 0,05, ou seja, ρ(dmax) < 0, 05.
Para obter esses dados artificiais e necessario primeiramente fixar os parametros.
Assim β0 = −2 , β1 = 5 , β2 = 2 , φ = 0.5 e σ2 = 0.3. Apos isto foram geradas 100
observacoes no quadrado [0,1] x [0,1] conforme modelo expresso atraves das equacoes
(5.1) e (5.2). A distribuicao a posteriori dos parametros foi aproximada por MCMC.
As prioris utilizadas foram: 1σ2 = τ ∼ Ga(0.1, 0.1), β ∼ C1 e φ ∼ Exp
(1
0,511
),
onde C1 e uma constante qualquer e portanto β tera uma priori Uniforme. Para S foi
atribuıda priori a partir da equacao (4.4).
Para analise de convergencia foram utilizados criterios existentes na literatura e cal-
culados a partir do pacote CODA do R. Os criterios utilizados foram: Geweke (1992),
Raftery e Lewis (1992) e Heidelberger e Welch (1983). Estes criterios fornecem es-
tatısticas que permitem analisar a estacionariedade, convergencia, burn-in e espacamento
necessarios para se obter uma amostra a posteriori menos autocorrelacionada.
Conforme resultado obtido atraves do criterio de Raftery e Lewis (1992) foi aplicado
um burn-in de 4000 iteracoes com espacamento de 50, resultando numa amostra de
tamanho 6921.
Na tabela 5.1 vemos um resumo das amostras a posteriori com media e intervalos de
credibilidade de 95%. Todos os intervalos contem os verdadeiros valores dos parametros.
31
Parametros Valor verdadeiro Media a posteriori Intervalo de credibilidade
φ 0,3 0,281 (0,111 ; 0,861)
σ2 0,5 0,472 (0,215 ; 1,357)
β0 -2 -2,083 (-2,332 ; -1,84)
β1 5 5,072 (4,801 ; 5,349)
β2 2 2,069 (1,909 ; 2,227)
Tabela 5.1: Resumo da distribuicao a posteriori - Exemplo 1
As cadeias dos parametros e as densidades das distribuicoes a posteriori podem ser
vistas na figura 5.1. Com uma analse visual desta figura e aplicacao dos criterios de
convergencia propostos em Geweke (1992), Raftery e Lewis (1992) e Heidelberger e Welch
(1983) podemos verificar que todas as cadeias se mostraram estacionarias e convergiram
para o verdadeiro valor do parametro utilizado para gerar os dados.
O grafico na figura 5.2 e obtido da seguinte maneira: Para cada distancia em uma
grade pre determinada e calculada a correlacao para cada observacao da amostra a pos-
teriori de φ obtida atraves do MCMC. Assim obtemos com um conjunto de correlacoes
de tamanho M para cada distancia, onde M e o tamanho da amostra a posteriori dos
parametros. A seguir, e calculado o intervalo de credibilidade para esse conjunto de
correlacoes e a mediana. As linhas vermelhas ao longo do grafico sao os intervalos de
credibilidadede 95%. A linha preta representa a mediana.
Podemos ver na figura 5.2 que a partir da distancia 1,093 a correlacao entre os efeitos
espaciais comeca a ser desprezıvel. Concluımos assim que a partir dessa distancia as ob-
servacoes podem ser consideradas aproximadamente nao correlacionadas. Esta distancia
e definida em graus uma vez que estamos trabalhando com a latitude e longitude das
observacoes. Assim nao e possıvel fazermos uma alusao ao um sistema metrico utili-
zado usualmente. Ainda analisando a figura 5.2, a linha azul representa a verdadeira
correlacao para grade de distancia utilizada. Portanto, a correlacao a posteriori obtida
atraves do MCMC se aproxima da verdadeira correlacao.
Com isso vemos que o algoritmo se mostrou eficiente na modelagem de dados de
contagem espacialmente referenciados.
32
Figura 5.1: Tracos das cadeias e funcoes densidade de probabilidade suavizadas das
distribuicoes a posteriori de φ, σ2, β0, β1 e β2 . Linha vermelha: valor verdadeiro -
Exemplo 1
33
Figura 5.2: Sumario da distribuicao a posteriori da funcao de correlacao - Exemplo 1
5.1.2 Exemplo 2
Desta vez iremos analisar os mesmos dados gerados no Exemplo 1 porem utilizando
o Modelo Combinado Lognormal-Poisson-Lognormal (LN-P-LN) proposto segundo as
equacoes (4.1) e (4.2). Sabemos que este dado foi gerado a partir de um modelo Poisson
Lognormal usual, portanto espera-se que ao fazer inferencias sobre o parametro res-
ponsavel por captar a sobredispersao, α, ele esteja em torno de 1.
Foi aplicado o teste o bayesiano, que utiliza a razao de Savage-Dickey, para averi-
guacao de evidencia de sobredispersao nos dados. A hipostese de que as componentes
αi variam livremente foi descartada, concluindo assim que nao ha evidencia de sobredip-
sersao para os dados artificiais, conforme esperado.
34
As prioris utilizadas foram: 1σ2 = τ ∼ Ga(0.1, 0.1), β ∼ C1, φ ∼ Exp
(1
0,511
)e
ν ∼ Gama(0.1, 0.1), onde C1 e uma constante qualquer e portanto β tera uma priori
Uniforme na reta. Para S e α foram atribuıdas prioris a partir das equacoes (4.4) e
(4.3), respectivamente.
Foi tomado um espacamento de 50 iteracoes e um burn-in de 400 iteracoes segundo o
criterio de convergencia de Raftery e Lewis (1992) resultando numa amostra a posteriori
de 6996 unidades.
Com o auxılio dos criterios de convergencia disponıveis na literatura e uma analise
grafica podemos verificar que as cadeias se mostraram estacionarias e convergentes.
Na tabela 5.2 vemos um resumo das amostras a posteriori com a media e o intervalo
de credibilidade de 95%. Todas as medias a posteriori se mostraram proximas dos valores
verdadeiros do parametro.
Parametros Valor verdadeiro Media a posteriori Intervalo de credibilidade
φ 0,3 0,278 (0,104 ; 0,892)
σ2 0,5 0,342 (0,151 ; 1,024)
β0 -2 -1,734 (-2,024 ; -1,462)
β1 5 5,159 (4,861 ; 5,462)
β2 2 1,559 (1,331 ; 1,790)
Tabela 5.2: Resumo da distribuicao a posteriori - Exemplo 2
Atraves da figura 5.3 vemos que a partir da distancia 0,7 as observacoes podem ser
consideradas nao correlacionadas ja que a correlacao entre as elas comeca a ser des-
prezıvel. A figura 5.3 ainda mostra a verdadeira correlacao dos dados representada pela
linha azul. Vemos portanto que correlacao a posteriori obtida atraves do MCMC se
aproxima da verdadeira correlacao.
O comportamento das cadeias e os histogramas dos parametros podem ser observados
na figura 5.4. Concluımos assim que o Modelo Combinado Lognormal-Poisson-Lognormal
(LN-P-LN) se mostrou eficiente para dados espacialmente georeferenciados de contagem.
35
Figura 5.3: Sumario da distribuicao a posteriori da funcao de correlacao - Exemplo 2
Na figura 5.5 podemos observar o boxplot da distribuicao a posteriori de cada α(xi).
Vemos que todas as componentes apresentaram mediana proximas ao valor 1 e algumas
bem concentradas em torno de 1.
Foram selecionados algumas componentes de α e as cadeias dessas componentes po-
dem ser vistas na fgura 5.6. Todas elas convergiram para o valor 1.
36
Figura 5.4: Tracos das cadeias e funcoes densidade de probabilidade suavizadas das
distribuicoes a posteriori de φ, σ2, β0, β1 e β2 . Linha vermelha: valor verdadeiro -
Exemplo 2
37
Figura 5.5: Boxplot da distribuicao a posteriori das componentes α(xi) - Exemplo 2
38
Figura 5.6: Traco das cadeias das distribuicoes a posteriori de alguns α(xi). Linha
vermelha: abscissa de valor 1 - Exemplo 2
39
5.2 Dados de Meningite Viral
Esta secao apresenta uma aplicacao do modelo combinado LN-P-LN, proposto ante-
riormente neste trabalho atraves das equacoes (4.1) e (4.2), em dados reais de interesse
em saude da populacao com o intuito de trazer uma contribuicao para o estudo de dados
de contagem com dependencia espacial e sobredispersao que nao e captada pelo processo
espacial.
Com esta abordagem espera-se propor um modelo que consiga explicar os dados com
estimativas precisas para os parametros de interesse.
Seja a variavel de interesse Y o numero de internacoes por meningite viral em 107
hospitais no estado do Rio de Janeiro no perıodo de Janeiro de 2008 a Maio de 2015. As
covariaveis utilizadas neste modelo foram a latitude, longitude dos estabelecimentos de
saude e a esfera administrativa, ou seja, se o hospital pertence a rede privada ou publica.
Importante ressaltar que a padronizacao das variaveis de latitude e longitude e de grande
auxılio na convergencia do algoritmo do modelo combinado LN-P-LN.
Segundo a tabela 2.1 proposta em Kass e Raftery (1995) sabemos que para valores
de Ri no intervalo(
120
; 13
)ha evidencia positiva de sobredispersao e no intervalo
(1
150; 120
)ha forte evidencia de sobredispersao.
Figura 5.7: Estatısticas do Teste Bayesiano para sobredispersao - Dados reais
40
Atraves da figura 5.7 que contem um grafico com os valores das estatısticas de teste
segundo a equacao (2.3) para cada localizacao i vemos que a evidencia de sobredispersao
para os dados em questao foi forte em sua maioria e positiva nas demais.
As prioris utilizadas foram: 1σ2 = τ ∼ Ga(0.1, 0.1), β ∼ C1 e ν ∼ Gama(0.1, 0.1),
onde C1 e uma constante qualquer e portanto β tera uma priori Uniforme na reta. Para
S e α foram atribuıdas prioris a partir as equacoes (4.4) e (4.3), respectivamente. As
covariaveis latitude e longitude foram padronizadas e a mediana de todas as distancias
euclidianas entre quaisquer duas observacoes foi 1,3594. Assim a priori para φ sera
Exp(
11,3594
)O burn− in utilizado para as cadeias de cada parametro foi de 105, segundo o criterio
de Raftery e Lewis (1992), e um lag de 50 iteracoes foi tomado para obter uma amostra
a posteriori menos autocorrelacionada.
Apos esses passos obteve-se uma amostra a posteriori de 4100 iteracoes. Essas cadeias
podem ser vistas nas figuras 5.11 e 5.13 e ao fazer uma analise visual, concluımos que as
cadeias dos parametros estao convergindo.
Para dar um suporte maior, foram aplicados criterios de convergencia mais formais.
Os criterios utilizados foram Geweke (1992), Raftery e Lewis (1992) e Heidelberger e
Welch (1983) e em todos eles as cadeias se mostraram estacionarias e convergentes.
Parametros Media a posteriori Intervalo de credibilidade
φ 7,961 (4,489 ; 13,240 )
σ2 0,102 (0,055 ; 0,178)
β0 3,136 (2,802 ; 3,495)
β1 0,091 (-0,447 ; 0,225)
β2 -0,137 (-0,257 ; -0,013)
β3 -0,821 (-1,085 ; -0,567)
ν 0,927 (0 ; 9,289)
Tabela 5.3: Resumo da distribuicao a posteriori - Dados reais.
Um resumo da distribuicao a posteriori dos parametros de interesse pode ser visto
na tabela 5.3 obtido a partir do metodo MCMC. Ao analisar a tabela 5.3 vemos que o
41
parametro β1 foi nao significativo uma vez que o seu intervalo de credibilidade de 95%
contem o zero. Os demais parametros se mostraram significativos.
O parametro β3 representa a influencia que a esfera administrativa do hospital tem
no numero de internacoes por meningite viral. Assim, a esfera administrativa privada
tera a taxa media de internacoes por meningite viral negativamente influenciada ja que
a media a posteriori de β3 foi -0,821. Ou seja, para hospitais privados, espera-se que o
numero medio de internacoes por meningite viral seja menor.
E possıvel ainda observar na figura 5.8 como a evidencia de sobredispersao se distribui
no espaco. Assim como esperado a variacao ocorre com alguma suavidade na regiao de
interesse dado que esta foi modelada como um processo log-gaussiano correlaciodado.
Podemos dizer que o modelo combinado LN-P-LN e indicado para esse conjunto de
dados.
Figura 5.8: Mapa da evidencia de sobredispersao
Na figura 5.9 vemos que a partir da distancia 20 as observacoes podem ser consideradas
42
independentes ja que a correlacao entre as elas comeca a ser desprezıvel.
Figura 5.9: Sumario da distribuicao a posteriori da funcao de correlacao - Dados reais
Podemos ver na figura 5.10 os boxplots das distribuicoes a posteriori de cada αi e
concluımos que o modelo consegue captar a presenca da sobredispersao nos dados com
precisao.
Ainda e possivel observar o histograma e a curva suavizada das distribuicoes a pos-
terirori de cada parametro nas figuras 5.12 e 5.13.
43
Figura 5.10: Boxplot da distribuicao a posteriori das componentes α(xi) - Dados reais
44
Figura 5.11: Traco das cadeias das distribuicoes a posteriori de φ, σ2, β0, β1, β2 e β3 -
Dados reais
45
Figura 5.12: Histogramas e funcoes densidade de probabilidade suavizadas das distri-
buicoes a posteriori de φ, σ2, β0, β1, β2 e β3 - Dados reais
46
Figura 5.13: Histograma e traco da cadeia da distribuicao a posteriori de ν - Dados reais
47
Capıtulo 6
Conclusoes e Discussao
Este trabalhado teve como objetivo contribuir com o estudo de dados de contagem
georeferenciados com sobredispersao. Esse tipo de dado requer uma modelagem especıfica
e para isso a dissertacao traz a proposta de um modelo chamado modelo combinado
Lognormal-Poisson-Lognormal (LN-P-LN).
Para dados de contagem ha a possibilidade da variancia dos dados ser maior que a
esperada e com isso ocorre o fenomeno da sobredispersao. Este fenomeno e observado
com frequencia para o tipo de dado que foi estudado neste trabalho. Com o intuito de
investigar a presenca ou nao de sobredispersao o presente trabalho apresenta dois testes,
um com enfoque Bayesiano e outro Classico.
Quando o dado apresenta a informacao sobre a localizacao da realizacao de um de-
terminado evento dizemos que o dado e georreferenciado. Com isso a correlacao espacial
precisa ser levada em consideracao na modelagem dos dados.
Apesar do Modelo Linear Generalizado com Estrutura Espacial conseguir captar a
sobredispersao presente nos dados, ha a possibilidade de estarmos interessados em obser-
var onde ha variabilidade extra que o processo Gaussiano incluıdo no preditor linear nao
consegue captar.
O enfoque dado no processo inferencial foi Bayesiano e por isso o algoritmo de Monte
Carlo via Cadeias de Markov (MCMC) foi utilizado. Foi feita uma analise de quais
prioris atribuir a cada parametro baseada em artigos da area. A amostragem em blocos
para alguns parametros se mostrou essencial uma vez que essa tecnica diminui o tempo
48
computacional do algoritmo.
Outra manobra favoravel para o algoritmo do MCMC e a padronizacao das covariaveis
introduzidas no modelo assim como a reparametrizacao do parametro de intercepto con-
forme visto no capıtulo 5. Ambas as tecnicas aceleram a convergencia das cadeias.
O modelo modelo combinado Lognormal-Poisson-Lognormal (LN-P-LN) se mostrou
eficiente na estimacao dos parametros para dados que apresentam sobredispersao. Para
estudar a eficiencia do modelo foram trabalhados dados reais e dados artificiais. Os
dados reais trabalhados foram obtidos atraves do DATASUS e consiste no numero de
internacoes nos hospitais do estado do Rio de Janeiro por meningite viral no perıodo de
Janeiro de 2008 a Maio de 2015.
Para os dados artificiais o modelo modelo combinado Lognormal-Poisson-Lognormal
(LN-P-LN) foi capaz de estimar todos os parametros corretamente e fornecer intervalos
de credibilidade precisos. Alem disso o modelo ainda estimou as componentes inseridas
no modelo para captar a sobredispersao extra nao captada pelo processo Gaussiano. Em
ambas as abordagens desta dissertacao, com dados reais e artificiais, o modelo combi-
nado Lognormal-Poisson-Lognormal (LN-P-LN) trabalha com a estrutura de correlacao
exponencial.
Para os dados de meningite foram incluıdas covariaveis no modelo com o intuito de
averiguar a influencia dessas variaveis no numero de internacoes por meningite viral. A
variavel que indicava a esfera administrativa do hospital, ou seja se ele era publico ou
privado, se mostrou significativa e com um efeito numerico negativo na reposta. Em ou-
tras palavras, os hospitais privados terao menores numeros de internacoes por meningite
viral que os hospitais publicos.
Com o intuito de validar a eficiencia do algoritmo aplicado foram feitos estudos de
convergencia para as cadeias obtidas atraves do MCMC, estudos estes grandemente re-
produzidos na literatura. Os criterios de convergencia utilizados foram Geweke (1992),
Raftery e Lewis (1992) e Heidelberger e Welch (1983).
Para propostas futuras seria interessante adicionar mais variaveis explicativas ao mo-
delo com dados reais. Outra atividade a ser desenvolvida no futuro e trabalhar com o
modelo Lognormal-Poisson-Lognormal (LN-P-LN) para bases de dados maiores. Como
49
trabalho futuro seria interessante obter previsoes para localidades onde o numero de in-
ternacoes por meningite viral nao foi observado ja que o Lognormal-Poisson-Lognormal
(LN-P-LN) modela a sobredispersao como um processo contınuo.
Por fim, como uma validacao do modelo proposto e necessario um estudo de simulacao
com dados gerados a partir do modelo Lognormal-Poisson-Lognormal (LN-P-LN) e ajus-
tar o modelo proposto em Diggle et al. (1998) e apos isto comparar a qualidade do ajuste
e algum tipo de validacao cruzada.
50
Referencias Bibliograficas
Banerjee, S., Carlin, B. P., e Gelfand, A. E. (2004). Hierarchical Modeling and Analysis
for Spatial Data. Monographs on Statistics and Applied Probability, 1st ed. Chapman
& Hall/CRC.
Besag, J., York, J., e Mollie, A. (1991). “Bayesian image restoration, with two appli-
cations in spatial statistics.” Annals of the Institute of Statistical Mathematics , 43,
1–59.
Bulmer, M. G. (1974). “On fitting the Poisson lognormal distribution to species-
abundance data.” International Statistical Review , 30, 1, 101–110.
Christensen, O. F., Roberts, G. O., e Skold, M. (2006). “Robust Markov Chain Monte
Carlo Methods for spatial generalized linear mixed models.” Journal of Computational
Graphical Statistics , 15, 1–17.
Christensen, O. F. e Waagepetersen, R. (2002). “Bayesian prediction of spatial count
data using generalized linear mixed models.” Biometrics , 58, 280–286.
Cressie, N. (1993). Statistics for Spatial Data. New York: Wiley.
Dean, C. B. (1992). “Testing for overdispersion in poisson and binomial regression mo-
dels.” Journal of the American Statistical Association, 87, 418, 451–457.
Dickey, J. (1971). “The weighted likelihood ratio, linear hypotheses on normal location
parameters.” The Annals of Mathematical Statistics , 42, 204–223.
Diggle, P. J. e Ribeiro Jr, P. J. (2007). Model-based Geostatistics . Springer.
51
Diggle, P. J., Twan, J. A., e Moyeed, R. A. (1998). “Model-Based Geostatistics.” Journal
of the Royal Statistical Society Series B , 47, 3, 299–326. (with discussion).
Fonseca, T. C. O. e Steel, M. F. J. (2011). “Non-Gaussian Spatiotemporal Modelling
through Scale Mixing.” Biometrika, 98, 4, 761–774.
Geweke, J. (1992). “Evaluating the accuracy of sampling-based approaches to the cal-
culation of posterior moments.” Bayesian Estatistics 4 (eds J. M. Bernardo et al),
Oxford University Press, Oxford , 169–193.
Gschloßl, S. e Czado, C. (2006). “Modelling count data with overdispersion and spatial
effects.” Statistical Papers , 49, 3, 531–552.
Heidelberger, P. e Welch, P. D. (1983). “Simulation run length control in the presence
of an initial transient.” Operations Research, 31 , 1109–1144.
Kass, R. e Raftery, A. E. (1995). “Bayes factor.” Journal of the American Statistical
Association, 90, 430, 773–795.
McCullagh, P. e Nelder, J. A. (1989). Generalized Linear Models, 2nd edition. 2nd ed.
Chapman & Hall.
Molenberghs, G., Verbeke, G., e Demetrio, C. G. B. (2007). “An extended random-effects
approach to modeling repeated, overdispersed count data.” Lifetime Data Anal , 13,
513–531.
Neyens, T., Faes, C., e Molenberghs, G. (2011). “A generalized Poisson-gamma model for
spatially overdispersed data.” Spatial and Spatio-temporal Epidemiology , , 3, 185–194.
Palacios, M. B. e Steel, M. F. J. (2006). “Non-Gaussian Bayesian Geostatistical Mode-
ling.” Journal of the American Statistical Association, 101, 474, 604–618.
Papaspiliopoulos, O., Roberts, G. O., e Skold, M. (2007). “A general framework for the
parametrization of hierarchical models.” Statistical Science, 22, 59–73.
52
Raftery, A. E. e Lewis, S. (1992). “How many iterations in the Gibbs sampler?” Bayesian
Statistics 4 (eds. J.M. Bernardo, J. Berger, A.P. Dawid and A.F.M. Smith), Oxford
University Press, Oxford , 763–773.
Schmidt, A. M. e Pereira, J. B. M. (2011). “Modelling time series of counts in Epidemi-
ology.” International Statistical Review , 79, 1, 48–69.
Yang, Z., Hardin, J. W., e Addy, C. L. (2008). “A score teste for overdispersion in Poisson
regression based on the generalized Poisson-2 model.” Journal of Statistical Planning
and Inference, 138, 1514–1521.
53