Modelos para dados de contagem espacial com sobredispers~ao · Modelos para dados de contagem...

Modelos para dados de contagem espacial

com sobredispersao

Luiz Fernando Lima Costa

Universidade Federal do Rio de Janeiro

Instituto de Matematica

Departamento de Metodos Estatısticos

2015

Modelos para dados de contagem espacial com

sobredispersao

Luiz Fernando Lima Costa

Dissertacao de Mestrado submetida ao Programa de Pos-Graduacao em Estatıstica

do Instituto de Matematica da Universidade Federal do Rio de Janeiro - UFRJ, como

parte dos requisitos necessarios a obtencao do tıtulo de Mestre em Estatıstica.

Aprovada por:

Thais Cristina Oliveira da Fonseca

DME/IM - UFRJ - Orientadora.

Alexandra Mello Schmidt

DME/IM - UFRJ.

Aline Araujo Nobre

FIOCRUZ.

Rio de Janeiro, RJ - Brasil

2015

ii

CIP - Catalogação na Publicação

Elaborado pelo Sistema de Geração Automática da UFRJ com osdados fornecidos pelo(a) autor(a).

C837mCosta, Luiz Fernando Lima Modelos para dados de contagem espaciais comsobredispersão / Luiz Fernando Lima Costa. -- Riode Janeiro, 2015. 53 f.

Orientador: Thais Cristina Oliveira da Fonseca. Dissertação (mestrado) - Universidade Federaldo Rio de Janeiro, Instituto de Matemática,Programa de Pós-Graduação em Estatística, 2015.

1. Geoestatística. 2. Inferência Bayesiana. 3.Sobredispersão. 4. Poisson. 5. Dados de contagem.I. Fonseca, Thais Cristina Oliveira da, orient.II. Título.

iii

Changing is inevitable...

iv

Agradecimentos

Primeiramente a Deus pela dadiva da vida. Sem sua misericordia e graca eu nao teria

chegado ate aqui.

A toda minha famılia e em especial aos meus pais, Luiz Henrique e Silvia, por todo

apoio e incentivo dado desde o comeco da minha carreira estudantil. Obrigado por

acreditarem que eu seria capaz e terem me dado todo suporte necessario.

Aos meus amigos que entenderam e aceitaram as varias vezes que deixamos de nos

ver pois eu estava muito ocupado com a dissertacao. Valeu a pena esperar.

Aos amigos especiais que reencontrei e conheci durante o Mestrado: Caroline Ponce,

Juliana Freitas e Rafael Erbist. Sem duvida a amizade e o companherismo que criamos

nesse perıodo nos fortaleceu e nos deu forca para continuar. Sem contar as pizzas de toda

terca-feira que ajudava a relaxar depois de um dia inteiro de estudo. A Liga sobreviveu.

Aos amigos do IBGE que sempre acreditaram em mim e me apoiaram. Seus conselhos

foram providenciais para o termino deste trabalho. Em especial quero destacar Daniela

Barreto, Roberta Souza, Samela Arantes, Sofia Monti e Viviane Quintaes.

A minha orientadora Thais Fonseca por ter aceitado prontamente me orientar e ter

me dado todo suporte necessario para concluir esta etapa da minha vida.

A professora Aline Nobre por ter aceito fazer parte da banca e ter disponibilizado

tempo para discutir e contribuir com a presente dissertacao.

A professora Alexandra M. Schmidt por ter sido peca importante na minha caminhada

no Mestrado. Desde o curso de verao, passando por professora de disciplina, depois

trabalhando comigo na monitoria e, fechando o ciclo, fazendo parte dessa banca. Suas

palavras de apoio e seu exemplo foram de suma importancia. Muito obrigado.

A todos que de alguma forma, direta ou indireta, contribuiram para minha formacao

tanto na ENCE quanto na UFRJ.

v

Resumo

A analise estatıstica de dados tem passado por grande desenvolvimento devido ao

avanco tecnologico que permite armazenamento e estudo de dados mais complexos. Em

particular, a analise de dados espaciais tem avancado significativamente. O objetivo deste

trabalho e contribuir com a analise de dados de contagem georeferenciados com sobre-

dispersao. Para isto, e proposto um modelo chamado Modelo Combinado Lognormal-

Poisson-Lognormal (LN-P-LN) para tratar destas especificidades com foco em dados de

geoestatıstica. O processo inferencial utilizado foi Bayesiano e para estimacao o algoritmo

de Monte Carlo via Cadeias de Markov (MCMC) foi escolhido. Para ilustrar a metodo-

logia foram estudados dados artificiais e dados reais referentes ao numero de internacoes

por meningite viral nos hospitais do estado do Rio de Janeiro. O modelo combinado LN-

P-LN se mostrou satisfatorio para ambos os dados. Para uma analise da convergencia

das cadeias foram aplicados criterios de convergencia amplamente utilizados na literatura.

Vimos tambem que ha necessidade de se estudar melhor os testes disponıveis na litera-

tura para verificacao da presenca de sobredispersao nos dados e tambem que a insercao

de novas covariaveis para o modelo com dados reais seria interessante.

Palavras-Chaves: geoestatıstica, inferencia bayesiana, sobredispersao, Poisson, dados

de contagem.

vi

Abstract

The statistical data analysis has improved due to the technological progress which

allows storage and study of more complex data. In particular the analysis of statistical

data has advanced significantly. The purpose of this work is to contribute to the analysis

of georeferenced count data with overdispersion. In this context, it’s proposed a mo-

del called Combined Model Lognormal-Poisson-Lognormal (LN-P-LN) to address these

specificities. The Bayesian inferential process was used and so the Monte Carlo Markov

Chains (MCMC) algorithm has been chosen for estimation. To illustrate the methodo-

logy simulated and real data on the number of hospitalizations due to viral meningitis

in hospitals in Rio de Janeiro were studied. The Combined Model Lognormal-Poisson-

Lognormal (LN-P-LN) proved satisfactory for both data. Convergence criteria widely

used in the literature were applied for the analysis of the convergence of chains. We have

also seen that there is need to better study the hypoteses tests available in the literature

for the presence of overdispersion in the data and also the insertion of new covariates for

the model with real data would be interesting.

Keywords: geostatistics, bayesian inference, overdispersion, Poisson, count data.

vii

Sumario

1 Introducao 1

1.1 Exemplo ilustrativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2 Delineamento da dissertacao . . . . . . . . . . . . . . . . . . . . . . . . . 5

2 Sobredispersao 7

2.1 O problema da sobredispersao . . . . . . . . . . . . . . . . . . . . . . . . 7

2.2 Testes para investigar a evidencia de sobredispersao . . . . . . . . . . . . 9

2.2.1 Teste classico - Dean . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.2.2 Teste Bayesiano - Savage-Dickey . . . . . . . . . . . . . . . . . . . 10

2.2.3 Obtendo o Fator de Bayes . . . . . . . . . . . . . . . . . . . . . . 12

3 Dados georreferenciados 13

3.1 Definicoes e conceitos de Estatıstica Espacial . . . . . . . . . . . . . . . . 13

3.2 Modelo Linear Generalizado com Estrutura Espacial . . . . . . . . . . . . 15

3.3 Questoes de implementacao do Modelo Linear Generalizado com Estrutura

Espacial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

4 Modelo Proposto 19

4.1 Modelo Gaussian-log-Gaussian (GLG) . . . . . . . . . . . . . . . . . . . 20

4.2 Descricao do modelo proposto . . . . . . . . . . . . . . . . . . . . . . . . 21

4.3 Funcao de verossimilhanca e especificacao da priori . . . . . . . . . . . . 23

4.4 Procedimentos de inferencia e implementacao . . . . . . . . . . . . . . . 24

4.4.1 Distribuicoes a posteriori . . . . . . . . . . . . . . . . . . . . . . . 25

viii

4.4.2 Algoritmo de MCMC - Especificacoes . . . . . . . . . . . . . . . . 27

4.5 Problema de identificabilidade . . . . . . . . . . . . . . . . . . . . . . . . 29

5 Analise de Dados 30

5.1 Dados Artificiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

5.1.1 Exemplo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

5.1.2 Exemplo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

5.2 Dados de Meningite Viral . . . . . . . . . . . . . . . . . . . . . . . . . . 40

6 Conclusoes e Discussao 48

ix

Lista de Tabelas

2.1 Valores crıticos para o Fator de Bayes . . . . . . . . . . . . . . . . . . . . 12

5.1 Resumo da distribuicao a posteriori - Exemplo 1 . . . . . . . . . . . . . . 32

5.2 Resumo da distribuicao a posteriori - Exemplo 2 . . . . . . . . . . . . . . 35

5.3 Resumo da distribuicao a posteriori - Dados reais. . . . . . . . . . . . . . 41

x

Lista de Figuras

1.1 Histograma do numero de internacoes devido a meningite viral por hospital

do estado do Rio de Janeiro no perıodo de Janeiro de 2008 a Maio de 2015 4

1.2 Intensidade do numero de internacoes devido a meningite viral por hospital

do estado do Rio de Janeiro . . . . . . . . . . . . . . . . . . . . . . . . . 4

3.1 Estrutura de dependencia . . . . . . . . . . . . . . . . . . . . . . . . . . 16

5.1 Tracos das cadeias e funcoes densidade de probabilidade suavizadas das

distribuicoes a posteriori de φ, σ2, β0, β1 e β2 . Linha vermelha: valor

verdadeiro - Exemplo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

5.2 Sumario da distribuicao a posteriori da funcao de correlacao - Exemplo 1 34

5.3 Sumario da distribuicao a posteriori da funcao de correlacao - Exemplo 2 36

5.4 Tracos das cadeias e funcoes densidade de probabilidade suavizadas das

distribuicoes a posteriori de φ, σ2, β0, β1 e β2 . Linha vermelha: valor

verdadeiro -Exemplo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

5.5 Boxplot da distribuicao a posteriori das componentes α(xi) - Exemplo 2 . 38

5.6 Traco das cadeias das distribuicoes a posteriori de alguns α(xi). Linha

vermelha: abscissa de valor 1 - Exemplo 2 . . . . . . . . . . . . . . . . . 39

5.7 Estatısticas do Teste Bayesiano para sobredispersao - Dados reais . . . . 40

5.8 Mapa da evidencia de sobredispersao . . . . . . . . . . . . . . . . . . . . 42

5.9 Sumario da distribuicao a posteriori da funcao de correlacao - Dados reais 43

5.10 Boxplot da distribuicao a posteriori das componentes α(xi) - Dados reais 44

5.11 Traco das cadeias das distribuicoes a posteriori de φ, σ2, β0, β1, β2 e β3 -

Dados reais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

xi

5.12 Histogramas e funcoes densidade de probabilidade suavizadas das distri-

buicoes a posteriori de φ, σ2, β0, β1, β2 e β3 - Dados reais . . . . . . . . . 46

5.13 Histograma e traco da cadeia da distribuicao a posteriori de ν - Dados reais 47

xii

Capıtulo 1

Introducao

A analise estatıstica de dados passou por grande desenvolvimento ao longo dos anos

devido ao avanco tecnologico que permite armazenamento e analise de dados cada vez

mais complexos. Com este avanco e possıvel aplicarmos tecnicas estatısticas mais realistas

nas mais diversas areas da ciencia.

Um tipo de dado de interesse e aquele composto por contagens observadas num deter-

minado perıodo de interesse. Esses dados sao obtidos a partir da observacao do numero

de ocorrencias de um determinado evento de interesse. Por exemplo, a quantidade de

pessoas atendidas numa loja em um dia de trabalho, ou a quantidade de internacoes por

doencas cardıacas em diversos hospitais.

A esses dados da-se o nome de dados de contagem e para eles existe um tratamento

diferente. Esses dados sao sempre nao negativos e obtidos a partir de uma contagem

e nao de uma classificacao. Eles podem ainda apresentar caracterısticas que sao usuais

para este tipo de dado, tais como sobredispersao e excesso de zeros. Para dados que

apresentam sobredispersao e necessaria uma abordagem diferente do modelo usual de

Poisson.

Em determinados casos os dados carregam consigo uma informacao a mais, a sua

localizacao geografica. Espera-se assim que observacoes obtidas em locais proximos te-

nham maior correlacao e, que uma menor correlacao seja observada paraobservacoes em

locais distantes.

Com isso se faz necessaria uma analise diferenciada pois, em grande parte das aplicacoes,

1

e de extrema importancia que se leve em consideracao a estrutura de correlacao espacial

existente. A esses dados da-se o nome de dados espaciais e existe uma area na estatıstica

especializada para trabalhar com esse tema, chamada Estatıstica Espacial.

Diversas areas fazem uso dessas tecnicas para seus estudos como epidemiologia, agro-

nomia, demografia, sensoriamento remoto. Cressie (1993) divide a estatıstica espacial

em tres grandes areas que contem os seguintes tipos de dados: dados de geoestatıstica,

dados de area e processos pontuais.

Dados de area sao observados a partir de uma regiao fixa no espaco que pode ou

nao ter forma regular. Esta regiao estara particionada em um numero finito de sub-

regioes. Assim a realizacao do processo estocastico estara ligada a essa regiao definida

pela particao. Usualmente, esse processo representara uma medida da variavel numa

determinada regiao.

Processos pontuais sao definidos como um conjunto de pontos com coordenadas

aleatorias no espaco. O principal objetivo na analise deste tipo de dado e estudar a

distribuicao espacial destes pontos e determinar se o padrao observado e aleatorio ou, se

os pontos sao regularmente distribuıdos segundo um padrao sistematico ou, ate mesmo,

verificar se os pontos se distribuem em aglomerados.

Este trabalho tem foco em dados de geoestatıstica que sao considerados uma realizacao

particular de um processo indexado pela localizacao que pode variar de forma contınua

ao longo de uma regiao fixa definida no espaco, conforme descrito em Banerjee et al.

(2004).

Segundo Cressie (1993) dados de geoestatıstica sao realizacoes de um processo es-

tocastico num subconjunto com volume p-dimensonal. Atraves de modelos espaciais e

possıvel fazer inferencia sobre os parametros, para aplicacoes onde ha necessidade em

entender o processo que gerou os dados e alem disso, fazer previsao que no caso espacial

pode ser vista como uma estimacao de uma realizacao do processo em um local onde nao

houve medicao.

Sendo assim, este trabalho propoe uma forma alternativa de acomodar a sobredis-

persao em modelos para dados de contagem levando em consideracao a disposicao espacial

dos mesmos e aplicando tecnicas estatısticas especıficas para dados de geoestatıstica.

2

1.1 Exemplo ilustrativo

A seguir, descreve-se uma aplicacao a dados de meningite viral que serao usados para

ilustrar o modelo de Poisson espacial com sobredispersao utilizado nesse trabalho.

Ha um interesse crescente no estudo e desenvolvimento de estudos epidemiologicos e

da dinamica dos agentes de doencas infecciosas. Uma forma de agregar mais informacoes

a esses estudos e levar em consideracao a estrutura espacial presente nos dados referentes

a doencas infecciosas.

A meningite viral e caracterizada por um quadro clınico de alteracao neurologica,

que, em geral, evolui de forma benigna e pode ser causada por varios microrganismos,

como vırus, bacterias, fungos e parasitas. A transmissao pode ser feita pelo ar, por

contato direto (gotıculas de saliva ou muco, sangue e/ou produtos sanguıneos) e indireto

(utensılios, agua e alimentos contaminados ou picada de animais). Os casos podem

ocorrer isoladamente, embora o aglomerado de casos seja comum.

A literatura mostra que as criancas menores de 18 meses, alem de serem as mais

atingidas pela doenca, sao as que mais evoluem para obito pois nao tem seus anticorpos

tao desenvolvidos para sua defesa. Porem o adulto corre risco de contrair a doenca

tambem.

Neste trabalho estudamos o numero de internacoes, diagnosticadas como meningite

viral, por hospitais do estado do Rio de Janeiro. O perıodo de referencia desses dados

e de Janeiro de 2008 a Maio de 2015. A populacao de estudo neste trabalho e formada

por 107 hospitais. Com esses dados espera-se chegar num modelo que consiga explicar

de forma eficiente a ocorrencia dos casos de meningite viral ao longo do espaco do estado

do Rio de Janeiro.

Os dados em questao foram obtidos atraves do DATASUS 1, o departamento de

informatica do SUS que tem como um dos objetivos fomentar, regulamentar e avaliar as

acoes de informatizacao dos dados do SUS, possibilitando assim o estudo com essas bases

de dados.

1http://www2.datasus.gov.br/DATASUS

3

Figura 1.1: Histograma do numero de internacoes devido a meningite viral por hospital

do estado do Rio de Janeiro no perıodo de Janeiro de 2008 a Maio de 2015

Figura 1.2: Intensidade do numero de internacoes devido a meningite viral por hospital

do estado do Rio de Janeiro

4

Na figura 1.1 vemos a grande concentracao de hospitais com 0 a 10 internacoes de

pacientes com meningite viral. Este fato sugere que o modelo Gaussiano nao seria uma

boa aproximacao para esses dados.

A figura 1.2 mostra como os casos de internacoes por meningite viral se distribuem

espacialmente no estado do Rio de Janeiro e alem disso podemos ver que as maiores

intensidades de internacoes acontece em locais mais proximos, salvo algumas excecoes.

Atraves de uma analise descritiva dos dados verificamos que 50% dos hospitais perten-

centes a populacao de estudo internaram 3 pacientes com meningite viral neste perıodo.

A media de internacao por hospital e 7,03 com uma variancia dos dados da ordem de

71,24 o que revela indıcios da presenca de sobredispersao nas observacoes.

Dentre os 107 estabelecimentos de saude, 70% pertencem a esfera publica e 30% a

esfera privada. O tipo de dependencia administrativa tambem sera incluıdo no modelo

como uma variavel explicativa.

1.2 Delineamento da dissertacao

A dissertacao esta organizada da seguinte maneira, no capıtulo 2 e apresentado o

problema da sobredispersao e como o mesmo vem sendo tratado na literatura. Sao

descritos testes para verificar a presenca de sobredispersao nos dados de interesse.

No capıtulo 3 sao introduzidos conceitos e definicoes pertinentes em Estatıstica Espa-

cial, assim como e introduzido o modelo trabalhado por Diggle et al. (1998) para dados

com estrutura espacial e algumas questoes de implementacao do mesmo.

No capıtulo 4 e feita uma revisao do modelo Gaussian-log-Gaussian proposo por Pa-

lacios e Steel (2006) e como a ideia presente neste modelo ajudara na construcao do

modelo proposto pela dissertacao. Apresentamos um modelo capaz de capturar a sobre-

dispersao presente nos dados que o processo espacial nao consegue identificar. Tambem

sao descritos os procedimentos de implementacao e inferencia utilizados para este modelo.

O capıtulo 5 apresenta a analise de dados artificiais e reais utilizando o modelo apre-

sentado por Diggle et al. (1998) e o modelo proposto neste trabalho. Primeiramente, e

feita uma analise para os dados artificiais utilizando o modelo proposto por Diggle et al.

5

(1998) e o modelo proposto. Em seguida, o conjunto de dados referentes ao numero de

internacoes de pacientes com meningite viral por hospital do estado do Rio de Janeiro e

analisado atraves do modelo proposto nesta dissertacao.

Por fim, o capıtulo 6 apresenta um resumo sobre os resultados da dissertacao e pos-

siveis extensoes para trabalhos futuros.

6

Capıtulo 2

Sobredispersao

2.1 O problema da sobredispersao

Quando estamos interessados em realizar uma analise estatıstica de dados de contagem

usualmente faz-se uso da distribuicao Poisson para modelar esse tipo de dado. Porem,

para esse tipo de distribuicao sabemos que ha uma relacao de igualdade entre media e

variancia dos dados. Na pratica essa relacao e muito restritiva e ha situacoes onde a

variancia dos dados pode ser maior que a media. A esse fenomeno e dado o nome de

sobredispersao e ele ocorre de forma frequente na pratica para dados de contagem. Assim,

o modelo de Poisson usual nao consegue capturar essa caracterıstica das observacoes.

McCullagh e Nelder (1989) dizem que sobredispersao e o mais usual de se observar

no mundo real e a dispersao nominal e excecao. Algumas possıveis causas para sobre-

dispersao podem ser: correlacao entre as respostas individuais, o modo como foi feita a

amostragem, nıvel agregado dos dados, variaveis explicativas omitidas, excesso de zero,

entre outras.

O modelo Poisson-lognormal, obtido atraves da inclusao de um efeito aleatorio normal

no preditor linear, tem a capacidade de captar a sobredispersao. Esta distribuicao e

grandemente utilizada para tratar de dados de contagem. Em Bulmer (1974) vemos a

verossimilhanca para o modelo Poisson-lognormal e como obter estimativas para este

modelo.

E possivel ainda tratar a sobredispersao pressupondo um modelo em dois estagios:

7

Yi|λi ∼ Poisson(λi) e λi ∼ Gama(α, β). Assim, a distribuicao marginal de Yi sera uma

Binomial Negativa e a sobredispersao nesse caso sera interpretada como a heterogeneidade

nao observada entre as observacoes, segundo Gschloßl e Czado (2006).

Neyens et al. (2011) trabalham com um modelo combinado que acomoda a sobre-

dispersao e a correlacao espacial do dado utilizando um modelo Poisson-gamma com

estrutura espacial de dados de area. Segundo Besag et al. (1991), este modelo e uma

alternativa ao modelo de convolucao usual que utiliza a componente CAR (conditio-

nal autoregressive) na sua estrutura. O modelo apresentado por Neyens et al. (2011),

aplicavel a dados de area, e capaz de aprimorar a modelagem quando os dados contem

uma alta heterogenidade nao correlacionada. A distribuicao Gama utilizada permite que

o modelo acomode bem a sobredispersao em sua estrutura.

Em Molenberghs et al. (2007) propoe-se um modelo para cenarios onde e necessario

estudar a sobredispersao levando em consideracao a estrutura hierarquica dos dados. A

flexibilidade deste modelo permite adicionar covariaveis e efeitos aleatorios. Esses efeitos

aleatorios introduzidos em Molenberghs et al. (2007) podem ter distribuicao Normal ou

Gama. O efeito introduzido com intuito de estudar a variacao causada pela estrutura

hierarquica dos dados de contagem seguira uma distribuicao Normal. Ja o efeito aleatorio

introduzido para captar a sobredispersao presente nos dados sera distribuıdo segundo uma

Gama.

Gschloßl e Czado (2006) trabalham com a heterogeneidade nao observada nos dados

fazendo uso de modelos mais flexıveis que o modelo Poisson usual captando assim o efeito

da sobredispersao. Para dados espaciais e utilizado efeitos aleatorios associados a cada

regiao no espaco permitindo assim modelar a estrutura de dependencia espacial presente.

Gschloßl e Czado (2006) consideram diferentes modelos comparando a incorporacao ou

nao da dependencia espacial utilizando a abordagem Bayesiana. Quando se trata da

incorporacao da depedencia espacial, sao trabalhados dados de area.

A analise temporal para dados de contagem com sobredispersao tambem e possıvel.

Schmidt e Pereira (2011) consideram um modelo dinamico Poisson que permite a iden-

tificacao da sobredispersao para cada momento no tempo que o dado e observado, alem

da estrutura temporal presente nos dados.

8

A nao incorporacao da sobredispersao ao fazer a analise dos dados pode causar alguns

problemas. Um deles e que o erro padrao obtido sera incorreto e, consequentemente, isto

nos levara a conclusoes incorretas sobre a significancia dos parametros.

Outro problema pode ser a escolha de modelos mais complexos do que o necessario

para explicar os dados em questao. E por fim, a interpretacao do modelo ficara compro-

metida assim como as previsoes obtidas.

Ainda que o modelo Poisson-lognormal seja capaz de captar a sobredispersao presente

nos dados, e possıvel que alguma variabilidade nao seja capturada. Assim, ha um interesse

em estudar essa variabilidade extra presente nos dados e, para isso, o presente trabalho

propoe uma maneira alternativa de captar esta sobredispersao excedente.

A seguir, descrevem-se alguns testes propostos na literatura para investigar a existencia

de sobredispersao em dados de contagem.

2.2 Testes para investigar a evidencia de sobredis-

persao

2.2.1 Teste classico - Dean

Ha anos vem sendo discutidos testes para detectar se os dados em estudo apresentam

uma variacao extra, no caso Poisson se a variancia observada e maior que a media. Dean

(1992) apresenta uma unificacao dessas teorias e trabalha com um teste desenvolvido

para lidar com distribuicoes arbitrarias onde somente os dois primeiros momentos sao

especificados.

Assuma o seguinte modelo,

Yi ∼ Poisson(λi),

onde λi = eZTi β e portanto θi = ln(λi) = ZT

i β. Para apurar a sobredispersao diremos que

o parametro canonico θi nao e fixo e sim aleatorio representado por θi∗ onde E(θi∗) = θi

e V (θi∗) = τki(θi) para τ > 0 e ki(θi) diferenciavel. Neste mesmo cenario a variancia de

Yi sera dada por V (Yi) = λi(1 + τλi).

9

Assim, o interesse sera em testar se τ = 0 ou τ > 0. Se τ = 0 concluımos que nao ha

evidencias de sobredispersao para o conjunto de dados. Se o contrario e observado, os

dados apresentam sobredispersao.

Dean (1992) apresenta tres maneiras de se representar um modelo Poisson com so-

bredispersao, porem o foco aqui sera em apenas uma dessas. Um modelo com inflacao

simples da variancia, outro com efeitos aleatorios multiplicativos e o modelo log-linear.

Este ultimo tem a mesma representacao do modelo utilizado neste trabalho e por isso

sera dado enfoque a ele.

Em Dean (1992) e Yang et al. (2008) e apresentada a seguinte estatıstica de teste:

S =

n∑i=1

{[yi − λi]2–yi}√2

n∑i=1

λ2i

. (2.1)

Assintoticamente a estatıstica de teste S tera uma distribuicao Normal Padrao. A um

nıvel de significancia α se S for maior que z1−α2, o percentil 100(1 − α

2)% desta normal,

rejeitamos a hipotese nula, com isso conclui-se que um modelo usual Poisson nao seria o

indicado para os dados em questao.

Para o tipo de dado que este trabalho tem foco, dados de contagem georreferenci-

ados, o teste classico nao e indicado uma vez que ele nao foi construıdo para levar em

consideracao a estrutura espacial do conjunto de dados que esta sendo testado.

2.2.2 Teste Bayesiano - Savage-Dickey

Segundo a perspectiva Bayesiana podemos testar a existencia de sobredispersao nos

dados a partir de um teste de hipoteses que envolvera o calculo do Fator de Bayes que

consiste na divisao entre a razao das densidades a posteriori e a razao das densidades a

priori. Esta medida e calculada da seguinte forma,

P(H0|y)/P(H1|y)

P(H0)/P(H1)(2.2)

10

Assim, pode-se testar a hipotese de que α(xi) = 1 o que representa nao haver sobre-

dispersao na localizacao xi. Neste caso α(xi) e a componente introduzida no modelo com

o intuito de captar a variabilidade excedente na localizacao xi.

Apresentado em Dickey (1971), o teste de Savage-Dickey pode ser considerado uma

representacao do fator de Bayes e trabalhara com uma razao entre distribuicoes a poste-

riori e a priori dado a hipostese alternativa que esta sendo testada.

A hipotese nula do teste sera dada pelo modelo onde αi pode assumir qualquer valor.

Ja a hipotese alternativa neste caso sera o modelo onde α(xi) = 1 e todos os outros

elementos de α(x) livres. Ou seja, o parametro responsavel por representar a sobredis-

persao no modelo e igual a 1 o que significa que nao ha evidencias para afirmacao de que

ha sobredispersao nos dados. Assim as hipoteses para este teste seriam:

H0 : α(x) livres X H1 : α(xi) = 1 e α(xj) livres,∀ i 6= j

A razao de Savage-Dickey proposta sera,

Ri =p(α(xi)|Y )

p(α(xi))|αi = 1. (2.3)

Assim, Ri grande sera favoravel ao modelo da hipotese alternativa com α(xi) = 1 e os

demais α(xj) variando livremente versus o modelo da hipotese nula com α(xi) variando

livremente para todo valor de i.

Em Kass e Raftery (1995) e apresentada uma tabela contendo os valores do Fator de

Bayes crıticos para decisao do teste de hipotese, ou seja, para quais valores ha ou nao

evidencia para rejeitarmos a hipotese nula. Para Kass e Raftery (1995), quanto maior o

Fator de Bayes, representado por B10, maior sera a evidencia a favor da hipotese alter-

nativa. No nosso, caso a hipotese que estamos interessados e a de que ha sobredispersao,

logo devemos olhar para 1B10

e assim tomar a decisao do teste do Bayesiano. A tabela e

apresentada a seguir:

11

B101B10

= Ri Decisao

1 a 3 1/3 a 1 A sobredispersao nao e significativa

3 a 20 1/20 a 1/3 Ha evidencia positiva de sobredispersao

20 a 150 1/150 a 1/20 Ha forte evidencia de sobredispersao

> 150 < 1/150 Ha evidencia extremamente forte de sobredispersao

Tabela 2.1: Valores crıticos para o Fator de Bayes

2.2.3 Obtendo o Fator de Bayes

Na implementacao do Teste Bayesiano para sobredispersao e necessario calcular a

densidade marginal a posteriori das componentes αi. Essa densidade e calculada atraves

de uma suavizacao onde a massa da funcao de distribuicao empırica e calculada a partir de

uma grade regular e apos isto uma transformacao de Fourier e utilizada para alcancar uma

aproximacao com a versao discreta do nucleo. Depois disto e utilizada uma aproximacao

linear para avaliar, finalmente, a densidade aplicada em determinados pontos.

Apos isto temos condicoes de calcular a estatıstica de teste expressa na equacao 2.3

e determinar se ha evidencias ou nao para assumirmos que ha sobredispersao nos dados.

12

Capıtulo 3

Dados georreferenciados

3.1 Definicoes e conceitos de Estatıstica Espacial

Considere o processo espacial {Y (x) : x ∈ D} observado em n localizacoes, onde

D ⊂ Rd. Como pressuposto, assume-se que

Y = [Y (x1), ..., Y (xn)] ∼ Nn(µ,Σ),

onde µ e o vetor de medias do processo e Σ a matriz de covariancia do processo.

Usualmente adota-se a representacao

Y = ZTβ + S,

onde Z e a matriz de covariaveis, β o vetor de parametros destas covariaveis e S e um

Processo Gaussiano e, portanto, possui distribuicao Nn(0,Σ).

Considera-se ainda que a matriz de covariancia sera composta da variancia do pro-

cesso e de uma funcao de correlacao espacial valida. Assim, os elementos da matriz de

covarancia serao obtidos a partir de

Σ = σ2C(h),

sabendo que a funcao de correlacao C(h) dependera da distancia euclidiana h entre duas

localizacoes e pode depender de algum parametro a mais. Portanto, σ2 e a variancia do

processo e C(h) a funcao de correlacao espacial como dito anteriormente.

13

Para trabalhar com os dados de geoestatıstica se faz necessario conhecer primeiro

algumas definicoes e especificidades desse tipo de dado. Os modelos propostos devem ter

a capacidade de captar e processar a dependencia espacial presente nos dados.

• Estacionariedade

Suponha um processo Y (x) onde x ∈ D. Existe a possibilidade de um processo ser

estritamente estacionario, fracamente estacionario ou intrinsecamente estacionario.

Quando a funcao de distribuicao conjunta do processo e invariante com respeito a

qualquer translacao do vetor Y = Y (x1), ..., Y (xn) o processo e dito estritamente esta-

cionario.

Se a media do processo e constante e a Cov(Y (xi), Y (xi +h)) = C(h), ∀xi, xi +h ∈ D

entao o processo e chamado de fracamente estacionario.

O processo e dito intrinsecamente estacionario quando E(Y (xi + h)–Y (xi)) = 0 ∀

xi, xi + h ∈ D e V ar(Y (xi + h)–Y (xi)) = 2γ(h) ∀ Y (x) e Y (x + h). A funcao γ(h) e

chamada de semivariograma do processo espacial em estudo.

• Isotropia

A isotropia e outro conceito importante a ser apresentado. Um processo e isotropico

se, para quaisquer duas localizacoes, a covariancia dependera somente da distancia eu-

clidiana entre esses dois pontos. Ou seja, Cov(Y (x), Y (x + h)) = C(||h||),onde ||h|| e a

norma do vetor.

• Funcao de Covariancia

Algumas funcoes de covariancia sao definidas na literatura para se trabalhar com

dados espaciais. Entre as mais utilizadas estao a funcao de covariancia exponencial, a

Gaussiana, a esferica, a Matern e a Cauchy, conforme pode ser visto em Banerjee et al.

(2004). Iremos trabalhar com a funcao de covariancia exponencial definida por,

C(h) = exp

{−hφ

}.

14

O parametro φ e definido como parametro de alcance e esta ligado a distancia a

partir da qual duas observacoes quaisquer podem ser consideradas independentes, ou

seja, quando a correlacao entre os dois pontos assumira valores desprezıveis.

3.2 Modelo Linear Generalizado com Estrutura Es-

pacial

No contexto de dados de contagem os pressupostos de normalidade, utilizados usual-

mente na analise espacial, nao sao preservados. Logo, os metodos usuais da geoestatıstica

nao sao indicados.

Uma alternativa e uma abordagem que utiliza a ideia de Modelos Lineares Genera-

lizados Mistos (MLGM). Estes modelos sao extensoes dos conhecidos Modelos Lineares

Generalizados (MLG ou GLM) que permitem o estudo de fontes de variabilidade adici-

onais devido a efeitos aleatorios. Considere o modelo proposto em Diggle et al. (1998)

onde:

a) As variaveis aleatorias Yi sao mutuamente independentes dado S(xi) e tambem

E[Yi|S(xi)] = Mi = M(xi);

b) Atraves de uma funcao de ligacao, q(•), Mi e relacionado com o preditor linear de

tal forma que q{M(x)} = ZTβ + S(x);

c) S(xi) e um efeito aleatorio incluıdo para captar a variacao nao observada em ZTβ

com E[S(xi)] = 0 e Cov[S(xi), S(xj)] = σ2C(||xi − xj||). Assim, condicional a S, que

e um processo Gaussiano, o modelo apresentado fica na forma de um MLGM citado

anteriomente.

No caso de dados de contagem temos

Yi|λi(xi) ∼ Pois(λ(xi)), (3.1)

onde,

log(λ(xi)) = Z’β + S(xi). (3.2)

No procedimento de inferencia Bayesiana, que sera utilizado neste trabalho, estamos

15

interessados em obter amostras das distribuicoes a posteriori dos parametros de interesse.

Para isso utiliza-se usualmente o metodo de Monte Carlo via Cadeias de Markov (MCMC)

onde se faz necessario conhecer as condicionais completas dos parametros de interesse.

Neste contexto, precisamos tambem amostrar das variaveis latentes S, onde S=(S1,...,Sn)

e Si = S(xi). O algoritmo utilizado e o de Metropolis-Hastings para sortear da condi-

cional de S. A cada passo gera-se uma proposta para mover a cadeia. Esta proposta e

aceita ou rejeitada segundo uma probabilidade. Para estimar o vetor parametrico usa-se

um amostrador de Gibbs hıbrido com passos de Metropolis-Hastings.

Diggle et al. (1998) fazem uma representacao da estrutura de dependencia entre as

variaveis do modelo e os parametros. Atraves da figura 3.1 podemos ver que condicional

a S, ou seja, dado S, Y e independente de θ e que dado S, β e θ sao independentes. S∗

e o vetor com os valores de S nos locais onde procura-se prever a variavel de interesse.

Figura 3.1: Estrutura de dependencia

E importante ressaltar que o modelo apresentado em Diggle et al. (1998) e capaz de

capturar a sobredispersao presente nos dados, atraves do Processo Gaussiano responsavel

pela acomodacao da estrutura espacial. Porem, e possıvel que alguma variabilidade

extra presente nos dados nao seja captada por esse processo, assim pode ser necessaria

a inclusao de um outro processo que identifique onde ha mais variabilidade que nao foi

capturada pelo processo espacial.

16

3.3 Questoes de implementacao do Modelo Linear

Generalizado com Estrutura Espacial

Diggle et al. (1998) trabalham com um modelo espacial para dados na famılia ex-

ponencial, em particular ele apresenta um modelo para dados de contagem onde a taxa

e modelada atraves de um processo latente log normal. Condicional a variavel latente

sabe-se que a variavel de interesse e mutuamente independente, ou seja, as observacoes

dos dados de contagem sao condicionalmente independentes.

O algoritmo de estimacao via MCMC tera um passo de atualizacao de S dado por:

a) Amostrar S ′i da funcao proposta q(Si, S′i)= p (Si|S−i,θ) igual a priori ;

b) Aceite S ′i com probabilidade de aceitacao α(Si, S′i) = min

{f(yi|s′i,β)

f(yi|si,β), 1}

;

c) Repita (a) e (b), para i = 1, ..., n.

Este algoritmo requer um tempo computacional muito grande uma vez que as com-

ponentes Si sao atualizadas uma a cada vez. Tendo em vista que temos n componentes,

quanto mais dados, maior sera o tempo computacional invibializando a aplicacao deste

algoritmo de forma eficaz.

Como alternativa Christensen e Waagepetersen (2002) propoem um algoritmo que

atualiza os efeitos aleatorios simultaneamente atraves de uma proposta Normal Multiva-

riada utilizando o algoritmo Langevin-Hastings que usa o gradiente do log da posteriori

chegando assim num resultado melhor que a proposta passeio aleatorio.

Diggle e Ribeiro Jr (2007) ainda acrescentam que para melhorar a eficiencia do algo-

ritmo e aconselhavel ajustar a variancia da proposta de forma a obter aproximadamente

60% de aceitacao desta proposta e ainda trabalhar com espacamento da cadeia de 100

unidades.

Outra alternativa proposta por Diggle e Ribeiro Jr (2007) e trabalhar com um algo-

ritmo que utiliza a informacao do gradiente na distribuicao proposta, ou seja, utiliza o

gradiente do log da posteriori. Em Christensen e Waagepetersen (2002) conclui-se que a

abordagem que utiliza o gradiente apresenta melhor resultado em comparacao ao passeio

aleatorio no passo de proposta do algoritmo ja que houve uma reducao no erro de Monte

Carlo para covariancia de alguns parametros.

17

Papaspiliopoulos et al. (2007) descrevem tambem uma parametrizacao em modelos

que envolvem variaveis latentes. Dois tipos de parametrizacao sao apresentados: centra-

lizada e nao centralizada. Essas parametrizacoes tem vantagens como uma convergencia

mais rapida e a possibilidade de identificar, antes mesmo de rodar o algoritmo, qual

a parametrizacao e mais indicada apenas identificando a estrutura do modelo. Porem,

neste trabalho esta reparametrizacao de variavel latente nao sera abordada.

Diggle et al. (1998) propoem uma reparametrizacao nos parametros de regressao o

que resulta numa atualizacao mais ortogonal tornando assim o algoritmo mais rapido.

Christensen et al. (2006) tambem propoem reparametrizacoes com o intuito de padronizar

e ortogonalizar as componentes.

A ortogonalizacao das componentes do modelo melhora o desempenho do amostrador

de Gibbs, quando ele esta sendo utilizado, e a padronizacao das componentes individuais

ajuda na hora de dimensionar a distribuicao proposta no passo de Metropolis-Hastings

o que torna a atualizacao mais eficiente.

Christensen et al. (2006) ainda alertam que a reparametrizacao nao e uma trans-

formacao linear o que nao garante que funcione para todos os dados, mas ainda assim e

uma alternativa para melhorar a convergencia do algoritmo ja que Diggle e Ribeiro Jr

(2007) tambem citam a reparametrizacao como algo positivo para o modelo.

18

Capıtulo 4

Modelo Proposto

Tendo em vista um conjunto de dados de contagem com dependencia espacial e so-

bredispersao e necessaria uma abordagem especial levando em consideracao essas carac-

terısticas importantes que vao influenciar no processo inferencial e de predicao.

A sobredispersao pode ser modelada de uma forma alternativa aos modelos usuais

quando estamos tratando de dados georreferenciaos. E possivel incluir uma componente

no modelo responsavel por capturar a variabilidade extra que o processo espacial nao

consegue identificar.

Antes de apresentarmos o modelo proposto neste trabalho, que tem como objetivo

captar a sobredispersao que o processo espacial nao foi capaz de captar, e introduzido o

Modelo Gaussian-log-Gaussian (GLG) apresentado em Palacios e Steel (2006) utilizado

como norte para inclusao da componente responsavel pela incorporacao no modelo da

sobredispersao que nao foi captada pelo processo espacial.

Em Neyens et al. (2011) e Molenberghs et al. (2007) para capturar outras fontes de

variabilidade alem da variabilidade espacial e introduzido um efeito aleatorio diferente.

Assim tomando como base esses trabalhos, nesta dissertacao estamos interessados em

incluir um efeito aleatorio espacial usual do modelo Poisson Lognormal e tambem permitir

uma variacao extra que nao e captada pelo efeito espacial. Este efeito responsavel por

capturar a variabilidade extra e introduzido de maneira multiplicativa assim como em

Neyens et al. (2011) e Molenberghs et al. (2007).

19

4.1 Modelo Gaussian-log-Gaussian (GLG)

No modelo proposto por Palacios e Steel (2006) trabalha-se com uma variavel latente

que tem uma acao direta na variancia do processo o que permite a acomodacao da

dependencia espacial presente no modelo.

Assim no modelo GLG, dado o processo de variancia, pode-se chegar numa distri-

buicao normal o que da mais praticidade a implementacao dos algoritmos.

Seja Y (x) um processo aleatorio nas localizacoes x numa determinada regiao. O

modelo inicial e dado por

Y (x) = ZTβ + σε(x) + τρ(x),

onde ε(x) e um vetor estacionario de segunda ordem com media zero, variancia unitaria

e com uma funcao de correlacao que depende apenas da distancia entre os pontos,

corr[ε(xi), ε(xj)] = Cθ(||xi–xj||),

onde Cθ(d) e uma funcao de correlacao valida em funcao da distancia euclidiana. τ e cha-

mado de efeito pepita e representa um processo Gaussiano nao correlacionado utilizado

para auxiliar na medicao de erro e deteccao de variacao em pequena escala.

Na proposta estocastica alternativa trazida por Palacios e Steel (2006) ha uma mistura

de processos envolvendo ε(x). Introduz-se uma variavel de mistura λi associada a cada

observacao e portanto o novo modelo sera,

Y (xi) = ZTi β + σ

ε(xi)√λi

+ τρ(xi).

Assume-se que ρ(xi), ε(xi) e λi sao independentes e conclui-se que a componente

de mistura incluıda afeta apenas o processo que representa a dependencia espacial. A

distribuicao de mistura sera dada por,

ln(λ) = (ln(λ1), ..., ln(λn))T ∼ Nn

(−ν

21, νCθ

).

O vetor 1 de tamanho n e composto apenas por entradas iguais a 1. A matriz de

20

correlacao neste caso sera a mesma determinada para Y (x) pois isto auxilia no momento

de fazer a inferencia de cada parametro, segundo Palacios e Steel (2006).

Cada λi tera uma distribuicao log-normal e assim este modelo permite a modelagem

em regioes onde a variacao e maior.

4.2 Descricao do modelo proposto

O modelo proposto neste trabalho envolvera a ideia de modelos lineares generalizados

utilizada por Diggle et al. (1998), acrescentando uma componente responsavel por captar

o fenomeno de sobredispersao dos dados que nao foi captado pelo processo espacial como

foi exposto por Gschloßl e Czado (2006) e Neyens et al. (2011). Porem diferente de

Gschloßl e Czado (2006) e Neyens et al. (2011) o modelo tratara de dados de geoestatıstica

e essa nova componente tera as caracterısticas da componente introduzida por Palacios

e Steel (2006) que naquele contexto trabalhava com a mistura de escala com o processo

Gaussiano presente no modelo apresentado por eles.

Em Neyens et al. (2011) ao incluir um efeito aleatorio capaz de captar a sobredis-

persao presente nos dados eles nomeiam o modelo como Modelo Combinado. A com-

ponente αi foi incluıda de forma multiplicativa assim como em Neyens et al. (2011) e o

nome do modelo proposto neste trabalho e dado de maneira similar: Modelo Combinado

Lognormal-Poisson-Lognormal (LN-P-LN).

No caso de Neyens et al. (2011) e utilizada uma distribuicao Gama nao correlacionada

para captacao da sobredispersao, enquanto no Modelo Combinado LN-P-LN e utilizada

uma distribuicao lognormal correlacionada para captar a sobredispersao extra que o

processo espacial nao conseguiu captar, assim como e feito em Palacios e Steel (2006).

Os dados de geoestatıstica tem a caracterıstica de variar continuamente na regiao

onde eles estao definidos, usualmente numa regiao pertencente ao Rd. Neste trabalho

d = 2 sendo representado pela latitude e longitude do dado observado.

Diferente da abordagem apresentada em Palacios e Steel (2006) que introduz a variavel

de mistura atraves de uma relacao direta com o processo espacial, a componente α(xi) e

introduzida no modelo combinado LN-P-LN multiplicando o preditor linear. Esta decisao

21

foi tomada com base nos trabalhos de Gschloßl e Czado (2006) e Neyens et al. (2011).

Reforcando que Gschloßl e Czado (2006) e Neyens et al. (2011) apresentam modelos cujo

o enfoque e para dados de area.

O modelo combinado LN-P-LN e representado da seguinte maneira,

Y (xi) ∼ Poisson(λ(xi)) (4.1)

λ(xi) = α(xi)exp{Zi

Tβ + S(xi)}

(4.2)

observado nas localizacoes espaciais xi em alguma regiao espacial D ⊂ Rd. ZT repre-

senta as covariaveis do modelo e β o vetor de coeficientes desconhecidos relacionados as

covariaveis.

S(x) e um Processo Gaussiano definido em D ⊂ Rd que entra no modelo represen-

tando a correlacao espacial dos dados. Por ser um Processo Gaussiano, S = (S(x1), ..., S(xn))

tera uma distribuicao normal multivariada com as seguintes especificacoes,

S ∼ Nn(0,Σ).

Definindo Σ = σ2C(dij, φ), matriz de correlacao representada por C(dij) sera defi-

nida a partir da estrutura de correlacao exponencial definida como e

{−dijφ

}onde dij e

a distancia euclidiana entre duas observacoes (ver Banerjee et al. (2004)). Neste traba-

lho nao iremos considerar o efeito pepita porem, ele pode ser incluıdo no modelo se for

preciso.

A componente α(x) = (α(x1), ..., α(xn)) ∈ R+ entra no modelo para capturar a

sobredispersao presente nos dados e como pressuposto assumimos que

ln(α) = (ln[α(x1)], ..., ln[α(xn)])T ∼ Nn

(−ν

21, νC(dij, φ)

), (4.3)

onde ν ∈ R+ e um parametro de escala introduzido na distribuicao do logaritmo de α.

A inclusao de α(xi),assim como em Palacios e Steel (2006), tem como objetivo captu-

rar a variabilidade extra que Processo Gaussiano, introduzido para capturar a correlacao

espacial, nao conseguiu identificar. O que justifica a inclusao da mesma e que, por exem-

plo, poderıamos estar com um modelo onde nao ha variaveis espaciais que deveriam estar

incluıdas e o processo espacial pode nao capturar a variabilidade neste caso.

22

Como modelamos a sobredispersao como um processo contınuo no Modelo Combinado

Lognormal-Poisson-Lognormal (LN-P-LN) e possivel fazer um mapa da sobredispersao

do processo. Alem disso podemos prever a sobredispersao em lugares sem observacoes e

ter previsoes mais realistas levando em consideracao a sobredispersao.

4.3 Funcao de verossimilhanca e especificacao da pri-

ori

Por pressuposto, os Yi sao independentes condicionais a S. Portantoa funcao de ve-

rossimilhanca e dada por,

p(Y|S,β,α, ν) =n∏i=1

e−λiλyiiyi!

A escolha da distribuicao atribuıda a priori aos parametros de interesse e de suma

importancia no paradigma Bayesiano. Portanto, primeiramente fazemos um estudo des-

sas distribuicoes a priori atribuıdas aos parametros. Neste trabalho foi tomada como

base algumas conclusoes apresentadas por Palacios e Steel (2006) e Diggle et al. (1998)

com relacao a distribuicoes a priori dos parametros.

A priori considera-se os parametros independentes e portanto,

p(β, σ2, φ,α, ν) = p(β)p(σ2)p(φ)p(α)p(ν).

Para β foi proposta uma priori proporcional a uma constante, ou seja, uma priori

uniforme. Para σ2 foi feito uma reparametrizacao de maneira a chegar numa conjugacao

entre a verossimilhanca e a priori. Trabalhando assim com a precisao, τ = 1σ2 , definimos

a seguinte priori,

τ ∼ Ga(c1, c2).

Os valores de c1 e c2 sao usualmente baixos de forma que a priori nao seja muito

informativa e assim os dados tenham mais peso que a priori.

23

Conforme sugerido em Palacios e Steel (2006), foi atribuıda uma priori exponencial

para φ denotada por,

φ ∼ Exp

(1

med(dij)

),

onde med(dij) e a mediana de todas as distancias euclidianas entre quaisquer 2 ob-

servacoes. Eles ainda afirmam que a distribuicao exponencial assegura que tenha uma

grande massa em volta do zero que e o caso limite onde nao ha correlacao. Entao se ha

evidencia de correlacao, isto deve ser dito pelo dado e nao pela priori.

O parametro ν teve uma priori nao informativa uma vez que este parametro e mais

restrito e assim foi atribuıda uma priori com media numericamente baixa e uma variancia

alta,

ν ∼ Gama(c3, c4),

onde c3 e c4 sao constantes arbitrarias

A priori sugerida por Diggle et al. (1998) para S e uma Normal obtida a partir

da distribuicao Normal Multivariada oriunda do Processo Gaussiano que S segue por

pressuposto. Sabe-se que a distribuicao condicional de uma Normal Multivariada tambem

sera Normal. Assim, a priori para S sera dada por,

(S(k)|S−(k),θ),∼ Nn(A;B), (4.4)

onde A e B e o vetor de medias e a matriz de covariancias, respectivamente, obtidas a

partir das propriedades da Normal Multivariada.

A componente α(x) tera distribuicao a priori p(α(k)|α−(k),θ, ν) derivada de (4.3).

Neste contexto, S(k) e α(k) representam as componentes de S e α pertencentes ao bloco

K. Esta divisao em blocos esta relacionada ao passo de atualizacao dessas componentes

que e explicitado mais a frente.

4.4 Procedimentos de inferencia e implementacao

A abordagem escolhida para fazer a inferencia dos parametros do modelo neste tra-

balho e a Bayesiana e o metodo de Monte Carlo via cadeias de Markov (MCMC) e usado

24

em grande escala nessa abordagem. Este metodo permite o ajuste de modelos mais

complexos e de difıcil tratamento.

Quando usamos inferencia bayesiana temos como principal objetivo a obtencao de

uma amostra da distribuicao a posteriori dos parametros de interesse e a partir dessa

amostra fazer algumas inferencias. O MCMC e uma tecnica que permite a utilizacao de

diferentes algoritmos iterativos que fornecem essa amostra da distribuicao a posteriori

dos parametros. Os mais conhecidos e usados sao o amostrador de Gibbs e o Metropolis-

Hastings.

Pelo Teorema de Bayes sabemos que a distribuicao a posteriori de um parametro

qualquer e dada pelo produto entre a funcao de verossimilhanca e a distribuicao a priori

definida para o parametro. Quando essa distribuicao a posteriori apresenta uma forma

fechada e previamente conhecida, nao se faz necessaria uma aproximacao da amostra da

distribuicao a posteriori dos parametros do modelo.

Ha tambem a possibilidade da distribuicao a posteriori nao ter uma forma fechada

e neste caso faz-se uso de um passo de Metropolis-Hastings. Quando temos alguns

parametros com distribuicao condicional completa conhecida e outros com distribuicao

condicional completa desconhecida e possivel implementarmos passos de Metropolis-

Hastings dentro de um amostrador de Gibbs.

Para isso, e necessario obtermos os nucleos das distribuicoes a posteriori de cada

parametro de interesse do modelo. Vemos isso na subsecao seguinte.

4.4.1 Distribuicoes a posteriori

Com as distribuicoes a priori definidas anteriormente temos condicoes de achar as

distribuicoes condicionais completas necessarias para desenvolver o metodo do MCMC.

Vemos a seguir os nucleos dessas distribuicoes.

• θ = (φ, τ):

Sabemos que,

p(θ|Y,S,β,α, ν) = p(θ|S) ∝ p(S|θ)p(θ)

25

p(φ, τ |Y,S,β,α, ν) ∝ |Σ|−1/2exp{−1

2STΣ−1S

}p(φ)p(τ)

Assumindo a priori que τ ∼ Ga(c1, c2) e φ ∼ Exp(

1med(dij)

), obtemos

p(τ |Y,S,β,α, ν, φ) ∝ |Σ|−1/2exp{−1

2STΣ−1S

}τ c1−1e−τc2

p(φ|Y,S,β,α, ν, τ) ∝ |Σ|−1/2exp{−1

2STΣ−1S

}e

−φmed(dij)

• β = (β1, ..., βp):

p(β|Y,S,θ,α, ν) = p(β|Y,S) ∝ p(Y|S,β)p(β)

p(β|Y,S,θ,α, ν) ∝n∏i=1

e−λiλyii p(β)

• ν:

p(ν|Y,S,β,α,θ) ∝ p(Y|S, ν)p(ν)

p(ν|Y,S,β,α,θ) ∝

[n∏i=1

e−λiλyii

]νc3−1e−νc4

As distribuicoes condicionais completas para S e α serao obtidas em blocos conforme

a tecnica utilizada para amostrar dessas componentes durante o passo de Metropolis-

Hastings. Essa abordagem sera tratada logo apos a apresentacao dos nucleos dessas

distribuicoes a posteriori.

• S = (S(x1), ..., S(xn)):

p(S(k)|S−(k),Y ,θ,β,α, ν) ∝ p(Y |S,β)p(S(k)|S−(k),θ),

p(S(k)|S−(k),Y ,θ,β,α, ν) ∝

[n∏i=1

e−λiλyii

]exp

{−1

2(S(k) − A)TB−1(S(k) − A)

}onde S(k) e o vetor formado apenas com as componentes de S pertencentes ao bloco k

pre definido. A e B sao vetor de medias e matriz de covariancia, respectivamente, da

Normal Multivariada condicional.

26

• α = (α(x1), ..., α(xn)):

p(α(k)|α−(k),Y ,θ,β,S, ν) ∝ p(Y |S,β)p(α(k)|α−(k),θ, ν),

p(α(k)|α−(k),Y ,θ,β,S, ν) ∝

[n∏i=1

e−λiλyii

]|B|−1/2exp

{−1

2(α(k) − C)TD−1(α(k) − C)

}onde α(k) e o vetor formado apenas com as componentes de α pertencentes ao bloco k

tambem pre definido. C eD sao vetor de medias e matriz de covariancia, respectivamente,

da Normal Multivariada condicional expressa na equacao (4.3).

4.4.2 Algoritmo de MCMC - Especificacoes

Diggle et al. (1998) atualizam as componentes de S uma a cada vez e isso toma um

tempo computacional muito grande uma vez que e necessario fazer inversoes de matrizes

grandes a cada iteracao. E quanto maior for o conjunto de dados, maior se torna esse

gasto computacional e assim o processo comeca a ficar inviavel.

Uma opcao poderia ser amostrar essas componentes de forma conjunta reduzindo

assim o custo computacional porem, isso nao permitiria que as cadeias se movessem em

direcoes diferentes.

Dado isto, usaremos uma abordagem utilizada por Palacios e Steel (2006) onde se par-

ticiona os elementos da componente em questao em blocos, onde cada bloco corresponde

a um cluster de observacoes que estao relativamente proximas.

Palacios e Steel (2006) utilizaram este procedimento para componente introduzida

no modelo com o intuito de captar observacoes mais distantes. No Modelo Combinado

Lognormal-Poisson-Lognormal (LN-P-LN) esta componente sera responsavel por cap-

turar o fenomeno da sobredispersao sendo representada por α e aplicaremos a mesma

divisao em blocos para o S.

Espera-se que ao amostrar o bloco inteiro de uma vez o algoritmo se torne mais eficaz

ja que o custo computacional reduzira em grande escala pois, ao inves de atualizar as n

componentes individualmente a cada iteracao como foi proposto anteriormente, iremos

27

atualiza-las em 4 blocos.

Pode-se escrever o vetor α como a seguinte particao,

α =

α(k)

α−(k)

.

A matriz de covariancia podera ser escrita da seguinte maneira,

C(θ) =

C11C12

C21C22

,

onde α(k) representa os elementos de α dentro do bloco k e α−(k) os elementos restantes.

As mesmas particoes foram consideradas para S.

Ao reparametrizar σ2 pela precisao τ e possıvel chegar numa distribuicao conhecida

da condicional completa. Entao para obter uma amostra a posteriori de σ2 amostramos

diretamente da distribuicao Gama.

Conforme visto anteriormente, para os demais parametros do modelo nao foi possıvel

obter uma distribuicao condicional completa numa forma conhecida. Assim, dentro do

algoritmo e aplicado um passo de Metropolis-Hastings onde sao definidas distribuicoes

propostas das quais sao amostrados possıveis valores para compor a amostra a posteriori

dos parametros do modelo. A partir de uma probabilidade de aceitacao esses valores

propostos sao aceitos ou nao.

Utilizar um passeio aleatorio no momento de propor um novo valor para cadeia e

usual nos metodos de Metropolis-Hastings. Neste caso propomos valores de uma distri-

buicao simetrica que depende do valor da cadeia no passo anterior. Isto significa que a

probabilidade da cadeia se mover dependera da distancia entre o estado atual e o estado

proposto. Assim, faz-se uso de uma distribuicao Normal centrada no valor da cadeia

no passo anterior e com variancia calibrada de maneira que o algoritmo tenha taxa de

aceitacao em torno de 20% a 40%. Ha ainda a possibilidade de trabalharmos com uma

proposta do tipo passeio aleatorio no log, onde propomos valores de uma distribuicao

Normal centrada no logaritmo do valor da cadeia no passo anterior.

28

Portanto foi utilizado um passeio aleatorio no log como distribuicao proposta para φ,

ν e α. Na atualizacao de S e β foi utilizado um passeio aleatorio como proposta.

Outra questao abordada e a busca por um aprimoramento do MCMC aplicado para

este modelo. Neste sentido, com o intuito de obter uma melhora na convergencia do

algoritmo, aplica-se uma reparametrizacao no parametro de regressao β0. Essa repara-

metrizacao permite que a atualizacao dos parametros ocorra de forma mais ortogonal, o

que acelera o andamento do algoritmo diminuindo assim o tempo computacional. Deste

modo, a reparametrizacao e dada da seguinte maneira,

β∗0 = β0 + s,

onde s e a media dos valores correntes da cadeia de S.

O algoritmo apresentado neste capıtulo sera utilizado na analise de dados reais e

artificiais no capıtulo seguinte.

4.5 Problema de identificabilidade

Uma dificuldade que pode se apresentar neste tipo de estudo e a identificabilidade

da variabilidade dos dados. Pode ser que nao seja possıvel analisar os parametros de

variabilidade separadamente. Para alguns conjuntos de dados puramente espaciais os

parametros de variancia λi podem se confundir com a variancia global σ2 e neste caso

somente identifica-se a razao σ2√λi

.

Uma falta de identificabilidade analoga poderia ocorrer para dados puramente espa-

ciais nos modelos combinados LN-P-LN, trazendo assim uma limitacao para o modelo.

Porem neste trabalho este fato nao foi observado a partir dos exemplos estudados.

Uma possıvel solucao para este problema seria incorporar e analisar observacoes ao

longo do tempo como e apresentado em Fonseca e Steel (2011). Para o caso de dados

com resposta Poisson essa seria uma possıvel extensao do modelo utilizado aqui.

29

Capıtulo 5

Analise de Dados

Neste capıtulo iremos trabalhar com a aplicacao dos algortimos citados e propostos nas

secoes anteriores em dados artificiais e dados reais. Primeiramente para dados artificiais

teremos dois exemplos, no primeiro e aplicado o modelo proposto por Diggle et al. (1998)

e no segundo exemplo, o Modelo Combinado Lognormal-Poisson-Lognormal (LN-P-LN)

proposto neste trabalho. Esses dados foram simulados a partir de um modelo usual

Poisson Lognormal.

Em seguida modelaremos os dados reais do numero de internacoes de pacientes com

meningite viral por hospital do estado do Rio de Janeiro atraves do Modelo Combinado


5.1 Dados Artificiais

5.1.1 Exemplo 1

Foram simulados dados de contagem com estrutura espacial para validar e estudar

o desempenho do algoritmo anteriormente explanado. Primeiramente iremos estudar o

modelo proposto por Diggle et al. (1998).

Suponha o modelo,

Y (xi)|λ(xi) ∼ Poisson(λ(xi)) (5.1)

30

log(λ(xi)) = β0 + β1lati + β2loni + S(xi) (5.2)

onde E[S(x)] = 0 , Cov[S(x), S(x′)] = σ2ρ(||x−x′||) e ρ (||x−x′||) = exp{−dijφ

}sendo S

um Processo Gaussiano e dij a distancia euclidiana entre dois pontos xi e xj quaisquer. As

variaveis explicativas neste caso serao a latitude e longitude e os parametros regressores

β1 e β2, respectivamente.

Banerjee et al. (2004) trabalham com uma estrutura de covariancia chamada Expo-

nencial com funcao de correlacao espacial ρ que depende das distancias euclidianas dij

e de um parametro φ. Esta e a estrutura adotada para os dados artificiais. Banerjee

et al. (2004) ainda sugerem que a correlacao da distancia maxima entre as observacoes

seja menor que 0,05, ou seja, ρ(dmax) < 0, 05.

Para obter esses dados artificiais e necessario primeiramente fixar os parametros.

Assim β0 = −2 , β1 = 5 , β2 = 2 , φ = 0.5 e σ2 = 0.3. Apos isto foram geradas 100

observacoes no quadrado [0,1] x [0,1] conforme modelo expresso atraves das equacoes

(5.1) e (5.2). A distribuicao a posteriori dos parametros foi aproximada por MCMC.

As prioris utilizadas foram: 1σ2 = τ ∼ Ga(0.1, 0.1), β ∼ C1 e φ ∼ Exp

(1

0,511

),

onde C1 e uma constante qualquer e portanto β tera uma priori Uniforme. Para S foi

atribuıda priori a partir da equacao (4.4).

Para analise de convergencia foram utilizados criterios existentes na literatura e cal-

culados a partir do pacote CODA do R. Os criterios utilizados foram: Geweke (1992),

Raftery e Lewis (1992) e Heidelberger e Welch (1983). Estes criterios fornecem es-

tatısticas que permitem analisar a estacionariedade, convergencia, burn-in e espacamento

necessarios para se obter uma amostra a posteriori menos autocorrelacionada.

Conforme resultado obtido atraves do criterio de Raftery e Lewis (1992) foi aplicado

um burn-in de 4000 iteracoes com espacamento de 50, resultando numa amostra de

tamanho 6921.

Na tabela 5.1 vemos um resumo das amostras a posteriori com media e intervalos de

credibilidade de 95%. Todos os intervalos contem os verdadeiros valores dos parametros.

31

Parametros Valor verdadeiro Media a posteriori Intervalo de credibilidade

φ 0,3 0,281 (0,111 ; 0,861)

σ2 0,5 0,472 (0,215 ; 1,357)

β0 -2 -2,083 (-2,332 ; -1,84)

β1 5 5,072 (4,801 ; 5,349)

β2 2 2,069 (1,909 ; 2,227)

Tabela 5.1: Resumo da distribuicao a posteriori - Exemplo 1

As cadeias dos parametros e as densidades das distribuicoes a posteriori podem ser

vistas na figura 5.1. Com uma analse visual desta figura e aplicacao dos criterios de

convergencia propostos em Geweke (1992), Raftery e Lewis (1992) e Heidelberger e Welch

(1983) podemos verificar que todas as cadeias se mostraram estacionarias e convergiram

para o verdadeiro valor do parametro utilizado para gerar os dados.

O grafico na figura 5.2 e obtido da seguinte maneira: Para cada distancia em uma

grade pre determinada e calculada a correlacao para cada observacao da amostra a pos-

teriori de φ obtida atraves do MCMC. Assim obtemos com um conjunto de correlacoes

de tamanho M para cada distancia, onde M e o tamanho da amostra a posteriori dos

parametros. A seguir, e calculado o intervalo de credibilidade para esse conjunto de

correlacoes e a mediana. As linhas vermelhas ao longo do grafico sao os intervalos de

credibilidadede 95%. A linha preta representa a mediana.

Podemos ver na figura 5.2 que a partir da distancia 1,093 a correlacao entre os efeitos

espaciais comeca a ser desprezıvel. Concluımos assim que a partir dessa distancia as ob-

servacoes podem ser consideradas aproximadamente nao correlacionadas. Esta distancia

e definida em graus uma vez que estamos trabalhando com a latitude e longitude das

observacoes. Assim nao e possıvel fazermos uma alusao ao um sistema metrico utili-

zado usualmente. Ainda analisando a figura 5.2, a linha azul representa a verdadeira

correlacao para grade de distancia utilizada. Portanto, a correlacao a posteriori obtida

atraves do MCMC se aproxima da verdadeira correlacao.

Com isso vemos que o algoritmo se mostrou eficiente na modelagem de dados de

contagem espacialmente referenciados.

32

Figura 5.1: Tracos das cadeias e funcoes densidade de probabilidade suavizadas das

distribuicoes a posteriori de φ, σ2, β0, β1 e β2 . Linha vermelha: valor verdadeiro -

Exemplo 1

33

Figura 5.2: Sumario da distribuicao a posteriori da funcao de correlacao - Exemplo 1

5.1.2 Exemplo 2

Desta vez iremos analisar os mesmos dados gerados no Exemplo 1 porem utilizando

o Modelo Combinado Lognormal-Poisson-Lognormal (LN-P-LN) proposto segundo as

equacoes (4.1) e (4.2). Sabemos que este dado foi gerado a partir de um modelo Poisson

Lognormal usual, portanto espera-se que ao fazer inferencias sobre o parametro res-

ponsavel por captar a sobredispersao, α, ele esteja em torno de 1.

Foi aplicado o teste o bayesiano, que utiliza a razao de Savage-Dickey, para averi-

guacao de evidencia de sobredispersao nos dados. A hipostese de que as componentes

αi variam livremente foi descartada, concluindo assim que nao ha evidencia de sobredip-

sersao para os dados artificiais, conforme esperado.

34

As prioris utilizadas foram: 1σ2 = τ ∼ Ga(0.1, 0.1), β ∼ C1, φ ∼ Exp

(1

0,511

)e

ν ∼ Gama(0.1, 0.1), onde C1 e uma constante qualquer e portanto β tera uma priori

Uniforme na reta. Para S e α foram atribuıdas prioris a partir das equacoes (4.4) e

(4.3), respectivamente.

Foi tomado um espacamento de 50 iteracoes e um burn-in de 400 iteracoes segundo o

criterio de convergencia de Raftery e Lewis (1992) resultando numa amostra a posteriori

de 6996 unidades.

Com o auxılio dos criterios de convergencia disponıveis na literatura e uma analise

grafica podemos verificar que as cadeias se mostraram estacionarias e convergentes.

Na tabela 5.2 vemos um resumo das amostras a posteriori com a media e o intervalo

de credibilidade de 95%. Todas as medias a posteriori se mostraram proximas dos valores

verdadeiros do parametro.

Parametros Valor verdadeiro Media a posteriori Intervalo de credibilidade

φ 0,3 0,278 (0,104 ; 0,892)

σ2 0,5 0,342 (0,151 ; 1,024)

β0 -2 -1,734 (-2,024 ; -1,462)

β1 5 5,159 (4,861 ; 5,462)

β2 2 1,559 (1,331 ; 1,790)

Tabela 5.2: Resumo da distribuicao a posteriori - Exemplo 2

Atraves da figura 5.3 vemos que a partir da distancia 0,7 as observacoes podem ser

consideradas nao correlacionadas ja que a correlacao entre as elas comeca a ser des-

prezıvel. A figura 5.3 ainda mostra a verdadeira correlacao dos dados representada pela

linha azul. Vemos portanto que correlacao a posteriori obtida atraves do MCMC se

aproxima da verdadeira correlacao.

O comportamento das cadeias e os histogramas dos parametros podem ser observados

na figura 5.4. Concluımos assim que o Modelo Combinado Lognormal-Poisson-Lognormal

(LN-P-LN) se mostrou eficiente para dados espacialmente georeferenciados de contagem.

35

Figura 5.3: Sumario da distribuicao a posteriori da funcao de correlacao - Exemplo 2

Na figura 5.5 podemos observar o boxplot da distribuicao a posteriori de cada α(xi).

Vemos que todas as componentes apresentaram mediana proximas ao valor 1 e algumas

bem concentradas em torno de 1.

Foram selecionados algumas componentes de α e as cadeias dessas componentes po-

dem ser vistas na fgura 5.6. Todas elas convergiram para o valor 1.

36

Figura 5.4: Tracos das cadeias e funcoes densidade de probabilidade suavizadas das

distribuicoes a posteriori de φ, σ2, β0, β1 e β2 . Linha vermelha: valor verdadeiro -

Exemplo 2

37

Figura 5.5: Boxplot da distribuicao a posteriori das componentes α(xi) - Exemplo 2

38

Figura 5.6: Traco das cadeias das distribuicoes a posteriori de alguns α(xi). Linha

vermelha: abscissa de valor 1 - Exemplo 2

39

5.2 Dados de Meningite Viral

Esta secao apresenta uma aplicacao do modelo combinado LN-P-LN, proposto ante-

riormente neste trabalho atraves das equacoes (4.1) e (4.2), em dados reais de interesse

em saude da populacao com o intuito de trazer uma contribuicao para o estudo de dados

de contagem com dependencia espacial e sobredispersao que nao e captada pelo processo

espacial.

Com esta abordagem espera-se propor um modelo que consiga explicar os dados com

estimativas precisas para os parametros de interesse.

Seja a variavel de interesse Y o numero de internacoes por meningite viral em 107

hospitais no estado do Rio de Janeiro no perıodo de Janeiro de 2008 a Maio de 2015. As

covariaveis utilizadas neste modelo foram a latitude, longitude dos estabelecimentos de

saude e a esfera administrativa, ou seja, se o hospital pertence a rede privada ou publica.

Importante ressaltar que a padronizacao das variaveis de latitude e longitude e de grande

auxılio na convergencia do algoritmo do modelo combinado LN-P-LN.

Segundo a tabela 2.1 proposta em Kass e Raftery (1995) sabemos que para valores

de Ri no intervalo(

120

; 13

)ha evidencia positiva de sobredispersao e no intervalo

(1

150; 120

)ha forte evidencia de sobredispersao.

Figura 5.7: Estatısticas do Teste Bayesiano para sobredispersao - Dados reais

40

Atraves da figura 5.7 que contem um grafico com os valores das estatısticas de teste

segundo a equacao (2.3) para cada localizacao i vemos que a evidencia de sobredispersao

para os dados em questao foi forte em sua maioria e positiva nas demais.

As prioris utilizadas foram: 1σ2 = τ ∼ Ga(0.1, 0.1), β ∼ C1 e ν ∼ Gama(0.1, 0.1),

onde C1 e uma constante qualquer e portanto β tera uma priori Uniforme na reta. Para

S e α foram atribuıdas prioris a partir as equacoes (4.4) e (4.3), respectivamente. As

covariaveis latitude e longitude foram padronizadas e a mediana de todas as distancias

euclidianas entre quaisquer duas observacoes foi 1,3594. Assim a priori para φ sera

Exp(

11,3594

)O burn− in utilizado para as cadeias de cada parametro foi de 105, segundo o criterio

de Raftery e Lewis (1992), e um lag de 50 iteracoes foi tomado para obter uma amostra

a posteriori menos autocorrelacionada.

Apos esses passos obteve-se uma amostra a posteriori de 4100 iteracoes. Essas cadeias

podem ser vistas nas figuras 5.11 e 5.13 e ao fazer uma analise visual, concluımos que as

cadeias dos parametros estao convergindo.

Para dar um suporte maior, foram aplicados criterios de convergencia mais formais.

Os criterios utilizados foram Geweke (1992), Raftery e Lewis (1992) e Heidelberger e

Welch (1983) e em todos eles as cadeias se mostraram estacionarias e convergentes.

Parametros Media a posteriori Intervalo de credibilidade

φ 7,961 (4,489 ; 13,240 )

σ2 0,102 (0,055 ; 0,178)

β0 3,136 (2,802 ; 3,495)

β1 0,091 (-0,447 ; 0,225)

β2 -0,137 (-0,257 ; -0,013)

β3 -0,821 (-1,085 ; -0,567)

ν 0,927 (0 ; 9,289)

Tabela 5.3: Resumo da distribuicao a posteriori - Dados reais.

Um resumo da distribuicao a posteriori dos parametros de interesse pode ser visto

na tabela 5.3 obtido a partir do metodo MCMC. Ao analisar a tabela 5.3 vemos que o

41

parametro β1 foi nao significativo uma vez que o seu intervalo de credibilidade de 95%

contem o zero. Os demais parametros se mostraram significativos.

O parametro β3 representa a influencia que a esfera administrativa do hospital tem

no numero de internacoes por meningite viral. Assim, a esfera administrativa privada

tera a taxa media de internacoes por meningite viral negativamente influenciada ja que

a media a posteriori de β3 foi -0,821. Ou seja, para hospitais privados, espera-se que o

numero medio de internacoes por meningite viral seja menor.

E possıvel ainda observar na figura 5.8 como a evidencia de sobredispersao se distribui

no espaco. Assim como esperado a variacao ocorre com alguma suavidade na regiao de

interesse dado que esta foi modelada como um processo log-gaussiano correlaciodado.

Podemos dizer que o modelo combinado LN-P-LN e indicado para esse conjunto de

dados.

Figura 5.8: Mapa da evidencia de sobredispersao

Na figura 5.9 vemos que a partir da distancia 20 as observacoes podem ser consideradas

42

independentes ja que a correlacao entre as elas comeca a ser desprezıvel.

Figura 5.9: Sumario da distribuicao a posteriori da funcao de correlacao - Dados reais

Podemos ver na figura 5.10 os boxplots das distribuicoes a posteriori de cada αi e

concluımos que o modelo consegue captar a presenca da sobredispersao nos dados com

precisao.

Ainda e possivel observar o histograma e a curva suavizada das distribuicoes a pos-

terirori de cada parametro nas figuras 5.12 e 5.13.

43

Figura 5.10: Boxplot da distribuicao a posteriori das componentes α(xi) - Dados reais

44

Figura 5.11: Traco das cadeias das distribuicoes a posteriori de φ, σ2, β0, β1, β2 e β3 -

Dados reais

45

Figura 5.12: Histogramas e funcoes densidade de probabilidade suavizadas das distri-

buicoes a posteriori de φ, σ2, β0, β1, β2 e β3 - Dados reais

46

Figura 5.13: Histograma e traco da cadeia da distribuicao a posteriori de ν - Dados reais

47

Capıtulo 6

Conclusoes e Discussao

Este trabalhado teve como objetivo contribuir com o estudo de dados de contagem

georeferenciados com sobredispersao. Esse tipo de dado requer uma modelagem especıfica

e para isso a dissertacao traz a proposta de um modelo chamado modelo combinado


Para dados de contagem ha a possibilidade da variancia dos dados ser maior que a

esperada e com isso ocorre o fenomeno da sobredispersao. Este fenomeno e observado

com frequencia para o tipo de dado que foi estudado neste trabalho. Com o intuito de

investigar a presenca ou nao de sobredispersao o presente trabalho apresenta dois testes,

um com enfoque Bayesiano e outro Classico.

Quando o dado apresenta a informacao sobre a localizacao da realizacao de um de-

terminado evento dizemos que o dado e georreferenciado. Com isso a correlacao espacial

precisa ser levada em consideracao na modelagem dos dados.

Apesar do Modelo Linear Generalizado com Estrutura Espacial conseguir captar a

sobredispersao presente nos dados, ha a possibilidade de estarmos interessados em obser-

var onde ha variabilidade extra que o processo Gaussiano incluıdo no preditor linear nao

consegue captar.

O enfoque dado no processo inferencial foi Bayesiano e por isso o algoritmo de Monte

Carlo via Cadeias de Markov (MCMC) foi utilizado. Foi feita uma analise de quais

prioris atribuir a cada parametro baseada em artigos da area. A amostragem em blocos

para alguns parametros se mostrou essencial uma vez que essa tecnica diminui o tempo

48

computacional do algoritmo.

Outra manobra favoravel para o algoritmo do MCMC e a padronizacao das covariaveis

introduzidas no modelo assim como a reparametrizacao do parametro de intercepto con-

forme visto no capıtulo 5. Ambas as tecnicas aceleram a convergencia das cadeias.

O modelo modelo combinado Lognormal-Poisson-Lognormal (LN-P-LN) se mostrou

eficiente na estimacao dos parametros para dados que apresentam sobredispersao. Para

estudar a eficiencia do modelo foram trabalhados dados reais e dados artificiais. Os

dados reais trabalhados foram obtidos atraves do DATASUS e consiste no numero de

internacoes nos hospitais do estado do Rio de Janeiro por meningite viral no perıodo de

Janeiro de 2008 a Maio de 2015.

Para os dados artificiais o modelo modelo combinado Lognormal-Poisson-Lognormal

(LN-P-LN) foi capaz de estimar todos os parametros corretamente e fornecer intervalos

de credibilidade precisos. Alem disso o modelo ainda estimou as componentes inseridas

no modelo para captar a sobredispersao extra nao captada pelo processo Gaussiano. Em

ambas as abordagens desta dissertacao, com dados reais e artificiais, o modelo combi-

nado Lognormal-Poisson-Lognormal (LN-P-LN) trabalha com a estrutura de correlacao

exponencial.

Para os dados de meningite foram incluıdas covariaveis no modelo com o intuito de

averiguar a influencia dessas variaveis no numero de internacoes por meningite viral. A

variavel que indicava a esfera administrativa do hospital, ou seja se ele era publico ou

privado, se mostrou significativa e com um efeito numerico negativo na reposta. Em ou-

tras palavras, os hospitais privados terao menores numeros de internacoes por meningite

viral que os hospitais publicos.

Com o intuito de validar a eficiencia do algoritmo aplicado foram feitos estudos de

convergencia para as cadeias obtidas atraves do MCMC, estudos estes grandemente re-

produzidos na literatura. Os criterios de convergencia utilizados foram Geweke (1992),

Raftery e Lewis (1992) e Heidelberger e Welch (1983).

Para propostas futuras seria interessante adicionar mais variaveis explicativas ao mo-

delo com dados reais. Outra atividade a ser desenvolvida no futuro e trabalhar com o

modelo Lognormal-Poisson-Lognormal (LN-P-LN) para bases de dados maiores. Como

49

trabalho futuro seria interessante obter previsoes para localidades onde o numero de in-

ternacoes por meningite viral nao foi observado ja que o Lognormal-Poisson-Lognormal

(LN-P-LN) modela a sobredispersao como um processo contınuo.

Por fim, como uma validacao do modelo proposto e necessario um estudo de simulacao

com dados gerados a partir do modelo Lognormal-Poisson-Lognormal (LN-P-LN) e ajus-

tar o modelo proposto em Diggle et al. (1998) e apos isto comparar a qualidade do ajuste

e algum tipo de validacao cruzada.

50

Referencias Bibliograficas

Banerjee, S., Carlin, B. P., e Gelfand, A. E. (2004). Hierarchical Modeling and Analysis

for Spatial Data. Monographs on Statistics and Applied Probability, 1st ed. Chapman

& Hall/CRC.

Besag, J., York, J., e Mollie, A. (1991). “Bayesian image restoration, with two appli-

cations in spatial statistics.” Annals of the Institute of Statistical Mathematics , 43,

1–59.

Bulmer, M. G. (1974). “On fitting the Poisson lognormal distribution to species-

abundance data.” International Statistical Review , 30, 1, 101–110.

Christensen, O. F., Roberts, G. O., e Skold, M. (2006). “Robust Markov Chain Monte

Carlo Methods for spatial generalized linear mixed models.” Journal of Computational

Graphical Statistics , 15, 1–17.

Christensen, O. F. e Waagepetersen, R. (2002). “Bayesian prediction of spatial count

data using generalized linear mixed models.” Biometrics , 58, 280–286.

Cressie, N. (1993). Statistics for Spatial Data. New York: Wiley.

Dean, C. B. (1992). “Testing for overdispersion in poisson and binomial regression mo-

dels.” Journal of the American Statistical Association, 87, 418, 451–457.

Dickey, J. (1971). “The weighted likelihood ratio, linear hypotheses on normal location

parameters.” The Annals of Mathematical Statistics , 42, 204–223.

Diggle, P. J. e Ribeiro Jr, P. J. (2007). Model-based Geostatistics . Springer.

51

Diggle, P. J., Twan, J. A., e Moyeed, R. A. (1998). “Model-Based Geostatistics.” Journal

of the Royal Statistical Society Series B , 47, 3, 299–326. (with discussion).

Fonseca, T. C. O. e Steel, M. F. J. (2011). “Non-Gaussian Spatiotemporal Modelling

through Scale Mixing.” Biometrika, 98, 4, 761–774.

Geweke, J. (1992). “Evaluating the accuracy of sampling-based approaches to the cal-

culation of posterior moments.” Bayesian Estatistics 4 (eds J. M. Bernardo et al),

Oxford University Press, Oxford , 169–193.

Gschloßl, S. e Czado, C. (2006). “Modelling count data with overdispersion and spatial

effects.” Statistical Papers , 49, 3, 531–552.

Heidelberger, P. e Welch, P. D. (1983). “Simulation run length control in the presence

of an initial transient.” Operations Research, 31 , 1109–1144.

Kass, R. e Raftery, A. E. (1995). “Bayes factor.” Journal of the American Statistical

Association, 90, 430, 773–795.

McCullagh, P. e Nelder, J. A. (1989). Generalized Linear Models, 2nd edition. 2nd ed.

Chapman & Hall.

Molenberghs, G., Verbeke, G., e Demetrio, C. G. B. (2007). “An extended random-effects

approach to modeling repeated, overdispersed count data.” Lifetime Data Anal , 13,

513–531.

Neyens, T., Faes, C., e Molenberghs, G. (2011). “A generalized Poisson-gamma model for

spatially overdispersed data.” Spatial and Spatio-temporal Epidemiology , , 3, 185–194.

Palacios, M. B. e Steel, M. F. J. (2006). “Non-Gaussian Bayesian Geostatistical Mode-

ling.” Journal of the American Statistical Association, 101, 474, 604–618.

Papaspiliopoulos, O., Roberts, G. O., e Skold, M. (2007). “A general framework for the

parametrization of hierarchical models.” Statistical Science, 22, 59–73.

52

Raftery, A. E. e Lewis, S. (1992). “How many iterations in the Gibbs sampler?” Bayesian

Statistics 4 (eds. J.M. Bernardo, J. Berger, A.P. Dawid and A.F.M. Smith), Oxford

University Press, Oxford , 763–773.

Schmidt, A. M. e Pereira, J. B. M. (2011). “Modelling time series of counts in Epidemi-

ology.” International Statistical Review , 79, 1, 48–69.

Yang, Z., Hardin, J. W., e Addy, C. L. (2008). “A score teste for overdispersion in Poisson

regression based on the generalized Poisson-2 model.” Journal of Statistical Planning

and Inference, 138, 1514–1521.

53

Modelos para dados de contagem espacial com sobredispers~ao · Modelos para dados de contagem...

Documents

Transcript of Modelos para dados de contagem espacial com sobredispers~ao · Modelos para dados de contagem...