Modelos de Previsão para Populações Raras e Agrupadas sob ...

Modelos de Previsao para Populacoes Raras

e Agrupadas sob Amostragem Adaptativa

TESE DE DOUTORADO

por

Kelly Cristina Mota Goncalves

Universidade Federal do Rio de Janeiro

Instituto de Matematica

Departamento de Metodos Estatısticos

Modelos de Previsao para Populacoes Rarase Agrupadas sob Amostragem Adaptativa

Kelly Cristina Mota Goncalves

Tese de Doutorado submetida ao Corpo Docente do Instituto de Matematica -

Departamento de Metodos Estatısticos da Universidade Federal do Rio de Janeiro -

UFRJ, como parte dos requisitos necessarios a obtencao do grau de Doutor em Estatıstica.

Aprovada por:

Prof. Fernando A. S. Moura

PhD - UFRJ - Presidente.

Prof. Alexandra Mello Schmidt

PhD - UFRJ.

Prof. Mariane Branco Alves

PhD - UFRJ.

Prof. Heleno Bolfarine

PhD - USP.

Prof. Josemar Rodrigues

PhD - UFSCAR.

Rio de Janeiro, RJ - Brasil

2014

ii

CIP - Catalogação na Publicação

Elaborado pelo Sistema de Geração Automática da UFRJ com osdados fornecidos pelo(a) autor(a).

G635mGonçalves, Kelly Cristina Mota Modelos de Previsão para Populações Raras eAgrupadas sob Amostragem Adaptativa / KellyCristina Mota Gonçalves. -- Rio de Janeiro, 2014. 143 f.

Orientador: Fernando Antônio da Silva Moura. Tese (doutorado) - Universidade Federal do Riode Janeiro, Instituto de Matemática, Programa dePós-Graduação em Estatística, 2014.

1. Modelos de superpopulação. 2. Amostrageminformativa. 3. Modelos de mistura. 4. Inferênciabayesiana. I. Moura, Fernando Antônio da Silva,orient. II. Título.

iii

A minha maezinha e ao meu paizinho (in memorian),

meus orgulhos.

iv

“Quero falar de uma coisa

Adivinha onde ela anda

Deve estar dentro do peito

Ou caminha pelo ar

Pode estar aqui do lado

Bem mais perto que pensamos

A folha da juventude

E o nome certo desse amor

Ja podaram seus momentos

Desviaram seu destino

Seu sorriso de menino

Quantas vezes se escondeu

Mas renova-se a esperanca

Nova aurora, cada dia

E ha que se cuidar do broto

Pra que a vida nos de

Flor, flor, e fruto

Coracao de estudante

Ha que se cuidar da vida

Ha que se cuidar do mundo

Tomar conta da amizade

Alegria e muito sonho

Espalhados no caminho

Verdes, planta e sentimento

Folhas, coracao,

Juventude e fe.”

Coracao de estudante - Milton Nascimento.

v

Agradecimentos

Agradeco sempre em primeiro lugar a Deus pelo dom da vida e por iluminar meus

caminhos. Por estar ao meu lado em todos os momentos me protegendo e provendo varias

bencaos em minha vida. Sem Ele nada disso seria possıvel.

A minha maezinha Tereza por estar sempre ao meu lado cuidando de mim e torcendo

pelo meu sucesso. Agradeco por ser minha melhor companheira e por ter ajudado no dia-

a-dia para que eu pudesse dedicar-me exclusivamente a minha formacao academica nestes

anos. Ao meu paizinho Juarez (in memorian) pelo seu carinho e por ter se esforcado o

maximo para me dar educacao. Sei que no ceu o senhor esta em festa e como sempre

cheio de orgulho da sua Kellynha. Meus pais amados, essa vitoria tambem e de voces!

Agradeco tambem aos tios e primos pela torcida e por terem estado sempre ao meu

lado, principalmente nos momentos em que mais precisei.

Ao meu orientador Fernando Moura, por acreditar em mim e estar sempre disponıvel

para me ajudar. Meu crescimento durante estes 6 anos de trabalho juntos (entre mestrado

e doutorado) tambem se deve a voce.

Ao meu amorzinho Andres por sempre me apoiar em tudo e me dar o amor que muitas

vezes curou o meu estresse nestes anos. Obrigada por ser o anjinho que tornou meus dias

mais felizes nestes anos de muito estudo!

Aos professores do DME-UFRJ que passaram pela minha formacao academica

nestes anos. Em especial ao professor Helio Migon pela forca e oportunidade de

trabalhar juntos em outros assuntos, e a professora Alexandra Schmidt pela torcida de

sempre e por ter incentivado a minha entrada neste programa de pos-graduacao. Aos

vi

inesquecıveis professores do IM-UFRJ que ajudaram a formar minha base matematica

nesta instituicao.

Aos amigos que fiz durante estes anos de pos-graduacao no DME-UFRJ. Em especial,

a Panela Camila, Joao, Larissa e Renata pela torcida e amizade verdadeira. A minha

turma Gustavo, Joao, Jony e Larissa pelo companheirismo nas disciplinas cursadas. Aos

demais amigos Patrıcia, Mariana, Josiane, Vera (in memorian) e Felipe, veteranos que

estiveram sempre por perto. Agradeco a todos voces pelos inesquecıveis momentos que

passamos juntos. Grandes amizades que espero levar para toda a vida.

Agradeco tambem aos professores Alexandra Schmidt, Mariane Branco, Heleno

Bolfarine e Josemar Rodrigues por aceitarem participar desta banca.

Agradeco a CAPES pelo apoio financeiro, sem o qual nao seria possıvel realizar este

sonho. Ao GET-UFF pela flexibilidade, que me ajudou a exercer esta dupla jornada.

Agradeco tambem pelas experiencias academicas que tive no GET ao longo desses anos

e que me ajudaram a amadurecer em diversos aspectos.

Finalmente, agradeco a UFRJ, que tornou-se minha segunda casa nestes anos.

Quando entrei nesta instituicao era uma menina de 17 anos ainda em duvida sobre

sua carreira. Ao longo desses 9 anos aqui me graduei, encontrei uma area pela qual

me apaixonei, me tornei uma profissional e amadureci como pessoa. Sou profundamente

grata a esta instituicao por hoje ser quem eu sou.

Ao escrever estes Agradecimentos a emocao algumas vezes tomou conta de mim, isso

mostra a importancia desta conquista em minha vida. E um filme que passa na cabeca

neste momento. Obrigada a todos pela realizacao deste sonho!

vii

Resumo

Populacoes raras, como animais em extincao, pessoas infectadas por doencas raras,

usuarios de drogas, entre outros, tendem a distribuir-se de forma agrupada em regioes.

Em levantamentos estatısticos com populacoes deste tipo, em que o principal interesse

e estimar o total populacional, este comportamento dificulta o processo de obtencao de

informacao por meio de uma amostra aleatoria simples, tornando-se necessarios metodos

de amostragem complexos. Thompson (1990) propos um metodo eficiente para estas

situacoes, denominado amostragem adaptativa por conglomerados.

Por outro lado, Rapley e Welsh (2008) propuseram uma abordagem para inferencia em

populacoes deste tipo baseada em modelos. Sob o enfoque Bayesiano, o modelo proposto

e construıdo no nıvel agregado dos grupos e incorpora o planejamento da amostragem

adaptativa por conglomerados a verossimilhanca. Alem disso, supoe homogeneidade entre

todas as unidades, mesmo as pertencentes a grupos distintos, o que resulta na frequencia

esperada do total do fenomeno dentro de um grupo proporcional ao seu tamanho.

O objetivo deste trabalho e criar modelos alternativos para a previsao do total

populacional em uma determinada regiao. Inicialmente, o modelo agregado e estendido

para populacoes que evoluam dinamicamente. Em particular, o interesse esta em

populacoes raras que apresentam crescimento ou decrescimento dentro dos grupos ate

a estabilizacao com a evolucao do tempo.

Em seguida, o interesse e propor um modelo de mistura alternativo ao modelo

agregado, que contemple situacoes mais gerais. A proposta e formulada em um nıvel

desagregado da populacao, o que possibilita a insercao de estruturas com suposicoes

mais realistas, como a heterogeneidade entre grupos. O modelo e avaliado sob diversos

estudos de simulacao e, finalmente, aplicado ao plano amostral adaptativo duplo, o qual

e um plano que permite a extracao de mais informacoes acerca da populacao, mas sem

exceder os custos.

Palavras-chave: Amostragem informativa; modelos de mistura Poisson; RJMCMC.

viii

Abstract

Rare populations, such as endangered species, individuals infected by rare diseases and

drug users tend to cluster in regions. In many research studies with those populations,

where the main interest is to predict the population total, this behavior makes it difficult

the selection of a representative sample, making necessary complex sampling methods.

Thompson (1990) introduced an efficient method for these situations, called adaptive

cluster sampling.

On the other hand, Rapley e Welsh (2008) proposed a model-based approach to

make inference in those populations. From the Bayesian point of view, the proposed

model is built on the aggregated level of groups and takes into account the inclusion

probability of the adaptive sampling in the model likelihood. Furthermore, their model

supposes homogeneity between all units, even those belonging to different networks,

which is equivalent to assuming that the expected total in a group is proportional to its

size.

The aim of this work is to propose alternative models in order to predict the

population total in a region. Initially, the agregated model is extended to populations

that dinamically evolve. In particular, the interest is in rare populations which present

an increase or decrease within the groups, but stabilizes after some time.

Then, the interest is to propose a mixture model for more general situations,

alternative to the agregated model. The formulation of the model is done in the unit level,

what allows incorporating more realistic structures, such as the heterogeneity among units

belonging to different groups. The model is evaluated by carrying out some simulation

studies and finally applied to the adaptive cluster double sampling, which extracts more

informations about the population, without exceeding the costs.

Keywords: Informative sampling; Poisson mixture model; RJMCMC.

ix

Sumario

1 Introducao 1

1.1 Contribuicoes da tese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.2 Organizacao da tese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2 Inferencia em populacao finita 7

2.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.2 Amostragem adaptativa por conglomerados . . . . . . . . . . . . . . . . . 9

2.2.1 Estimador do tipo Horvitz-Thompson modificado . . . . . . . . . 13

2.2.2 Amostragem estratificada adaptativa por conglomerados . . . . . 15

2.2.3 Amostragem adaptativa por conglomerados em dois estagios . . . 16

2.2.4 Custo operacional do plano amostral . . . . . . . . . . . . . . . . 16

2.2.5 Eficiencia do plano amostral . . . . . . . . . . . . . . . . . . . . . 18

2.3 Modelos de superpopulacao . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.3.1 Desenho amostral informativo . . . . . . . . . . . . . . . . . . . . 21

2.4 Conclusoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3 Amostragem adaptativa por conglomerados baseada em modelos 25

3.1 Um modelo agregado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.1.1 Possıveis cenarios gerados pelo modelo . . . . . . . . . . . . . . . 29

3.1.2 Estudo simulado para alguns cenarios . . . . . . . . . . . . . . . . 30

3.1.3 Estudo simulado com populacao real . . . . . . . . . . . . . . . . 37

3.2 Um modelo para populacoes moveis, em crescimento ou decrescimento . . 40

3.2.1 Amostragem adaptativa para populacoes moveis . . . . . . . . . . 41

x

3.2.2 Incorporando estrutura de crescimento e decrescimento ao modelo 43

3.2.3 Modelo de crescimento exponencial . . . . . . . . . . . . . . . . . 45

3.2.4 Estudo simulado . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

3.2.5 Comparacao do modelo de crescimento com outras abordagens . . 55

3.3 Conclusoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

4 Modelo de mistura para populacoes raras e agrupadas sob amostragem

adaptativa 60

4.1 Uma revisao sobre modelos de mistura de distribuicoes . . . . . . . . . . 62

4.1.1 Inferencia Bayesiana em modelos de mistura . . . . . . . . . . . . 64

4.2 Modelo de mistura Poisson proposto . . . . . . . . . . . . . . . . . . . . 68

4.2.1 Distribuicao a priori para λ . . . . . . . . . . . . . . . . . . . . . 72

4.2.2 Inferencia para o modelo . . . . . . . . . . . . . . . . . . . . . . . 74

4.3 Estudo simulado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

4.3.1 Considerando diferentes configuracoes . . . . . . . . . . . . . . . . 81

4.3.2 Considerando diferentes nıveis de heterogeneidade . . . . . . . . . 84

4.3.3 Analise de sensibilidade da distribuicao a priori . . . . . . . . . . 88

4.4 Comparacao com o modelo agregado . . . . . . . . . . . . . . . . . . . . 91

4.4.1 Simulacao baseada no desenho amostral . . . . . . . . . . . . . . 92

4.4.2 Simulacao baseada no modelo . . . . . . . . . . . . . . . . . . . . 95

4.5 Modelo de mistura sob amostragem adaptativa dupla . . . . . . . . . . . 97

4.5.1 Amostragem adaptativa dupla . . . . . . . . . . . . . . . . . . . . 98

4.5.2 Modelo proposto sob amostragem dupla com variavel auxiliar

indicadora de presenca . . . . . . . . . . . . . . . . . . . . . . . . 99

4.5.3 Avaliacao do modelo proposto sob amostragem adaptativa e

adaptativa dupla . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

4.6 Conclusoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

5 Conclusoes e trabalhos futuros 108

5.1 Trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

5.1.1 Planejamento amostral otimo . . . . . . . . . . . . . . . . . . . . 110

xi

A Resultados dos modelos ajustados no Capıtulo 3 112

A.1 Modelo (3.1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

A.2 Modelo de crescimento (3.4) . . . . . . . . . . . . . . . . . . . . . . . . . 116

B Calculos envolvidos na inferencia para o modelo proposto 118

B.1 Distribuicoes condicionais completas . . . . . . . . . . . . . . . . . . . . 118

B.2 Probabilidade de aceitacao do algoritmo RJMCMC . . . . . . . . . . . . 121

xii

Lista de Tabelas

3.1 RaEQM e RaVAR dos estimadores para α, β, γ e T , entre os valores

obtidos no ajuste usando a probabilidade de selecao da amostra na funcao

de verossimilhanca (3.3) e sem usa-la, sob 100 amostras artificiais. . . . 36

3.2 Estudo simulado com a populacao de marrecos da asa azul: eficiencia

relativa para o estimador do total populacional com base no desenho

amostral adaptativo (estimador de Horvitz-Thompson modificado) e no

ajuste do modelo (3.1), com relacao a amostragem aleatoria simples de

tamanho n. A eficiencia do estimador Bayesiano com relacao ao estimador

de Horvitz-Thompson tambem e apresentada na ultima coluna. . . . . . . 40

3.3 Sumario da distribuicao a posteriori dos parametros do modelo de

crescimento proposto: sao apresentados o EQM e EAM, a amplitude media

dos intervalos HPD de 95% e a probabilidade de cobertura para as 100

populacoes geradas. Os resultados estao separadas para as populacoes em

crescimento e decrescimento. . . . . . . . . . . . . . . . . . . . . . . . . . 55

4.1 Analise da convergencia das cadeias a posteriori dos parametros do modelo

proposto supondo distribuicao a priori independente e dependente para λ

para uma populacao artificial. . . . . . . . . . . . . . . . . . . . . . . . . 78

4.2 Sumario a posteriori da estimacao pontual e intervalar dos parametros do

modelo proposto e de T sob as 500 simulacoes, para diferentes valores de

α, β e N = 200. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

xiii



α, β e N = 400. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83



α, β e N = 600. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

4.5 Sumario para a estimacao pontual e intervalar dos parametros do

modelo e o total populacional para as 500 populacoes, variando o nıvel

de homogeneidade nas redes, a partir do valor do CV fixado para a

distribuicao de λ, para N = 400. . . . . . . . . . . . . . . . . . . . . . . 87

4.6 Analise da convergencia das cadeias com a distribuicao a posteriori dos

parametros dos modelos de mistura e agregado para a populacao real. . . 94

4.7 Sumario da estimacao pontual e intervalar do total populacional obtido do

ajuste do modelo de mistura e do modelo agregado. . . . . . . . . . . . . 95

4.8 Sumario a posteriori para a estimacao pontual e intervalar dos parametros

dos modelos sob as 500 simulacoes onde λ foi gerado de uma distribuicao

Gama com CV=50% e CV=25%, para N = 400 e (α, β) = (0.15, 0.10). . 96

4.9 Sumario a posteriori do total populacional T para os quatro planejamentos

considerados com base nas 500 amostras simuladas. . . . . . . . . . . . 104

4.10 Resumo das principais conclusoes acerca dos estudos simulados realizados

com o modelo de mistura proposto em (4.4). . . . . . . . . . . . . . . . . 107

xiv

Lista de Figuras

2.1 Ilustracao do procedimento de amostragem adaptativa por conglomerados

para uma populacao rara e agrupada distribuıda em uma regiao com 400

unidades. No painel a esquerda temos uma amostra inicial de n1 =

10 unidades representadas pelos quadrados em cinza. A partir desta

amostra, vizinhos sao adicionados a amostra sempre que ha pelo menos

uma observacao (pontos em preto) na unidade selecionada, configurando

finalmente o plano amostral da direita. . . . . . . . . . . . . . . . . . . . 11

2.2 Ilustracao dos conceitos importantes na amostragem adaptativa por

conglomerados: os quadrados com borda em negrito correspondem ao

conglomerado observado, os quadrados em cinza sao as unidades da

rede e a parte hachurada as unidades da borda. A unidade selecionada

inicialmente esta em cinza mais escuro. . . . . . . . . . . . . . . . . . . . 13

3.1 Populacoes artificiais geradas a partir do modelo proposto por Rapley e

Welsh (2008), para alguns valores fixos para os parametros α e β e para

γ = 10, numa grade regular de tamanho N = 400. . . . . . . . . . . . . . 31

3.2 Populacao real de marrecos da asa azul na regiao da Florida, nos Estados

Unidos, no ano de 1992, disposta numa grade regular de tamanho N = 200. 38

3.3 Ilustracao da evolucao dinamica de interesse de uma populacao rara e

agrupada numa regiao sobreposta a uma grade regular com N = 400

unidades. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

xv

3.4 Curvas de crescimento e decrescimento de interesse para αt, t = 1, . . . , 50.

Em (a) fixou-se a = −1.73, b = −1.41 e c = −0.15, e em (b) a = −2.20,

b = 0.94 e c = −0.15, o que resulta no parametro αt variando de 0.05 e

0.15 e de 0.2 a 0.1, respectivamente. . . . . . . . . . . . . . . . . . . . . . 47

3.5 Distribuicao a priori conjunta para o vetor (a, b)′. . . . . . . . . . . . . . 49

3.6 Sumario da distribuicao a posteriori de αt e do total populacional para

uma populacao em crescimento e decrescimento ao longo do tempo. Em

preto esta a media a posteriori de αt e total populacional Tt, t = 1, . . . , 50,

com intervalo HPD de 95% em cinza e valor verdadeiro em azul. . . . . . 54

3.7 Sumario da distribuicao a posteriori do total populacional a cada instante

de tempo T para 100 populacoes em crescimento e outras 100 em

decrescimento geradas. Sao apresentados os EQMR, EAR, probabilidade

de cobertura e amplitude media dos intervalos HPD de 95%. . . . . . . . 56

3.8 Comparacao do modelo proposto de crescimento exponencial (3.4) com o

ajuste independente ao longo do tempo do modelo (3.1). Em (a) estao

as probabilidades de cobertura dos intervalos HPD de 95%, em (b) a

amplitude media destes intervalos, em (c) esta a REQMR para cada

abordagem utilizada e em (d) as REQMR para todos os tempos incluindo

na comparacao o estimador de Horvitz-Thompson. . . . . . . . . . . . . . 58

4.1 Comparacao das medias da distribuicao de Poisson e Poisson truncada no

zero. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

4.2 Densidade a posteriori para alguns parametros do modelo proposto e para o

total populacional T com base em um dado artificial supondo distribuicao

a priori para λ independente. A linha vertical cheia representa o valor

verdadeiro e a linha pontilhada o intervalo HPD de 95%. . . . . . . . . . 79

4.3 Densidade a posteriori para alguns parametros do modelo proposto e para o

total populacional T com base em um dado artificial supondo distribuicao

a priori para λ dependente. A linha vertical cheia representa o valor

verdadeiro e a linha pontilhada o intervalo HPD de 95%. . . . . . . . . . 80

xvi

4.4 Erro relativo para λs e λs ao longo de 500 simulacoes, para N = 400 e

diferentes configuracoes de α e β. . . . . . . . . . . . . . . . . . . . . . . 85

4.5 Distribuicao a priori para λj usada nas simulacoes variando o valor do

CV da distribuicao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

4.6 Sumario da distribuicao a posteriori de R assumindo diferentes

distribuicoes a priori para λ. As cruzes representam a mediana da

distribuicao a posteriori, o cırculo o valor verdadeiro de R e a linha o

intervalo HPD de 95%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

4.7 EMQR para cada λj assumindo diferentes distribuicoes a priori para λ. Os

resultados com a distribuicao a priori independente sao representados pelos

cırculos vazios e a linha cheia, os resultados para a distribuicao dependente

com τ = 5 sao representados pelos triangulos e a linha tracejada, as cruzes

com a linha pontilhada representam os resultados quando τ = 10 e τ = 20

sao os cırculos cheios e a linha traco e ponto. . . . . . . . . . . . . . . . 90

4.8 EQMR, probabilidade de cobertura e amplitude media do intervalo HPD

de 95% para o total populacional T sob cada distribuicao a priori assumida

para λ e para cada valor de R fixado. Os cırculos vazios e a linha

representam os resultados para R = 5, os triangulos com a linha tracejada

quando R = 6 e as cruzes com a linha pontilhada para R = 7. . . . . . . 91

4.9 Traco das cadeias com a distribuicao a posteriori para α, β e T obtida do

ajuste do modelo de mistura (a) e do modelo agregado (b). A linha em

cinza representa o valor verdadeiro de T . . . . . . . . . . . . . . . . . . . 93

4.10 ER para T para as 500 amostras obtidos a partir do ajuste do modelo de

mistura e do modelo agregado. . . . . . . . . . . . . . . . . . . . . . . . . 95

4.11 Boxplot com o ER para T , a partir do modelo de mistura e do modelo

agregado para as 500 populacoes, tal que λ foi gerado de uma distribuicao

Gama com CV=50% e CV=25%. . . . . . . . . . . . . . . . . . . . . . . 97

4.12 Sumario a posteriori de λs2 para os planejamentos (i) e (ii-a) com base

nas 500 amostras simuladas. . . . . . . . . . . . . . . . . . . . . . . . . . 105

xvii

1.1 Tracos das cadeias dos parametros α, β, γ e total populacional T para um

dado artificial gerado fixando α = 0.05 e β ∈ 0.05, 0.1, 0.15, 0.2, com

respectivos valores verdadeiros em cinza. . . . . . . . . . . . . . . . . . . 113

1.2 Tracos das cadeias dos parametros α, β, γ e total populacional T para

um dado artificial gerado fixando α = 0.1 e β ∈ 0.05, 0.1, 0.15, 0.2, com


1.3 Tracos das cadeias dos parametros α, β, γ e total populacional T para um

dado artificial gerado fixando α = 0.15 e β ∈ 0.05, 0.1, 0.15, 0.2, com


1.4 Tracos das cadeias dos parametros α, β, γ e total populacional T para

um dado artificial gerado fixando α = 0.2 e β ∈ 0.05, 0.1, 0.15, 0.2, com


1.5 Sumario da distribuicao a posteriori dos parametros α, β, γ e T para

100 populacoes em 16 cenarios com amostra inicial de 5%N e 10%N . Em

(a) os triangulos representam as probabilidades de cobertura dos intervalos

HPD de 95% para a amostra de 5%, os cırculos cheios para a amostra de

10% e a linha tracejada em vermelho o nıvel nominal de 95%. Em (b)

estao o EQM para cada parametro e o EQMR para T . . . . . . . . . . . . 115

1.6 Sumario da distribuicao a posteriori de Θ e do total populacional para

uma populacao em crescimento ao longo do tempo. Em (a)-(e) estao os

tracos das cadeias da distribuicao a posteriori dos parametros a, b, c, β e

γ. De (f)-(j) estao os tracos das cadeias para os totais em alguns tempos.

A linha em cinza representa o valor verdadeiro usado na geracao dos dados

artificiais. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

1.7 Sumario da distribuicao a posteriori de Θ e do total populacional para

uma populacao em decrescimento ao longo do tempo. Em (a)-(e) estao

os tracos das cadeias da distribuicao a posteriori dos parametros a, b, c,

β e γ. De (f)-(j) estao os tracos das cadeias para os totais em alguns

tempos. A linha em cinza representa o valor verdadeiro usado na geracao

dos dados artificiais. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

xviii

Capıtulo 1

Introducao

Em diversos levantamentos estatısticos e possıvel deparar-se com dificuldades na

coleta de dados, devido ao objeto de estudo ser difıcil de ser observado. Isto pode ocorrer

simplesmente por ser um subconjunto pequeno da populacao toda, exibir um padrao de

grupos esparsamente distribuıdos numa regiao, ou ainda por apresentar uma mobilidade

ao longo do tempo. Sao alguns exemplos de populacoes com estas caracterısticas: animais

e plantas em extincao, minorias etnicas, usuarios de drogas, indivıduos com doencas

raras e imigrantes recentes numa regiao. Problemas de monitoramento de populacoes

raras tornaram-se uma prioridade para muitos orgaos publicos, como por exemplo o

monitoramento de especies ameacadas de extincao para as agencias de conservacao.

Em geral detectar e estimar a abundancia ou distribuicao de populacoes com estas

caracterısticas e uma tarefa difıcil.

Kalton e Anderson (1986) afirmam que populacoes raras sao definidas basicamente

como uma pequena fracao da populacao total, como por exemplo em estudos de

doencas raras, em que o interesse se concentra em grupos especıficos de sexo e idade.

No entanto, McDonald (2004) afirma que populacoes raras nao sao necessariamente

aquelas que possuem poucos indivıduos, e sim aquelas em que os indivıduos apresentam

comportamento elusivo ou estao esparsamente distribuıdos em grandes espacos. Nesta

abordagem estao as populacoes raras e agrupadas, as quais apresentam um padrao de

distribuicao espacial altamente concentrado, com grupos esparsos em uma regiao. Assim,

uma populacao com comportamento em forma de grupos espalhados em um espaco

1

geografico grande tem uma raridade geografica maior do que uma populacao de mesmo

tamanho confinada em um espaco geografico menor.

A amostragem de populacoes raras e uma tarefa ardua, porque os custos de localizacao

de tais populacoes sao substanciais e podem exceder os recursos disponıveis. Alem disso,

em geral, a densidade populacional media e pequena com relacao a area total, mas quando

uma abundancia substancial em alguns pontos e localizada, concentracoes em vizinhancas

tendem a ser detectadas, e ao aplicar-se um planejamento amostral tradicional, muitas

unidades podem apresentar zeros na contagem, enquanto a maior parte das unidades

com contagens diferentes de zero se mantem concentrada em alguns locais que nao foram

amostrados. Este fenomeno resulta em estimadores altamente imprecisos. Por esses

motivos, metodos especıficos tem sido desenvolvidos para a amostragem de populacoes

raras e agrupadas.

Em meio ao surgimento de diversas tecnicas de amostragem para populacoes raras,

como as revisadas em Sudman e Kalton (1986), Kalton e Anderson (1986) e Kalton

(2001), a amostragem proposta por Thompson (1990) ganhou destaque na literatura

como uma tecnica eficiente para levantamentos estatısticos em populacoes deste tipo.

Denominada como amostragem adaptativa por conglomerados, a tecnica aproveita a ideia

intuitiva de que se os elementos da populacao foram encontrados em uma area, as areas

vizinhas tem maior probabilidade de possuırem elementos com as mesmas caracterısticas.

Extensoes desta tecnica de amostragem podem ser vistas em Thompson e Seber (1996)

e Turk e Borkowski (2005).

Por outro lado, a biosfera esta constituıda de sistemas que mudam com o passar

do tempo, dependendo da organizacao do sistema e dos recursos disponıveis. Kalton

(1991) revisa metodos de amostragem para populacoes moveis. O estudo da dinamica

das populacoes naturais e importante para compreender o que ocorre nos ecossistemas em

equilıbrio. Da mesma forma, populacoes raras e agrupadas tambem podem apresentar

uma dinamica populacional ao longo do tempo e tal fator pode ser gerador de dificuldades

maiores ainda nos levantamentos estatısticos. McDonald (2004) apresenta estudos

por amostragem que produzem estimativas inadequadas simplesmente pelo fato do

pesquisador perder a populacao-alvo em um curto intervalo de tempo, devido ao grande

2

poder de deslocamento, mortes, entre outros fatores. Estudos acerca de populacoes de

animais selvagens constituem um campo de aplicacao que em muitos aspectos difere de

levantamentos com uma populacao de arvores, por exemplo. Os animais podem circular

e se esconder naturalmente, e alem disso o proprio processo de amostragem em si pode

induzir a esta mobilidade. Assim, um planejamento amostral eficiente pode nao existir

e a probabilidade de inclusao de um animal na amostra e calculada depois da amostra

ter sido planejada. Por isso, a probabilidade de obter erros amostrais e tambem maior

em pesquisas com uma populacao de animais ou outra com esta mesma caracterıstica.

Para estes e outros casos, um levantamento estatıstico por amostragem, que considera

esta dinamica da populacao e trabalha com coletas de amostras ao longo de um perıodo

de tempo, pode produzir resultados mais precisos que planejamentos que nao levem tal

dinamica em consideracao.

Todas as tecnicas citadas acima fundamentam-se na teoria de amostragem baseada

na aleatorizacao do desenho amostral, ou seja, o mecanismo probabilıstico de selecao da

amostra define um procedimento predeterminado de aleatorizacao, denominado desenho

amostral. Como apontado por Skinner et al. (1989), a principal razao desta abordagem

e sua caracterizacao como livre de distribuicao.

Em algumas situacoes especıficas, como em estimacao em pequenos domınios, esta

abordagem, baseada no desenho amostral, pode mostrar-se ineficiente, fornecendo

preditores inadequados. Isto porque neste caso, o tamanho da amostra resultante de

uma pesquisa e muito pequeno para que estimadores baseados somente no desenho

amostral apresentem precisao aceitavel. Alem disso, em termos de estimacao intervalar,

e necessario recorrer ao Teorema Central do Limite, o qual nao pode ser aplicado em

muitas situacoes praticas, em que o tamanho da amostra nao e suficientemente grande

e/ ou no caso em que suposicoes de independencia das variaveis aleatorias envolvidas

nao sao realistas. Uma possıvel solucao para estes casos e a utilizacao de modelos de

superpopulacao. Nesta abordagem sao usadas suposicoes explıcitas, buscando realizar

inferencia sobre a parte desconhecida, que nao seja baseada apenas na parte observada,

mas na distribuicao conjunta das variaveis de interesse.

3

Com base nestas ideias, e possıvel tambem fazer inferencia em populacoes raras e

agrupadas usando as tecnicas de amostragem citadas, mas sob a abordagem baseada

em modelos, em particular sob o enfoque Bayesiano. Nestes problemas a perspectiva

Bayesiana pode ter grandes vantagens sobre abordagens baseadas em desenho amostral

ou em modelos frequentistas, tais como: (i) podem-se obter estimativas para quantidades

para as quais a amostra coletada e pequena, incorporando informacoes a priori do

comportamento da populacao; (ii) a incerteza inerente ao procedimento de estimacao

e levada em consideracao na previsao, pois seguindo o paradigma de Bayes, e possıvel

obter uma distribuicao preditiva, entre outras.

Neste contexto, Rapley e Welsh (2008) propoem, de forma pioneira, um modelo,

sob o enfoque Bayesiano, que incorpora o planejamento da amostragem adaptativa por

conglomerados, a fim de inferir sobre o total populacional em uma regiao de interesse.

Uma caracterıstica importante de tal modelo e que a unidade de analise e dada por um

nıvel agregado de unidades menores, dessa forma trata-se de uma alternativa a introducao

das localizacoes espaciais, a fim de facilitar a inferencia. No entanto, nao incorporar

efeitos espaciais e estimar parametros populacionais em nıveis agregados pode trazer

perdas de informacoes de interesse em nıveis menores e na precisao das estimativas. Alem

disso, duas suposicoes fortes deste modelo sao que em media as unidades da populacao sao

homogeneas com relacao ao fenomeno de interesse e que o total esperado de ocorrencias

do fenomeno em um determinado grupo e proporcional ao tamanho deste grupo na regiao.

1.1 Contribuicoes da tese

O objetivo deste trabalho e fazer previsoes em populacoes raras, agrupadas e moveis

usando amostragem adaptativa por conglomerados, sob uma abordagem baseada em

modelos de superpopulacao, sob o enfoque Bayesiano.

Primeiramente, o interesse esta em estender o modelo de Rapley e Welsh (2008) com

o objetivo de fazer inferencias sobre populacoes dinamicas. Em particular, o interesse

esta em populacoes em crescimento ou decrescimento que atingem a uma estabilizacao

com a evolucao do tempo.

4

Em seguida, sem considerar evolucao no tempo, e proposto um modelo para

populacoes raras e agrupadas, alternativo ao de Rapley e Welsh (2008). baseado em

misturas de distribuicoes. Tal modelagem possibilita fazer inferencia em um nıvel

desagregado da populacao e suposicoes mais realistas, como por exemplo heterogeneidade

entre unidades que compoem grupos distintos.

Finalmente, esta proposta e estendida para problemas em que a amostragem

adaptativa por conglomerados torna-se muito custosa e faz-se necessario o uso de um

planejamento alternativo. Em particular, sera considerada a amostragem adaptativa

dupla por conglomerados proposta por Felix-Medina e Thompson (2004). Neste contexto,

e considerada tambem a insercao de variaveis auxiliares que podem ajudar na estimacao.

O software livre R (R Core Team, 2013) foi utilizado tanto para programar os

algoritmos quanto para a construcao dos graficos apresentados.

1.2 Organizacao da tese

No Capıtulo 2 e introduzida a notacao de amostragem de populacao finita, a qual

sera utilizada ao longo do texto, e e feita uma ampla revisao de literatura sobre

planos amostrais informativos, modelos de superpopulacao e amostragem adaptativa por

conglomerados.

No Capıtulo 3 e apresentado o modelo proposto por Rapley e Welsh (2008), descrito

acima, o qual serviu-nos de inspiracao para as propostas deste trabalho. Um estudo

simulado e apresentado, a fim de verificar o desempenho do modelo para alguns cenarios.

Alem disso, e apresentada uma populacao real, a qual e utilizada ao longo deste trabalho,

e em particular neste capıtulo, esta e usada em uma avaliacao do desempenho do modelo

em questao. Finalmente, e proposta uma extensao deste modelo para uma classe de

populacoes moveis e, em crescimento ou decrescimento, ao longo do tempo.

No Capıtulo 4 e proposto um novo modelo de mistura de probabilidades para previsao

em populacoes deste tipo. Este modelo e mais geral que o proposto por Rapley e Welsh

(2008) pois modela as unidades desagregadas, o que permite prever neste nıvel menor

e incorporar estruturas que acomodem suposicoes mais complexas para a populacao.

5

Alguns estudos simulados sao apresentados a fim de avaliar o desempenho do modelo

proposto. Experimentos baseados em modelos e desenho sao feitos com o objetivo

de comparar o modelo proposto neste trabalho com o modelo de Rapley e Welsh

(2008). Finalmente, e feita uma aplicacao do modelo de mistura ao planejamento

amostral apresentado em Felix-Medina e Thompson (2004), o qual permite a realizacao

de pesquisas com um custo mais controlado e o uso de variaveis auxiliares.

Finalmente, o Capıtulo 5 conclui o trabalho, resumindo o que foi desenvolvido e

apresentando propostas futuras.

6

Capıtulo 2

Inferencia em populacao finita

Neste capıtulo sao apresentados a notacao e definicoes importantes na teoria de

amostragem de populacao finita que serao utilizadas ao longo deste trabalho. Neste

contexto, existem duas possıveis abordagens: (i) a baseada na aleatorizacao do desenho

amostral, com a populacao fixa, e (ii) modelos de superpopulacao (detalhes em Bolfarine

e Zacks (1992)). Na Secao 2.1 a primeira abordagem e apresentada. Em particular,

a Secao 2.2 apresenta um plano amostral utilizado para populacoes raras e agrupadas

proposto por Thompson (1990) e algumas extensoes. Finalmente, na Secao 2.3 a segunda

abordagem e apresentada, com enfase a modelos, para os quais o planejamento amostral

e relevante para a analise Bayesiana do modelo.

2.1 Introducao

Segundo Cassel et al. (1977), uma populacao finita e uma colecao de N unidades

denotada pelo conjunto de ındices P = 1, . . . , N, para a qual temos interesse numa

caracterıstica y, para N supostamente conhecido. Associada a unidade i, i = 1, . . . , N ,

tem-se o valor yi. Se a unidade i e observada, nao e somente o valor de yi que e registrado

mas, tambem, o fato de que foi exatamente a unidade i que gerou essa medida. Denote

a observacao completa pelo par (i, yi) e, portanto, existem N pares, (i, yi), i = 1, . . . , N ,

para a populacao toda.

7

Defina y = (y1, . . . , yN)′ como o parametro populacional da populacao finita. Por

exemplo, o numero de pessoas com alguma doenca em N bairros, ou o numero de animais

de uma determinada uma especie em N localizacoes. No contexto de populacoes finitas,

em geral o objetivo e estimar funcoes de y, como por exemplo o total populacional

T =∑N

i=1 yi = 1′Ny, onde 1N e o vetor unitario de dimensao N×1, a media populacional

µ = T/N e a variancia populacional σ2 =∑N

i=1 (yi − µ)2/N . Em particular, o interesse

neste trabalho concentrar-se-a em estimar o total populacional.

A inferencia sobre estes parametros e feita com base em informacoes obtidas sobre

o vetor y por meio de uma amostra ordenada s ⊂ P , de tamanho n, dada por s =

i1, . . . , in. A amostragem de populacao finita baseada na aleatorizacao do desenho

amostral distingue-se de outras partes da estatıstica, pois trata a populacao de forma

fixa. Nesta abordagem, o mecanismo probabilıstico de selecao da amostra define um

procedimento predeterminado de aleatorizacao, denominado desenho amostral. Este e

representado por uma funcao de probabilidade, conhecida como planejamento amostral,

definida no conjunto S de todas as possıveis amostras s, onde [s] fornece a probabilidade

de selecionar a amostra s. Um desenho amostral [.] e chamado nao informativo se, e

somente se, [.] e uma funcao que nao depende dos valores de y associados a s. Denote

um planejamento amostral informativo por [s | y].

Uma vez que s e selecionada, o resultado observado pode ser especificado como o

conjunto de pares d = (i, yi) : i ∈ s. Em alguns casos, o interesse esta apenas nos

valores de y e nao no par completo, por isso defina ys = yi : i ∈ s. Sejam s = P − s e

portanto ys = yi : i ∈ P − s, os valores de y que nao pertencem a amostra.

Neste contexto, um conceito importante que vira a facilitar expressoes mais a frente

e o conceito de consistencia. De acordo com Cassel et al. (1977), uma amostra s e

dita consistente com uma particular populacao y0 = (y01, . . . , y

0N)′ se, e somente se,

yi = y0i para todo i ∈ s. Em outras palavras uma amostra e consistente com uma

particular populacao se, e somente, se os valores de y das unidades amostradas coincidem

com os valores de y das mesmas unidades na populacao. Dessa forma, para qualquer

planejamento amostral dado por [.] e, qualquer vetor populacional y, tem-se que a

8

probabilidade de uma quantidade aleatoria D tomar um valor d e dada por: [s], se

s e consistente com y e 0, caso contrario.

Analogamente, pode-se definir I como o vetor de dimensao N indicador de inclusao

na amostra s ⊂ S, de cada unidade da populacao, isto e Ii = 1 se i ∈ s e Ii = 0 se

i /∈ s. Note que Ii segue uma distribuicao de Bernoulli com probabilidade de sucesso

πi, i = 1, . . . , N, tal que πi e a probabilidade de inclusao da unidade i na amostra.

Assim, por exemplo, o estimador de Horvitz-Thompson (Horvitz e Thompson (1952))

para o total T e sua variancia podem ser escritos como:

THT =N∑i=1

yiIiπi, V (THT ) =

N∑i=1

1− πiπi

y2i + 2

N∑i=1

∑j>i

πij − πiπjπiπj

yiyj, (2.1)

tal que πij representa a probabilidade de inclusao das unidades i e j conjuntamente na

amostra.

A outra tecnica usada na inferencia em populacoes finitas e a baseada em modelos

de superpopulacao, na qual a amostra permanece fixa, e as observacoes populacionais

sao representadas por realizacoes de variaveis aleatorias, e a inferencia se refere a uma

superpopulacao hipotetica, na qual uma lei de probabilidade governa as variaveis de

interesse. Esta metodologia tambem sera vista com detalhes na Secao 2.3.

Na proxima secao e apresentado um planejamento amostral especıfico, voltado para

levantamentos em populacoes raras e agrupadas.

2.2 Amostragem adaptativa por conglomerados

Em pesquisas dentro de regioes pode-se sobrepor uma grade regular e a selecao da

amostra envolve a selecao de um subconjunto de celulas da grade. Para populacoes

esparsas e agrupadas, a maioria das amostras de tamanho pequeno consistem de celulas

vazias, resultando em muitas amostras que geram estimativas imprecisas da quantidade

de interesse. A amostragem adaptativa por conglomerados e uma alternativa para esta

dificuldade pois trata-se de um planejamento voltado para populacoes raras e agrupadas.

Proposta inicialmente por Thompson (1990), o metodo mostrou-se eficiente em pesquisas

epidemiologicas, sobre doencas raras, com animais, plantas e de carater social.

9

A tecnica utiliza informacoes dos valores observados para ter mais exito na coleta

de unidades da populacao, aumentado assim a eficiencia dos estimadores. Isso se deve

ao fato de que se espera ser mais provavel encontrar um elemento com caracterısticas

semelhantes a outro na sua vizinhanca, quando a populacao e agrupada. Dessa forma,

este desenho caracteriza-se como informativo, pois a probabilidade de selecao da amostra

depende dos valores de y.

Na Figura 2.1 o metodo e ilustrado para uma populacao distribuıda em uma regiao

particionada em uma grade regular no plano com N = 400 quadrados. Assim como

em Thompson (1990), defina os quadrados como unidades de observacao primaria e a

vizinhanca de um quadrado como o conjunto de quadrados que apresentam um lado

contıguo a este. Daqui em diante no lugar do termo quadrado sera utilizado unidade. O

procedimento de amostragem inicia-se com a amostragem aleatoria simples sem reposicao

de n1 = 10 unidades, as quais estao dispostas em cinza na grade. Suponha que uma

unidade e classificada como de interesse se pelo menos uma observacao e encontrada

nesta. Note que das 10 unidades selecionadas, apenas 2 satisfazem esta condicao. Em

seguida, as unidades vizinhas a estas 2 unidades sao tambem incluıdas na amostra.

O processo continua ate que todas as unidades vizinhas com observacoes de interesse

sejam adicionadas a amostra e finaliza nas unidades vizinhas que nao apresentem tais

observacoes. Observe na Figura 2.1 a direita o processo finalizado com n = 45 unidades

amostrais, representados pelas unidades em destaque.

Ainda que no exemplo descrito na Figura 2.1, a vizinhanca tenha sido definida dessa

forma, outros tipos de vizinhancas podem ser consideradas, como por exemplo uma grade

sistematica em torno da unidade inicial, ligacoes geneticas e sociais no caso de populacoes

humanas, entre outras.

A condicao para adicao de vizinhos a amostra pode ser tambem definida de forma

mais geral como ter mais observacoes que um numero mınimo fixado.

Alem disso, note que a medida que as unidades vizinhas sao agregadas a amostra,

em torno da primeira unidade selecionada e formado um grupo de unidades amostrais,

estes grupos formados sao denominados conglomerados. Tal conglomerado so tem sua

fronteira finalizada ate que vizinhos observados nao satisfacam a condicao de interesse,

10

Figura 2.1: Ilustracao do procedimento de amostragem adaptativa por conglomerados para

uma populacao rara e agrupada distribuıda em uma regiao com 400 unidades. No painel a

esquerda temos uma amostra inicial de n1 = 10 unidades representadas pelos quadrados

em cinza. A partir desta amostra, vizinhos sao adicionados a amostra sempre que ha

pelo menos uma observacao (pontos em preto) na unidade selecionada, configurando

finalmente o plano amostral da direita.

portanto todo conglomerado e formado por unidades na fronteira que nao satisfazem tal

condicao. Estas unidades sao chamadas unidades de borda. Se uma unidade selecionada

na amostra inicial nao e de interesse, nao ha acrescimos de vizinhos na amostra a partir

desta unidade.

Um conglomerado, descontadas as unidades de borda, e denominado rede. Note

que neste planejamento uma rede e sempre a mesma, independente da unidade da rede

selecionada na amostragem inicial.

Embora as unidades da amostra inicial selecionadas via amostragem aleatoria simples

sem reposicao sejam distintas, selecoes repetidas podem ocorrer na amostra final quando

um conglomerado inclui mais de uma unidade na amostra inicial. Ou seja, se duas

unidades que nao sejam de borda no mesmo conglomerado sao selecionadas inicialmente,

entao este conglomerado pode ocorrer duas vezes na amostra final. Uma unidade i da

11

populacao pode ser incluıda na amostra tanto se qualquer unidade da rede a qual i

pertence e selecionada na amostra inicial, ou se qualquer unidade da rede a qual i e

uma unidade de borda e selecionada. Por definicao as unidades que nao satisfazem a

condicao de interesse, assim como as unidades de borda, sao tambem redes de tamanho

1. Portanto, uma amostra adaptativa por conglomerados, que se inicia com a selecao sem

reposicao de n1 unidades iniciais, tem no final um numero de redes nao vazias distintas

sempre menor ou igual a n1, mas note que o tamanho final da amostra e uma variavel

aleatoria e, portanto, nao pode ser fixado.

A fim de ilustrar os conceitos de conglomerado, de rede e unidades de borda descritos,

na Figura 2.2 esta uma parte da amostra vista na Figura 2.1. Os quadrados com borda

em negrito correspondem ao conglomerado observado, os quadrados em cinza compoem

a rede nao vazia e a parte hachurada sao as unidades da borda. A unidade selecionada

inicialmente esta em cinza mais escuro.

Em geral, as redes e que sao usadas como unidades de analise no lugar das celulas

da grade, pois as celulas da grade dentro de redes tem uma estrutura de dependencia

e trabalhar no nıvel de rede permite-nos evitar fazer esta estrutura de dependencia de

forma explıcita.

Segundo Cassel et al. (1977) um desenho amostral e chamado nao informativo ou

ignoravel se, e so se, a funcao planejamento amostral [.] nao depende dos valores de y

associados aos ındices em s. Desenhos informativos podem afetar as inferencias quando

sao erroneamente ignorados. Note que o desenho adaptativo e informativo, pois a

probabilidade de selecao de uma amostra depende dos valores da variavel de interesse.

Este tipo de planejamento sera descrito com mais detalhes na Secao 2.3.

Estimadores convencionais sob este planejamento amostral tendem a ser viesados,

pois as unidades com observacao de interesse sao amostradas desproporcionalmente. Com

base nesta ideia, Thompson (1990) obteve um estimador nao viesado sob este desenho

amostral para a media populacional, o qual esta brevemente descrito a seguir.

12

Figura 2.2: Ilustracao dos conceitos importantes na amostragem adaptativa por

conglomerados: os quadrados com borda em negrito correspondem ao conglomerado

observado, os quadrados em cinza sao as unidades da rede e a parte hachurada as unidades

da borda. A unidade selecionada inicialmente esta em cinza mais escuro.

2.2.1 Estimador do tipo Horvitz-Thompson modificado

Thompson (1990) apresentou um estimador nao viesado para a media populacional

que corresponde a uma modificacao do estimador de Horvitz-Thompson, no qual cada

observacao yi na unidade amostral e dividida pela sua probabilidade de inclusao. Em

particular, sera descrito a seguir o estimador do total populacional, que e uma simples

transformacao da media.

Nesse caso uma unidade i e incluıda na amostra se qualquer unidade da rede a qual

i pertence (incluindo ela mesma) e observada na amostra inicial, ou se qualquer unidade

da rede a qual i e uma unidade de borda e selecionada. Dessa forma, defina ai como o

numero de unidades na rede para os conglomerados em que i e uma unidade de borda e

ci como o numero de unidades na rede que contem i. Note que se i satisfaz a condicao

de interesse, ou seja se i e uma unidade em cinza na Figura 2.2, tem-se ai = 0 e ci = 10.

Mas se i nao satisfaz a condicao de interesse, ou seja se i e uma unidade hachurada na

Figura 2.2, ci = 1 e ai = 10.

13

A probabilidade de inclusao da unidade i para qualquer uma das n1 selecoes e dada

por

πi = 1−(N − ci − ai

n1

)/

(N

n1

). (2.2)

Note que, ao final do processo de amostragem, ci e uma quantidade conhecida para

as unidades amostradas, enquanto que ai pode ser maior do que o observado na amostra,

pois nao temos o conhecimento se existe outra rede na qual i seja unidade de borda,

i = 1, . . . , N , tal que N e o numero de unidades da grade. Portanto, o estimador de

Horvitz-Thompson para o total populacional em (2.1), com probabilidade de inclusao πi

dado por (2.2) nao deve ser usado sob este desenho amostral.

Um estimador nao-viesado para este caso pode ser obtido como uma modificacao

do estimador de Horvitz-Thompson, apresentado em (2.1). O estimador faz uso das

observacoes que nao satisfazem a condicao de interesse so quando estas sao observadas na

amostra inicial. Assim, a probabilidade de que uma unidade seja utilizada no estimador

pode ser calculada, mesmo se sua verdadeira probabilidade de inclusao seja desconhecida.

Portanto, defina a probabilidade de inclusao neste caso por:

π∗k = 1−(N − ckn1

)/

(N

n1

),

em que ck e o numero de unidades na rede que inclui a unidade k.

Seja a variavel indicadora I∗k que assume o valor 0 se a unidade k na amostra s nao

satisfaz a condicao de interesse ou se k nao foi selecionada na amostra inicial, e caso

contrario assume o valor 1. O estimador modificado portanto e dado por:

THT ∗ =ν∑k=1

ykI∗k

π∗k, (2.3)

em que ν e o tamanho efetivo da amostra final, ou seja o numero de unidades distintas.

Para obter a expressao da variancia do estimador e mais conveniente formula-lo em

termo das redes do que das unidades individuais. Denote por N∗ o numero de redes na

populacao. Note que para toda unidade k da rede j, j = 1, . . . , N∗, I∗k e sempre a mesma,

portanto I∗j seria uma variavel indicadora que assume o valor 0 se a rede j e vazia ou

se nao foi observada na amostra, caso contrario assume o valor 1. A probabilidade de

14

inclusao π∗k de uma unidade k e igual para todas as unidades na mesma rede j. Denote a

probabilidade de inclusao de uma rede j na amostra por αj. O total na rede j e definido

como y∗j =∑

k:k∈Uj

yk, em que Uj e o conjunto de unidades que compoem a rede j.

Dessa forma, (2.3) pode ser reescrito como:

THT ∗ =N∗∑j=1

y∗j I∗j

αj. (2.4)

Note que como as redes sao as unidades de analise neste caso, a fim de compatibilizar

a notacao com a Secao 2.1, o vetor populacional agora seria dado por y∗ = (y∗1, . . . , y∗N∗)

′

e o tamanho da populacao de interesse entao deixaria de ser N um numero conhecido e

passaria a ser N∗, um numero desconhecido.

Para calcular a variancia do estimador e necessario calcular a probabilidade αjl de

se selecionar duas redes simultaneamente, e dessa forma tem-se (detalhes em Thompson

(1990)):

V (THT ∗) =N∗∑j=1

N∗∑l=1

y∗j y∗l

αjαl(αjl − αjαl),

em que αjl = 1−(N−cjn1

)/(Nn1

)−(N−cln1

)/(Nn1

)−(N−cj−cl

n1

)/(Nn1

).

A partir do trabalho de Thompson (1990), algumas extensoes deste planejamento

amostral, alem da selecao inicial baseada na amostragem aleatoria simples, surgiram na

literatura e serao apresentadas a seguir.

2.2.2 Amostragem estratificada adaptativa por conglomerados

Uma das extensoes naturais desta tecnica de amostragem seria considerar o primeiro

estagio de amostragem nao como uma amostra aleatoria simples, mas como amostragem

estratificada. Tal extensao foi proposta em Thompson (1991). A amostragem adaptativa

tira vantagens de tendencias de agrupamento da populacao, quando a localizacao e forma

dos conglomerados nao podem ser previstos a priori. Enquanto a tradicional amostragem

estratificada (detalhes em Bolfarine e Zacks (1992)) e usada a fim de agrupar unidades

mais homogeneas entre si, baseada em informacao a priori sobre a populacao ou na

15

simples proximidade das unidades. O planejamento amostral proposto combina estes

dois metodos.

Nesta abordagem a populacao e divida na grade em estratos e unidades dentro destes

estratos sao selecionadas por amostragem aleatoria simples. Se a unidade selecionada

satisfaz a condicao, todas as unidades na sua vizinhanca sao observadas e a amostragem

adaptativa e realizada.

2.2.3 Amostragem adaptativa por conglomerados em dois

estagios

Proposta por Salehi e Seber (1997), esta e uma extensao do metodo introduzido em

Thompson (1991). Neste caso, a grade de tamanho N e particionada em M (M < N)

unidades primarias. Num primeiro estagio uma amostra de m das M unidades primarias e

selecionada sem reposicao, num segundo estagio, observa-se nas m unidades maiores uma

amostra de unidades sem reposicao. A partir destas unidades secundarias observadas,

a amostragem nas m unidades segue usando a tecnica de amostragem adaptativa por

conglomerados. Note que quando m = M voltamos a metodologia de amostragem

estratificada adaptativa por conglomerados, pois todas as particoes teriam amostras

coletadas.

2.2.4 Custo operacional do plano amostral

Assim como a amostragem por conglomerados convencional, a amostragem adaptativa

por conglomerados possui a vantagem de agrupar as unidades de analise em

conglomerados, o que minimiza o tempo e os custos de deslocamento. Mas se muitas

unidades na vizinhanca satisfazem a condicao de interesse, a amostra pode consistir da

maioria das unidades na populacao e, portanto, ser muito custosa. Logo, o esforco na

obtencao da amostra esta associado a estrutura da populacao, e por isso e importante

que a populacao seja rara.

Algumas sugestoes para a limitacao do esforco na amostragem adaptativa sao descritas

em Thompson e Seber (1996). Alem disso, Brown e Manly (1998) propoem um metodo

16

chamado de amostragem adaptativa restrita por conglomerados, o qual limita o esforco

na obtencao da amostra e permite que uma aproximacao para o tamanho da amostra final

seja obtida previamente. Na proposta, uma amostra inicial de tamanho fixo e selecionada

e amostragem adaptativa por conglomerados e feita. Se o tamanho da amostra final e

menor que um limite pre-definido, entao outra unidade “inicial” e selecionada. Se incluir

esta unidade e sua vizinhanca, caso a condicao de interesse seja cumprida, resultar numa

amostra de tamanho maior que o limite pre-definido, entao o conglomerado e incluıdo

na amostra mas nenhuma outra unidade e observada. Logo, esta metodologia exige

uma reducao do tamanho da amostra inicial, para que esta produza uma amostra final

com tamanho proximo do limite desejado. Dessa forma, a variacao no tamanho final e

reduzida e o planejamento dos esforcos envolvidos na coleta de observacoes pode ser feito

com menos incerteza.

Por outro lado, tambem com o objetivo principal de controlar o numero de medidas

da variavel de interesse, Felix-Medina e Thompson (2004) introduziram a tecnica de

amostragem adaptativa dupla por conglomerados, a qual combina ideias de amostragem

em dois estagios e amostragem adaptativa por conglomerados e exige a disponibilidade

de uma variavel auxiliar mais facil de medir. Na primeira fase a variavel auxiliar e

usada para selecionar uma amostra adaptativa por conglomerados. Com a rede obtida

nesta primeira fase, sao selecionadas subamostras subsequentes, as quais sao obtidas

usando planos amostrais convencionais. Apenas nesta ultima fase os valores da variavel

de interesse sao registrados e estimativas para a media populacional, por exemplo, sao

obtidas usando um estimador do tipo regressao.

Este plano amostral proposto permite ao pesquisador controlar o numero de medicoes

da variavel de interesse, alocar a subamostra na fase final proximo a lugares interessantes,

iniciar a coleta da segunda fase antes da primeira estar concluıda e usar a variavel auxiliar

na estimacao.

Note que podem ser usados diferentes tipos de variaveis auxiliares neste caso, como

as de avaliacao rapida que levam o pesquisador para as areas mais promissoras, onde

observacoes exatas da variavel podem ser feitas. Por exemplo, numa pesquisa sobre

mexilhoes de agua doce, a amostragem e feita a partir de mergulho para observar a

17

abundancia de mexilhoes. Assim, a variavel auxiliar pode ser uma avaliacao preliminar

da presenca ou ausencia de mexilhoes, e a variavel de interesse o numero de mexilhoes,

a qual e uma variavel difıcil de ser medida porque alguns mexilhoes sao parcialmente

escondidos pela areia e pedras no fundo do rio.

Note que este procedimento nao controla o numero de observacoes da variavel auxiliar

e sim da variavel de interesse. No entanto, em geral, procura-se escolher variaveis

auxiliares correlacionadas com a variavel de pesquisa mas que sejam mais faceis de serem

observadas e que produzam menos custos.

2.2.5 Eficiencia do plano amostral

Ao comparar a eficiencia da amostragem adaptativa por conglomerados com a

amostragem aleatoria simples, por exemplo, Thompson e Seber (1996) notam que um

fator decisivo para uma maior eficiencia relativa e a variabilidade dentro da rede.

Os estimadores sob o desenho da amostragem adaptativa por conglomerados, como o

apresentado em (2.4), nao levam em conta a variabilidade dentro das redes pois a variavel

resposta e dada pelos valores agregados dentro destas. Quanto maior essa variabilidade,

maior a vantagem, em termos de eficiencia relativa, em usar amostragem adaptativa por

conglomerados do que a aleatoria simples.

Portanto, conclui-se que, para que a amostragem adaptativa por conglomerados seja

um plano amostral eficiente em termos de precisao e custos e necessario que a populacao

de estudo exiba de fato um comportamento raro e agrupado. Logo, antes de propor

um planejamento amostral complexo como este, e importante conhecimentos a priori da

populacao em analise. Neste contexto, supondo que a variavel y seja uma variavel de

contagem do numero de elementos que apresentam o atributo de interesse, para avaliar

a raridade da populacao pode ser utilizada a proporcao de unidades contendo ao menos

um elemento da populacao rara, definida como:

PR =1

N

N∑i=1

I(yi > 0), (2.5)

18

onde I(.) e a funcao indicadora que assume o valor 1, se a unidade i apresenta ao menos

um elemento de interesse, e 0 caso contrario. Para avaliar a variabilidade dentro das

redes defina

V IR =

∑N∗

j=1

∑i:i∈Uj (yi − µj(i))2∑Ni=1 (yi − µ)2

, (2.6)

em que µj(i) e a media dos valores de yi nas unidades da rede que contem a unidade i e µ

e a media global da populacao. Note que se nao ha redes de tamanho maior que 1, tem-se

que V IR = 0, mas caso todas as unidades estejam numa unica rede, V IR = 1. Dessa

forma, V IR pode ser considerada uma medida relacionada ao grau de agrupamento da

populacao.

Apresentamos portanto o metodo de amostragem adaptativa por conglomerados e

suas extensoes propostas na literatura. Vimos que o metodo e flexıvel e pode ser

aplicado a diversos problemas estatısticos reais. No entanto, e importante ressaltar que a

eficiencia do metodo depende da raridade e agrupamento espacial da populacao, portanto

e interessante o conhecimento previo da populacao em estudo, dada a complexidade desta

metodologia. Smith et al. (2004) apresentam estas e outras questoes praticas que devem

ser tratadas antes da proposta de tal planejamento num estudo por amostragem.

Alguns trabalhos na literatura mostram a eficiencia deste tipo de amostragem

comparado a outros planos convencionais em aplicacoes a problemas reais, entre eles

podemos citar Thompson e Collins (2002), Danaher e King (1994), Smith et al. (1995),

Roesch (1993) e Conners e Schwager (2002).

A amostragem adaptativa por conglomerados fornece uma forma de lidar com

populacoes agrupadas sob o paradigma baseado no desenho amostral. Entretanto, sob

a abordagem baseada em modelo a metodologia de Rapley e Welsh (2008) e ate entao

a unica proposta na literatura para este cenario. Na proxima secao e apresentada a

abordagem de modelos de superpopulacao para um contexto geral.

19

2.3 Modelos de superpopulacao

Outra abordagem de inferencia, amplamente utilizada na literatura, para populacoes

finitas e a baseada em modelos de superpopulacao. Basicamente, o processo de

inferencia estatıstica a partir de uma amostra compreende um conjunto de princıpios

e procedimentos que podem envolver, por exemplo, o conhecimento de algum processo

aleatorio que possa ter gerado o verdadeiro valor desconhecido da caracterıstica de

interesse para cada unidade da populacao. Esse processo e representado por um modelo

que e utilizado como base para se fazer inferencia.

Enquanto na teoria convencional de amostragem as unidades da populacao sao

tratadas como constantes fixas, nao expressando nenhuma relacao entre as unidades da

amostra e as unidades nao amostradas, sob o enfoque de modelos de superpopulacao, os

valores das caracterısticas de interesse sao considerados realizacoes de variaveis aleatorias,

para os quais existe uma distribuicao conjunta de todos os valores da populacao, a qual

e uma forma de expressar uma relacao entre as unidades amostradas e nao amostradas.

Logo, este enfoque complementa o planejamento amostral nao informativo em relacao as

unidades nao amostradas. O vetor populacional y = (y1, . . . , yN)′ e, portanto, tratado

como uma realizacao do vetor aleatorio Y = (Y1, . . . , YN)′. A inferencia classica sobre

uma funcao do vetor populacional de interesse y procede com respeito a distribuicao

amostral de uma estatıstica, sob repetidas realizacoes geradas pelo modelo, com a amostra

selecionada permanecendo fixa. Esta forma de inferencia em populacoes finitas pode ser

vista com maiores detalhes em Cassel et al. (1977).

Segundo o modelo, suponha que Y dado θ ∈ Θ segue uma distribuicao de

probabilidades dada por [Y | θ]. Seja y = (y1, . . . , yN)′ o vetor populacional gerado

segundo a distribuicao [Y | θ]. Pode-se definir uma matriz H = (H1, . . . ,HN) de

dimensao N × k, tal que Hi = (Hi1, . . . , Hik)′ representa variaveis adicionais associadas

com a estrutura da populacao. Suponha que a distribuicao conjunta de H, a qual depende

de um parametro φ ∈ Φ ∈ Rk, e dada por [H | φ].

20

2.3.1 Desenho amostral informativo

De forma mais complexa, o mecanismo de selecao amostral pode depender dos valores

das variaveis de interesse na populacao, ou seja, as probabilidades de inclusao das

unidades na amostra estariam relacionadas com as variaveis respostas. Tal situacao

caracteriza um plano amostral informativo. Um exemplo tıpico sao os estudos de caso-

controle, em que a amostra e selecionada de tal forma que haja casos (unidades com

determinada condicao de interesse) e controles (unidades sem essa condicao), sendo de

interesse a modelagem do indicador de presenca ou ausencia da condicao em funcao de

variaveis preditoras. Esse indicador e uma das variaveis de pesquisa e e considerado no

mecanismo de selecao da amostra.

Sob a abordagem de modelos de superpopulacao, e importante antes de propor

o modelo, analisar se as probabilidades de selecao dos elementos da populacao estao

relacionadas com as variaveis respostas, mesmo condicionado a covariaveis do modelo.

Neste caso, e relevante para inferencia levar em consideracao o plano amostral, seja na

definicao do modelo ou na construcao da funcao de verossimilhanca.

Segundo, Gelman et al. (1995) e natural nestes casos expandir o espaco amostral e

incluir na verossimilhanca o planejamento amostral. A verossimilhanca completa, da

amostra s, do vetor Y, e das variaveis H pode ser escrita como:

[s,Y,H | θ,φ] = [s | Y,H][Y | H,θ][H | φ]. (2.7)

A expressao em (2.7) e avaliada em todos os valores da variavel, mas na verdade a

real informacao que tem-se a partir de uma amostra e (s,Ys,Hs). A verossimilhanca dos

dados observados, supondo continuidade, e dada por:

[s,Ys,Hs | θ,φ] =

∫ ∫[s,Y,H | θ,φ]dYsdHs

=

∫ ∫[s | Y,H][Y | H,θ][H | φ]dYsdHs.

(2.8)

Ja no caso discreto tem-se:

[s,Ys,Hs | θ,φ] =∑Yi:i∈s

∑Hi1:i∈s

· · ·∑

Hik:i∈s

[s | Y,H][Y | H,θ][H | φ]. (2.9)

21

Em particular, escolheu-se apresentar os demais resultados supondo variaveis

contınuas. Sob o enfoque Bayesiano, o interesse esta na obtencao da distribuicao a

posteriori do vetor parametrico. Neste caso, a distribuicao conjunta a posteriori dos

parametros (θ,φ), e dada por:

[θ,φ | s,Ys,Hs] ∝ [θ,φ][s,Ys,Hs | θ,φ]

= [θ,φ]

∫ ∫[s,Y,H | θ,φ]dYsdHs

= [θ,φ]

∫ ∫[s | Y,H][Y | H,θ][H | φ]dYsdHs.

A distribuicao a posteriori de θ, em geral e a de maior interesse, e e obtida integrando

a expressao acima em φ, da seguinte forma:

[θ | s,Ys,Hs] ∝ [θ]

∫ ∫ ∫[φ | θ][s | Y,H][Y | H,θ][H | φ]dYsdHsdφ. (2.10)

No caso de optar-se por ignorar o mecanismo de selecao da amostra, a distribuicao a

posteriori de θ e dada por:

[θ | Ys,Hs] ∝ [θ][Ys | Hs,θ][Hs | φ]

= [θ]

∫ ∫[Y | H,θ][H | φ]dYsdHs.

(2.11)

Quando os dados nao observados nao fornecem informacao adicional, ou seja, quando

[θ | Ys,Hs] dada em (2.11) se iguala a [θ | s,Ys,Hs] dada em (2.10), diz-se que o

desenho amostral e ignoravel, por exemplo no caso da amostragem aleatoria simples

com reposicao. Entretanto, esquemas amostrais desse tipo sao raramente empregados

na pratica, por razoes de eficiencia e custo. Em vez disso, sao geralmente empregados

planos amostrais que envolvem algum conhecimento da estrutura da populacao, como

a estratificacao, conglomeracao e probabilidades desiguais de selecao (amostragem

complexa).

Duas condicoes neste caso sao suficientes para garantir ignorabilidade do desenho: (i)

[s | Y,H] = [s | Ys,Hs]; (ii) [φ | θ] = [φ]. A importante consequencia destas definicoes

e que, de (2.10), segue que, de fato, se o plano amostral e ignoravel com respeito ao

parametro de interesse θ, [θ | s,Ys,Hs] = [θ | Ys,Hs]. Logo, a informacao adicional

trazida por s pode ser descartada quando se deseja fazer inferencia sobre θ, caso contrario

22

nao pode ser eliminada. Ignorar erroneamente o plano amostral informativo na inferencia

pode trazer consequencias na estimacao dos parametros.

Como consequencia ainda se tem os seguintes resultados:

(i) se s e consistente com y entao [s | Y] = [s | Ys], e assim [s | Y] = [s] se, e somente

se, [s | Ys] = [s];

(ii) se s e consistente com y, [s | Y,H] = [s | Ys,H] e diz-se que o planejamento

amostral e nao informativo em relacao a Ys;

(iii) se em (2.7) [s,Y,H | θ,φ] = [s | H][Y | H,θ][H | φ], diz-se que o planejamento e

informativo para H, mas nao informativo para Y. Neste caso, se H e conhecido a

expressao em (2.8) pode ser reescrita da forma:

[s,Ys,H | θ,φ] = [s | H][H | φ]

∫[Y | H,θ]dYs.

Neste trabalho sera amplamente utilizada a abordagem baseada em modelos de

superpopulacao, discutindo a inferencia sobre os parametros do modelo e previsao de

ys a partir de dados obtidos por amostragem adaptativa por conglomerados, o qual e um

plano amostral informativo.

Como visto, a inferencia para populacoes raras e agrupadas e usualmente abordada

com base no desenho amostral. De forma alternativa, Rapley e Welsh (2008) propoem

uma inferencia neste contexto baseada em modelos usando a amostragem adaptativa.

Este plano amostral e informativo e, portanto, as ideias discutidas na Secao 2.3.1

sao aplicadas a este modelo. Esta metodologia sera apresentada no proximo capıtulo,

juntamente com uma proposta de extensao do modelo para populacoes dinamicas.

2.4 Conclusoes

Neste capıtulo foi feita uma revisao das duas possıveis abordagens de inferencia em

populacao finita. Como o objetivo deste trabalho e inferir acerca de populacoes raras

e agrupadas, o foco deste capıtulo foi apresentar o plano amostral adaptativo e suas

extensoes na literatura, por ser um plano amostral cabıvel a este tipo de populacao. A

23

eficiencia e o custo desta metodologia estao relacionados diretamente com a estrutura da

populacao em questao, portanto um conhecimento a priori pode auxiliar na construcao

do planejamento amostral. Em particular, com relacao ao custo operacional do metodo,

existem propostas na literatura, e algumas destas foram apresentadas neste capıtulo.

Por outro lado, como o interesse deste trabalho e propor um modelo de

superpopulacao para este contexto, fez-se necessario apresentar o conceito de plano

amostral informativo, pois este devera ser relevante na construcao da funcao de

verossimilhanca do modelo neste caso.

24

Capıtulo 3

Amostragem adaptativa por

conglomerados baseada em modelos

Como uma alternativa a inferencia sobre o total populacional baseada nos planos

amostrais descritos anteriormente, Rapley e Welsh (2008) tratam tal problema sob uma

perspectiva baseada em modelos. A inferencia para este modelo fundamenta-se no

paradigma Bayesiano e leva em consideracao o fato de que as unidades foram amostradas

de forma adaptativa por conglomerados, um plano informativo. Na Secao 3.1 esta

metodologia e apresentada, o ajuste do modelo e estudado em alguns cenarios e sua

eficacia e ilustrada para uma populacao real.

Na Secao 3.2 e proposta uma extensao deste modelo para populacoes em crescimento

ou decrescimento ao longo do tempo. Tal proposta e comparada com o ajuste do modelo

de Rapley e Welsh (2008) de forma independente ao longo do tempo.

3.1 Um modelo agregado

Rapley e Welsh (2008) propoem um modelo complexo, que usa as redes como unidades

de analise, de forma a nao ter que introduzir componentes espaciais no modelo, o que

pode vir a facilitar a inferencia. Portanto, por este motivo, nos referimos a este modelo

como um modelo agregado. O uso da abordagem Bayesiana e uma extensao natural da

ideia da amostragem adaptativa por conglomerados, pois incorpora o conhecimento a

25

priori de que a populacao e rara e agrupada tanto para a inferencia como para o desenho

amostral. A fim de ilustrar a eficiencia de sua proposta, Rapley e Welsh (2008) comparam

seus estimadores com os estimadores desenvolvidos em Thompson (1990) por meio de

um estudo de simulacao, mostrando ser mais eficiente, principalmente num contexto de

conhecimento a priori. O modelo esta descrito a seguir.

Seja Ω uma regiao que contem uma populacao esparsa e agrupada, na qual sobrepoe-

se uma grade regular com N unidades. Uma unidade e dita nao vazia se esta contem pelo

menos uma observacao, e vazia caso contrario. Seja X ≤ N o numero de unidades nao

vazias em Ω. Seja R ≤ X o numero de redes nao vazias em Ω, Ci o numero de unidades

nao vazias dentro da rede i nao vazia e portanto C = (C1, . . . , CR)′ e o vetor com o numero

de unidades nao vazias dentro de cada rede nao vazia. Logo X =∑R

i=1Ci. Como existem

N − X unidades vazias, as quais sao definidas como redes vazias de tamanho 1, entao

ha N −X + R redes em Ω. Dessa forma, pode-se estender o vetor de dimensao R para

Z = (C′,1′N−X)′ em que 1′N−X e um vetor de 1’s de dimensao N −X, logo Zi = Ci, se i

e uma rede nao vazia e Zi = 1, caso contrario, para i = 1, . . . , N −X +R.

Seja Y ∗i o total observado na rede nao vazia i e, portanto, Y∗ = (Y ∗1 , . . . , Y∗R)′ denota

o vetor com o total populacional em cada uma das R redes nao vazias. Tambem podemos

estender neste caso o vetor de dimensao R para um de dimensao N −X + R da forma

(Y∗′,0′N−X)′, em que 0′N−X e um vetor de 0’s de dimensao N −X, o qual representa o

numero de observacoes em cada rede vazia. O objetivo e fazer inferencia sobre o total da

populacao de interesse T =∑R

i=1 Y∗i .

Fazendo uma analogia com a notacao definida na Secao 2.3 do Capıtulo 2, note que

e possıvel obter a seguinte relacao: N∗ = N − X + R, Hi1 = Ci e Hi2 = X, θ = γ,

φ = (α, β)′ e n = m. Note que apesar do tamanho da grade N ser conhecido, o tamanho

da populacao de interesse (redes nao vazias), a qual esta sendo modelada, ou seja, R,

e desconhecido e precisa ser estimado, portanto tambem pode ser interpretado como

Hi3 = R.

Isto e feito especificando a distribuicao conjunta de X,R,C e Y∗ para a populacao

toda e o mecanismo de amostragem que fornece uma particular amostra s = i1, . . . , im

de m redes das N −X +R redes na populacao. Um aspecto importante desta proposta

26

e que a estrutura da rede e totalmente determinada por X, R e C e nao se faz necessario

modelar as localizacoes espaciais das redes.

Primeiramente modela-se a estrutura de rede vazia/ nao vazia e entao, condicional a

estrutura de rede, modela-se a contagem nas redes nao vazias. Como o modelo aplica-se a

unidades nao vazias, para evitar problemas de degeneracao assume-se que ha pelo menos

uma celula nao vazia em Ω e, portanto uma rede nao vazia, logo as distribuicoes sao

truncadas a esquerda no valor igual a 1. Dessa forma, o modelo e dado por:

Y ∗i | Ci, R, γ ∼ Poisson Truncada independente (γCi), Y∗i ≥ Ci, i = 1, . . . , R,

C | X,R ∼ 1R + Multinomial

(X −R, 1

R1R

), Ci = 1, . . . , X −R + 1,

R∑i=1

Ci = X

R | X, β ∼ Binomial Truncada (X, β), R = 1, . . . , X, (3.1)

X | α ∼ Binomial Truncada (N,α), X = 1, . . . , N.

O truncamento na distribuicao de Poisson tambem faz-se necessario para levar em

conta o fato de que cada unidade em uma rede nao vazia deve conter ao menos uma

observacao de interesse, logo Y ∗i ≥ Ci, i = 1, . . . , R. Note que o parametro γ e

interpretado como o numero medio de observacoes em cada celula nao vazia, dentro

de cada rede nao vazia na populacao. Vale ressaltar que a distribuicao de Poisson pode

ser trocada por outro modelo, mas Rapley e Welsh (2008) mantiveram-se nesta proposta.

Alem disso, um modelo log-linear comum nao foi adotado para a variavel resposta por

questoes de custo computacional e problemas numericos no ajuste, mas o uso de tecnicas

mais eficientes de aproximacao, tais como em Gilks e Wild (1992), poderia facilitar a

implementacao deste modelo.

Este modelo e aplicado a amostras coletadas segundo o metodo adaptativo descrito

na Secao 2.2. Lembrando que o procedimento de amostragem consiste em observar Yi

para i ∈ s e seu delineamento depende da estrutura da populacao, a qual e desconhecida,

portanto este plano amostral caracteriza-se como informativo e deve ser incorporado a

funcao de verossimilhanca do modelo para realizacao de inferencia.

Logo, o proximo passo e definir a probabilidade de selecionar uma amostra s =

i1, . . . , im, ou seja, [s]. Ja vimos que tal mecanismo utiliza o argumento de que se

27

uma celula dentro de uma rede e amostrada, entao toda a rede deve ser observada e,

portanto, a probabilidade de selecionar uma rede e proporcional ao seu tamanho. Para

motivar a construcao da probabilidade de selecao de uma amostra, considere o seguinte

exemplo: seja uma populacao com 8 redes de tamanhos 5, 5, 1, 1, 1, 3, 3, 1 dos quais

obtemos a amostra 5, 1, 5, 3. A probabilidade de selecionar a primeira unidade e igual

a probabilidade de selecionar uma unidade de tamanho 5, que e igual a 5 × 2/20, a

probabilidade de selecionar uma unidade de tamanho 1 no segundo passo, dado o anterior

e de 1× 4/15 e, assim a probabilidade de selecao da particular amostra e igual a 5×220×

× 1×420−5× 5×1

20−5−1× 3×2

20−5−1−5.

Portanto, a probabilidade de selecao de uma particular amostra pode ser generalizada

da forma:

[s | C, R,X] =m∏j=1

Zij × gij ,j∑N−X+Ri=1 Zi −

∑j−1k=0 Zik

, (3.2)

onde gij ,j e o numero de redes de tamanho Zij que restam apos j − 1 redes terem sido

selecionadas e Zi0 = 0. Note que a probabilidade da selecao de s depende apenas das

variaveis associadas com a estrutura da populacao e nao diretamente com Y∗, logo, o

resultado (iii) da Subsecao 2.3.1 se aplicaria neste caso e diz-se que o plano amostral e

informativo com relacao a H.

Incorporando esta probabilidade de selecao da amostra ao modelo, tem-se por (2.7)

com [s | Y∗,H] = [s | H], a seguinte funcao de verossimilhanca global:

[s,Y∗,C, R,X | α, β, γ] = [s | C, R,X][Y∗ | C, R,X, γ][C, R,X | α, β, γ]

=m∏j=1

Zij × gij ,j∑N−X+Ri=1 Zi −

∑j−1k=0 Zik

×

N

X

αX(1− α)N−X

1− (1− α)N(3.3)

×

X

R

βR(1− β)X−R

1− (1− β)X× (X −R)!

R∏i=1

1

(Ci − 1)!

(1

R

)Ci−1

×R∏i=1

exp−γCi + Y ∗i log(γCi)Y ∗i ![1−

∑Ci−1j=0 exp−γCi + j log(γCi)− log(j!)]

.

Com a amostra coletada, parte das variaveis do modelo e conhecida. Usando o ındice s

para identificar a parte observada e s a parte nao observada, os vetores sao particionados

da seguinte forma: Y∗ = (Y∗s′,Y∗s

′)′ , C = (C′s,C′s)′, R = Rs +Rs e X = Xs +Xs.

28

A funcao de verossimilhanca marginal dos dados observados e obtida somando a

expressao acima sob todas as quantidades desconhecidas, como visto em (2.9).

3.1.1 Possıveis cenarios gerados pelo modelo

A distribuicao espacial da populacao ao longo da regiao e caracterizada no modelo

pelos parametros α e β. O parametro α controla o numero esperado de unidades nao

vazias, pois E(X | α) = Nα/1− (1− α)N e β o numero esperado condicional de redes

nao vazias pois, E(R | X, β) = Xβ/1−(1−β)X. Note que se α se aproxima de 0 entao

E(X | α) se aproxima de 1, que e o menor valor que X pode assumir segundo o modelo

proposto, mas se α esta proximo de 1 entao E(X | α) tende a N . De forma analoga

temos que, condicional a X, se β esta proximo de 0 entao E(R | β) esta proximo de 1,

mas para valores de β perto de 1, E(R | β) tende a X, o numero total de unidades nao

vazias.

Como tratamos de populacoes esparsas, ambos os parametros sao pequenos em

geral, e combinados, controlam a raridade e agrupamento destas. Populacoes raras sao

caracterizadas pelo modelo para valores pequenos de α, enquanto populacoes agrupadas

estao caracterizadas para valores pequenos de β, mas este nıvel de agrupamento depende

tambem do valor de X, o qual depende de α devido a estrutura condicional do modelo.

Alem disso, as probabilidades da distribuicao multinomial sao tratadas como

conhecidas e iguais. Sob o modelo, o tamanho esperado, condicional a X e R, da rede e

1 + (X −R)/R = X/R.

Para ilustrar o impacto dos parametros no modelo, na Figura 3.1 temos alguns dados

artificiais gerados a partir do modelo para alguns valores fixos de α e β, γ = 10 e uma

grade regular de tamanho N = 400.

Observe que para α e β iguais a 0.05 tem-se uma populacao altamente rara, portanto,

intuitivamente, espera-se dificuldades de estimacao numa populacao deste tipo, mesmo

utilizando a tecnica de amostragem adaptativa por conglomerados.

Em contrapartida, para α e β iguais a 0.20 terıamos uma populacao altamente dispersa

na regiao, o que estaria descaracterizando a raridade e agrupamento geografico. Logo, o

uso deste modelo complexo nao seria justificavel.

29

Note tambem que fixando α igual a 0.05 e aumentando β, isto reflete uma populacao

com poucas unidades com observacoes, porem mais espalhada que o primeiro caso.

Finalmente, aumentando o valor de α e fixando β igual a 0.05, ha um maior numero de

unidades nao vazias, o que ainda assim resulta em mais redes que o primeiro caso devido

a estrutura de condicionamento do modelo, diminuindo o grau de raridade espacial, mas

sem destruir o comportamento agrupado da populacao.

Note que como a partir do modelo nao temos informacao sobre a localizacao das redes,

na Figura 3.1 a localizacao destas foi feita de forma arbitraria e sem perda de generalidade,

sem comprometer a ilustracao. Alem disso, como estas populacoes foram geradas sob o

modelo agregado, nao e possıvel verificar o agrupamento da populacao usando a medida

em (2.6), pois nesta necessita-se da contagem em cada unidade da grade, o que nao e

obtido na geracao dos dados. Portanto, esta ilustracao do comportamento do modelo

sera feita apenas de forma visual.

A partir desta ilustracao espera-se que populacoes raras e agrupadas possam ser

geradas a partir deste modelo para valores controlados de α e β. Lembre-se que temos

particular interesse em populacoes deste tipo, pois o interesse e explorar cenarios em que,

com um custo controlado, a amostragem adaptativa possa ser mais eficiente, em termos

de precisao, que qualquer plano amostral nao informativo e mais comumente utilizado.

3.1.2 Estudo simulado para alguns cenarios

Como o procedimento de inferencia baseia-se na metodologia Bayesiana, a fim de

avaliar o modelo apresentado por Rapley e Welsh (2008), foram analisadas amostras das

distribuicao a posteriori dos parametros do modelo e do total populacional T . Para

isso o modelo proposto deve ser completado com uma distribuicao a priori para o vetor

(α, β, γ). Supondo independencia a priori entre estes, assume-se:

α ∼ Beta(aα, bα), β ∼ Beta(aβ, bβ) e γ ∼ Gama(aγ, bγ),

em que Beta(a, b) representa a distribuicao Beta parametrizada com media igual a aa+b

e

variancia ab(a+b+1)(a+b)2 e Gama(a, b) a distribuicao Gama parametrizada com media igual

a ab

e variancia ab2

.

30

(α,β)=(0.05,0.05)

(α,β)=(0.05,0.20)

(α,β)=(0.20,0.05)

(α,β)=(0.20,0.20)

Figura 3.1: Populacoes artificiais geradas a partir do modelo proposto por Rapley e Welsh

(2008), para alguns valores fixos para os parametros α e β e para γ = 10, numa grade

regular de tamanho N = 400.

Rapley e Welsh (2008) fazem um estudo de elicitacao da distribuicao a priori para

estes parametros, avaliando a sensibilidade dos estimadores. Vale ressaltar que, ainda

sob distribuicoes a priori nao informativas, o modelo fornece estimativas razoaveis para

os parametros e para o total populacional. No entanto, visto que o modelo e voltado

para aplicacoes a populacoes raras e agrupadas e dada a analise ilustrativa feita na

Figura 3.1, foram utilizados os seguintes valores: aα = aβ = 2 e bα = bβ = 9,

caracterizando distribuicoes a priori para α e β informativas. No entanto, neste contexto,

31

esta distribuicao com alta probabilidade centrada em um intervalo apenas reflete a

priori a estrutura rara e agrupada da populacao, o que e o mınimo de conhecimento

para justificar o uso de tal modelo complexo. Para γ utilizou-se aγ = 1 e bγ = 0.1,

caracterizando assim uma distribuicao a priori pouco informativa para γ, mas com

mais massa de probabilidade no valor medio de unidades por rede com base na amostra

selecionada, ou seja pela media do vetor Y∗s/Cs.

Como a distribuicao a posteriori do vetor parametrico Θ = (Xs, Rs,Cs,Y∗s , α, β, γ)

nao possui forma analıtica fechada faz-se necessario o uso de metodos de simulacao

estocastica, como o metodo de Monte Carlo via Cadeias de Markov (MCMC). Em

particular, o amostrador de Gibbs com passos de Metropolis-Hastings foi utilizado. Alem

disso, o preditor do total populacional T e dado por:

T = 1′RsY∗s + 1′

RsY∗s ,

cuja amostra da distribuicao a posteriori tambem pode ser obtida via MCMC.

Os passos da amostragem sao descritos por:

(1) faca j = 1 e especifique valores iniciais para Xs, Rs, Cs e Y∗s ;

(2) sorteie α da distribuicao condicional completa [α | X,R,C,Y∗, β, γ] = [α | X];

(3) sorteie β de [β | X,R,C,Y∗, α, γ] = [β | X,R];

(4) sorteie γ de [γ | X,R,C,Y∗, α, β] = [γ | R,C,Y∗];

(5) sorteie (Xs, Rs,Cs,Y∗s) de [Xs, Rs,Cs,Y

∗s | Xs, Rs,Cs,Y

∗s , α, β, γ];

(6) faca j = j + 1 e volte ao passo (2).

As condicionais completas e as distribuicoes propostas podem ser vistas com

detalhes em Rapley e Welsh (2008). A fim de mostrar a eficiencia do modelo para a

previsao do total populacional, foram geradas algumas populacoes raras e agrupadas

artificiais, para alguns valores fixos dos parametros, e o modelo (3.1) foi ajustado a tais

dados. Dessa forma e possıvel comparar a estimativa do total com o valor verdadeiro

gerado. Cada populacao foi simulada numa grade regular com N = 400 unidades.

32

Populacoes foram geradas para 16 cenarios diferentes a partir das combinacoes de

α, β ∈ 0.05, 0.10, 0.15, 0.20 e γ = 10. Para cada valor dos parametros gerou-se 100

populacoes, e de cada uma selecionou-se uma amostra adaptativa com dois tamanhos

iniciais distintos de 5%N e 10%N . Vale ressaltar que, apesar da amostra aleatoria simples

inicial ser de 20 ou 40 unidades, o numero de redes observadas ao final da amostragem

adaptativa era menor ou igual a esse numero, pois em alguns casos duas ou mais unidades

selecionadas faziam parte da mesma rede na populacao.

As Figuras 1.1, 1.2, 1.3 e 1.4 no Apendice A apresentam as trajetorias das cadeias

obtidas para cada parametro e para o total populacional T com o respectivo valor

verdadeiro em cinza, para uma das 100 populacoes geradas com amostra inicial de

tamanho 10%N . Para todas as cadeias foram geradas 200.000 iteracoes, sendo as 10.000

primeiras descartadas como aquecimento e foram tomadas amostras de 190 em 190, a

fim de obter-se 1.000 amostras independentes. Ha indıcios de convergencia para todos

os 16 cenarios simulados, visto que as cadeias sao estacionarias e movem-se em torno do

valor verdadeiro fixado na geracao dos dados. O mesmo ocorre quando seleciona-se uma

amostra adaptativa de tamanho inicial n1 = 5%N .

Na Figura 1.5 no Apendice A estao um sumario da distribuicao a posteriori dos

parametros α, β, γ e de T para as 100 populacoes artificiais para cada um dos 16 cenarios

gerados a partir do modelo e para os dois tamanhos de amostra distintos. Tais cenarios

estao na seguinte ordem na figura: fixa-se um valor de α e depois varia-se β. A Figura

1.5 (a) apresenta uma analise de propriedades frequentistas dos estimadores. Nela estao

as probabilidades de cobertura dos intervalos HPD de 95% para as amostra de 5%N e

10%N , o erro quadratico medio (EQM) para cada parametro e o erro quadratico medio

relativo (EQMR) para o total populacional. Os intervalos HPD apresentados ao longo

deste trabalho foram obtidos usando o comando emp.hpd do pacote TeachingDemos do

software R.

Note que em termos da cobertura media dos intervalos, enquanto os parametros β e γ

apresentam resultados proximos do desejado para todos os cenarios, o parametro α tem

maior variabilidade e resultados mais satisfatorios sao obtidos no geral a medida que o

valor de α aumenta, para β nao muito pequeno. O mesmo se passa com a estimacao do

33

total populacional T . Isto ocorre pois quanto maior α, mais unidades com observacoes de

interesse, o que traz mais informacoes que auxiliam na estimacao e previsao. Por outro

lado, analisando o EQMR de T , que e o nosso maior interesse, observa-se tambem que,

fixado α, no geral os valores do EQM e EQMR diminuem a medida que β aumenta. Isto

ocorre pois o parametro β esta associado ao numero de redes e a medida que β aumenta,

cresce o numero de redes, fazendo com que os grupos na populacao se espalhem mais, o

que tambem facilita o procedimento de inferencia com base numa amostra. Neste mesmo

caso, observe que, mesmo com uma amostra de 5%N o modelo ja se ajusta bem aos

dados e as conclusoes sao analogas.

Uma alternativa para melhorar o ajuste deste modelo sob cenarios em que α e β sao

extremamente pequenos e elicitar outras distribuicoes a priori independentes para α e β.

Rapley (2004) apresenta uma lista de distribuicoes a priori utilizadas e que resultaram

num melhor desempenho do modelo em populacoes geradas para diferentes valores de α e

β. Neste trabalho, foi utilizada apenas uma distribuicao a priori informativa para todos

os cenarios, com o unico interesse de garantir que o desenho amostral seja razoavel ao

problema e a robustez desta para diferentes valores de α e β num intervalo. Portanto, e

uma possıvel distribuicao a priori a ser utilizada quando o unico conhecimento previo que

se tem a respeito da populacao e que esta e rara e agrupada. No entanto, se informacoes

mais precisas sobre o tipo ou estrutura da populacao estao disponıveis, resultados mais

vantajosos podem ser obtidos para alguns casos especıficos.

E importante mencionar que este estudo simulado foi feito sob todas as possıveis

amostras. Por exemplo, nos casos em que α = β = 0.05 a populacao e extremamente rara

e agrupada, portanto e alta a probabilidade de selecionar uma amostra que nao contenha

unidade alguma com observacao ou que contenha todas as unidades nao vazias da

populacao. Isso prejudica a qualidade das estimativas. Esta e mais uma explicacao para

o fato de que os resultados sao mais proximos do desejado para populacoes menos raras

e agrupadas. Uma possibilidade para este caso e repetir o estudo simulado descartando

estas amostras nao representativas, no entanto, como elas tem alta chance de ocorrer

em alguns casos optou-se por mante-las, a fim de nao mascarar estes problemas nos

resultados.

34

Conclui-se desta forma que, em termos de estimativas pontuais e intervalares, a

eficiencia do modelo aumenta a medida que os valores de α e β aumentam. Entretanto,

e importante lembrar que a amostragem adaptativa pode ser custosa, portanto esta e

razoavel em cenarios de raridade e agrupamento da populacao. Logo, recomenda-se o

uso de tal modelo complexo nestes cenarios, mas com um numero esperado controlado

de unidades e redes com a caracterıstica de interesse, de forma que a amostra adaptativa

coletada seja a mais representativa possıvel sem altos custos.

Por outro lado, ja foi visto que como o plano amostral adaptativo por conglomerados e

nao-ignoravel, a probabilidade de selecao deve ser incluıda na funcao de verossimilhanca,

pois esta tambem traz informacoes para a estimacao dos parametros do modelo. O

objetivo agora e simplesmente verificar o ajuste do modelo para o caso em que o plano

amostral e erroneamente considerado ignoravel, ou seja, quando a probabilidade de

selecao e descartada da funcao de verossimilhanca completa em (3.3).

Para isso, o modelo em (3.1) foi ajustado para as mesmas 100 amostras do estudo

anterior, mas, agora, desconsiderando a probabilidade de selecao da amostra em (3.3).

Na Tabela 3.1 e apresentada uma comparacao entre as duas abordagens usando

a razao dos EQM (RaEQM) e das variancias (RaVAR) entre os estimadores obtidos

considerando a probabilidade de selecao e sem considera-la, para n1 = 10%N .

Portanto, valores menores que 1 indicam que considerar o plano amostral na funcao de

verossimilhanca produz resultados mais vantajosos sob ambos os criterios. Vale informar

que as probabilidades de cobertura para os intervalos HPD de 95% gerados para os dois

metodos apresentam-se proximo do nıvel nominal desejado, logo nao seriam um criterio

relevante na comparacao e, por isso, nao foram apresentadas.

Observando a Tabela 3.1 e possıvel verificar que desconsiderar esta parcela na funcao

de verossimilhanca completa, gera na grande maioria das vezes, estimativas viesadas

e com maior variancia, principalmente para o parametro α e para o total T . Apenas

para dados artificiais gerados a partir do modelo fixando α = β = 0.20 esta conclusao

e diferente em termos do EQM para todos os parametros. Contudo, a variancia ainda

permanece menor quando incluıda a probabilidade de selecao. Isso ocorre pois, este

cenario gera uma populacao mais esparsa, e menos rara que os outros cenarios estudados.

35

Logo, fazer uma amostragem nao informativa, como a aleatoria simples por exemplo, ou

adaptativa, teria o mesmo efeito, e nao justificaria assim o uso do modelo complexo.

Tabela 3.1: RaEQM e RaVAR dos estimadores para α, β, γ e T , entre os valores obtidos

no ajuste usando a probabilidade de selecao da amostra na funcao de verossimilhanca

(3.3) e sem usa-la, sob 100 amostras artificiais.

(α, β) fixos α β γ T

RaEQM RaVAR RaEQM RaVAR RaEQM RaVAR RaEQM RaVAR

(0.05, 0.05) 0.26 0.10 1.16 1.32 0.69 0.97 0.25 0.07

(0.05, 0.10) 0.23 0.10 1.08 1.31 1.17 3.22 0.23 0.12

(0.05, 0.15) 0.24 0.11 1.12 1.26 1.07 2.28 0.23 0.10

(0.05, 0.20) 0.21 0.13 1.08 1.25 0.72 1.26 0.19 0.10

(0.10, 0.05) 0.38 0.12 1.13 1.38 1.21 3.41 0.37 0.10

(0.10, 0.10) 0.30 0.13 1.03 1.31 0.84 1.04 0.32 0.10

(0.10, 0.15) 0.21 0.15 0.83 1.15 0.80 3.12 0.27 0.14

(0.10, 0.20) 0.25 0.17 1.23 1.28 0.93 3.47 0.30 0.16

(0.15, 0.05) 0.45 0.15 0.88 1.35 0.99 0.99 0.51 0.09

(0.15, 0.10) 0.38 0.16 1.21 1.21 0.91 1.02 0.45 0.12

(0.15, 0.15) 0.42 0.16 0.89 1.29 1.18 1.04 0.51 0.13

(0.15, 0.20) 0.63 0.21 1.13 1.21 0.89 1.02 0.75 0.20

(0.20, 0.05) 0.52 0.17 1.13 1.29 1.11 0.98 0.53 0.10

(0.20, 0.10) 0.49 0.19 0.83 1.10 0.83 0.96 0.55 0.15

(0.20, 0.15) 0.83 0.28 1.10 1.15 0.97 0.99 0.81 0.24

(0.20, 0.20) 1.48 0.40 1.25 1.08 1.23 1.02 1.17 0.39

Esta conclusao pode ser vista na forma analıtica da expressao (3.2). Por exemplo,

numa situacao extrema, suponha que a populacao esteja totalmente espalhada numa

regiao, dessa forma e razoavel supor que todas as redes existentes (vazias e nao vazias)

sejam de tamanho 1, ou seja, Z1 = · · · = ZN−X+R = 1. Neste caso, o numero de redes

36

nao vazias passa a ser o numero de unidades nao vazias na populacao, ou seja, R = X.

Portanto, para todo j = 1, . . . ,m, Zij = 1, gij ,j = N − (j − 1),∑N−X+R

i=1 Zi = N e∑j−1k=0 Zik = m− [m− (j − 1)]. Portanto, a probabilidade de selecao em (3.2) se reduz a:

[s | C, R,X] =1×NN − 0

× 1× (N − 1)

N − 1× · · · × 1× [N − (m− 1)]

N − (m− 1)= 1,

para qualquer amostra s sorteada. Logo, a probabilidade de inclusao da amostra

permanece inalterada para qualquer amostra s selecionada desta populacao.

3.1.3 Estudo simulado com populacao real

A fim de ilustrar a eficiencia do modelo em (3.1), sera feita a seguir uma comparacao

do estimador obtido do ajuste de tal modelo com o estimador de Horvitz-Thompson

modificado, dado em (2.4), obtido com base no desenho amostral adaptativo por

conglomerados. Alem disso, ambos serao comparados a amostragem aleatoria simples

sem reposicao. Esta ilustracao sera feita a partir de sorteios de repetidas amostras de

uma populacao verdadeira. Tal populacao constitui-se de marrecos da asa azul na regiao

da Florida, nos Estados Unidos, no ano de 1992. Em particular, esta e uma especie

rara de aves aquaticas com um comportamento agrupado. Esta mesma populacao e

outras duas especies, as quais apresentam diferentes graus de agrupamento, foram usadas

para comparacao da eficiencia da amostragem adaptativa com relacao a outros planos

amostrais em Smith et al. (1995).

A Figura 3.2 corresponde a area de estudo, dada em Smith et al. (1995), a qual foi

subdividida em N = 200 unidades de uma grade regular, tal que cada unidade apresenta

o numero de indivıduos da populacao de marrecos da asa azul naquela regiao. Observe

que esta populacao caracteriza-se com um aspecto raro e extremamente agrupado.

Alem disso, usando as expressoes em (2.5) e (2.6) para avaliar numericamente estas

propriedades na populacao, obteve-se PR = 0.11 e V IR = 0.71, o que tambem indica

que a populacao em estudo tem estas caracterısticas, justificando assim o uso do plano

amostral adaptativo.

Para avaliar a eficiencia dos metodos de amostragem citados, para esta particular

populacao, foram sorteadas 100 amostras e para cada amostra obtivemos uma estimativa

37

53

204212

10103

33

1507144

1

66399

2

2

14122 114

603

2

Figura 3.2: Populacao real de marrecos da asa azul na regiao da Florida, nos Estados

Unidos, no ano de 1992, disposta numa grade regular de tamanho N = 200.

do total populacional T . Tal estimativa foi obtida com base no estimador nao viesado

para o total sob os planos adaptativo e aleatoria simples, e no caso do ajuste do modelo

Bayesiano em (3.1) sao obtidas amostras da distribuicao a posteriori, e tal estimativa

pontual e dada pela media a posteriori de T .

Em cada uma das 100 amostras, sorteia-se aleatoriamente e sem reposicao n1 unidades

iniciais na grade e, se pelo menos um marreco da asa azul e observado, as unidades

vizinhas, ou seja, as de lado contıguo, sao incluıdas na amostra, e o procedimento e

repetido ate o momento em que uma unidade de borda, ou seja, sem qualquer marreco

de asa azul, e obtida. Dessa forma, cada amostra adaptativa possui n unidades divididas

em m redes (m ≤ n1). E com base nestas n unidades, estimamos o total populacional

a partir do estimador em (2.4) e no modelo (3.1). Alem disso, tambem foram obtidas

estimativas para T considerando amostras aleatorias simples de tamanho n, com base no

estimador TAAS = Ny.

A mesma distribuicao a priori descrita anteriormente para o modelo (3.1) foi utilizada

neste estudo, exceto a distribuicao de γ, para o qual foram usados aγ = 5 e bγ =

2, como recomendado em Rapley e Welsh (2008) para a maioria dos casos. Notou-

se que ao atribuir distribuicoes para γ com alta massa de probabilidade em valores

38

maiores, surgiram problemas de superestimacao do total populacional, devido as amostras

coletadas conterem na sua maioria a rede de maior tamanho, a qual apresenta maiores

valores de Y , diferente dos dados artificiais que eram gerados de um modelo que supoe

homogeneidade entre as unidades.

Na Tabela 3.2 temos a eficiencia de cada estimador para alguns tamanhos de amostra

iniciais. A eficiencia de um estimador e dada pela razao entre as variancias para cada

estimador em questao, logo se esta razao e maior que 1 significa que, em termos de

precisao, o estimador do denominador e mais eficiente do que o outro. Em particular,

defina, ef(TAASHT ∗ ) a eficiencia do estimador da amostragem aleatoria simples com relacao ao

estimador de Horvitz-Thompson modificado descrito pela expressao em (2.4), ef(TAASB )

a eficiencia do estimador da amostragem aleatoria simples com relacao ao estimador

Bayesiano e ef(THT∗

B ) denota a eficiencia do estimador de Horvitz-Thompson modificado

com relacao ao estimador Bayesiano. Alem disso, E(n) denota o valor esperado do

tamanho final da amostra adaptativa utilizando as 100 amostras geradas, portanto, e o

tamanho medio das amostras aleatorias simples selecionadas para a comparacao.

Observe que, para qualquer tamanho de amostra, as duas abordagens que usam o

plano amostral adaptativo sao mais eficientes que a amostragem aleatoria simples. Exceto

para n1 = 4, em que a conclusao se inverte quando compara-se TAAS com relacao a

THT ∗ . Quando comparados entre si, o modelo em (3.1) apresenta maior eficiencia que a

estimacao com base no desenho amostral adaptativo.

Portanto, conclui-se que o modelo (3.1) e eficiente e apresenta vantagens quando

comparado com as outras metodologias. Com base nesta conclusao, o interesse agora

e estender este modelo para outros contextos usuais. Na proxima secao e proposta

uma extensao do modelo (3.1) para populacoes que apresentam constante mobilidade,

incorporando esta caracterıstica ao proprio modelo.

Vale ressaltar que um modelo inflacionado de zeros poderia ser uma alternativa para

previsao nestas populacoes raras, devido ao excesso de zeros. Esta classe de modelos

ganhou destaque com Lambert (1992). A ideia geral desta classe de modelos e baseada

na inclusao de massa de probabilidade no ponto zero, inflacionando suas possibilidades

de existir no modelo, por meio de uma mistura de distribuicoes. No entanto, neste

39

Tabela 3.2: Estudo simulado com a populacao de marrecos da asa azul: eficiencia

relativa para o estimador do total populacional com base no desenho amostral adaptativo

(estimador de Horvitz-Thompson modificado) e no ajuste do modelo (3.1), com relacao a

amostragem aleatoria simples de tamanho n. A eficiencia do estimador Bayesiano com

relacao ao estimador de Horvitz-Thompson tambem e apresentada na ultima coluna.

n1 E(n) ef(TAASHT ∗ ) ef(TAASB ) ef(THT∗

B )

4 16.74 0.44 14.37 33.33

10 25.23 1.68 12.36 7.14

20 39.91 2.60 7.12 2.70

40 66.63 3.19 4.30 1.35

trabalho o objetivo e fazer previsao acerca de uma populacao dividida em redes, as quais

por definicao sao unidades nao vazias, portanto nao e contemplada a possibilidade de ser

zero. A amostragem adaptativa por conglomerados e portanto uma abordage, totalmente

cabıvel a esta situacao e nao fornece informacoes sobre as unidades vazias, apenas sobre

as nao vazias. Por isso o modelo de Rapley e Welsh (2008) e formulado apenas para as

redes nao vazias.

3.2 Um modelo para populacoes moveis, em

crescimento ou decrescimento

A biosfera esta constituıda de sistemas que mudam com o passar do tempo. O modo

pelo qual o sistema muda depende de sua organizacao e dos recursos disponıveis a ele. Por

exemplo, alguns ecossistemas aumentam em tamanho e complexidade, enquanto outros

detem seu crescimento. O estudo da dinamica das populacoes naturais e importante para

compreender o que ocorre nos ecossistemas em equilıbrio. Este tipo de comportamento,

em geral, e observado em populacoes de animais, habitats ou outra especie sensıvel a

mudancas.

40

Neste caso, o mais comum e trabalhar com modelos espaco-temporais, mas quando

trata-se de populacoes raras e agrupadas podemos ter grandes dificuldades em ajustar tais

modelos comumente vistos na literatura, principalmente se a elaboracao do planejamento

amostral nao levar este fator em consideracao na coleta dos dados. McDonald

(2004) apresenta estudos por amostragem que resultaram em estimativas altamente

imprecisas simplesmente pelo fato do pesquisador em curto intervalo de tempo “perder”

a populacao-alvo, devido ao grande poder de deslocamento, mortes, entre outros fatores.

Inclusive, o proprio procedimento de coleta dos dados pode ser um fator gerador de

dispersao da populacao de interesse. Uma opcao para estes cenarios e a replicacao

da coleta de dados ao longo de um perıodo de tempo, com o objetivo de ganhar mais

informacoes sobre este comportamento movel, difıcil de ser estudado. Dessa forma, alem

de gerar estimativas mais precisas, tal abordagem pode ser altamente relevante para

possibilitar possıveis intervencoes mais precisas no futuro neste tipo de populacao, em

casos de epidemia, por exemplo.

O objetivo desta secao e propor para situacoes como as descritas acima, modelos

de previsao que incorporem o plano de amostragem adaptativa, mas que leve em conta

nao so a raridade e esparsidade geografica, como o modelo proposto por Rapley e Welsh

(2008), mas que tambem levem em conta a mobilidade da populacao ao longo de um

perıodo de tempo.

3.2.1 Amostragem adaptativa para populacoes moveis

Um comportamento de mobilidade, crescimento ou decrescimento em um espaco ao

longo de um perıodo de tempo e comumente visto em populacoes biologicas. Em geral,

esta caracterıstica e algo natural da especie em estudo, ou pode simplesmente surgir

num estudo por levantamentos estatısticos, pelo fato do metodo de amostragem utilizado

alterar seu habitat natural, incentivando esta dinamica populacional.

Por outro lado, estas populacoes biologicas, por exemplo, tambem em geral sao uma

fracao pequena da populacao e estao distribuıdas numa regiao em grupos. Ja foi visto que,

para populacoes com tais comportamentos, a amostragem adaptativa por conglomerados

pode ser bastante eficiente quando comparada a outros planos mais comuns e menos

41

custosos. Mas, segundo McDonald (2004), se a populacao, alem destas caracterısticas,

tem alta mobilidade por fatores naturais, ou se move ou se destroi na coleta dos dados,

adaptacoes neste planejamento devem ser realizadas. O mesmo ocorre se a populacao de

interesse tende a crescer, indicando situacoes de alastramento.

McDonald (2004) apresenta algumas alternativas para o problema da mobilidade,

tais como: redefinir a vizinhanca de forma que nao inclua somente unidades de lado

contıguo e a criacao de um ındice de presenca de especies, que nao seja a observacao

direta. Este ultimo recai na amostragem adaptativa dupla, proposta por Felix-Medina

e Thompson (2004) e apresentada na Secao 2.2.4. Um exemplo desta e um estudo de

monitoramento da abundancia de gambas na Nova Zelandia. Para detectar a regiao

de interesse, sao colocados de forma adaptativa blocos de cera com algum atrator e a

frequencia de mordidas neste bloco e um indicador da distribuicao de gambas na regiao.

Em seguida, uma subamostra desta amostra adaptativa e observada nestes locais a fim

de obter uma estimativa do total de gambas na regiao.

Por outro lado, sob o ponto de vista de inferencia baseada em modelos de

superpopulacao, o modelo (3.1), proposto por Rapley e Welsh (2008) e apresentado

na secao anterior, nao se ajusta explicitamente a populacoes com esta dinamica. A

princıpio, para inferencia num unico instante de tempo, as alternativas descritas acima

e apresentadas por McDonald (2004) podem ser facilmente inseridas na funcao de

verossimilhanca do modelo, com mudancas somente na definicao da vizinhanca e redes.

Uma outra alternativa, que pode gerar estimativas ainda mais confiaveis e a coleta de

dados ao longo de um perıodo de tempo e uso destas amostras repetidas para inferir sobre

os parametros populacionais. Esta abordagem pode ser util tambem para o entendimento

do comportamento elusivo da populacao em perıodos de tempo, alem de previsao para

tempos futuros. Neste caso, para cada tempo terıamos uma amostra coletada, e para cada

tempo terıamos uma estimativa calculada com base no estimador de Horvitz-Thompson

dado em (2.4), por exemplo. No caso da abordagem baseada em modelo, o modelo (3.1)

seria ajustado para cada tempo de forma independente. E poucas sao as alternativas na

literatura para dados deste tipo. Em particular, temos interesse em estender o modelo

42

(3.1), proposto por Rapley e Welsh (2008), incorporando este comportamento movel para

que se ajuste a populacoes deste tipo.

3.2.2 Incorporando estrutura de crescimento e decrescimento

ao modelo

Como o objetivo e propor um modelo para previsao em populacoes que evoluem

dinamicamente, de forma que a amostragem adaptativa por conglomerados ainda seja

um plano amostral eficiente, serao tratadas apenas situacoes em que este crescimento

se da em sua maior parte dentro das redes, de forma a nao descaracterizar a raridade

e agrupamento da populacao, os quais sao os principais motivos para o uso deste plano

amostral.

Na Figura 3.3 temos uma ilustracao da dinamica de uma populacao artificial

sobreposta a uma grade regular com N = 400 unidades. Para gerar esta populacao

foi utilizado o processo pontual conglomerado de Poisson (ver Diggle et al. (1983)), o

qual gera configuracoes de eventos agregados, onde os conglomerados sao interpretados

como grafos e, portanto, formados por pais e filhos. Em particular, fixou-se o numero de

redes e de observacoes em cada rede na geracao. Dessa forma, dado o numero R de redes

nao-vazias, as coordenadas dos centroides (pais) destas R redes (grafos) sao sorteadas de

uma distribuicao Uniforme definida neste espaco. A partir destas R localizacoes, com

o numero de observacoes Yi (filhos), para cada rede i, i = 1, . . . , R, as localizacoes dos

Yi − 1 filhos sao gerados para cada rede de uma distribuicao Normal com media nas

coordenadas dos pais e variancia fixada. O numero Yi para cada rede i foi gerado de uma

distribuicao Poisson. Como o objetivo era apenas ilustrar uma populacao dinamica de

interesse, observe que para tal ilustracao nao foram necessarias as variaveis numero de

celulas nao-vazias e numero de celulas em cada rede que fazem parte do modelo (3.1), pois

o processo utilizado na geracao e um processo pontual, e processos deste tipo independem

da divisao da area, no caso da grade regular, o que nao comprometeu de forma alguma

a ilustracao.

43

Observe na Figura 3.3 que ao longo do tempo o numero de unidades com observacoes

aumenta e o numero de redes varia de forma estavel.

t = 1

t = 2

t = 3

t = 4

t = 5

Figura 3.3: Ilustracao da evolucao dinamica de interesse de uma populacao rara e

agrupada numa regiao sobreposta a uma grade regular com N = 400 unidades.

44

Note que a partir do modelo em (3.1) e possıvel incorporar esta dinamica populacional

acrescentando alguma estrutura temporal aos parametros α e β. Se tornarmos o

parametro α dinamico, deixando β fixo, o numero de unidades nao-vazias na populacao

se altera ao longo do tempo e, portanto, pela estrutura de condicionamento do modelo,

o numero de redes tambem pode se alterar.

Se for feito o contrario, ou seja tornar o parametro β dinamico, deixando α fixo,

teremos uma populacao cujo numero medio de unidades nao-vazias nao se altera ao longo

do tempo, mas sua disposicao dentro das redes sim, o que pode criar novas redes com

o numero de unidades reduzido, ou ainda desaparecer redes com o numero de unidades

crescendo dentro de algumas redes.

Uma outra possibilidade intuitiva e a incorporacao de dinamica nos dois parametros α

e β ao mesmo tempo, isso geraria uma populacao menos estavel que em qualquer um dos

dois cenarios citados anteriormente. Isto porque estarıamos alterando diretamente tanto

o numero de unidades na populacao, quanto o numero de redes. Note que a estrutura

dinamica a ser imposta deve ser de forma controlada, a fim de que a populacao-alvo rara

e agrupada nao se descaracterize ao longo do tempo.

Neste trabalho temos particular interesse na primeira extensao, onde cresce o numero

total de unidades na populacao ao longo do tempo e, por conta do condicionamento do

modelo, o numero de redes varia, mas de forma mais estavel que as outras duas opcoes.

Dessa forma, serao contemplados comportamentos de mobilidade caracterizados pelo

surgimento e desaparecimento de redes, e ainda pelo crescimento ou decrescimento do

numero de observacoes nas redes que permanecem, mas com uma estabilizacao no final

do tempo. Portanto, nao serao considerados cenarios com alastramento desordenado

ou desaparecimento global da observacao de interesse, como uma epidemia, no caso de

doenca, por exemplo.

3.2.3 Modelo de crescimento exponencial

Como o interesse esta em modelar populacoes que apresentam um crescimento ou

decrescimento medio de observacoes dentro das redes, mas com uma estabilizacao ao longo

do tempo, em particular, modelos de crescimento exponencial podem gerar populacoes

45

com esta estrutura, alem de serem amplamente utilizados em problemas reais em diversas

areas, como na ecologia. Considere que as observacoes obtidas a partir de um processo Yt

ao longo de perıodos de tempo t = 1, . . . , L sao modeladas a partir de uma distribuicao

de probabilidade na famılia exponencial, tal que E(Yt | θt) = λt, onde θt e um vetor de

parametros. Modelos caracterizados pela parametrizacao θt = (a, b, c)′ e por uma funcao

de ligacao h tal que

h(λt) = a+ b exp(ct) e

h(λt) =

λφt , se φ 6= 0

log(λt), se φ ≈ 0

sao chamados modelos de crescimento exponencial generalizados e podem ser vistos com

detalhes em Migon e Gamerman (2006).

O parametro c esta relacionado com a velocidade de crescimento/decrescimento (ou

curvatura), o parametro b com a intensidade do crescimento/decrescimento e a com a

localizacao da curva. Derivando a expressao a+b exp(ct) em relacao a t, podemos concluir

que a curva sera crescente se b e c tiverem o mesmo sinal e decrescente caso contrario.

Pela derivada segunda, podemos concluir que a curva tem concavidade voltada para cima

se b > 0 e para baixo se b < 0. Vale notar ainda que se c < 0 entao a curva tem um

comportamento nao explosivo, convergindo para a quando t→∞.

A principal vantagem em utilizar estes modelos e a possibilidade de manter as

medicoes de Yt na escala original, transformando apenas a trajetoria de Yt, o que torna

a interpretacao dos resultados mais simples. Alem disso, os intervalos de tempo nao

precisam ser igualmente espacados, permitindo que se trabalhe com dados provenientes

de pesquisas com datas de referencia distintas atraves de uma codificacao do ındice t de

tempo.

A proposta, portanto, e modelar o parametro α do modelo (3.1) a partir de uma

curva de crescimento exponencial. Como este parametro e uma probabilidade, e natural

usar-se na modelagem uma funcao de ligacao logıstica, portanto o modelo apresenta-se

da seguinte forma:

logit(αt) = log

(αt

1− αt

)= a+ b exp(ct), t = 1, . . . , L.

46

Em particular, ao modelar o parametro α desta forma, os possıveis valores que os

parametros da curva exponencial a, b e c podem assumir devem estar compatıveis com

o contexto de populacoes raras e agrupadas e, portanto, serao usados os resultados

apresentados na Secao 3.1 para efetuar esta escolha. O interesse neste trabalho

concentrar-se-a em dois casos: (i) crescimento da populacao e estabilizacao com a

evolucao do tempo; (ii) populacao decrescente ao longo do tempo e estabilizacao, de

forma que a populacao nao desapareca. Na Figura 3.4 estao as duas curvas de crescimento

que caracterizam os dois cenarios de interesse neste trabalho, para L = 50. Para obter

a curva crescente (a) assumiu-se a = −1.73, b = −1.41 e c = −0.15, o que resulta no

parametro αt iniciando em 0.05 e estabilizando em 0.15, os quais sao valores razoaveis

para este parametro no modelo (3.1) no contexto de populacoes raras e agrupadas. Ja

a curva (b) e obtida para a = −2.20, b = 0.94 e c = −0.15, produzindo uma curva

decrescente para αt iniciando em 0.20 e estabilizando em 0.10.

0 10 20 30 40 50

0.06

0.10

0.14

t

α t

(a) Crescimento

0 10 20 30 40 50

0.10

0.14

0.18

t

α t

(b) Decrescimeno

Figura 3.4: Curvas de crescimento e decrescimento de interesse para αt, t = 1, . . . , 50.

Em (a) fixou-se a = −1.73, b = −1.41 e c = −0.15, e em (b) a = −2.20, b = 0.94

e c = −0.15, o que resulta no parametro αt variando de 0.05 e 0.15 e de 0.2 a 0.1,

respectivamente.

Desta forma, uma extensao do modelo (3.1) para populacoes que evoluem ao longo do

tempo com uma dinamica semelhante a descrita anteriormente e dada, para t = 1, . . . , L,

por:

47

Y ∗it | Cit, Rt, γ ∼ Poisson Truncada independente (γCit), Y∗it ≥ Cit, i = 1, . . . , Rt,

Ct | Xt, Rt ∼ 1Rt + Multi

(Xt −Rt,

1

Rt

1Rt

), Cit = 1, . . . , Xt −Rt + 1,

Rt∑i=1

Cit = Xt,

Rt | Xt, β ∼ Binomial Truncada (Xt, β), Rt = 1, . . . , Xt, (3.4)

Xt | αt ∼ Binomial Truncada (N,αt), Xt = 1, . . . , N,

logit(αt) = a+ b exp(ct), t = 1, . . . , L,

em que Xt e o numero de celulas nao vazias no tempo t, Rt e o numero de redes nao vazias

no tempo t, Ct e o vetor com o numero de celulas nao vazias em cada uma das Rt redes

nao vazias no tempo t, Y ∗it e o numero de observacoes na rede nao vazia i no tempo t,

t = 1, . . . , L. O maior interesse esta em prever T = (T1, . . . , TL)′, em que Tt =∑Rt

i=1 Y∗it .

Alem disso, a variavel resposta neste caso segue uma distribuicao de Poisson, pois o

interesse concentra-se em dados de contagem, embora seja possıvel estender esta ideia

para outras distribuicoes na famılia exponencial, assim como (3.1).

Como trata-se de inferencia Bayesiana, o modelo (3.4) deve ser completado com a

distribuicao a priori para o vetor parametrico (a, b, c, β, γ). Neste caso, ao ajustar o

modelo, sob distribuicoes a priori nao-informativas para os parametros a, b e c, surgiram

problemas de identificabilidade, pois estes parametros devem estar restritos a valores de

αt pequenos. Portanto, conclui-se que para o ajuste razoavel do modelo (3.4) e necessario

atribuir uma distribuicao a priori informativa para estes parametros. Por outro lado,

ha interesse em permitir ao modelo que verifique se os dados fornecem um cenario de

crescimento ou decrescimento da populacao, o que e fornecido pelos valores de a e b, para

c negativo, afim de garantir cenarios de estabilizacao com o passar do tempo. Portanto,

supondo independencia entre os parametros a priori, sera atribuıda a priori para c uma

distribuicao Normal truncada nos reais negativos, denotada por c ∼ N(−∞,0)(µc, σ2c ).

Para (a, b) sera atribuıda a priori uma mistura de distribuicoes normais bivariadas que

contemplam os dois possıveis cenarios, da seguinte forma:

(a, b) ∼ w1N(µ1,Σ1) + (1− w1)N(µ2,Σ2),

48

em que µ1 = (−2.20, 0.94)′ e µ2 = (−1.73,−1.41)′ sao os vetores de media para cada

Normal e Σ1 e Σ2 sao as matrizes de covariancia de cada componente da mistura e

caracterizam o quanto esta distribuicao e informativa a priori. Note que a primeira

distribuicao da mistura caracteriza a curva de decrescimento e a segunda de crescimento.

Logo, o valor de w1 reflete o peso que sera dado as duas distribuicoes. Neste caso, se nao

ha informacao a priori para dar mais probabilidade de ocorrencia a uma das situacoes,

fixar w1 em 0.5 e uma forma de ser nao-informativo e permitir ao modelo que recupere o

comportamento da populacao ao longo do tempo. Na Figura 3.5 esta a distribuicao para

os parametros (a, b), fixando Σ1 = Σ2 = diag(0.01, 0.01).

a

b

Densidade

Figura 3.5: Distribuicao a priori conjunta para o vetor (a, b)′.

Alem disso, supoe-se a priori que β ∼ Beta(aβ, bβ) e γ ∼ Gama(aγ, bγ), como no

modelo em (3.1).

Note que os parametros a, b e c controlam os valores que αt assumem ao longo

do tempo e, usando o argumento de que as populacoes-alvo sao raras e agrupadas, e

necessario atribuir distribuicoes a priori para estes informando que αt assume valores

pequenos. O conhecimento a priori mınimo para aplicabilidade das tecnicas propostas

neste trabalho e que as populacoes em estudo sao raras e agrupadas, portanto a

distribuicao a priori deve ser ao menos informativa sobre este comportamento.

Vale lembrar que as variaveis do modelo sao compostas por uma parte conhecida e

outra desconhecida como descrito na Secao 3.1, no entanto agora devemos definir esta

particao para cada tempo t, da seguinte forma: Y∗t = (Y∗st′,Y∗st

′)′, Ct = (C′st ,C′st)′,

49

Zt = (C′t,1′N−Xt)

′, Rt = Rst + Rst e Xt = Xst + Xst , para t = 1, . . . , L. Sejam entao

X = (X1, . . . , XL)′, R = (R1, . . . , RL)′, C = (C′1, . . . ,C′L)′ e Y∗ = (Y∗1

′, . . . ,Y∗L′)′.

Alem disso, a cada tempo t uma amostra e selecionada de forma adaptativa e

independente dos outros tempos. Note que o modelo escrito desta forma agregada apenas

nos fornece informacoes numericas sobre as redes, portanto nao seria possıvel incorporar

a este modelo um planejamento amostral que nao fosse aplicado independentemente

ao longo do tempo, caso contrario necessitarıamos de informacoes adicionais, como

localizacao das unidades que foram selecionadas. Desta forma, a probabilidade de selecao

de uma amostra st = i1t , . . . , imt de mt redes no tempo t, t = 1, . . . , L, e dada por:

[st | Xt, Rt,Ct] =mt∏jt=1

Zijt × gijt ,jt∑N−Xst−Xst+Rst+Rstit=1 Zit −

∑jt−1kt=0 Zikt

,

onde mt e o numero de redes na amostra no tempo t, gijt ,jt e o numero de redes de

tamanho Zijt que restam apos jt − 1 redes terem sido selecionadas e Zi0 = 0.

Portanto, a funcao de verossimilhanca completa e dada por:

[s,X,R,C,Y∗ | a, b, c, β, γ] =L∏t=1

mt∏jt=1

Zijtgijt ,jt∑N−Xt+Rtit=1 Zit −

∑jt−1kt=0 Zikt

×

N

Xt

αtXt(1− αt)N−Xt1− (1− αt)N

×

Xt

Rt

βRt(1− β)Xt−Rt

1− (1− β)Xt

× (Xt −Rt)!Rt∏i=1

1

(Ci − 1)!

(1

Rt

)Cit−1

×Rt∏i=1

exp−γCit + Y ∗it log(γCit)Y ∗it ![1−

∑Cit−1j=0 exp−γCit + j log(γCit)− log(j!)]

,

para logit(αt) = log(

αt1−αt

)= a+ b exp(ct), t = 1, . . . , L e s = (s1, . . . , sL).

Como a distribuicao a posteriori do vetor parametrico Θ = (X,R,C,Y∗, a, b, c, β, γ)

nao possui forma analıtica fechada, faz-se necessario o uso de metodos de simulacao

estocastica, como o MCMC. Em particular, o amostrador de Gibbs com passos de

Metropolis-Hastings foi utilizado. Alem disso, o preditor de T = (T1, . . . , TL)′ e obtido

da seguinte forma:

Tt = 1′RstY∗st + 1′

RstY∗st ,

50

para t = 1, . . . , L cuja amostra da distribuicao pode ser obtida via MCMC.

Os passos do algoritmo MCMC sao descritos como:

(1) Faca j = 1 e especifique valores iniciais para X1t , Rst , Cst e Y∗st , para t = 1, . . . , L;

(2) Gere a da distribuicao [a | X,R,C,Y∗, b, c, β, γ] = [a | X, b, c];

(3) Gere b da distribuicao [b | X,R,C,Y∗, a, c, β, γ] = [b | X, a, c];

(4) Gere c da distribuicao [c | X,R,C,Y∗, a, b, β, γ] = [c | X, a, b];

(5) Gere β da distribuicao [β | X,R,C,Y∗, a, b, c, γ] = [β | X,R];

(6) Gere γ da distribuicao [γ | X,R,C,Y∗, a, b, c] = [γ | R,C,Y∗];

(7) Gere (Xst , Rst ,Cst ,Y∗st) da distribuicao [Xst , Rst ,Cst ,Y

∗st | Xst , Rst ,Cst ,Y

∗st ,

a, b, c, β, γ], para t = 1, . . . , L;

(8) Faca j = j + 1 e volte ao passo (2).

Note que este modelo e usado para estimacao do total populacional apos a observacao

de todos os tempos. Se optassemos por uma estimacao sequencial dos parametros do

modelo e de T a medida que as observacoes fossem coletadas, algumas dificuldades

poderiam surgir. Os parametros do modelo de crescimento exponencial estao associados

ao crescimento e estabilizacao da populacao, portanto, so serao realmente bem estimados

apos coletadas todas as observacoes ao longo dos tempos. Logo, recomenda-se que, se o

ajuste de tal modelo for feito de forma sequencial, ja tenham sido observados um numero

razoavel de instantes de tempo, para que o limite do crescimento tenha sido ao menos

atingido.

3.2.4 Estudo simulado

A fim de examinar o desempenho do modelo proposto, foram geradas 100 populacoes

artificiais com N = 400 unidades ao longo de L = 50 tempos, a partir do modelo

(3.4) com parametros (c, β, γ) fixados em (−0.15, 0.10, 10). Para contemplar os dois

tipos de evolucao ao longo do tempo de interesse para algumas populacoes, fixou-se

51

(a, b) = (−1.73,−1.41), o que caracteriza um cenario de crescimento ao longo do tempo,

e para outras (a, b) = (−2.20, 0.94), o que caracteriza um decrescimento. Estes valores

foram escolhidos de modo a representar as mesmas situacoes descritas na Figura 3.4 e

com cenarios de raridade e agrupamento semelhantes aos apresentados na Subsecao 3.1.2.

Para cada tempo t, inicialmente 5% das unidades amostrais foram selecionadas

por amostragem aleatoria simples sem reposicao e uma amostra adaptativa por

conglomerados para cada tempo foi selecionada de forma independente.

A distribuicao a priori utilizada para (a, b, c, β, γ) e descrita a seguir. Supondo

independencia a priori para cada parametro, para β e γ foram utilizadas as mesmas

distribuicoes descritas na Subsecao 3.1.2. Os parametros a, b e c controlam os valores

que αt assume ao longo do tempo e, usando o argumento de que as populacoes-alvo sao

raras e agrupadas, sera atribuıda uma distribuicao a priori para estes que informe que αt

e um parametro com valor pequeno e que a esta relacionado com a convergencia da curva

e b e c com o crescimento. Alem disso, note que a + b e igual ao valor inicial da curva

de crescimento. Portanto, foram atribuıdas distribuicoes a priori informativas para estes

parametros. No entanto, na distribuicao a priori para (a, b), usou-se w1 = 0.5, logo a

priori nao esta sendo informado se, com a evolucao do tempo, a populacao passou por

um crescimento ou decrescimento.

Para verificar o ajuste do modelo foram geradas 200.000 iteracoes, sendo as 10.000

primeiras descartadas como aquecimento e tomamos amostras de 190 em 190, a fim de

obtermos 1.000 amostras independentes. Nas Figuras 1.6 e 1.7, apresentadas no Apendice

A, esta um sumario da distribuicao a posteriori para duas das 100 populacoes geradas.

Na Figura 1.6 esta o resultado a posteriori para uma populacao que cresce ao londo tempo

e na Figura 1.7 para uma populacao que decresce. Na Figura 1.6 (a)-(e) e na Figura 1.7

(a)-(e) estao os tracos das cadeias da distribuicao a posteriori dos parametros a, b, c, β e

γ. As Figuras 1.6 e 1.7 (f)-(j) mostram as cadeias para o total em alguns instantes de

tempo arbitrarios. A linha em cinza representa o valor verdadeiro usado na geracao dos

dados artificiais. Observe que ha indıcios de convergencia para todos os parametros do

modelo.

52

Como temos amostras das distribuicoes a posteriori de a, b e c, temos uma amostra

da distribuicao de αt, t = 1, . . . , L. Nas Figuras 3.6 (a) e (b) estao em preto a media a

posteriori de αt, em azul o valor verdadeiro e em cinza o intervalo HPD de 95%. Pela

proximidade das linhas azuis e preta e pela linha azul estar contemplada pelo intervalo de

95% e possıvel concluir que este parametro e bem estimado. Finalmente, as Figuras 3.6

(c) e (d) apresentam os valores estimados para o total populacional para os 50 instantes

de tempo. Em preto esta a media a posteriori do total para cada tempo, as cruzes em

azul representam os valores verdadeiros do total populacional para cada tempo e em

cinza o intervalo HPD de 95%. Em sua grande maioria os pontos em azul pertencem ao

intervalo, portanto podemos concluir que os totais estao sendo bem estimados para cada

tempo. Note que em ambos os casos o modelo recupera a estrutura ao longo do tempo

dos dados.

Na Tabela 3.3 temos um sumario da distribuicao a posteriori dos parametros do

modelo de crescimento proposto para as 100 populacoes geradas. Sao apresentadas o

EQMR, erro medio absoluto relativo (EAR), a amplitude media dos intervalos HPD de

95% relativizada com relacao ao verdadeiro valor e respectiva probabilidade de cobertura.

Note que todos os parametros do modelo sao bem estimados, pois os respectivos EQMR

e EAR sao pequenos. As probabilidades de cobertura dos intervalos na maioria das vezes

se apresentam abaixo do nıvel nominal desejado de 95%, com excecao dos parametros γ,

β e c no caso de populacao em decrescimento. Uma explicacao plausıvel para este caso e

o fato de que as populacoes artificiais em decrescimento foram geradas de forma que em

todos os 50 instantes de tempo o numero de unidades nao vazias estivesse em torno de

10% e 20%, portanto de uma maneira geral estas populacoes apresentam-se menos raras

e agrupadas que as populacoes geradas para o cenario de crescimento.

Na Figura 3.7 estao os EQMR, EAR, cobertura e amplitude media relativizada com

relacao ao valor verdadeiro dos intervalos HPD de 95% para os totais populacionais para

cada tempo para as populacoes simuladas de crescimento e decrescimento. Por questoes

de melhor visualizacao grafica, a amplitude media apresentada e dada pela media dos

valores da amplitude obtida, para cada simulacao, dividida pelo valor verdadeiro do total

53

t

α t

0 10 20 30 40 50

0.06

0.10

0.14

(a) αt - crescimento

t

T

0 10 20 30 40 50

200

400

600

800

(b) T - crescimento

t

α t

0 10 20 30 40 50

0.10

0.14

0.18

(c) αt - decrescimento

t

T

0 10 20 30 40 50

200

400

600

800

(d) T - decrescimento

Figura 3.6: Sumario da distribuicao a posteriori de αt e do total populacional para uma

populacao em crescimento e decrescimento ao longo do tempo. Em preto esta a media

a posteriori de αt e total populacional Tt, t = 1, . . . , 50, com intervalo HPD de 95% em

cinza e valor verdadeiro em azul.

populacional. Desta forma, e possıvel uniformizar a escala destes valores para os dois

modelos.

Note que para ambos os cenarios, o EQMR e EAR diminuem a medida que a

populacao torna-se menos rara e agrupada. Portanto, no caso de uma populacao em

crescimento os erros diminuem com a evolucao do tempo e no caso de decrescimento

os erros tendem a ter um ligeiro aumento com o passar do tempo. Com relacao a

probabilidade de cobertura dos intervalos HPD de 95% para T nota-se uma subestimacao

do nıvel de 95% para ambos os casos e observando a amplitude media dos intervalos

nota-se um aumento na precisao do intervalo com a evolucao do tempo, no caso de

uma populacao em crescimento, e uma diminuicao da mesma, no caso de decrescimento.

54

Tabela 3.3: Sumario da distribuicao a posteriori dos parametros do modelo de

crescimento proposto: sao apresentados o EQM e EAM, a amplitude media dos intervalos

HPD de 95% e a probabilidade de cobertura para as 100 populacoes geradas. Os resultados

estao separadas para as populacoes em crescimento e decrescimento.

param EQMR EAR cob ampl EQMR EAR cob ampl

Pop. em cresc. Pop. em decresc.

a 0.02 0.10 0.83 0.13 0.02 0.11 0.82 0.10

b 0.01 0.06 0.86 0.21 0.04 0.16 0.85 0.29

c 0.02 0.14 0.80 0.43 0.01 0.08 0.96 0.52

β 0.01 0.06 0.88 0.25 0.01 0.07 0.94 0.30

γ 0 0.01 0.96 0.04 0 0.01 0.94 0.04

Este fato ja era esperado e ocorre devido ao aumento e diminuicao, respectivamente, do

numero de observacoes com a caracterıstica de interesse, com a evolucao do tempo.

Logo, dada a dificuldade de previsao em populacoes raras, agrupadas e moveis, no

geral o modelo (3.4) proposto parece ser eficiente para estimar o total populacional para

este tipo de populacao.

3.2.5 Comparacao do modelo de crescimento com outras

abordagens

Outras duas possıveis abordagens para previsao do total populacional neste cenario

ao longo de instantes de tempo, cujos dados sao obtidos por amostragem adaptativa

por conglomerados, sao: o simples ajuste de forma independente ao longo do tempo do

modelo (3.1); estimacao para cada tempo com base no estimador de Horvitz-Thompson

modificado (2.4).

O objetivo desta secao e comparar o modelo de crescimento com as abordagens citadas

acima. Desta forma, para cada tempo t uma amostra adaptativa e selecionada e: (i)

com base em todas as amostras observadas o modelo (3.4) e ajustado; (ii) a medida

que uma amostra e coletada, o modelo (3.1) e ajustado com base nestes dados e assim

55

t

Err

o pa

ra T

0 10 20 30 40 50

0.1

0.2

0.3

0.4

EAREQMR

(a) EQMR e EAR para T (crescimento)

t

Err

o pa

ra T

0 10 20 30 40 50

0.1

0.2

0.3

0.4 EAR

EQMR

(b) EQMR e EAR para T (decrescimento)

t

Cob

ertu

ra d

e T

0 10 20 30 40 50

0.70

0.80

0.90

DecrescimentoCrescimento

(c) Cobertura T (cresc. e decresc.)

t

Am

plitu

de m

édia

(T

)

0 10 20 30 40 50

0.5

0.6

0.7

0.8 Decrescimento

Crescimento

(d) Amplitude T (cresc. e decresc.)

Figura 3.7: Sumario da distribuicao a posteriori do total populacional a cada instante de

tempo T para 100 populacoes em crescimento e outras 100 em decrescimento geradas.

Sao apresentados os EQMR, EAR, probabilidade de cobertura e amplitude media dos

intervalos HPD de 95%.

sucessivamente para todo t = 1, . . . , L; (iii) estima-se o total com base no estimador de

Horvitz-Thompsom para cada tempo separadamente. Note que, exceto para a primeira

metodologia, nao estarıamos incluindo a estrutura dinamica a estimacao em nenhuma

das outras abordagens e, portanto, nao seria possıvel usar todos os dados coletados ao

longo de L tempos para estimar o total populacional, ao contrario da proposta em (3.4).

Utilizando as mesmas 100 populacoes geradas no estudo anterior foram analisados

o modelo de crescimento proposto (3.4) e as duas abordagens descritas acima. Para

os modelos considerados foram usadas as mesmas distribuicoes a priori descritas nas

Subsecoes 3.2.4 e 3.1.2.

56

Dado que a convergencia foi obtida para todos os parametros e como nosso maior

interesse esta na previsao do total populacional com base em modelos, na Figura (3.8)

estao em (a) as probabilidades de cobertura dos intervalos HPD de 95% para T e em (b)

as amplitudes medias relativizadas destes intervalos para todos os 50 tempos, usando o

modelo proposto em (3.4) e as replicacoes ao longo do tempo do modelo (3.1). Chamamos

de “Crescimento”o modelo proposto em (3.4), “Estatico”o modelo estatico em (3.1) e “H-

T”o estimador de Horvitz-Thompson.

Note que apesar do ajuste independente fornecer uma probabilidade de cobertura

em media mais proxima do nıvel desejado de 95% que a extensao proposta, temos

uma incerteza significativamente maior. Por outro lado, em (c) temos um grafico de

dispersao com a raiz quadrada do erro quadratico medio relativo (REQMR) sob as

mesmas abordagens. Como todos os pontos encontram-se abaixo da reta, conclui-se que

a extensao proposta em (3.4) produz erros menores, logo em termos de estimacao pontual

parece ser mais vantajoso. Finalmente, em (d) estao os diagramas boxplot com os REQMR

para todos os tempos sob as duas abordagens baseadas em modelos e adicionalmente

para o estimador de Horvitz-Thompson modificado. E possıvel concluir que o ajuste

baseado em modelos de superpopulacao produz erros menores que a abordagem usando

a aleatorizacao do plano amostral e que o modelo proposto e o mais eficiente neste caso,

ja que usamos as observacoes coletadas ate o tempo L na estimacao dos parametros.

Portanto, conclui-se que a extensao em (3.4) proposta para populacoes dinamicas e

vantajosa em relacao ao estimador de Horvitz-Thompson e ao ajuste repetido ao longo

do tempo do modelo (3.1).

57

Estático Crescimento

0.80

0.85

0.90

0.95

Pro

babi

lidad

e de

cob

ertu

ra

(a)

Estático Crescimento

12

34

56

Am

plitu

de m

édia

(b)

REQMR para T (Estático)

RE

QM

R p

ara

T (

Cre

scim

ento

)

0.5 1.0 1.5

0.5

1.0

1.5

(c)

H_T Estático Crescimento

01

23

4

RE

QM

R p

ara

T

(d)

Figura 3.8: Comparacao do modelo proposto de crescimento exponencial (3.4) com o

ajuste independente ao longo do tempo do modelo (3.1). Em (a) estao as probabilidades

de cobertura dos intervalos HPD de 95%, em (b) a amplitude media destes intervalos,

em (c) esta a REQMR para cada abordagem utilizada e em (d) as REQMR para todos

os tempos incluindo na comparacao o estimador de Horvitz-Thompson.

3.3 Conclusoes

Neste capıtulo foi apresentada a proposta de inferencia baseada em modelos

introduzida por Rapley e Welsh (2008) para populacoes raras e agrupadas cujas amostras

sao selecionadas de forma adaptativa por conglomerados. O modelo foi avaliado sob

58

diversos estudos simulados, variando o grau de esparsidade e agrupamento da populacao,

o tamanho da amostra selecionada e ainda quando na inferencia o plano amostral

nao e incorporado erroneamente na expressao da verossimilhanca. O modelo teve um

bom desempenho em todos os casos, principalmente para valores de α e β que gerem

populacoes raras com um numero mınimo de redes nao vazias.

O modelo de Rapley e Welsh (2008) e construıdo em um nıvel agregado da populacao,

o que produz algumas facilidades na inferencia, no entanto, esta estrutura agregada induz

a algumas restricoes nas hipoteses do modelo, como a homogeneidade entre grupos e a

hipotese de que o numero de observacoes numa rede esta relacionado diretamente com

seu tamanho.

E comum que as populacoes consideradas neste trabalho, alem de terem um

comportamento raro e agrupado, apresentem uma constante mobilidade dentro de uma

regiao ao longo de um perıodo de tempo. Visando a este problema, foi introduzida uma

extensao dinamica do modelo agregado. O modelo se ajusta a amostras adaptativas

coletadas de forma independente ao longo do tempo e supoe uma dinamica populacional

de crescimento e decrescimento ao longo do tempo. Na inferencia sob o modelo de

crescimento e preciso observar as amostras ao longo de todos os tempos, ou de pelo

menos uma quantidade razoavel destes, o que exige maior custo operacional. Por outro

lado, o modelo em (3.1) so permite o uso de amostras independentes ao longo do tempo

e previsao para cada tempo separadamente, isto porque o modelo escrito desta forma

agregada apenas nos fornece informacoes numericas sobre as redes, portanto nao seria

possıvel incorporar a este modelo um planejamento amostral diferente, caso contrario

necessitarıamos de informacoes adicionais, como a localizacao das unidades que foram

selecionadas. Por esta e outras razoes, um modelo desagregado que informe as localizacoes

pode ser de interesse. No proximo capıtulo sera proposto um modelo que atenda a estas

necessidades.

59

Capıtulo 4

Modelo de mistura para populacoes

raras e agrupadas sob amostragem

adaptativa

O modelo proposto por Rapley e Welsh (2008) usa as redes como unidades de analise,

de forma a nao ter que introduzir componentes espaciais no modelo, o que pode vir a

facilitar a inferencia.

Neste caso, a modelagem e feita supondo que em media a distribuicao do total

das redes seja proporcional ao tamanho das redes. Isto equivale a tratar as unidades

populacionais como sendo homogeneas e que a intensidade do fenomeno em uma rede

depende do seu tamanho, ou seja, redes maiores apresentam em media sempre maior total.

No entanto, esta suposicao nem sempre e valida. Por exemplo, e comum que a intensidade

de um fenomeno em uma unidade varie de acordo com a rede a qual ela pertence devido

a influencia da vizinhanca. Ou ainda, dentro de uma mesma rede e possıvel que as

unidades de borda apresentem menor taxa de ocorrencia do que as unidades no centro da

rede. Alem disso, uma rede pode ter maior incidencia do fenomeno em suas unidades nao

somente por ser maior, mas por outros fatores externos que influenciem na sua disposicao.

Mas o fato de agregar a informacao para todas as unidades dentro de uma mesma

rede, alem de nao permitir previsao do total populacional em cada unidade da grade

regular, impossibilita a incorporacao de estruturas mais complexas uteis na insercao das

60

suposicoes descritas acima. Ou ainda, num contexto de populacoes moveis, como visto

na Secao 3.2, o modelo nao possibilita a insercao de um planejamento amostral que ao

longo do tempo use informacoes de tempos anteriores, pois o modelo nao apresenta uma

variavel de identificacao das unidades i da rede j que pertencem a amostra, e sim uma

variavel que agrega numericamente estas informacoes para cada rede. Por estas razoes,

a proposta de um modelo desagregado pode ser interessante em muitos contextos com

populacoes raras e agrupadas.

Por outro lado, a modelagem de eventos raros usando distribuicao de Poisson algumas

vezes revela uma significante sobredispersao, a qual pode ser diminuıda usando modelos

mistos hierarquicos. Esta abordagem vem sendo usada em muitas aplicacoes, como por

exemplo na modelagem de doencas raras, em que o numero de casos por area e pequeno,

como pode ser visto em Clayton e Bernardinelli (1992). Viallefont et al. (2002) sugerem

para a modelagem de eventos deste tipo um modelo de mistura Poisson, cujo numero de

componentes de mistura e desconhecido.

O objetivo deste capıtulo e propor um modelo de mistura desagregado que suponha

heterogeneidade entre unidades pertencentes a redes distintas e, portanto, o total em

cada rede nao dependeria somente do tamanho desta. A proposta e que este modelo se

aplique a populacoes raras e agrupadas, que sao amostradas usando o desenho adaptativo

por conglomerados, portanto a probabilidade de selecao deve ser incorporada a funcao

de verossimilhanca dos parametros do modelo. Note que o fato de modelar cada unidade

da grade permite tambem construir um modelo com suposicao de heterogeneidade entre

as celulas de uma mesma rede, o qual sera nosso interesse futuro.

Na Secao 4.1 e definida a classe de modelos de mistura de distribuicoes de

probabilidades e uma forma de fazer inferencia sob o enfoque Bayesiano para modelos

deste tipo. Na Secao 4.2 e apresentado o modelo proposto neste trabalho, discutindo

pontos como elicitacao de distribuicao a priori, inferencia e convergencia das cadeias

com as amostras da distribuicao a posteriori do vetor parametrico. Varios estudos

simulados sao realizados com o objetivo de avaliar o desempenho do modelo sob diferentes

configuracoes da populacao. Finalmente, na Secao 4.4 o modelo proposto neste capıtulo

e comparado ao modelo de Rapley e Welsh (2008), a partir de experimentos baseado em

61

modelos e no desenho amostral usando a populacao real de marrecos da asa azul, descrita

na Secao 3.1.3 do Capıtulo 3. Daqui em diante, o modelo de Rapley e Welsh (2008) sera

referido como “modelo agregado”.

4.1 Uma revisao sobre modelos de mistura de

distribuicoes

Modelos com mistura de distribuicoes sao frequentemente utilizados para modelar

fenomenos cujas observacoes sao provenientes de uma populacao composta por k

subpopulacoes, onde k pode ser conhecido ou desconhecido. Um modelo com mistura e

dado por uma soma ponderada de distribuicoes de probabilidades. Vejamos a definicao

a seguir.

Definicao 4.1.1 Qualquer combinacao linear convexa

k∑j=1

wjf(Y | φj), com 0 < wj < 1 ek∑j=1

wj = 1, (4.1)

das distribuicoes f(· | φj) pertencentes a uma famılia de distribuicoes parametricas

indexadas pelo vetor parametrico φj, e denominada uma mistura de distribuicoes com

k componentes, tal que wj, j = 1, . . . , k sao os pesos da mistura.

O modelo em (4.1) assume que temos uma populacao heterogenea, com k

subpopulacoes, de tamanhos proporcionais aos pesos wj, j = 1, . . . , k.

Em Marin et al. (2005) pode-se ver uma revisao desta modelagem e exemplos de

dados aos quais se aplica esta abordagem, como os dados de peso de militares recrutados

na Franca, que apresentam um comportamento bimodal de acordo com seu lugar de

origem. Assim, cada peso yi e proveniente a priori da densidade f1 ou f2, em que f1 esta

modelando os pesos dos homens das planıcies e f2 os pesos dos homens das montanhas,

com probabilidades w1 e w2 = 1 − w1. Note que a diferenca fundamental entre uma

regressao simples usando o lugar de origem como covariavel, para um modelo de mistura

deste tipo, e que as observacoes sao coletadas indiscriminadamente para toda a populacao,

ou seja, nao se conhece o lugar de origem de todos os militares, apenas supoe-se a priori

62

que a variavel resposta (peso) e influenciada por fatores (origem) que podem ou nao

ser conhecidos. Logo, a estrutura de mistura e cabıvel neste caso devido a perda de

informacao sobre a origem de cada homem.

A funcao de verossimilhanca de um modelo de mistura com k componentes, para uma

amostra y = (y1, . . . , yn)′ e dada por:

[y | w,φ] =n∏i=1

k∑j=1

wjf(yi | φj), (4.2)

onde φ = (φ1, . . . ,φk)′ e w = (w1, . . . , wk)

′. Esta funcao tem uma forma complexa

pois envolve uma expansao em kn termos, o que torna computacionalmente custoso o

desenvolvimento de estimadores de maxima verossimilhanca, ou no contexto Bayesiano,

a obtencao da distribuicao a posteriori do vetor parametrico.

Como uma alternativa a este problema, a estrutura oculta e explorada para facilitar o

procedimento de estimacao dos parametros. Utilizando o fato de que, para todo o vetor

aleatorio Y, proveniente de um modelo com mistura de distribuicoes com k componentes,

e possıvel associar uma variavel latente Z, de dimensao n, que indica a componente da

qual a observacao Yi e proveniente, isto e Zi = j, se a unidade i e proveniente da

componente j, i = 1, . . . , n, j = 1, . . . , k.

O vetor de dados observados em conjunto com as variaveis latentes produz mais

informacao para o modelo e passa a ser chamado de dados aumentados. Segundo Tanner

(1993), o objetivo de aumentar os dados e simplificar a forma analıtica da funcao de

verossimilhanca, condicionando-os a variavel latente. Condicional a Z = (Z1, . . . , Zn)′,

a funcao de verossimilhanca em (4.2) passa a ser escrita em termos de produtorios de

densidades simples, da forma:

[y | Z,w,φ] =k∏j=1

∏i:Zi=j

f(yi | φj),

tal que Zi’s sao supostamente independentes, com funcao de probabilidade dada por

P (Zi = j) = wj,

para j = 1, . . . , k e i = 1, . . . , n. Ao integrar sobre as variaveis latentes Z, retorna-se a

expressao em (4.1).

63

Finalmente, estimar o numero de componentes de mistura e uma questao importante

e complexa. Ao atribuir um numero menor que o necessario, o modelo nao consegue

capturar a verdadeira estrutura dos dados. Por outro lado, se esse numero for superior

ao ideal, o modelo torna-se menos parcimonioso e atribui massa de probabilidade

desnecessaria em algumas regioes do espaco e, consequentemente, a densidade fica

subestimada e nao identificavel.

4.1.1 Inferencia Bayesiana em modelos de mistura

Abordagens Bayesianas para inferencia em modelos de mistura tem despertado grande

interesse entre pesquisadores. Alem de permitir a inclusao de conhecimento a priori sobre

os parametros do modelo na analise, diminui a complexidade do modelo decompondo-o

em estruturas mais simples. Segundo Richardson e Green (1997) o paradigma Bayesiano

e o mais adequado ao contexto de misturas, principalmente quando o numero de

componentes e desconhecido e deve ser estimado.

No contexto Bayesiano o modelo de mistura deve ser completado com uma distribuicao

a priori para o vetor parametrico Θ = (k,w,φ). Como pode ser visto em Richardson

e Green (1997), supondo independencia a priori e que [φ | Z,w, k] = [φ | k] e [y |

φ,Z,w, k] = [y | φ,Z] a distribuicao conjunta das variaveis do modelo e dada por:

[k,w,Z,φ,y] = [k][w | k][Z | w, k][φ | k][y | φ,Z].

Para completa flexibilidade, atribuem-se aos hiperparametros da distribuicao a priori

tambem distribuicoes a priori independentes.

4.1.1.1 Identificabilidade do modelo

Uma caracterıstica importante de um modelo de mistura e que este apresenta-se

invariante sob permutacoes dos ındices dos seus componentes. Isto implica que os

parametros φi nao sao marginalmente identificaveis, ou seja a partir da funcao de

verossimilhanca nao e possıvel distinguir por exemplo φi de φj, para i 6= j. Nesta classe

de modelos, esta identificabilidade e tratada na realizacao da inferencia Bayesiana.

64

Primeiramente, note que se (φ1, . . . , φk)′ e maximo local, logo qualquer permutacao

dentro deste vetor tambem o e, portanto existem “k!” modas. Alem disso, se e utilizada

uma distribuicao a priori para φ permutavel, todas as condicionais completas sao

identicas para todas as componentes, entao a distribuicao a posteriori para φ se apresenta

multimodal o que dificulta a analise e interpretacao dos resultados. Considere por

exemplo, uma populacao constituıda de duas distribuicoes Normais, inequivocamente

rotuladas. A distribuicao a posteriori das duas medias irao se sobrepor, mas a extensao

desta sobreposicao depende da separacao entre elas e do tamanho da amostra. Quando as

medias sao bem diferentes, o rotulo na distribuicao a posteriori ao ordenar suas medias

geralmente coincidem com a rotulagem da populacao. Mas, se a diferenca diminui, o

fenomeno conhecido como label switching tende a ocorrer.

Portanto, uma alternativa usada neste problema e a imposicao de um unico tipo

de rotulo para as componentes. Por exemplo, num caso de mistura de distribuicoes

normais, em que φj = (µj, σ2j ), tal que µj e σ2

j sao respectivamente a media e a variancia

da distribuicao para a componente j, pode-se identificar as componentes de acordo

com a ordem crescente da media. Desta forma, a distribuicao a priori conjunta e “k!

multiplicado pela distribuicao original com a restricao para identificabilidade imposta”.

Vale ressaltar que em alguns casos a melhor alternativa sera impor tal restricao na media,

outras vezes na variancia, outras ainda no peso, como pode ser visto em Richardson e

Green (1997).

4.1.1.2 Algoritmo MCMC para modelos de mistura supondo k desconhecido

Em geral, os metodos de MCMC sao utilizados para amostrar da distribuicao a

posteriori do vetor parametrico. Os metodos de MCMC inicialmente eram utilizados

apenas para problemas em que a distribuicao a posteriori tivesse uma densidade com

respeito a uma medida subjacente fixa e, portanto, nao podiam ser utilizados em casos,

como na mistura de distribuicoes, em que o tamanho do espaco parametrico e tambem

um parametro desconhecido. Alguns trabalhos na literatura surgiram propondo metodos

de MCMC para problemas de dimensao variante, entre elas a abordagem denominada

MCMC com saltos reversıveis (do ingles, Reversible Jump Markov Chain Monte Carlo,

65

RJMCMC) ganhou destaque. Proposto em Green (1995), o algoritmo RJMCMC e como

um algoritmo de Metropolis-Hastings que permite a movimentacao entre modelos que

possuem espacos parametricos de diferentes dimensoes.

Em particular, Richardson e Green (1997) desenvolveram uma metodologia Bayesiana

para estimacao em modelos de mistura com numero de componentes desconhecido usando

metodos de RJMCMC. O metodo e brevemente descrito a seguir.

Considere que temos os modelos M1, . . . ,Mm, em que o modelo Mj, j = 1, . . . ,m

e indexado pelo vetor parametrico Θj pertencente ao espaco parametrico Φj. Suponha

que a distribuicao a priori para (Θj,Mj) e dada pelo produto entre [Θj |Mj] e [Mj].

Para este estado corrente, propoe-se um movimento do modelo Mj para o modelo Ml,

tal que l = 1, . . . ,m, j 6= l com probabilidade pl|j. Como os espacos parametricos Θj e Θl

possuem dimensoes diferentes, e preciso completar um dos espacos com espacos artificiais

adequados, para criar assim uma bijecao entre eles. Isto e feito, em geral, aumentando

o espaco parametrico do modelo com menor dimensao. Ou seja, se dim(Θj) < dim(Θl),

gera-se um vetor aleatorio u, independente de Θj, de uma distribuicao q(u) de dimensao

igual a diferenca dim(Θl)−dim(Θj) e obtem-se Θl usando uma transformacao ϕ : j → l

definida por T (Θj,u) = Θl. Este movimento proposto e aceito com probabilidade igual

a min(1, A), tal que

A =[y | Θl,Ml]

[y | Θj,Mj]

[Θl | Ml]

[Θj | Mj]

[Ml]

[Mj]

pj|lpl|jq(u)

∣∣∣∣ ∂Θl

∂(Θj,u)

∣∣∣∣ , (4.3)

onde o ultimo termo e o Jacobiano da transformacao ϕ : j → l.

O movimento contrario, ou seja de Θl para Θj, supondo dim(Θj) < dim(Θl), e feito

usando a transformacao inversa, logo o valor proposto para u e determinıstico. Assim, o

movimento inverso e aceito com probabilidade min(1, A−1).

Em geral, as probabilidades pj|l sao construıdas de forma que qualquer um dos

movimentos tenham a mesma probabilidade de serem propostos, a nao ser que no passo

corrente o valor de k seja 1 ou kmax, em que kmax e o maior valor que k pode assumir a

priori. Se k = 1 nao seria possıvel excluir alguma componente e diminuir a dimensao do

66

espaco parametrico, e se k = kmax nao seria possıvel incluir alguma. Nesses casos, entao

so e possıvel propor um dos dois movimentos.

Richardson e Green (1997) apresentam o metodo de inferencia RJMCMC para um

modelo de mistura normal. Restritos a uma vizinhanca de modelos Ml e Mp, tais que

dim(Θl) = k + 1 e dim(Θp) = k − 1, Richardson e Green (1997) utilizam o algoritmo

RJMCMC com os movimentos de “divisao”/ “combinacao” e “inclusao”/ “exclusao”

para estimar o valor de k. A parte de “inclusao”/ “exclusao” e inicialmente usada no

metodo, com o objetivo de tratar de amostras finitas que nao apresentem observacoes de

todos os grupos da populacao.

A proposta de “inclusao” consiste em adicionar uma nova componente j∗ vazia na

mistura, com novos parametros (wj∗ , φj∗) gerados de distribuicoes propostas. Alem disso,

os pesos devem ser reescalados para somar 1, fazendo w′j = wj(1 − wj∗), para todo j′.

A proposta de “exclusao” consiste em remover uma componente vazia da mistura e

reescalar os pesos para somar 1, fazendo w′j =wj

1−wj∗. Estes passos sao aceitos ou nao

com probabilidade dadas respectivamente por min(1, A) e min(1, A−1), para A como

descrito em (4.3).

Para evitar problemas de alta taxa de rejeicao da proposta “inclusao” sob distribuicao

a priori nao informativas, Richardson e Green (1997) propoem ainda o uso de movimentos

do tipo “divisao”/ “combinacao” de componentes existentes. No movimento de

“divisao”propoe-se a passagem de um modelo Mj de dimensao k para um modelo Ml

de dimensao k + 1 da seguinte forma: escolhe-se aleatoriamente uma componente de

mistura indexada por j∗ e propoe-se a divisao desta unica em um par (j1, j2). Neste caso,

e necessario alem de realocar as observacoes Yi tais que zi = j∗ em zi = j1 e zi = j2,

definir os novos valores de (wj1 , wj2 ,φj1 ,φj2)′. Estas componentes devem ser adjacentes

em relacao aos valores de φ, por conta da identificabilidade do modelo, como ja discutido

anteriormente. Por outro lado, ao propor o movimento de Mj para Mp, precisa-se

diminuir a dimensao do espaco parametrico correspondente em 1 unidade. De forma

analoga, isto e feito a partir da escolha aleatoria de um par de componentes de mistura

indexados por (j1, j2) e propondo a combinacao deste par em uma unica componente j∗.

Este movimento e chamado de “combinacao”.

67

A probabilidade de aceitacao das propostas “divisao” e “combinacao” tambem sao

dadas, respectivamente por min(1, A) e min(1, A−1), para A dado em (4.3).

A inferencia prossegue usando MCMC para amostrar da distribuicao a posteriori dos

parametros. Em Richardson e Green (1997) podem ser vistos maiores detalhes sobre esta

metodologia, incluindo a elicitacao da distribuicao a priori para o vetor parametrico, a

eficiencia dos passos do RJMCMC para modelos de mistura e uma aplicacao a dados

reais.

Dentre os aspectos observados no uso do RJMCMC para estimacao em modelos de

mistura normais, em Richardson e Green (1997) destaca-se o fenomeno conhecido como

label switching. Este comportamento pode ocorrer mesmo que a restricao no rotulo dos

parametros seja imposta na distribuicao a priori e caracteriza-se pela invariancia da

funcao de verossimilhanca sob nova rotulagem das componentes da mistura, conduzindo

a uma distribuicao a posteriori dos parametros sendo altamente simetrica e multimodal,

dificultando assim sua sumarizacao.

O modelo proposto neste trabalho e um modelo de mistura de distribuicoes de Poisson.

Na literatura, o trabalho de Viallefont et al. (2002) e um dos que usam esta classe de

modelos. No entanto, vale ressaltar que em todos os modelos citados supoe-se que o plano

amostral e nao informativo e, portanto, a forma de selecao da amostra nao contribui

para a funcao de verossimilhanca do modelo. Com esse objetivo, na proxima secao

sera proposto um modelo de superpopulacao de mistura, aplicavel a populacoes raras e

agrupadas, para dados coletados por amostragem adaptativa por conglomerados.

4.2 Modelo de mistura Poisson proposto

O modelo proposto a seguir pode ser aplicado a populacoes raras e agrupadas,

dispostas sobre uma grade regular, sob o enfoque Bayesiano. Tal modelo apresenta-

se como uma alternativa mais flexıvel ao modelo agregado, pois usa como unidade de

analise as proprias unidades da grade e supoe heterogeneidade entre as redes, e assim

tambem nao necessariamente redes maiores devem ter mais observacoes, ou vice-versa.

Alem disso, tratar a modelagem no nıvel da unidade primaria, permitiria incorporar

68

estruturas na media que supoem heterogeneidade para unidades dentro de uma mesma

rede. Por enquanto, o interesse esta apenas no primeiro caso.

Diferentemente dos modelos de mistura anteriormente apresentados, como o de

Viallefont et al. (2002), o modelo proposto e ajustado a dados obtidos sob um plano

amostral informativo, logo deve-se incluir a probabilidade de selecao da amostra na funcao

de verossimilhanca e, alem disso, as interpretacoes das variaveis mudam com relacao aos

problemas comuns de mistura. Em geral, o objetivo, ao ajustar um modelo de mistura,

e fazer inferencia acerca de: k, φj, wj, para j = 1, . . . , k, no entanto, neste caso, como

se trata de um modelo de superpopulacao, o vetor parametrico do modelo e composto

tambem por partes das variaveis que nao foram observadas e o principal objetivo e fazer

previsao. O modelo proposto e descrito a seguir.

Considere uma populacao rara com N unidades, das quais X apresentam uma

caracterıstica de interesse, ou seja sao unidades nao-vazias e estao divididas em R redes

nao-vazias. Logo, tem-se N − X redes vazias. Seja Yi a contagem deste determinado

fenomeno de interesse na unidade nao-vazia i, i = 1, . . . , X, logo Yi ≥ 1. Como se tratam

de populacoes raras, ou seja, cujo numero de unidades vazias e extremamente alto, assim

como Rapley e Welsh (2008), vamos modelar apenas as unidades nao-vazias da grade.

Suponha que a rede j nao-vazia e composta por Cj unidades primarias, j = 1, . . . , R. Para

facilitar o procedimento de inferencia, e natural definir uma variavel aleatoria latente de

alocacao εi, supostamente independentes para todo i e tais que P (εi = j) = wj = Cj/X,

j = 1, . . . , R. Dado o valor da variavel εi, as contagens Yi nas redes nao-vazias seguem

uma distribuicao de Poisson truncada em 0 independente, cuja media se altera de acordo

com a rede a qual pertence. O modelo, para j = 1, . . . , R, pode ser escrito da seguinte

forma:

69

Yi | εi = j, λj, X ∼ Poisson Truncada independente(λj), Yi ≥ 1, (4.4a)

P (εi = j) = wj = Cj/X, (4.4b)

λ | θ ∼ [. | θ, R], (4.4c)

C | X,R ∼ 1R + Multinomial (X −R, 1

R1R),

R∑i=1

Ci = X, (4.4d)

R | X, β ∼ Binomial Truncada (X, β), R = 1, . . . , X, (4.4e)

X | α ∼ Binomial Truncada (N,α), X = 1, . . . , N, (4.4f)

em que [. | θ, R] representa a distribuicao a priori de λ = (λ1, . . . , λR)′, a qual

depende do numero de grupos R e de um vetor de hiperparametros θ. Lembrando que

esta distribuicao deve satisfazer alguma restricao no ındice, devido a identificabilidade

do modelo. Alem disso, os parametros α, β e θ podem ser desconhecidos e, portanto,

sao atribuıdas distribuicoes a priori independentes a estes tambem. Denote por [.] cada

uma destas distribuicoes.

Este modelo, somente aplicavel as X unidades nao-vazias de uma populacao,

apresenta a estrutura de uma mistura de probabilidades, cujas componentes sao as R

redes nao-vazias, supostamente heterogeneas, e seus pesos sao proporcionais ao numero de

unidades nas redes, Cj, j = 1, . . . , R. No entanto, o fato do modelo proposto ser ajustado

a dados provenientes de amostragem adaptativa por conglomerados cria uma grande

diferenca nas variaveis entre um modelo de mistura comum e este modelo proposto. Num

modelo de mistura, a amostra selecionada somente traz informacoes acerca da variavel

Y ; por exemplo, nao e possıvel saber a qual grupo a unidade i observada pertence, pois

isto e uma divisao artificial. No entanto, neste modelo, a amostragem por conglomerados

adaptativos traz informacoes acerca de todas as variaveis. Ao coletar-se uma amostra

adaptativa, alem de observar a variavel Y para as unidades amostradas, sabe-se as redes

as quais elas pertencem e o tamanho desta rede, pois de acordo com este plano amostral

se uma unidade nao-vazia e selecionada aleatoriamente, toda a rede e observada.

Dessa forma, e adequado dividir as variaveis indicando pelo ındice s a parte observada

e por s a parte nao observada. Sejam entao X = Xs + Xs, R = Rs + Rs, ε = (ε′s, ε′s)′,

70

C = (C′s,C′s)′, Y = (Y′s,Y

′s)′. Neste caso, o objetivo esta em nao somente estimar os

parametros do modelo com base numa amostra, mas tambem fazer previsao das partes

nao-observadas. O objetivo final e prever o total populacional T =X∑i=1

Yi.

Finalmente, como o modelo aplica-se a dados coletados de forma adaptativa e este

planejamento amostral e nao-ignoravel, a probabilidade de selecao deve ser acrescentada

a funcao de verossimilhanca completa, de forma a trazer mais informacoes ao processo

de estimacao dos parametros. Como no modelo (3.1), a probabilidade de selecao de uma

particular amostra s = i1, . . . , im, composta por m redes, e dada por:

[s | X,R,C] =m∏l=1

Zil × gil,l∑N−X+Ri=1 Zi −

∑j−1k=0 Zik

, (4.5)

onde gil,l e o numero de redes de tamanho Zil que restam apos a selecao de j − 1 redes e

Zi0 = 0. O vetor Z e construıdo de forma a ter os tamanhos de todas as redes vazias e

nao-vazias, ou seja Z = (C′,1′X−R)′.

A funcao de verossimilhanca completa e dada por:

[s,X,R, ε,C,Y | λ, α, β] = [s | X,R,C][Y | ε,λ, X][ε | C, R,X]

× [C | R,X][R | X, β][X | α]

=m∏l=1

zil × gil,l∑N−X+Ri=1 zi −

∑j−1k=0 Zik

×Rs+Rs∏j=1

∏i:εi=j

λYij exp(−λj)Yi![1− exp(−λj)]

× 1

(Xs +Xs)Xs+Xs

Rs+Rs∏j=1

CCjj × (Xs +Xs −Rs −Rs)!

Rs+Rs∏j=1

1

(Cj − 1)!

(1

Rs +Rs

)Cj−1

×

Xs +Xs

Rs +Rs

βRs+Rs(1− β)Xs+Xs−Rs−Rs

1− (1− β)Xs+Xs×

N

Xs +Xs

αXs+Xs(1− α)N−Xs−Xs

1− (1− α)N.

A funcao de verossimilhanca marginal e obtida da seguinte forma:

[Xs, Rs, εs,Cs,Ys | λ, α, β] =∑

Ys,Cs,εs,Rs,Xs

[s,X,R, ε,C,Y | λ, α, β]

=∑

Ys,Cs,εs,Rs,Xs

[s,X,R,C | α, β][Y | ε,λ, X].

71

4.2.1 Distribuicao a priori para λ

Segundo Richardson e Green (1997) usar distribuicao a priori completamente nao

informativa e gerar distribuicao a posteriori propria nao e possıvel em modelos de mistura.

Como existem componentes da mistura que nao apresentam observacoes na amostra,

distribuicoes a priori independentes improprias e nao informativas nao podem ser usadas.

A alternativa neste caso e manter-se com a estrutura de independencia a priori usando

distribuicoes pouco informativas, as quais podem ou nao depender dos dados observados,

o que pode ser feito, por exemplo, inserindo estruturas a priori para os hiperparametros.

Por outro lado, existe uma relacao direta entre a distribuicao a priori de λ e a

distribuicao a posteriori de R. Uma sugestao neste caso e considerar distribuicoes a

priori dependentes para λ, de forma a modelar a distancia entre λjs consecutivos. Esta

distribuicao a priori foi introduzida por Roeder e Wasserman (1997) para misturas de

normais e e muito utilizada quando deseja-se ser nao informativo.

Note que, neste caso, o vetor λ pode ser definido como λ = (λ′s,λ′s)′, em que λs

refere-se a parte associada as redes observadas na amostra, para o qual espera-se obter

melhores resultados, e λs refere-se a parte associada as variaveis nao observadas. A fim

de garantir a identificabilidade, sera imposta sobre a distribuicao a priori de λ alguma

restricao sobre o ındice dos parametros. Mas esta restricao e necessaria apenas aos

elementos de λ que estao associadas as redes nao amostradas, ou seja a λs.

Com base nestas ideias serao utilizados dois tipos de distribuicoes a priori para o

parametro λ em (4.4c), as quais estao descritas a seguir.

4.2.1.1 Distribuicao a priori independente

Primeiramente, sera considerada a independencia entre os λj’s, tal que a distribuicao

conjunta de λ e dada por:

[λ | θ, R] = Rs![λ1 | θ] . . . [λR | θ], tal que λj < λj+1, para todo j ∈ [Rs + 1, Rs +Rs).

Em particular, sera considerado, que

λj ∼ Gama(d, ν), j = 1, . . . , R, para θ = (d, ν)

72

e introduz-se um nıvel hierarquico adicional assumindo que ν ∼ Gama(e, f).

Gelman (2006) apresenta formas de elicitar a priori esta distribuicao Gama. Uma

forma usual de ser nao informativo e escolher valores pequenos para seus dois parametros,

como 0.01. No entanto, deve-se evitar distribuicoes que tenham altas massas de

probabilidade no zero, o que pode incluir componentes com medias pequenas, tornando

difıcil estimar o modelo de mistura.

Viallefont et al. (2002) relatam uma sensibilidade da distribuicao a posteriori de

outros parametros do modelo de mistura Poisson de acordo com a escolha dos parametros

da Gama. Foi usada entao uma distribuicao a priori pouco informativa descrita em

Viallefont et al. (2002). Para d escolhe-se um valor maior que 1, por exemplo 1.1, pois

isso permite evitar a forma exponencial da distribuicao sem reduzir muito o coeficiente

de variacao (CV). Para o parametro ν escolhe-se e e f a priori tal que a aproximacao

a media de λj, d/(e/f) seja igual ao ponto medio das observacoes com variancia e/f 2

controlada.

4.2.1.2 Distribuicao a priori dependente

Esta distribuicao leva em conta a informacao da distancia entre dois parametros da

Poisson para duas componentes que sao consecutivas em termos dos valores de λj. Neste

caso o hiperparametro θ em (4.4c) e igual a uma constante positiva τ e a distribuicao a

priori conjunta para λ e dada por:

[λ | τ 2, R] = [λR | λR−1, τ2][λR−1 | λR−2, τ

2] . . . [λ1],

onde [λj | λj−1, τ2] e N(λj−1,∞)(λj−1, τ

2), que denota a densidade de uma Normal centrada

em λj−1 com variancia τ 2, truncada para ser maior que λj−1 e [λ1] ∝ 1, o que garante a

identificabilidade do modelo. Esta distribuicao indica baixa probabilidade a priori que

duas redes vizinhas sejam mais distantes que τ desvio padroes.

Segundo Viallefont et al. (2002) uma vantagem deste modelo e que o hiperparametro

τ 2, o qual controla a distancia entre as medias de duas componentes e sua variabilidade,

e explıcito, e controla o numero de grupos. Eles discutem as dificuldades de elicitar τ 2 e

a influencia deste hiperparametro na distribuicao a posteriori do vetor parametrico, em

73

especial na de R. Por exemplo, se τ 2 e pequeno quando comparado a verdadeira distancia

entre dois λjs consecutivos, ha uma tendencia em ajustar componentes intermediarios

entre os verdadeiros e assim obter uma distribuicao a posteriori favorecendo valores

mais altos para R. Baseado num estudo de simulacao, Roeder e Wasserman (1997)

recomendam assumir τ = 5, pois esta escolha resulta em resultados razoaveis.

O modelo proposto (4.4) e um modelo de superpopulacao e seu ajuste depende

da estimacao de parametros e previsao de quantidades populacionais que nao foram

observadas na amostra. Alem disso, tal modelo aplica-se a cenarios com populacoes

que podem ser extremamente raras e agrupadas. Logo, para um tamanho de amostra

relativamente pequeno, podem ser selecionadas amostras com poucas unidades nao-

vazias e pouco representativas, o que deve produzir estimativas inadequadas para o total

populacional. Para estes casos, recomenda-se elicitar distribuicoes a priori informativas.

4.2.2 Inferencia para o modelo

Como o modelo e descrito por um vetor parametrico Θ = (Xs, Rs, εs,Cs,Ys, α, β,λ)

de dimensao desconhecida, o algoritmo RJMCMC sera tambem utilizado neste caso,

como apresentado na Secao 4.1.1.2 para modelos normais. Basicamente o procedimento

de estimacao consiste dos seguintes passos:

(1) atualizacao de α, β, θ e λ;

(2) atualizacao das variaveis nao observadas Xs e Ys;

(3) atualizacao da alocacao εs e diretamente Cs e atualizado;

(4) proposta de “divisao” de uma rede em duas ou “combinacao” de duas redes em

uma.

As distribuicoes condicionais completas podem ser vistas no Apendice B. Sera descrito

a seguir com detalhes o passo (4).

De forma analoga ao procedimento de inferencia descrito em Viallefont et al. (2002),

serao utilizados os momentos de ordem zero e primeira ordem na proposta de “divisao”

de uma componente da mistura j∗ em duas novas j1 e j2, mas como a distribuicao da

74

variavel Yi, i = 1, . . . , X e Poisson Truncada, diferentemente de Viallefont et al. (2002),

o momento de primeira ordem nao e λj, j = 1, . . . , R, e sim λ′j = λj/1− exp(−λj).

Logo, os parametros propostos satisfazem as seguintes equacoes:

wj∗ = wj1 + wj2 ,

wj∗λ′j∗ = wj1λ

′j1

+ wj2λ′j2,

tal que λ′j−1 < λ′j1 < λ′j2 < λ′j+1, devido a questoes de identificabilidade do modelo.

Mas, para valores de λj razoavelmente grandes, λj e λ′j se aproximam, como podemos

ver na Figura 4.1, logo nestes casos as equacoes acima podem ser escritas em funcao

dos λj’s. Por outro lado, para os casos em que esta aproximacao nao e valida, a

solucao e estimar λ′j, e quando necessario expressar λj em funcao de λ′j, como na

funcao de verossimilhanca, uma aproximacao numerica faz-se util como, por exemplo,

a aproximacao de Taylor. Isto porque esta funcao, apesar de ser inversıvel, envolve um

polinomio com uma exponencial, para a qual, em geral, e impossıvel obter uma solucao

analıtica exata. Neste trabalho, utilizamos a aproximacao pela propria funcao identidade

em todos os exemplos, pois sao estudados casos em que λj e razoavelmente grande.

λ

0 1 2 3 4 5 6 7

01

23

45

67 λ

λ1 − exp(− λ)

Figura 4.1: Comparacao das medias da distribuicao de Poisson e Poisson truncada no

zero.

Para determinar os parametros associados a estas novas componentes, basta resolver

o sistema de equacoes anterior. Mas, como tem-se um sistema com 4 incognitas e 2

equacoes, para resolve-lo e preciso completa-lo gerando um vetor aleatorio u = (u1, u2).

Viallefont et al. (2002) consideram 3 formas diferentes de fazer isso, as quais baseiam-se

75

em diferentes intuicoes de como induzir a positividade dos parametros da Poisson. Neste

trabalho, sera utilizada apenas uma destas, a qual baseia-se em adicao de vizinhos de λj∗

dependentes e esta descrita a seguir.

Sao geradas duas variaveis auxiliares u1 ∼ U(0, 1) e u2 ∼ U(0, 1) e entao define-se as

seguintes transformacoes determinısticas:

wj1 = wj∗u1, wj2 = wj∗(1− u1),

λj1 = λj∗ − ρu2(1− u1), λj2 = λj∗ + ρu2u1,

onde

ρ =

min(λj∗ − λj∗−1)/(1− u1), (λj∗+1 − λj∗)/u1, 1 < j∗ < Rs,

minλ1/(1− u1), (λ2 − λ1)/u1, 1 = j∗ < Rs,

(λj∗ − λj∗−1)/(1− u1), 1 < j∗ = Rs,

λ1/(1− u1), 1 = j∗ = Rs.

No Apendice B e apresentada a expressao da probabilidade de aceitacao do movimento

descrito.

4.2.2.1 Diagnostico de convergencia

Para verificar que a convergencia e atingida no ajuste do modelo serao apresentados

histogramas com a distribuicao a posteriori dos parametros e medidas que avaliam a

convergencia propostas por Geweke (1992) e Raftery e Lewis (1992). A primeira medida

baseia-se em um teste de igualdade das medias da primeira e ultima partes da cadeia de

Markov. Se as amostras sao resultantes de uma distribuicao estacionaria, as duas medias

devem ser iguais e a estatıstica de teste tem assintoticamente uma distribuicao Normal

padrao. A outra medida verifica a independencia entre os valores gerados para a cadeia

baseado num fator de dependencia, se este for maior que 5 pode-se dizer que existe forte

autocorrelacao entre os valores da cadeia.

A fim de examinar o desempenho do modelo em (4.4), foram analisadas amostras da

distribuicao a posteriori dos parametros. Para isso, gerou-se uma populacao artificial em

uma grade regular de tamanho N = 400 para α = 0.15 e β = 0.1 fixados. Os valores

76

de λ foram gerados aleatoriamente de uma distribuicao Gama centrada em 8.5 com CV

fixado em 95%. Como o CV de uma distribuicao Gama(d,ν) e dado por 1/√d, sob

estas condicoes tem-se d = 1.1 e ν = 0.13. Foi selecionada uma amostra adaptativa por

conglomerados com tamanho inicial 5%N e, em particular, a populacao gerada apresenta

R = 8 redes e as redes observadas na amostra sao s = 2, 4, 7, de acordo com a ordem

crescente de λ.

Assumindo que os parametros α, β e λ sao independentes a priori considerou-

se a priori que α ∼ Beta(3, 15) e β ∼ Beta(1, 9). Estas distribuicoes, apesar de

informativas, neste caso estao trazendo o mınimo de informacao necessaria para aplicacao

deste modelo complexo, ou seja que a populacao e rara e agrupada. Isto porque, como

visto no Capıtulo 3, α e β sao parametros relacionados ao numero de celulas nao-vazias

e redes nao-vazias. Para λ foram consideradas as duas distribuicoes a priori citadas

na Secao 4.2.1, i.e. : (i) λj | ν ∼ Gama(d, ν), para j = 1, . . . , R, independentes; (ii)

λj | λj−1 ∼ N(λj−1,∞)(λj−1, τ2), para j = 1, . . . , R. Para a segunda distribuicao de λ

assumiu-se τ = 5, que e uma das sugestoes de Roeder e Wasserman (1997).

Para a obtencao de amostras da distribuicao a posteriori do vetor parametrico

Θ = (Xs, Rs, εs,Cs,Ys, α, β,λ, ν) e necessario o uso de metodos de simulacao estocastica,

em particular como a dimensao de Θ e tambem um parametro, utiliza-se o metodo

de RJMCMC, como descrito na Secao 4.2.2, com passos de Metropolis-Hastings e

Amostrador de Gibbs. Foram geradas 200.000 amostras, sendo as 10.000 primeiras

descartadas como aquecimento e amostras de 190 em 190 foram tomadas, a fim de obter-

se 1.000 amostras independentes resultantes.

A Tabela 4.1 apresenta o valor da estatıstica de teste de Geweke e do fator de

dependencia do criterio de Raftery-Lewis. Todos os resultados mostram a convergencia

das cadeias e a ausencia de forte autocorrelacao.

Nas Figuras 4.2 e 4.3 estao os histogramas com as densidades a posteriori para

os parametros α, β, ν, λ e o total populacional T , supondo distribuicao a priori

para λ independente e dependente, respetivamente. O respectivo valor verdadeiro

esta representado pela linha cheia e intervalo HPD de 95% pela linha pontilhada. A

77

Tabela 4.1: Analise da convergencia das cadeias a posteriori dos parametros do modelo

proposto supondo distribuicao a priori independente e dependente para λ para uma

populacao artificial.

α β ν T λ1 λ2 λ3 λ4 λ5 λ6 λ7 λ8

Gewekeindep. 0.7 -0.4 -1.6 0.4 1.4 -1.3 1.4 -0.4 1.5 1.5 1.2 1.5

dep. -1.1 0.4 - -0.8 -0.3 -1.0 1.2 1.0 0.6 -0.4 -1.0 1.2

R-Lindep. 1.3 1.1 1.1 1.8 0.9 1.0 1.0 1.0 0.9 1.0 1.1 1.1

dep. 2.5 1.1 - 3.2 0.9 1.0 1.0 1.1 1.0 0.9 1.4 1.0

distribuicao a posteriori de λj para j ∈ s apresentada e condicional as amostras em que

R e estimado como o valor verdadeiro.

Note que a maioria dos parametros sao bem estimados sob as duas distribuicoes a

priori, com maior densidade a posteriori em torno do valor verdadeiro e o mesmo contido

no intervalo HPD de 95%. O parametro populacional β apresenta um pequeno vies,

mas em todos os casos ainda contido no intervalo HPD de 95%. Alguns λj’s para j ∈ s

apresentam um comportamento bimodal e baixa precisao, um comportamento que pode

ser esperado em modelos de mistura. Neste caso esta bimodalidade nao influenciou na

convergencia dos outros parametros e principalmente do total T , portanto nao afetou o

desempenho do modelo.

Por outro lado, λj’s para j ∈ s apresentam estimativas melhores, o que tambem era

esperado ja que existem informacoes adicionais com respeito as redes amostradas.

78

α

Den

sida

de

0.05 0.10 0.15 0.20

04

812

βD

ensi

dade

0.0 0.1 0.2 0.3 0.4

02

46

8

ν

Den

sida

de

0.0 0.1 0.2 0.3 0.4

02

46

T

Den

sida

de

200 400 600 800

0.00

00.

002

λ1

Den

sida

de

0 5 10 15 20

0.00

0.10

0.20

λ2

Den

sida

de

2 3 4 5 6 7 8

0.0

0.2

0.4

λ3

Den

sida

de0 5 10 15 20 25

0.00

0.10

λ4

Den

sida

de

4 5 6 7 8 9 10

0.0

0.2

0.4

λ5

Den

sida

de

0 10 20 30 40

0.00

0.06

0.12

λ6

Den

sida

de

0 5 10 15 20

0.00

0.10

0.20

λ7

Den

sida

de

8 9 11 13

0.0

0.1

0.2

0.3

λ8

Den

sida

de

0.00

0.10

0 5 10 15 20 25

Figura 4.2: Densidade a posteriori para alguns parametros do modelo proposto e para o

total populacional T com base em um dado artificial supondo distribuicao a priori para

λ independente. A linha vertical cheia representa o valor verdadeiro e a linha pontilhada

o intervalo HPD de 95%.

79

α

Den

sida

de

0.05 0.15 0.25

02

46

812

βD

ensi

dade

0.0 0.2 0.4 0.6

01

23

4

T

Den

sida

de

200 400 600 800

0.00

00.

002

λ1

Den

sida

de

0 5 10 15

0.00

0.10

0.20

λ2

Den

sida

de

2 4 6 8 10 12

0.00

0.15

0.30

λ3

Den

sida

de

0 5 10 15 20

0.00

0.10

0.20

λ4

Den

sida

de4 6 8 10 14

0.0

0.1

0.2

0.3

λ5

Den

sida

de

5 10 15 20

0.00

0.10

0.20

λ6

Den

sida

de

0 5 10 15

0.00

0.10

0.20

λ7

Den

sida

de

8 10 12 14 16

0.00

0.15

0.30

λ8

Den

sida

de

0 5 10 15 20

0.00

0.10

0.20

Figura 4.3: Densidade a posteriori para alguns parametros do modelo proposto e para o

total populacional T com base em um dado artificial supondo distribuicao a priori para

λ dependente. A linha vertical cheia representa o valor verdadeiro e a linha pontilhada

o intervalo HPD de 95%.

4.3 Estudo simulado

Para examinar o desempenho da metodologia proposta e a influencia da distribuicao a

priori nos resultados, foram feitos alguns estudos de simulacao sob repetidas populacoes.

O objetivo e verificar o desempenho do modelo para diferentes cenarios que possam

existir.

80

4.3.1 Considerando diferentes configuracoes

Foram geradas 500 populacoes considerando diferentes configuracoes para alguns

parametros variando os valores de N , R e X, assim como o nıvel de homogeneidade/

heterogeneidade da populacao. Primeiramente, N foi fixado em 200, 400 e 600, e para

cada um destes valores, os valores de α e β foram fixados, com o objetivo de criar

diferentes populacoes raras e agrupadas e variar R e X na simulacao. Em particular,

as populacoes foram simuladas para 4 pares de (α, β) com α, β ∈ 0.1, 0.15. Portanto

neste estudo sao apresentados resultados para 12 diferentes configuracoes. Neste caso,

foi considerada para λ apenas a distribuicao a priori independente, portanto, para cada

populacao λ foi gerado a partir de uma distribuicao Gama com d = 1.1 e ν = 0.13, o

que produz um CV igual a 95%. Desta maneira, estes valores fixados permitem gerar

populacoes raras e agrupadas com redes heterogeneas entre si. Finalmente, uma amostra

adaptativa foi selecionada de cada populacao, com primeiro estagio caracterizado por

uma amostra aleatoria simples sem reposicao de tamanho 5%N .

As Tabelas 4.2, 4.3 e 4.4 mostram um sumario com algumas propriedades frequentistas

da distribuicao a posteriori dos parametros do modelo proposto apos a convergencia,

para cada configuracao testada. Sao apresentados o EQMR, o EAR, a probabilidade de

cobertura (em porcentagem) dos intervalos HPD de 95%, com sua respectiva amplitude

media ao longo das 500 simulacoes. Em particular, as amplitudes dos intervalos para

T e para λs e λs estao relativizadas com relacao ao valor verdadeiro. Os resultados

para λj’s estao sumarizados em relacao a λs e λs, pois na simulacao o valor de R nao

foi fixado, R foi gerado de sua distribuicao, condicional ao valor de β, portanto para

cada populacao foi simulado um valor de R distinto, o que impede a apresentacao de

propriedades frequentistas para cada λj separadamente.

No geral, e possıvel observar que os parametros sao bem estimados. A cobertura

dos intervalos de 95% e proxima do nıvel nominal desejado. O EQMR e o EAR sao

pequenos para a maior parte dos parametros, exceto para β em alguns casos especıficos.

Entretanto, este fato nao tem um impacto significante na previsao de T , o qual e o maior

81

interesse deste trabalho. Como esperado, os resultados para λj, para j ∈ s mostram

erros menores e maior precisao do que para para j ∈ s.

A medida que o valor de N cresce, o EQMR e o EAR da maioria dos parametros

diminui. Isto ocorre porque nestes casos existe um maior numero de redes nao-vazias

do que para um valor menor de N , melhorando assim as estimativas de α e β, e

consequentemente de outros parametros. Uma sugestao de melhoria nestes casos e o

aumento do tamanho da amostra. Por outro lado, pela mesma razao, para um valor fixo

de N , os erros diminuem para valores maiores de α e β.

Tabela 4.2: Sumario a posteriori da estimacao pontual e intervalar dos parametros do

modelo proposto e de T sob as 500 simulacoes, para diferentes valores de α, β e N = 200.

(α, β) = (0.10, 0.10) (α, β) = (0.10, 0.15)

T α β ν λs λs T α β ν λs λs

EQMR 0.21 0.38 0.53 0.56 0.03 0.29 0.22 0.29 0.29 0.39 0.03 0.28

RAE 0.35 0.17 0.25 0.60 0.12 0.46 0.36 0.16 0.35 0.47 0.13 0.45

Cob. 95.0 91.1 96.7 89.5 91.7 87.8 93.8 93.7 98.1 89.7 90.3 87.7

Ampl. 1.60 0.20 0.31 0.28 0.58 1.23 1.60 0.19 0.31 0.28 0.57 1.26

(α, β) = (0.15, 0.1) (α, β) = (0.15, 0.15)

EQMR 0.09 0.20 0.50 0.22 0.02 0.31 0.06 0.10 0.19 0.32 0.02 0.27

RAE 0.24 0.31 0.45 0.40 0.11 0.46 0.21 0.27 0.21 0.47 0.10 0.41

Cob. 94.6 90.9 97.1 90.2 93.6 89.1 97.3 97.0 98.5 90.5 94.1 89.8

Ampl. 1.22 0.19 0.21 0.22 0.50 1.33 1.24 0.20 0.23 0.21 0.56 1.51

82



(α, β) = (0.10, 0.10) (α, β) = (0.10, 0.15)


EQMR 0.06 0.15 0.42 0.14 0.02 0.29 0.05 0.08 0.15 0.10 0.02 0.31

RAE 0.21 0.32 0.35 0.28 0.10 0.43 0.20 0.23 0.29 0.21 0.12 0.43

Cob. 96.7 91.1 96.0 90.8 94.2 91.0 96.8 95.1 98.1 90.5 94.3 91.8

Ampl. 1.04 0.09 0.20 0.19 0.47 1.38 1.05 0.10 0.21 0.18 0.55 1.64

(α, β) = (0.15, 0.1) (α, β) = (0.15, 0.15)

EQMR 0.04 0.06 0.35 0.04 0.02 0.30 0.05 0.03 0.15 0.03 0.02 0.36

RAE 0.18 0.18 0.39 0.18 0.09 0.42 0.20 0.15 0.21 0.15 0.10 0.43

Cob. 93.4 91.2 96.9 96.7 94.2 93.9 92.4 97.0 98.7 96.5 93.5 95.6

Ampl. 0.79 0.11 0.15 0.14 0.45 1.43 0.77 0.11 0.16 0.13 0.51 1.77

83



(α, β) = (0.10, 0.10) (α, β) = (0.10, 0.15)


EQMR 0.04 0.05 0.25 0.10 0.02 0.32 0.05 0.03 0.11 0.09 0.02 0.35

RAE 0.17 0.17 0.28 0.12 0.09 0.42 0.20 0.14 0.26 0.11 0.11 0.42

Cob. 96.3 91.8 98.1 98.0 93.5 93.1 92.8 97.5 98.3 97.0 93.8 96.1

Ampl. 0.79 0.08 0.22 0.20 0.46 1.40 0.78 0.08 0.23 0.19 0.52 1.70

(α, β) = (0.15, 0.10) (α, β) = (0.15, 0.15)

EQMR 0.05 0.04 0.21 0.06 0.01 0.37 0.09 0.08 0.06 0.05 0.02 0.35

RAE 0.19 0.17 0.30 0.09 0.09 0.44 0.29 0.24 0.18 0.09 0.10 0.43

Cob. 90.4 91.1 98.7 98.9 95.3 96.0 90.0 90.5 98.8 98.4 95.5 96.8

Ampl. 0.78 0.08 0.17 0.18 0.43 1.49 0.53 0.08 0.20 0.17 0.53 1.79

Como mencionado acima, nao foi possıvel apresentar os resultados para cada λj pois

o valor de R nao foi fixado para as simulacoes e portanto a dimensao de λ varia em

cada simulacao. Portanto na Figura 4.4 e apresentado um diagrama boxplot com o erro

relativo (ER) para λs e λs para todas as redes e todas as populacoes, para diferentes

valores de α e β e para N = 400. Note que em todos os casos o ER esta em torno de

zero e o ER para λs e menor que para λs, como esperado. Alem disso λs e ligeiramente

subestimado com respeito a mediana da distribuicao a posteriori.

4.3.2 Considerando diferentes nıveis de heterogeneidade

As 500 populacoes usadas neste estudo de simulacao foram geradas para alguns valores

dos parametros fixados, em particular foi assumido que λj segue uma distribuicao Gama

com hiperparameros d = 1.1 e ν = 0.13. Como mencionado acima, com esses valores, esta

distribuicao Gama tem um CV de aproximadamente 95%, o que geraria populacoes com

redes heterogeneas, com respeito a media do numero de observacoes dentro das unidades

que as compoem. A partir de agora o interesse e avaliar o desempenho do modelo proposto

com respeito ao nıvel de homogeneidade e heterogeneidade da populacao. Para realizar

84

(α,β)=(0.1,0.1) (α,β)=(0.1,0.15) (α,β)=(0.15,0.1) (α,β)=(0.15,0.15)

−0.

40.

00.

20.

40.

6

ER

(a) RE - λs

(α,β)=(0.1,0.1) (α,β)=(0.1,0.15) (α,β)=(0.15,0.1) (α,β)=(0.15,0.15)

01

2

ER

(b) RE - λs

Figura 4.4: Erro relativo para λs e λs ao longo de 500 simulacoes, para N = 400 e

diferentes configuracoes de α e β.

esta analise geramos outros dois cenarios fixando o CV da distribuicao Gama de λ em

50% e 25% com media fixada em 8.5. Ao fixar o valor do CV em 50% obtem-se d = 4 e

ν = 0.47 e para CV igual a 25%, d = 16 e ν = 1.89.

A Figura 4.5 apresenta as curvas das distribuicoes de λj para cada um dos valores de

CV fixado nesta analise. Note que a medida que o CV diminui a distribuicao a priori

para λj se torna simetrica e mais concentrada em torno da media da distribuicao, e

portanto as redes se tornam mais homogeneas com respeito ao total de observacoes em

cada unidade.

λj

Den

sida

de

0 5 10 20 30

0.00

0.10

0.20

CV=95%CV=50%CV=25%

Figura 4.5: Distribuicao a priori para λj usada nas simulacoes variando o valor do CV

da distribuicao.

85

Desta forma, a analise apresentada a seguir e feita a partir de outras 500 populacoes

geradas fixando o CV da distribuicao de λj em 50% e outras 500 com CV fixado em 25%.

Em particular, esta simulacao foi feita apenas para o valor de N = 400 pois o interesse

neste era apenas verificar o desempenho do modelo variando o nıvel de homogeneidade.

Alem disso, de acordo com a Tabela 4.3 ja foi visto que este valor para N apresentou

resultados razoaveis segundo as propriedades frequentistas analisadas.

Na Tabela 4.5 e apresentado novamente um sumario com algumas propriedades

frequentistas dos estimadores obtidos a partir da distribuicao a posteriori para as 500

populacoes geradas com CV da distribuicao de λj fixada em 50% e 25%. Note que ainda

para casos mais homogeneos o modelo proposto em (4.4) tem um bom desempenho,

resultando em estimadores para todos os parametros com pequenos EQMR e EAR

e intervalos HPD de 95% com probabilidade de cobertura proxima do nıvel nominal

desejado.

Em particular, observe que os EQMR e EAR para T sao muito semelhantes aos valores

apresentados na Tabela 4.3 quando o CV da distribuicao de λj foi fixado em 95%, exceto

para o caso em que (α, β) = (0.10, 0.10), para o qual existe um numero pequeno de redes

nao vazias na populacao, e portanto um numero de redes ainda menor na amostra de

5%. O EQMR e o EAR para λs sao menores que os observados na Tabela 4.3, apesar

dos mesmos para ν serem maiores. Alem disso, a medida que o CV diminui a cobertura

empırica dos intervalos de 95% e subestimada, principalmente as obtidas para ν e λ. Uma

possıvel explicacao para estes resultado e que a distribuicao Gama com um CV pequeno

se aproxima de uma distribuicao Normal, o que parece complicar a inferencia para seus

hiperparametros, portanto para λ e consequentemente os outros parametros do modelo.

Logo, uma alternativa neste caso pode ser assumir uma outra distribuicao a priori para

λ. No entanto, vale destacar que ainda para esses casos estudados os EQMR e EAR sao

pequenos para a maioria dos parametros e principalmente para o total populacional, o

qual e o maior interesse neste trabalho.

86

Tabela 4.5: Sumario para a estimacao pontual e intervalar dos parametros do modelo

e o total populacional para as 500 populacoes, variando o nıvel de homogeneidade nas

redes, a partir do valor do CV fixado para a distribuicao de λ, para N = 400.

CV = 50%

(α, β) = (0.10, 0.10) (α, β) = (0.10, 0.15)


EQMR 0.13 0.15 0.52 0.16 0.02 0.04 0.06 0.09 0.18 0.10 0.02 0.03

EAR 0.26 0.32 0.27 0.30 0.10 0.15 0.18 0.24 0.36 0.23 0.11 0.15

Cob. 95.3 87.2 97.0 95.3 94.7 97.0 96.7 95.0 98.2 95.0 94.5 97.6

Ampl. 1.38 0.11 0.26 0.91 0.51 1.27 1.24 0.11 0.27 0.82 0.55 1.31

(α, β) = (0.15, 0.1) (α, β) = (0.15, 0.15)

EQMR 0.03 0.04 0.40 0.08 0.02 0.03 0.03 0.03 0.10 0.06 0.02 0.03

EAR 0.15 0.15 0.50 0.21 0.10 0.12 0.16 0.14 0.26 0.18 0.10 0.13

Cob. 96.5 94.7 97.3 97.8 95.6 98.0 95.8 97.3 98.0 97.5 95.8 97.9

Ampl. 0.95 0.11 0.23 0.75 0.48 1.28 0.92 0.11 0.24 0.70 0.53 1.36

CV = 25%

(α, β) = (0.10, 0.10) (α, β) = (0.10, 0.15)

EQMR 0.09 0.30 0.50 0.36 0.03 0.08 0.05 0.18 0.12 0.34 0.03 0.08

EAR 0.23 0.48 0.37 0.47 0.13 0.24 0.19 0.37 0.29 0.44 0.14 0.26

Cob. 89.7 86.8 98.0 75.0 79.7 90.1 94.7 90.1 98.2 74.9 74.5 90.0

Ampl. 0.96 0.12 0.25 3.01 0.47 0.70 0.91 0.12 0.27 2.83 0.51 0.75

(α, β) = (0.15, 0.1) (α, β) = (0.15, 0.15)

EQMR 0.03 0.08 0.41 0.25 0.02 0.03 0.04 0.05 0.07 0.19 0.02 0.04

EAR 0.14 0.22 0.49 0.34 0.10 0.15 0.17 0.15 0.21 0.24 0.11 0.17

Cob. 96.6 91.7 97.5 80.8 84.6 94.4 91.9 92.5 98.3 83.2 83.8 93.9

Ampl. 0.70 0.12 0.22 2.48 0.46 0.74 0.70 0.12 0.23 2.25 0.50 0.79

87

4.3.3 Analise de sensibilidade da distribuicao a priori

O interesse agora e comparar o desempenho do modelo sob uma outra alternativa de

distribuicao a priori para λ usada na literatura, que e a distribuicao a priori dependente.

Neste caso, o estudo de analise de sensibilidade e feita com a geracao de 500 populacoes

e uma amostra adaptativa de tamanho inicial de 5% selecionada de cada uma. Como

o maior interesse esta na comparacao da influencia de ambas as distribuicoes a priori

para λ nos resultados, foi escolhido efetuar a analise para somente alguns valores fixos de

R, a fim de viabilizar a apresentacao dos resultados para cada λj separadamente e nao

somente para para os parametros sumarizados em λs e λs. Em particular, para gerar as

populacoes usadas neste estudo, fixou-se N = 400 e buscou-se uma configuracao para α e

β que produz uma populacao rara e agrupada que tenha apresentado um bom desempenho

no estudo simulado realizado na Subsecao 4.3.1. Portanto, fixou-se (α, β) = (0.15, 0.10)

e gerou-se um grande numero de populacoes ate obter 500 populacoes com R = 5, outras

500 com R = 6 e 500 com R = 7. Estes valores de R foram escolhidos porque, de acordo

com sua distribuicao no modelo, dada pela equacao em (4.4e), estes sao valores com alta

probabilidade para (α, β) = (0.15, 0.10). Finalmente, como estao sendo especificadas

neste estudo duas distribuicoes a priori para λ, na geracao dos dados fixou-se para todas

as populacoes λ em um valor arbitrario gerado de uma distribuicao Uniforme definida

no intervalo (3,15).

Todos os resultados apresentados a seguir correspondem a 1.000 amostras

independentes da distribuicao a posteriori do vetor parametrico, geradas de 200.000

iteracoes do RJMCMC, com um aquecimento de 10.000 e um espacamento de 190. As

mesmas distribuicoes a priori usadas para α e β no estudo de simulacao apresentado na

Subsecao 4.3.1. Para λ foi considerada entao a distribuicao a priori Gama e a Normal

truncada dependente com desvio padrao τ ∈ 1, 5, 10, 20, ambas descritas na Secao 4.2.1

Primeiramente, para uma unica populacao gerada ajustamos o modelo proposto com

as distribuicoes a priori a fim de visualizarmos de forma preliminar o desempenho das

distribuicoes a priori consideradas e se os valores de τ considerados eram razoaveis. Dessa

forma, foi visto que o maior impacto da distribuicao a priori de λ esta na distribuicao

88

a posteriori de R. A Figura 4.6 apresenta o intervalo HPD de 95% obtido para R para

cada distribuicao a priori de λ considerada. Note que a distribuicao a posteriori de R

e altamente imprecisa quando τ = 1, no entanto a medida que o valor de τ assumindo

aumenta este comportamento melhora, e com τ = 20 tem-se inclusive um comportamento

similar ao obtido no caso da distribuicao a priori independente. Logo, deste momento

em diante decidiu-se descartar a distribuicao a priori Normal truncada dependente com

τ = 1.

Distribuições a priori

R

_

_

_

_

_

_

_

_

_

_

Indep τ = 1 τ = 5 τ = 10 τ = 20

510

1520

25

Figura 4.6: Sumario da distribuicao a posteriori de R assumindo diferentes distribuicoes

a priori para λ. As cruzes representam a mediana da distribuicao a posteriori, o cırculo

o valor verdadeiro de R e a linha o intervalo HPD de 95%.

Para as 500 populacoes geradas foi feita uma analise de sensibilidade com respeito

a distribuicao a posteriori de cada λj. A Figura 4.7 apresenta o EQMR para cada

λj em ordem crescente, mas separados para as amostras em que a rede j e observada

(a) e quando nao e (b). Os resultados com a distribuicao a priori independente sao

representados pelos cırculos vazios e pela linha cheia, ja os resultados para a distribuicao

dependente com τ = 5 sao representados pelos triangulos e a linha tracejada, ja as cruzes

e linha pontilhada representam τ = 10 e τ = 20 e representado pelos cırculos cheios e a

linha traco e ponto. Pela Figura 4.7 (a) e possıvel concluir que a distribuicao a priori

independente produz na maioria dos casos EQMR menor que a distribuicao dependente,

principalmente para os λj’s com valor absoluto menor. Os resultados mostram-se muito

similares para os diferentes valores de τ . Para λj para o caso em que a rede j nao pertence

a amostra o EQMR e maior do que quando j pertence a amostra, como esperado, e neste

89

caso os resultados sob cada distribuicao considerada tornam-se mais similares entre si

para maiores valores de R.

EQ

MR

λ1 λ2 λ3 λ4 λ5

0.00

0.02

0.04

EQ

MR

λ1 λ2 λ3 λ4 λ5 λ6

0.00

0.02

0.04

(a) RMSE for λj , j ∈ s

EQ

MR

λ1 λ2 λ3 λ4 λ5 λ6 λ7

0.00

0.02

0.04

0.06

EQ

MR

λ1 λ2 λ3 λ4 λ5

0.0

0.4

0.8

EQ

MR

λ1 λ2 λ3 λ4 λ5 λ6

0.0

0.2

0.4

0.6

(b) RMSE for λj , j ∈ s

E

QM

R

λ1 λ2 λ3 λ4 λ5 λ6 λ7

0.0

0.4

0.8

Figura 4.7: EMQR para cada λj assumindo diferentes distribuicoes a priori para λ. Os

resultados com a distribuicao a priori independente sao representados pelos cırculos vazios

e a linha cheia, os resultados para a distribuicao dependente com τ = 5 sao representados

pelos triangulos e a linha tracejada, as cruzes com a linha pontilhada representam os

resultados quando τ = 10 e τ = 20 sao os cırculos cheios e a linha traco e ponto.

Finalmente, como prever o total populacional e o maior interesse neste trabalho, foi

avaliado tambem o impacto destas distribuicoes a priori na distribuicao a posteriori de

T . Na Figura 4.8 estao os EQMR de T para cada valor de R considerado, a cobertura

dos intervalos HPD de 95% e sua respectiva amplitude media relativa. Os cırculos vazios

e a linha representam neste caso os resultados para R = 5, os triangulos com a linha

tracejada para R = 6 e as cruzes com a linha pontilhada para R = 7. Observe que o

EQMR obtido no caso em que se assume uma distribuicao a priori Gama independente

para λ e sempre maior do que quando se assume a distribuicao dependente. No geral, os

90

intervalos de 95% apresentam maior probabilidade de cobertura do que o nıvel desejado e

no caso da hipotese de independencia a priori estes sao mais precisos, quando comparados

aos obtidos sob hipotese de dependencia a priori. Note que condicional ao valor de R,

os resultados para a distribuicao dependente sao bastante similares quando varia-se τ .


EQ

MR

Indep τ = 5 τ = 10 τ = 20

0.02

0.04

0.06

0.02

0.04

0.06

0.02

0.04

0.06


Cob

ertu

ra

Indep τ = 5 τ = 10 τ = 20

9294

9698

9294

9698

9294

9698


Am

plitu

de

Indep τ = 5 τ = 10 τ = 20

0.6

0.8

1.0

1.2

1.4

0.6

0.8

1.0

1.2

1.4

0.6

0.8

1.0

1.2

1.4

Figura 4.8: EQMR, probabilidade de cobertura e amplitude media do intervalo HPD de

95% para o total populacional T sob cada distribuicao a priori assumida para λ e para

cada valor de R fixado. Os cırculos vazios e a linha representam os resultados para R = 5,

os triangulos com a linha tracejada quando R = 6 e as cruzes com a linha pontilhada

para R = 7.

Portanto, sob alguns criterios considerar uma distribuicao a priori independente

parece ser mais eficiente que a distribuicao a priori dependente e vice-versa. No entanto,

vale destacar que a distribuicao dependente e mais facil de interpretar, o que torna sua

elicitacao mais intuitiva em muitos casos, em que nao ha conhecimento a priori adequado

sobre a populacao.

4.4 Comparacao com o modelo agregado

O modelo de mistura em (4.4) foi proposto neste trabalho como uma alternativa ao

modelo agregado, principalmente quando nao e adequada a suposicao de homogeneidade

entre redes com respeito ao numero de observacoes dentro destas e quando o numero

esperado de observacoes nao e proporcional a sua area. O objetivo deste modelo proposto

e, portanto, aprimorar as estimativas populacionais obtidas com o ajuste do modelo

91

agregado atraves do uso de um modelo que leve em conta na sua formulacao a suposicao

de heterogeneidade entre redes. Isto e realizado na proposta atraves da modelagem no

nıvel das unidades primarias, no lugar das redes.

Para acessar a eficiencia da metodologia proposta, nesta secao e feita uma comparacao

do desempenho do modelo de mistura com o modelo agregado em duas situacoes. A

primeira comparacao consiste de um experimento de simulacao baseado no desenho

amostral com uma populacao real, ja o outro estudo e baseado em simulacoes sob o

modelo.

Para ajustar ambos os modelos, foram assumidas as mesmas distribuicoes a priori

usadas na Subsecao 4.3. Na execucao dos metodos de MCMC e RJMCMC foram

realizadas 200.000 iteracoes cada, 10.000 foram descartadas como aquecimento da cadeia

e as amostras finais foram tomadas de 190 em 190, a fim de obter 1.000 amostras

independentes.

4.4.1 Simulacao baseada no desenho amostral

O estudo apresentado a seguir baseia-se em verificar propriedades frequentistas dos

estimadores obtidos do ajuste de cada modelo, a partir da selecao de varias amostras

de uma populacao real. Tal populacao esta descrita na Secao 3.1.3 e e composta por

marrecos da asa azul na regiao da Florida, Estados Unidos, no ano de 1992.

O estudo consiste em selecionar 500 amostras adaptativas com tamanho inicial de

10%N desta populacao real. Note que esta populacao, a qual pode ser vista na Figura

3.2, e composta por 3 principais redes, as quais apresentam no geral um numero medio de

marrecos diferente para cada rede. E o total em cada rede nao e proporcional ao numero

de unidades em cada uma. Logo, as hipoteses do modelo agregado nao seriam adequadas

a este conjunto de dados. Por outro lado, o modelo de mistura assume heterogeneidade

entre redes, o que parece mais razoavel ao observar a Figura 3.2.

Alem disso, observe que existem duas unidades com um numero discrepante de

marrecos da asa azul, logo se as amostras selecionadas nao contivessem estas unidades,

seria extremamente difıcil estimar o total populacional proximo do valor verdadeiro.

92

Portanto, optou-se por fixar esta rede na amostra, de modo que a probabilidade de

selecao desta fosse igual a 1.

A Figura 4.9 apresenta os tracos das cadeias com a distribuicao a posteriori de α,

β e T , partindo de dois pontos iniciais distintos, sob ambos os modelos para uma das

amostras selecionadas. A linha cinza representa o valor verdadeiro do total. Note que o

modelo agregado tende a sobreestimar o total populacional, um comportamento esperado

neste caso devido a heterogeneidade presente nos dados. Alem disso, observe que o

parametro α e estimado num valor mais alto quando ajustado o modelo agregado que

quando ajustado o modelo de mistura. Como este parametro esta relacionado com o

numero de unidades nao-vazias, o modelo agregado estima um numero maior de unidades

nao vazias na populacao que o modelo de mistura.

iterações

α

0 200 600 1000

0.02

0.06

iterações

β

0 200 600 1000

0.0

0.2

0.4

0.6

(a) Modelo de mistura

iterações

T

0 200 600 1000

1420

014

400

1460

0

iterações

α

0 200 600 1000

0.05

0.15

iterações

β

0 200 600 1000

0.0

0.2

0.4

(b) Modelo agregado

iterações

T

0 200 600 1000

1420

014

800

1540

0

Figura 4.9: Traco das cadeias com a distribuicao a posteriori para α, β e T obtida do

ajuste do modelo de mistura (a) e do modelo agregado (b). A linha em cinza representa

o valor verdadeiro de T .

A Tabela 4.6 apresenta os valores da estatıstica de Geweke e do fator de dependencia

do diagnostico de Raftery-Lewis. Sob ambos os criterios e possıvel observar que

93

a convergencia foi alcancada. Esta mesma conclusao vale para todas as amostras

selecionadas.

Tabela 4.6: Analise da convergencia das cadeias com a distribuicao a posteriori dos

parametros dos modelos de mistura e agregado para a populacao real.

Geweke Raftery-Lewis

Mistura Agregado Mistura Agregado

α 0.54 -0.12 1.05 0.95

β -0.75 -0.93 1.03 1.01

T 0.32 0.27 1.55 1.08

Na Tabela 4.7 apresenta-se uma comparacao com base em propriedades frequentistas

dos estimadores obtidos para o total populacional T , sob os dois modelos. Como temos

a populacao inteira de marrecos da asa azul e selecionamos amostras desta populacao, e

possıvel usar criterios de comparacao entre os modelos que usam o valor verdadeiro. Logo

sao apresentados o EQMR, o EAR, as probabilidades de cobertura dos intervalos HPD

de 95%, a media das amplitudes relativas destes intervalos, expressa pela razao entre

seu valor e o valor verdadeiro de T . E apresentado tambem a eficiencia do estimador do

total obtido do ajuste do modelo de mistura com relacao ao modelo agregado, sob as 500

amostras. Observe que o modelo proposto apresenta menores valores para os EQMR e

EAR, alem de probabilidade de cobertura dos intervalos mais proxima do nıvel nominal

desejado de 95%, mesmo tendo uma amplitude menor, portanto os intervalos gerados

sob esta abordagem sao mais precisos. Alem disso, como a eficiencia e menor que 1,

isto indica que a variancia do estimador para o total sob o modelo (4.4) proposto neste

trabalho e menor que sob o modelo agregado.

Finalmente, na Figura 4.10 e apresentado um diagrama boxplot com os ER para o

total populacional para as 500 amostras sorteadas sob os dois modelos em questao. Note

que os ER obtidos com base no modelo de mistura sao inferiores aos obtidos com o

modelo agregado, apesar de ambos no geral sobrestimarem o valor verdadeiro de T .

94

Tabela 4.7: Sumario da estimacao pontual e intervalar do total populacional obtido do

ajuste do modelo de mistura e do modelo agregado.

EQMR EAR Cobertura Amplitude ef(T )

Modelo proposto 0.02 0.05 97.7 0.450.78

Modelo agregado 0.05 0.18 84.5 0.63

Modelo de mistura Modelo agregado

−0.

050.

050.

150.

25

ER

Figura 4.10: ER para T para as 500 amostras obtidos a partir do ajuste do modelo de

mistura e do modelo agregado.

4.4.2 Simulacao baseada no modelo

O interesse neste estudo e avaliar o desempenho do modelo agregado sob populacoes

mais homogeneas simuladas do modelo de mistura em (4.4). Portanto, para as mesmas

500 populacoes usadas no estudo simulado apresentado na Subsecao 4.3.1 ajustou-se

o modelo agregado. Em particular este estudo destina-se as simulacoes realizadas

assumindo (α, β) = (0.15, 0.10) e a distribuicao Gama para λ com CV=50% e 25%,

que caracterizam populacoes com redes mais homogeneas.

Na Tabela 4.8 sao apresentadas propriedades frequentistas dos estimadores obtidos

do ajuste do modelo agregado. A fim de facilitar a comparacao, os resultados obtidos

do ajuste do modelo de mistura com as mesmas 500 populacoes sao apresentados em

parenteses na tabela. Os resultados para T indicam um maior EAR e EQMR no ajuste

do modelo agregado, mas essa diferenca parece diminuir a medida que o CV diminui. Por

outro lado, o estimador para β produzido no ajuste do modelo agregado apresenta para

95

todos os casos um menor EAR e EQMR do que o estimador obtido do ajuste do modelo

de mistura. Portanto, de acordo com este criterio, e possıvel concluir que a medida que o

nıvel de heterogeneidade aumenta os resultados sao favoraveis ao modelo de mistura com

relacao a previsao de T , e para populacoes mais homogeneas os resultados tendem a se

tornar mais semelhantes. Entretanto, com relacao a estimacao de β o modelo agregado

apresenta um melhor desempenho.

Tabela 4.8: Sumario a posteriori para a estimacao pontual e intervalar dos parametros

dos modelos sob as 500 simulacoes onde λ foi gerado de uma distribuicao Gama com

CV=50% e CV=25%, para N = 400 e (α, β) = (0.15, 0.10).

CV=50% CV=25%

T α β T α β

EQMR 0.05 (0.03) 0.04 (0.04) 0.10 (0.40) 0.03 (0.03) 0.05 (0.08) 0.18 (0.41)

EAR 0.21 (0.15) 0.19 (0.15) 0.37 (0.50) 0.17 (0.14) 0.16 (0.22) 0.32 (0.49)

Cob. 95.6 (96.5) 98.1 (94.7) 97.4 (97.3) 96.8 (96.6) 97.1 (91.7) 95.6 (97.5)

Ampl. 0.85 (0.95) 0.16 (0.11) 0.18 (0.23) 0.86 (0.70) 0.16 (0.12) 0.19 (0.22)

Finalmente, na Figura 4.11 sao apresentados os diagramas boxplot com o ER para

T sob ambos os modelos. Note que um maior ER e obtido quando ajustado o modelo

agregado, em particular T e subestimado se a mediana dos ER e observada. Entretanto,

este comportamento tende a ser atenuado a medida que o grau de homogeneidade

aumenta.

Portanto, a partir destes resultados pode-se concluir que a medida que o nıvel de

heterogeneidade entre as redes diminui, o desempenho dos modelos torna-se similar, com

relacao a previsao de T , o qual e o maior interesse neste trabalho. A principal diferenca

seria o numero de parametros a estimar e o custo computacional na implementacao dos

metodos de aproximacao necessarios no ajuste de cada modelo.

96


−0.

4−

0.2

0.0

0.2

0.4

ER

(a) CV = 50%


−0.

3−

0.1

0.1

0.3

ER

(b) CV = 25%

Figura 4.11: Boxplot com o ER para T , a partir do modelo de mistura e do modelo

agregado para as 500 populacoes, tal que λ foi gerado de uma distribuicao Gama com

CV=50% e CV=25%.

4.5 Modelo de mistura sob amostragem adaptativa

dupla

Apesar do planejamento amostral adaptativo por conglomerados mostrar-se

apropriado em levantamentos cuja populacao-alvo se comporta de forma rara e agrupada,

uma de suas principais desvantagens e a impossibilidade de controlar o tamanho da

amostra final. Neste sentido, algumas alternativas surgiram na literatura visando impor

um limite a este tamanho final para amostras coletadas de forma adaptativa. Neste

trabalho, temos particular interesse na abordagem de Felix-Medina e Thompson (2004),

chamada amostragem adaptativa dupla por conglomerados.

O interesse agora esta em aplicar o modelo de mistura (4.4) a populacoes raras e

agrupadas, cujas amostras sao provenientes do planejamento amostral elaborado por

Felix-Medina e Thompson (2004). Com essa mudanca, algumas adaptacoes devem ser

feitas no modelo proposto. A probabilidade de selecao dada em (4.5) deve ser recalculada

e o metodo de inferencia reescrito. Veremos tambem que, sob algumas condicoes, a

amostragem adaptativa por conglomerados pode ser tratada como um caso particular da

amostragem dupla. Alem disso, como com este desenho e possıvel aumentar o tamanho

97

da amostra e usar informacoes auxiliares, espera-se uma melhora na qualidade das

estimativas dos parametros do modelo e do total populacional sem exceder abusivamente

os custos disponıveis.

4.5.1 Amostragem adaptativa dupla

Proposto por Felix-Medina e Thompson (2004), este plano amostral trata-se de uma

variacao com multiplos estagios da amostragem adaptativa por conglomerados. Chamado

amostragem adaptativa dupla, o metodo permite ao pesquisador atingir aos seguintes

objetivos: controlar o numero de observacoes da variavel de interesse; alocar a amostra

final proxima a locais interessantes; e utilizar uma variavel auxiliar na estimacao do

parametro populacional de interesse.

A metodologia pode ser decomposta em tres estagios e esta descrita a seguir. Seja

H uma variavel auxiliar menos custosa que a variavel de interesse e mais facil de medir.

Suponha que nada se conhece sobre os valores desta variavel auxiliar antes do inıcio da

coleta da amostra.

A primeira fase do metodo consiste em selecionar uma amostra adaptativa por

conglomerados s1 baseada nos valores da variavel auxiliar H, gerando m1 diferentes

redes, vazias e nao-vazias.

A segunda fase consiste em selecionar uma subamostra s2 de m2 redes das m1

diferentes redes que estao na amostra s1. Esta selecao pode ser feita segundo planos

amostrais probabilısticos convencionais.

Finalmente, a terceira fase consiste em selecionar uma subamostra de unidades

primarias dentro de cada uma das redes em s2 e observar o valor da variavel de interesse

Y associada em cada uma destas. Denote por s3i (i = 1, . . . ,m2) a amostra de unidades

observada na rede i, cujo tamanho e dado por n3i, e portanto, s3 =⋃m2

i=1 s3i.

Segundo Felix-Medina e Thompson (2004), existem varias possibilidades de variacoes

dentro destas tres fases. Uma destas e omitir a segunda fase e subamostrar toda

rede em s1. Cada rede pode ser subamostrada antes mesmo do pesquisador terminar

o planejamento s1. Neste ultimo caso, ha necessidade em controlar o tamanho da

amostra antes de iniciar as outras fases. Outra possibilidade e combinar diferentes planos

98

probabilısticos para selecionar s2 e s3i (i = 1, . . . ,m2). A maioria das combinacoes

permite ao pesquisador um controle sobre custos e numero de medidas da variavel de

interesse.

Alem disso, com relacao as variaveis auxiliares, podem ser usadas variaveis quaisquer

correlacionadas com a variavel de interesse e mais faceis de medir, ou ainda por exemplo

variaveis de avaliacao rapida, as quais conduzem o pesquisador para as areas mais

promissoras, onde observacoes exatas da variavel podem ser feitas posteriormente. Por

exemplo, numa pesquisa sobre mexilhoes de agua doce, cujo interesse e estimar o total

de mexilhoes numa regiao, a variavel de interesse, ou seja o numero de mexilhoes, e uma

variavel difıcil de ser medida porque alguns mexilhoes sao parcialmente escondidos pela

areia e pedras no fundo do rio. Desta forma pode-se recorrer a amostragem adaptativa

dupla, com primeiro estagio caracterizada por uma amostra adaptativa somente para

detectar a presenca ou ausencia de mexilhoes, e esta ser usada como uma variavel auxiliar

no metodo.

4.5.2 Modelo proposto sob amostragem dupla com variavel

auxiliar indicadora de presenca

O modelo de mistura em (4.4) deve ser ajustado a populacoes raras e agrupadas, as

quais sao amostradas de forma adaptativa. Por outro lado, como o desenho amostral

adaptativo por conglomerados e informativo, a verossimilhanca completa do modelo

(4.4) acrescenta-se a probabilidade de inclusao da amostra, dada em (4.5). Neste

momento a ideia e substituir este desenho amostral, pelo proposto por Felix-Medina

e Thompson (2004). Esta pequena mudanca traz adaptacoes na verossimilhanca, por

conta da probabilidade de inclusao, e em alguns aspectos do procedimento de inferencia,

os quais serao descritos a seguir.

Assim como no exemplo do mexilhao, ha particular interesse em uma variavel auxiliar

H binaria, que assume o valor 1 se ha ao menos uma observacao de interesse, ou seja se

Yi > 0, e 0 caso contrario. Alem disso, suponha que s2 e s3i, (i = 1, . . . ,m2) sao sorteadas

99

segundo um desenho amostral aleatorio simples. Este estudo sera restrito a um plano

amostral adaptativo duplo com estas caracterısticas.

Desta forma, a amostra final s e composta pelas unidades que compoem s1 e s3.

Ou seja, pelas m1 redes amostradas de forma adaptativa na primeira fase e pelas n3i,

i = 1, . . . ,m2 unidades selecionadas dentro das m2 redes amostradas no segundo estagio.

Note que de s1 so se extrai informacoes acerca da estrutura das redes, sem observar Y

dentro destas. Enquanto que de s3i, para i = 1, . . . ,m2, se extrai informacoes acerca da

variavel de interesse Y dentro das unidades primarias selecionadas. Por esse motivo s e

caracterizada pela uniao de s1 e s3.

Portanto, ao selecionar uma amostra adaptativa dupla as informacoes observadas

surgem em etapas. Na primeira fase, a amostragem adaptativa com a variavel auxiliar do

tipo presenca/ ausencia, fornece informacoes acerca das variaveis X, R e C. Portanto,

de s1 tem-se Xs, Rs e Cs no modelo (4.4). O segundo estagio nao fornece nenhuma

informacao a mais sobre as variaveis do modelo. Finalmente, na terceira fase uma parte

da variavel de interesse Y e observada, ou seja Ys, o qual neste caso indica os totais

observados em uma subamostra de unidades de uma subamostra de redes nao-vazias.

Portanto, ao aplicar este planejamento amostral ao modelo proposto, este continua

com a mesma estrutura descrita em (4.4). Entretanto, a probabilidade de selecao de uma

amostra s deve ser revista, pois o planejamento amostral foi alterado. Em particular,

a probabilidade de inclusao dada em (4.5), devem ser acrescentadas a probabilidade de

inclusao de s2 e s3. Em particular, neste caso, em que consideramos s2 e s3 selecionadas

aleatoriamente, esta probabilidade e obtida da seguinte forma:

[s | X,R,C] =

m1∏l=1

zil × gil,l∑N−X+Ri=1 zi −

∑j−1k=0 zik

×m2∏h=1

1

m1 − (h− 1)×

×m2∏h=1

n3h∏i=1

1

Ch − (i− 1).

(4.6)

O segundo termo da multiplicacao na equacao em (4.6) refere-se justamente a amostra

s2, e e a probabilidade de selecao de m2 redes dentre m1 sob amostragem aleatoria simples

sem reposicao. O terceiro fator refere-se a amostra s3, ou seja e a probabilidade de selecao

de n3h unidades, h = 1, . . . ,m2, dentro das m2 redes observadas na segunda fase. Observe

100

que como os planos amostrais da segunda e terceira fases constituem-se de amostragem

aleatoria simples, os quais sao desenhos ignoraveis, estes nao fornecem informacao a mais

para a previsao das variaveis nao observadas. A unica parcela que depende das variaveis

nao observadas vem da expressao em (4.5), logo as outras parcelas sao constantes na

distribuicao a posteriori.

4.5.2.1 Inferencia

O procedimento de inferencia baseia-se na obtencao da distribuicao a posteriori para

o vetor parametrico Θ = (Xs, Rs, εs,Cs,Ys,Ys∩s3 , α, β,λ). Note que, a primeira vista,

a diferenca entre aplicar o modelo a este planejamento ou ao anterior esta na insercao de

Ys∩s3 . Pois neste caso, alem da previsao de Yi para as unidades i ∈ s, tambem devem

ser preditos Yi para as unidades i que apesar de fazerem parte da amostra s, nao foram

observadas em s3 e portanto sao desconhecidas, ou seja, para i ∈ s ∩ s3. Uma vantagem

e que, com este plano amostral menos custoso, a amostra s pode aumentar, portanto s

diminui e, portanto a dimensao do vetor parametrico diminui. Esta e outras diferencas

serao apresentadas a seguir.

Note que, diferente da amostragem adaptativa por conglomerados, o atual

planejamento induz uma nova particao, de Y, tal que Y = (Ys3 ,Ys∩s3 ,Ys)′. Note

que apesar de usarmos a notacao de s para as unidades que pertencem a amostra, como

a amostra e formada pela uniao de subamostras e apenas em s3 e que valores de Y

sao observados, Ys3 e a unica parte conhecida de Y e portanto Ys∩s3 e Ys devem ser

preditos. A diferenca entre estes dos ultimos e que existem informacoes adicionais sobre

a estrutura das redes que contem as unidades em s ∩ s3, o que auxilia na previsao de

Ys∩s3 , melhorando assim a qualidade das previsoes dos totais nestas unidades, quando

comparado a s. Portanto, no processo de inferencia com base na obtencao da distribuicao

a posteriori, e necessario incluir as distribuicoes condicionais completas do Apendice B a

distribuicao de Ys∩s3 . Dessa forma a expressao em (2.2) dada no Apendice B e reescrita

da seguinte maneira:

101

[Ys∩s3 ,Ys | ·] ∝

∏j:j∈Λ

∏i:εi=j

λYijYi!

∏j:j∈s2

∏i∈s3:εi=j

λYijYi!

,

tal que Λ = s ∪ s1 ∩ s2.

Com relacao a estimacao de λ tambem existe uma diferenca. O atual desenho

amostral induz a uma particao deste parametro um pouco diferente da obtida quando

se realiza somente a amostragem adaptativa por conglomerados em um unico estagio.

No caso da amostragem dupla terıamos uma particao da forma λ = (λs2 ,λs1∩s2 ,λs)′,

onde λs2 esta associado as redes que foram amostradas em s2 e portanto apresentam

informacao adicional Y para algumas unidades que as compoem, λs1∩s2 as redes que foram

amostradas em s1, mas que nao fazem parte de s2, e λs continua se referindo a parte de

λ associada as redes nao amostradas, sequer no primeiro estagio. Observe a distribuicao

condicional completa de λ na equacao (2.1) no Apendice B, esta depende das variaveis

Y e C, logo quanto maior o conhecimento acerca destas variaveis, melhor a estimacao

deste parametro. Portanto, espera-se que λs2 seja o parametro melhor estimado, pois

alem do conhecimento de uma parte de C proveniente de s1, s3 fornece adicionalmente

informacoes sobre Y para as redes selecionadas em s2. Por outro lado, λs1∩s2 deve ser o

segundo melhor estimado pois para as redes em s1∩ s2 ha apenas o conhecimento de uma

parte de C. Finalmente, o subvetor λs continua sendo o mais difıcil de ser estimado, por

falta de informacao.

Portanto, como este planejamento amostral permite aumentar o numero de

observacoes com um custo controlado, espera-se melhorar a estimacao de parametros e

previsao de quantidades populacionais que apresentaram alguma dificuldade. Isso porque

com este metodo e possıvel diminuir o numero de redes nao-vazias para as quais nao se tem

nenhum conhecimento. Com o desenho amostral construıdo em 3 estagios, e possıvel ao

menos conhecer para algumas redes o tamanho destas, mesmo sem observar diretamente

a variavel de interesse Y . Inclusive esta foi a maior motivacao para estendermos o modelo

(4.4) para um plano amostral alternativo que extraısse maiores informacoes da populacao,

sem extrapolar os custos operacionais. Neste caso escolheu-se a amostragem adaptativa

dupla, com variavel auxiliar do tipo ausencia/ presenca da caracterıstica de interesse.

102

4.5.3 Avaliacao do modelo proposto sob amostragem

adaptativa e adaptativa dupla

Este estudo baseia-se na avaliacao do modelo de mistura proposto em (4.4) quando

se considera os dois planejamentos amostrais estudados neste trabalho: amostragem

adaptativa por conglomerados e a amostragem dupla. Note que neste particular estudo

optou-se por nao utilizar a populacao real de marrecos da asa azul, descrito na Subsecao

3.1.3, pois seu tamanho e relativamente pequeno para fins desta comparacao. Portanto,

foram geradas 500 populacoes com N = 600 unidades, X = 15%N unidades nao-vazias

e R = 10%X = 9 redes nao-vazias, e de cada uma destas foram simuladas as seguintes

amostras:

(i) adaptativa por conglomerados com tamanho inicial n1 = 10%N produzindo m1

redes na amostra;

(ii) adaptativa dupla por conglomerados com tamanho inicial n1 = 10%N produzindo

m1 redes na amostra e

(a) m2 = 100%m1 e n3i = 70%Ci, i = 1, . . . ,m2;

(b) m2 = 70%m1 e n3i = 100%Ci, i = 1, . . . ,m2;

(c) m2 = 70%m1 e n3i = 70%Ci, i = 1, . . . ,m2.

O interesse e comparar o ajuste do modelo sob estes quatro planejamentos. Os

cenarios (ii-a), (ii-b), (ii-c) tratam-se de variacoes do plano amostral duplo. Observe que,

apesar do cenario (ii-b) estar caracterizado como uma amostragem adaptativa dupla,

este tambem pode ser tratado como o planejamento (i), porem com um menor tamanho

inicial de amostra.

Para este estudo, foi utilizada a mesma distribuicao a priori usada na Subseccao 4.3,

supondo a distribuicao a priori para λ independente. Apos 200000 iteracoes, com um

burn-in de 10000 e espacamento de 190, foram obtidas 1000 amostras independentes da

distribuicao a posteriori do vetor parametrico Θ. Para todos os parametros observou-se

a convergencia.

103

Na Tabela 4.9 estao os EQMR, EAR, probabilidade de cobertura do intervalo

HPD de 95% e sua respectiva amplitude media relativizada para a previsao do total

populacional T . Note que para todos os planejamentos temos erros pequenos e intervalos

HPD com probabilidade de cobertura proxima do nıvel desejado de 95%. Mesmo no

planejamento (ii-c), em que se reduz de forma mais significante o tamanho da amostra

quando comparado aos demais, tem-se resultados que mostram boas previsoes neste caso.

Portanto, mesmo com um numero menor de observacoes da variavel de interesse e possıvel

obter resultados tao eficientes quanto os obtidos usando a amostragem adaptativa em um

estagio.

Tabela 4.9: Sumario a posteriori do total populacional T para os quatro planejamentos

considerados com base nas 500 amostras simuladas.

Amostra EQMR EAR Cobertura (%) Amplitude relativa

(i) 0.02 0.12 96.0 0.61

(ii-a) 0.03 0.14 95.9 0.62

(ii-b) 0.02 0.12 93.3 0.69

(ii-c) 0.03 0.13 95.8 0.62

Com relacao aos planos amostrais (i) e (ii-a) a diferenca esta no numero de unidades

que sao observadas dentro das redes amostradas. O segundo observa um numero menor

de unidades com relacao a variavel de interesse, portanto em contextos em que observar

Y e altamente custoso, pode-se preferir o plano (ii-a). Desta forma, o interesse agora

concentrar-se-a em comparar a performance do modelo de mistura sob estes dois planos

em particular. Quando comparados ambos os planejamentos com relacao a previsao do

total populacional T , nao foram observadas grandes diferencas, portanto com base neste

criterio ambos mostraram-se eficientes. Portanto, sera feita uma comparacao de ambas

as metodologias a partir da estimacao do parametro λs2 . A ideia em usar λ como criterio

de comparacao da-se pois este e um parametro importante para a previsao do total e esta

relacionado diretamente com as informacoes extraıdas dentro das redes.

104

Na Figura 4.12 esta um sumario da distribuicao a posteriori de λ ao longo das

500 simulacoes. Nesta sao apresentados o EAR, a probabilidade de cobertura do

intervalo HPD de 95% e sua respectiva amplitude media relativizada com relacao ao valor

verdadeiro. O triangulo com linha cheia representa o plano amostral (i) e o cırculo cheio

com linha pontilhada o plano amostral (ii-a). Note que o plano (i) produz erros relativos

ligeiramente menores que o plano (ii-a), o que era de se esperar pois este apresenta

um maior tamanho de amostra final. Alem disso, os intervalos HPD de 95% sao mais

precisos para todos os λjs sob o plano amostral (i). Com relacao as probabilidades de

cobertura nao ha nada conclusivo sobre qual plano e mais eficiente, ora um se apresenta

mais proximo do nıvel desejado, ora outro se apresenta. Observe que λ6 apresenta

uma subestimacao da probabilidade de cobertura, mas este fato ocorre para os dois

planejamentos em questao.

EA

R

λ1 λ2 λ3 λ4 λ5 λ6 λ7 λ8 λ9

0.01

0.03

0.05

Cob

ertu

ra

λ1 λ2 λ3 λ4 λ5 λ6 λ7 λ8 λ9

0.88

0.92

0.96

Am

plitu

de

λ1 λ2 λ3 λ4 λ5 λ6 λ7 λ8 λ9

0.3

0.5

0.7

0.9

Figura 4.12: Sumario a posteriori de λs2 para os planejamentos (i) e (ii-a) com base nas

500 amostras simuladas.

4.6 Conclusoes

Neste capıtulo apresentou-se a principal contribuicao deste trabalho, que foi a

proposta de um modelo desagregado que se ajuste a amostras adaptativas selecionadas

de populacoes raras e agrupadas. O modelo e construıdo no nıvel das unidades da grade,

o que permitiu a insercao da suposicao de heterogeneidade entre redes distintas. A

inferencia Bayesiana para o modelo e feita usando o metodo RJMCMC, pois neste caso o

tamanho do espaco parametrico e desconhecido. Portanto, o ajuste do modelo proposto

105

necessita de metodos mais custosos computacionalmente do que o modelo agregado, onde

apenas o MCMC e necessario.

No geral, o modelo apresentou uma boa performance nos estudos de simulacao

realizados e ao ajusta-lo com a populacao real do marreco da asa azul, resultados

mais satisfatorios foram obtidos quando comparado com o modelo agregado. Por outro

lado, foi possıvel observar que ao diminuir o grau de heterogeneidade da populacao

o desempenho do modelo agregado com relacao a estimacao de T , o qual e o maior

interesse neste trabalho, tende a melhorar e a tornar-se mais proximo ao obtido quando

ajustado o modelo de mistura. Portanto, recomenda-se o uso do modelo proposto quando

de fato a heterogeneidade e um comportamento presente nos dados, visto que o custo

computacional e maior neste caso.

Um sumario das conclusoes mais relevantes extraıdas dos estudos de simulacao

realizados neste capıtulo e apresentado na Tabela 4.10.

Finalmente, com o proposito de melhorar a previsao e estimacao do modelo de

mistura, foi apresentada uma aplicacao do modelo de mistura ao plano amostral

adaptativo duplo. Este planejamento tende a fornecer mais informacoes sobre a

populacao de pesquisa, com um custo operacional controlado. Nesta extensao verificou-se

que e possıvel obter resultados eficientes ainda que com um numero menor de observacoes

da variavel de interesse e usando uma variavel auxiliar indicadora de presenca da

caracterıstica de interesse.

106

Tabela 4.10: Resumo das principais conclusoes acerca dos estudos simulados realizados

com o modelo de mistura proposto em (4.4).

Variando N , α e β

(1) Melhores resultados a medida que os valores de N , α e β aumentam.

(2) Maiores dificuldades de estimacao de λs que λs.

Distribuicao a priori de λ

(1) Distribuicao a posteriori de R sensıvel a escolha de τ .

(2) Escolha de τ nao afeta a distribuicao a posteriori de T .

(3) Os EQMR obtidos na previsao de T sao menores quando assume-se distribuicao

a priori dependente para λ.

Nıvel de heterogeneidade

(1) Mesmo sob nıveis mais intensos de homogeneidade bons resultados sao

atingidos na previsao de T , mas surgem problemas na estimacao de ν e β.

(2) Comparando com o modelo agregado, percebe-se que o modelo proposto e adequado

principalmente para populacoes heterogeneas. Sob maiores nıveis de homogeneidade,

o desempenho dos modelos torna-se similar.

107

Capıtulo 5

Conclusoes e trabalhos futuros

Ao longo deste trabalho foram revisadas duas possıveis formas de fazer previsao em

populacoes raras e agrupadas: a inferencia baseada na aleatorizacao do plano amostral e

a abordagem baseada em modelos de superpopulacao. No primeiro caso, apresentou-

se o planejamento amostral adaptativo por conglomerados e, no segundo, o modelo

proposto por Rapley e Welsh (2008), o qual e ajustado sob o enfoque Bayesiano. Estudos

simulados com base em populacoes artificiais e real foram apresentados e ambas as

abordagens foram comparadas principalmente em nıveis de eficiencia da previsao do

total populacional. Tendo em vista um bom desempenho do modelo de Rapley e Welsh

(2008), as metodologias propostas neste trabalho permanecem no contexto de inferencia

em populacao finita baseada em modelos.

Realizar pesquisas em populacoes raras e agrupadas e uma tarefa ardua e necessita em

geral de metodologias especıficas que usem na sua formulacao a estrutura da populacao.

No entanto, estas populacoes podem ser ainda mais problematicas se apresentarem

uma dinamica populacional, o que e uma caracterıstica tambem comum neste contexto.

Buscando tratar situacoes como esta, foi apresentada uma extensao do modelo de Rapley

e Welsh (2008). Em particular, a extensao e voltada principalmente para populacoes em

crescimento ou decrescimento e final estabilizacao com a evolucao do tempo.

Por outro lado, questoes como a modelagem no nıvel agregado das redes, suposicoes

de homogeneidade entre as redes e de relacao direta entre a frequencia esperada de

um fenomeno e o tamanho de uma rede no qual ele e observado, restringem o modelo

108

de Rapley e Welsh (2008) a algumas especıficas populacoes com estas caracterısticas.

Com o objetivo de tratar destas questoes, foi proposto um modelo de mistura a nıvel

desagregado que supoe heterogeneidade entre as redes, e consequentemente que o numero

de ocorrencias de um fenomeno em uma rede nao depende necessariamente apenas do

tamanho desta. Como foi visto, para fazer inferencia para este modelo fez-se necessario

tecnicas mais sofisticadas, pois a dimensao do vetor parametrico e tambem um parametro.

Em particular, foi utilizado o metodo de RJMCMC. O modelo mostrou-se mais eficiente

que o modelo agregado em casos de heterogeneidade. Por outro lado, a medida que o

nıvel de heterogeneidade diminui a performance dos modelos torna-se semelhante.

Finalmente, a metodologia proposta foi aplicada ao plano amostral adaptativo duplo

por conglomerados, com o objetivo de adquirir mais informacoes que auxiliem a estimar

os parametros do modelo de mistura proposto em (4.4) associados as unidades que nao

foram observadas. Em particular, a variavel auxiliar utilizada nesta extensao caracteriza-

se como uma indicadora da ausencia ou presenca da observacao de interesse, ou seja, esta

totalmente relacionada com a variavel de pesquisa.

5.1 Trabalhos futuros

Na extensao apresentada na Secao 3.2 do Capıtulo 3 supor uma amostra independente

a cada instante de tempo pode nao ser viavel em algumas situacoes praticas. No entanto,

como o modelo e formulado de forma agregada, isto traz dificuldades a incorporar outros

planejamentos mais viaveis. Com isso, ha interesse em aplicar o modelo de mistura

proposto a planos amostrais que apresentem dependencia temporal.

Com relacao ao desenho amostral adaptativo duplo, seria interessante investigar

um tamanho de amostra otimo na primeira e/ou na segunda fase, de modo a ser

eficiente e minimizar o custo operacional. Alem disso, ha interesse tambem em aplicar a

metodologia, supondo outras variaveis auxiliares relacionadas com a variavel de interesse

que nao somente indicadoras de presenca da caracterıstica de interesse.

Alem disso, dentro de uma rede e comum que unidades tenham frequencia de

observacoes que varia de acordo com a distancia ao centroide da rede. Por exemplo,

109

espera-se que unidades dentro de uma rede tenham frequencia de observacoes que varia de

acordo com a distancia ao centroide da rede. O processo pontual conglomerado de Poisson

(ver Diggle et al. (1983)) e um exemplo de populacao com este comportamento. Dessa

forma, uma ideia futura para o modelo de mistura proposto e a insercao de componentes

espaciais na media da distribuicao da variavel resposta que dependam da distancia. Um

importante aspecto a ser considerado nesta proposta futura e a definicao do centroide,

visto que uma rede em geral nao e regular. Alem disso, a proposta seria incorporar esta

estrutura espacial na parte do modelo que se ajusta a amostra coletada, pois para a parte

nao amostrada nao ha conhecimento da localizacao e nem das unidades que compoem as

redes, o que inviabilizaria a ideia nestas unidades.

5.1.1 Planejamento amostral otimo

Como o desenho amostral adaptativo caracteriza-se pela selecao da amostra em fases,

seria razoavel estudar a incorporacao de um planejamento amostral otimo, a fim de buscar

unidades amostrais que possam ser mais promissoras para a estimacao do parametro

populacional de interesse.

Em desenhos amostrais convencionais a amostra completa e planejada de uma vez,

antes mesmo da selecao. Um exemplo de planejamento em duas fases e aquele em

que a amostra inicial de n1 unidades e selecionada e os valores de Y sao observados

e, posteriormente, uma amostra adicional de n2 unidades e selecionada, cujo tamanho

depende dos valores observados na primeira amostra. A amostragem adaptativa seria

uma classe de desenhos com L fases, em que L e uma variavel aleatoria.

De forma geral, um planejamento otimo e uma tarefa que costuma envolver

metodologias para obtencao de maximos e mınimos de funcoes objetivo. Estas funcoes

objetivo quantificam os ganhos e perdas associados as possıveis decisoes a serem tomadas.

A ideia de um planejamento otimo com duas fases e descrito a seguir e pode ser visto

com maiores detalhes em Thompson e Seber (1996).

Suponha um desenho com tamanho amostral fixo em n unidades e suponha que

dessas unidades n1 foram selecionadas e observadas. Seja ys1 os valores de Y associados

a esta amostra inicial. A amostra restante a ser observada e s2 e de forma analoga

110

defina ys2 . Logo, a amostra completa e dada por s = (s1, s2), com respectivos ys =

(ys1 ,ys2). O objetivo e prever uma funcao populacional qualquer W = w(Y), como

o total populacional por exemplo, a partir de uma funcao da amostra H(d), tal que

d = (s,ys). Deseja-se que H seja nao viesado de acordo com o modelo. A funcao que

minimiza o erro quadratico medio de previsao E ((H −W )2 | s) e a esperanca condicional

H(d) = E (W | d).

Finalmente, a questao e se a selecao das n2 unidades restantes deve depender dos

valores de ys1 . Neste caso, a ideia seria selecionar uma amostra s2 que minimize a funcao

objetivo:

gs2(s1,ys1) = E[(h(s1,ys1 , s2,Ys2)− w(Y))2 | s1,ys1

]=

∫(h− w)2[ys1 | s1,ys1 ]dys1 .

Este mesmo argumento pode ser estendido para desenhos com multiplas fases.

Portanto, um interesse futuro seria incorporar o planejamento amostral otimo nos

modelos estudados neste trabalho. Por exemplo, ao selecionar uma amostra adaptativa

inicial e verificar alguns locais mais informativos na regiao, e possıvel continuar o processo

de selecao da amostra propondo outros locais mais eficientes do que uma amostra aleatoria

simples inicial. Ou ainda no plano adaptativo duplo, onde a segunda fase depende da

primeira. Nessa mesma proposta e possıvel tambem avaliar um tamanho de amostra

otimo.

111

Apendice A

Resultados dos modelos ajustados

no Capıtulo 3

A.1 Modelo (3.1)

Neste apendice sao apresentados os tracos das cadeias dos parametros para o modelo

(3.1) e uma ilustracao do sumario da distribuicao a posteriori dos parametros obtido para

100 populacoes em 16 cenarios gerados.

112

iteração

α

0 400 1000

0.0

0.3

iteração

β

0 400 1000

0.0

0.4

iteração

γ

0 400 1000

020

iteração

T

0 400 1000

030

00

iteração

α

0 400 1000

0.1

0.4

iteração

β

0 400 1000

0.1

0.4

iteração

γ

0 400 1000

710

14

iteração

T

0 400 1000

500

2000

iteração

α

0 400 1000

0.05

0.30

iteração

β0 400 1000

0.1

0.3

iteração

γ

0 400 1000

79

12

iteração

T

0 400 1000

500

iteração

α

0 400 1000

0.0

0.3

iteração

β

0 400 1000

0.1

0.4

iteraçãoγ

0 400 1000

812

iteração

T

0 400 1000

015

00

Figura 1.1: Tracos das cadeias dos parametros α, β, γ e total populacional T para um

dado artificial gerado fixando α = 0.05 e β ∈ 0.05, 0.1, 0.15, 0.2, com respectivos valores

verdadeiros em cinza.

iteração

α

0 400 1000

0.1

0.4

iteração

β

0 400 1000

0.05

0.25

iteração

γ

0 400 1000

810

12

iteração

T

0 400 1000

1500

500

iteração

α

0 400 1000

0.1

0.4

iteração

β

0 400 1000

0.1

0.4

iteração

γ

0 400 1000

610

iteração

T

0 400 1000

015

00

iteração

α

0 400 1000

0.1

0.4

iteração

β

0 400 1000

0.05

0.25

iteração

γ

0 400 1000

912

iteração

T

500

1500

0 400 1000

iteração

α

0 400 1000

0.0

0.3

iteração

β

0 400 1000

0.1

0.4

iteração

γ

0 400 1000

812

iteração

T

0 400 1000

500

2000

2000




113

iteração

α

0 400 1000

0.1

0.4

iteração

β

0 400 1000

0.05

iteração

γ

0 400 1000

9.0

10.5

iteração

T

0 400 1000

600

1600

iteração

α

0 400 1000

0.0

0.3

iteração

β

0 400 1000

0.1

0.5

iteração

γ

0 400 1000

612

iteração

T

0 400 1000

015

00

iteração

α

0 400 1000

0.1

0.4

iteração

β0 400 10000.

050.

25iteração

γ

0 400 1000

810

12

iteração

T

0 400 1000

500

2000

iteração

α

0 400 1000

0.1

0.4

iteração

β

0 400 1000

0.05

0.30

iteraçãoγ

0 400 1000

811

iteração

T

0 400 1000

500

1500




iteração

α

0 400 1000

0.1

0.4

iteração

β

0 400 1000

0.05

0.20

iteração

γ

0 400 1000

8.0

10.0

iteração

T

0 400 1000

500

2000

iteração

α

0 400 1000

0.1

0.4

iteração

β

0 400 1000

0.05

0.20

iteração

γ

0 400 1000

8.5

10.5

iteração

T

0 400 1000

500

2000

iteração

α

0 400 1000

0.1

0.4

iteração

β

0 400 1000

0.05

0.30

iteração

γ

0 400 1000

911

iteração

T

0 400 1000

500

2500

iteração

α

0 400 1000

0.1

0.4

iteração

β

0 400 1000

0.1

0.4

iteração

γ

0 400 1000

710

iteração

T

0 400 1000

500

2000




114

0.4

0.6

0.8

1.0

α=0.05 α=0.10 α=0.15 α=0.20

Cob

ertu

ra −

α

0.02

00.

035

0.05

0

α=0.05 α=0.10 α=0.15 α=0.20

EQ

M −

α

0.5

0.7

0.9

α=0.05 α=0.10 α=0.15 α=0.20

Cob

ertu

ra −

β

0.02

0.04

0.06

0.08

α=0.05 α=0.10 α=0.15 α=0.20

EQ

M −

β

0.5

0.7

0.9

α=0.05 α=0.10 α=0.15 α=0.20

Cob

ertu

ra m

édia

− γ

0.4

0.6

0.8

1.0

α=0.05 α=0.10 α=0.15 α=0.20

EQ

M −

γ

0.3

0.5

0.7

0.9

α=0.05 α=0.10 α=0.15 α=0.20

Cob

ertu

ra −

T

(a)

0.0

0.5

1.0

1.5

α=0.05 α=0.10 α=0.15 α=0.20

EQ

MR

− T

(b)

Figura 1.5: Sumario da distribuicao a posteriori dos parametros α, β, γ e T para 100

populacoes em 16 cenarios com amostra inicial de 5%N e 10%N . Em (a) os triangulos

representam as probabilidades de cobertura dos intervalos HPD de 95% para a amostra

de 5%, os cırculos cheios para a amostra de 10% e a linha tracejada em vermelho o nıvel

nominal de 95%. Em (b) estao o EQM para cada parametro e o EQMR para T .

115

A.2 Modelo de crescimento (3.4)

Nas Figuras 1.6 e 1.7 estao os resultados do ajuste do modelo (3.4) para duas das

populacoes artificiais geradas. A primeira e para uma populacao em crescimento ao longo

do tempo e a segunda para uma que decresce.

iteração

a

0 400 1000−1.

9−

1.6

(a) a

iteração

b

0 400 1000−1.

7−

1.3

(b) b

iteração

c

0 400 1000−0.

20−

0.10

(c) c

iteração

0 400 1000

β0.

090.

12

(d) β

iteração

γ

0 400 1000

9.8

10.2

(e) γ

iteração

T1

0 400 1000

100

300

(f) T1

iteração

T13

0 400 1000

300

700

(g) T13

iteração

T25

0 400 1000

400

800

(h) T25

iteraçãoT

37

0 400 1000

400

800

(i) T37

iteração

T49

0 400 1000

400

800

(j) T49

Figura 1.6: Sumario da distribuicao a posteriori de Θ e do total populacional para uma

populacao em crescimento ao longo do tempo. Em (a)-(e) estao os tracos das cadeias

da distribuicao a posteriori dos parametros a, b, c, β e γ. De (f)-(j) estao os tracos das

cadeias para os totais em alguns tempos. A linha em cinza representa o valor verdadeiro

usado na geracao dos dados artificiais.

116

iteração

a

0 400 1000

−2.

4−

2.1

(a) a

iteração

b

0 400 1000

0.7

1.0

(b) b

iteração

c

0 400 1000−0.

20−

0.10

(c) c

iteração

0 400 1000

β0.

080.

13

(d) β

iteração

γ

0 400 1000

9.6

10.2

(e) γ

iteração

T1

0 400 1000

500

900

(f) T1

iteração

T13

0 400 1000

200

500

(g) T13

iteração

T25

0 400 1000

200

500

(h) T25

iteração

T37

0 400 1000

200

450

(i) T37

iteração

T49

0 400 1000200

500

(j) T49

Figura 1.7: Sumario da distribuicao a posteriori de Θ e do total populacional para uma

populacao em decrescimento ao longo do tempo. Em (a)-(e) estao os tracos das cadeias

da distribuicao a posteriori dos parametros a, b, c, β e γ. De (f)-(j) estao os tracos das

cadeias para os totais em alguns tempos. A linha em cinza representa o valor verdadeiro

usado na geracao dos dados artificiais.

117

Apendice B

Calculos envolvidos na inferencia

para o modelo proposto

Neste apendice sao apresentadas expressoes importantes envolvidas no algoritmo

RJMCMC, utilizado para inferencia a posteriori para o modelo de mistura proposto (4.4).

Primeiramente estao as distribuicoes condicionais completas para o vetor parametrico

Θ = (Xs, Rs, εs,Cs,Ys, α, β,λ, ν). Dessa forma, a variavel resposta Ys, por exemplo,

e tambem considerada um parametro e portanto e estimada da mesma maneira que

as demais quantidades. Alem disso, sera apresentada a probabilidade de aceitacao do

algoritmo RJMCMC, passando por alguns calculos importantes.

B.1 Distribuicoes condicionais completas

Para as distribuicoes condicionais completas que apresentam forma analıtica

conhecida, o Amostrador de Gibbs pode ser utilizado. Para as que nao apresentam

forma fechada um metodo indireto de amostragem e necessario, em particular, passos

de Metropolis-Hastings podem caracterizar a obtencao dessas amostras a posteriori. As

118

distribuicoes apresentadas a seguir sao obtidas ao assumir-se as seguintes distribuicoes a

priori independentes para o modelo (4.4):

λj ∼ Gama(d, ν), j = 1, . . . , R,

ν ∼ Gama(e, f),

α ∼ Beta(aα, bα),

β ∼ Beta(aβ, bβ).

A seguir estao as distribuicoes condicionais completas.

• De α:

[α | ·] ∝ αXs+Xs(1− α)N−Xs−Xs

1− (1− α)Nαaα−1(1− α)bα−1.

Para gerar amostras desta distribuicao deve-se utilizar passos de Metropolis-Hastings,

visto que esta nao apresenta forma analıtica conhecida.

• De β:

[β | ·] ∝ βRs+Rs(1− β)Xs+Xs−Rs−Rs

1− (1− β)Xs+Xsβaβ−1(1− β)bβ−1.

Como [β | ·] tambem nao possui forma analıtica fechada, deve-se utilizar passos de

Metropolis-Hastings, para amostrar desta distribuicao de probabilidade.

• De λ: Para j = 1, . . . , Rs +Rs,

[λj | ·] ∝λ∑i:εi=j

Yi+d−1

j exp−λj(ν + Cj)1− exp(−λj)

. (2.1)

Observe que [λj | ·] nao possui forma fechada conhecida. Para gerar amostras de sua

distribuicao a posteriori e necessario utilizar um passo de Metropolis-Hastings.

• De εs: Para i, j ∈ s,

119

[εi = j | ·] ∝ CjXs +Xs

λYij exp(−λj)Yi![1− exp(−λj)]

.

Neste caso, εi e amostrado diretamente dos possıveis valores, com a probabilidade

acima. Note que o modelo proposto e aplicavel a populacoes divididas em redes nao-

vazias, logo toda rede deve ter pelo menos uma observacao. Portanto, na condicional

completa de εi ainda e incluıdo uma indicadora de que todas as Rs redes tenham pelo

menos uma unidade alocada.

• De (Xs,Cs):

[Xs,Cs | ·] ∝m∏l=1

Zil × gil,l∑N−X+Ri=1 Zi −

∑l−1k=0 Zik

αXs(1− α)−Xs

(N −Xs −Xs)!

(1− β)Xs

(1− (1− β)Xs+Xs)

× (Xs +Xs)−(Xs+Xs)

∏j:j∈s

CCjj

∏j:j∈s

1

(Cj − 1)!R−(Xs−Rs)

×∏j:j∈s

exp−λjCj[1− exp(−λj)]Cj

.

A amostragem de (Xs,Cs) e feita de forma conjunta, e como a distribuicao condicional

completa nao tem forma analıtica fechada, o algoritmo de Metropolis-Hastings e utilizado.

A proposta de Xs e baseada num passeio aleatorio em torno do valor corrente de Xs e a

proposta de Cs baseia-se na Multinomial(Xs −Rs,1Rs

1Rs).

• De Ys:

[Ys | ·] ∝∏j:j∈s

λ∑i:εi=j

Yi

j∏i:εi=j Yi!

. (2.2)

Portanto, Ysi ∼ Poisson truncada(λsi), j ∈ s. Logo, para amostrar desta distribuicao

podemos utilizar o Amostrador de Gibbs.

• De ν:

[ν | ·] ∝ ν(Rs+Rs)d+e−1 exp−ν(f +Rs+Rs∑j=1

λj).

Logo, ν ∼ Gamma ((Rs + Rs)d + e, f +∑Rs+Rs

j=1 λj) e para amostrar desta distribuicao

podemos utilizar o Amostrador de Gibbs.

120

B.2 Probabilidade de aceitacao do algoritmo

RJMCMC

Se e proposto um movimento de “divisao”, ou seja que leva de (Cj∗ , εj∗ , λj∗) a

(Cj1 ,Cj2 , εj1 , εj2 , λj1 , λj2), para j∗, j1 e j2 pertencentes a s, o movimento e aceito com

probabilidade dada por min(1, A), tal que A e dada por (4.3), e para este modelo tem a

seguinte forma:

A =exp−(Cj1λj1 + Cj2λj2)λ

∑i:εi=j1

Yi

j1λ∑i:εi=j2

Yi

j2(1− exp(−λj1))−Cj1 (1− exp(−λj2))−Cj2

exp−Cj∗λj∗λ∑i:εi=j∗

Yi

j∗ (1− exp(−λj∗))−Cj∗

[ij1 , ij2][ij∗]

× p(Rs + 1)

p(Rs)× (Cj∗ − 1)!

(Cj1 − 1)!(Cj2 − 1)!(Rs +Rs)

−(Cj1+Cj2−Cj∗ ) ×CCj1j1CCj2j2

CCj∗j∗

× (Rs + 1)

× νd

Γ(d)

(λj1λj2λj∗

)d−1

exp−ν(λj1 + λj2 − λj∗)

×pk|k+1

pk+1|kPallocq(u1)q(u2)× ρ Cj∗

Xs +Xs

,

onde a primeira linha consiste da razao das verossimilhanca avaliada nestes pontos, a

segunda e terceira linha apresentam a distribuicao a priori dos parametros. No final da

segunda linha, o termo Rs+1 vem da razao (Rs+1)!/Rs!, devido a ordem dos parametros.

A ultima linha apresenta a razao das probabilidades de transicao entre os espacos, onde

Palloc e a probabilidade desta particular alocacao ser feita, e o ultimo termo e o jacobiano

da transformacao.

121

Referencias Bibliograficas

Besag, J. (1974) Spatial interaction and the statistical analysis of lattice systems. Journal

of the Royal Statistical Society. Series B (Methodological), 36, 192–236.

Bolfarine, H. e Zacks, S. (1992) Prediction theory for finite populations. Springer-Verlag

New York:.

Brown, J. A. e Manly, B. J. F. (1998) Restricted adaptive cluster sampling.

Environmental and Ecological Statistics, 5, 49–63.

Cassel, C.-M., Sarndal, C.-E. e Wretman, J. H. (1977) Foundations of inference in survey

sampling. Wiley New York.

Clayton, D. e Bernardinelli, L. (1992) Bayesian methods for mapping disease risk.

Geographical and environmental epidemiology: methods for small area studies, 205–

220.

Conners, M. e Schwager, S. (2002) The use of adaptive cluster sampling for hydroacoustic

surveys. ICES Journal of Marine Science: Journal du Conseil, 59, 1314–1325.

Danaher, P. e King, M. (1994) Estimating rare household characteristics using adaptive

sampling. NZ Stat, 29, 14–23.

Diggle, P. J. et al. (1983) Statistical analysis of spatial point patterns. Academic Press.

Felix-Medina, M. H. e Thompson, S. K. (2004) Adaptive cluster double sampling.

Biometrika, 91, 877.

122

Gelman, A. (2006) Prior distributions for variance parameters in hierarchical models

(comment on article by browne and draper). Bayesian analysis, 1, 515–534.

Gelman, A., Carlin, J. B., Stern, H. S. e Rubin, D. B. (1995) Bayesian data analysis.

Chapman & Hall.

Geweke, J. (1992) Evaluating the accuracy of sampling-based approaches to the

calculations of posterior moments. Em Bayesian Statistics (eds. A. D. J. Bernardo,

J. Berger e A. Smith). Oxford University Press, New York.

Gilks, W. R. e Wild, P. (1992) Adaptive rejection sampling for Gibbs sampling. Applied

Statistics, 337–348.

Green, P. (1995) Reversible jump markov chain monte carlo computation and bayesian

model determination. Biometrika, 82, 711–732.

Horvitz, D. e Thompson, D. (1952) A generalization of sampling without replacement

from a finite universe. Journal of the American Statistical Association, 47, 663–685.

Kalton, G. (1991) Sampling flows of mobile human populations. Survey Methodology,

17, 183–194.

— (2001) Practical methods for sampling rare and mobile populations. Em Proceedings

of the Annual Meeting of the American Statistical Association, 5–9.

Kalton, G. e Anderson, D. (1986) Sampling rare populations. Journal of the Royal

Statistical Society. Series A (General), 149, 65–82.

Lambert, D. (1992) Zero-inflated poisson regression, with an application to defects in

manufacturing. Technometrics, 34, 1–14.

Marin, J.-M., Mengersen, K. e Robert, C. P. (2005) Bayesian modelling and inference on

mixtures of distributions. Handbook of statistics, 25, 459–507.

McDonald, L. L. (2004) Sampling rare populations. Em Sampling rare or elusive

species: concepts, designs, and techniques for estimating population parameters (ed.

W. Thompson), cap. 4, 11–42. Island Press Washington, DC, USA.

123

Migon, H. e Gamerman, D. (2006) Generalized exponential growth models a bayesian

approach. Journal of Forecasting, 12, 573–584.

Neyman, J. e Scott, E. (1958) Statistical approach to problems of cosmology. Journal of

the Royal Statistical Society. Series B (Methodological), 20, 1–43.

R Core Team (2013) R: A Language and Environment for Statistical Computing. R

Foundation for Statistical Computing, Vienna, Austria. URLhttp://www.R-project.

org.

Raftery, A. E. e Lewis, S. M. (1992) One long run with diagnostics: Implementation

strategies for markov chain monte carlo. Statistical Science, 7, 493–497.

Rapley, V. (2004) Model-Based Adaptive Cluster Sampling. Tese de Doutorado, University

of Southampton.

Rapley, V. e Welsh, A. (2008) Model-based inferences from adaptive cluster sampling.

Bayesian Analysis, 3, 717–736.

Richardson, S. e Green, P. (1997) On bayesian analysis of mixtures with an unknown

number of components. Journal of the Royal Statistical Society, Series B, 59, 731–792.

Roeder, K. e Wasserman, L. (1997) Practical bayesian density estimation using mixtures

of normals. Journal of the American Statistical Association, 92, 894–902.

Roesch, F. (1993) Adaptive cluster sampling for forest inventories. Forest Science, 39,

655–669.

Salehi, M. M. e Seber, G. (1997) Two-stage adaptive cluster sampling. Biometrics, 53,

959–970.

Skinner, C., Holt, D. e Smith, T. (1989) Analysis of complex surveys. John Wiley &

Sons.

Smith, D., Brown, J. e Lo, N. (2004) Application of adaptive sampling to biological

populations. Em Sampling rare or elusive species: concepts, designs, and techniques for

124

http://www.R-project.org

http://www.R-project.org

estimating population parameters. Island, Washington, DC, USA (ed. W. Thompson),

cap. 5, 77–122. Island Press Washington, DC, USA.

Smith, D., Conroy, M. e Brakhage, D. (1995) Efficiency of adaptive cluster sampling for

estimating density of wintering waterfowl. Biometrics, 51, 777–788.

Spiegelhalter, D. J., Best, N. G., Carlin, B. P. e Van Der Linde, A. (2002) Bayesian

measures of model complexity and fit. Journal of the Royal Statistical Society: Series

B (Statistical Methodology), 64, 583–639.

Sudman, S. e Kalton, G. (1986) New developments in the sampling of special populations.

Annual Review of Sociology, 12, 401–429.

Tanner, M. A. (1993) Tools for Statistical Inference: Methods for the Exploration of

Posterior Distributions and Likelhood Functions. Springer-Verlag.

Thompson, S. e Collins, L. (2002) Adaptive sampling in research on risk-related

behaviors. Drug and Alcohol Dependence, 68, 57–67.

Thompson, S. K. (1990) Adaptive cluster sampling. Journal of the American Statistical

Association, 85, 1050–1059.

— (1991) Stratified adaptive cluster sampling. Biometrika, 78, 389–397.

Thompson, S. K. e Seber, G. A. F. (1996) Adaptive sampling. Wiley New York.

Turk, P. e Borkowski, J. (2005) A review of adaptive cluster sampling: 1990–2003.

Environmental and Ecological Statistics, 12, 55–94.

Viallefont, V., Richardson, S. e Green, P. J. (2002) Bayesian analysis of Poisson mixtures.

Journal of Nonparametric Statistics, 14, 181–202.

125

Modelos de Previsão para Populações Raras e Agrupadas sob ...

Documents

Transcript of Modelos de Previsão para Populações Raras e Agrupadas sob ...