Estimação em Pequenas Áreas usando Modelos Assimétricos · 2011. 9. 26. · Estimação em...
Transcript of Estimação em Pequenas Áreas usando Modelos Assimétricos · 2011. 9. 26. · Estimação em...
Estimação em Pequenas Áreas usando
Modelos Assimétricos
TESE DE DOUTORADO
por
Valmária Rocha da Silva Ferraz
Universidade Federal do Rio de Janeiro
Instituto de Matemática
Departamento de Métodos Estatísticos
2011
Valmária Rocha da Silva Ferraz
Estimação em Pequenas Áreas usando Modelos Assimétricos
Tese de Doutorado apresentada ao Programa de Pós-
graduação em Estatística do Instituto de Matemática
da Universidade Federal do Rio de Janeiro como parte
dos requisitos necessários à obtenção do título de Doutor
em Estatística.
Orientador:
Fernando Moura
Departamento de Métodos Estatísticos
Instituto de Matemática
Universidade Federal do Rio de Janeiro
Rio de Janeiro, RJ - Brasil
julho de 2011
Estimação em Pequenas Áreas usandoModelos Assimétricos
Valmária Rocha da Silva Ferraz
Orientador: Fernando Moura
Tese submetida ao Corpo Docente do Instituto de Matemática - Departamento
de Métodos Estatísticos da Universidade Federal do Rio de Janeiro - UFRJ, como
parte dos requisitos necessários à obtenção do grau de Doutor em Estatística.
Aprovada por:
Presidente Prof. Fernando Moura
IM-UFRJ
Profa. Márcia Branco Prof. Cristiano Ferraz
IME-USP CCEN-UFPE
Prof. Hélio Migon Prof. Carlos Abanto Valle
IM-UFRJ IM-UFRJ
Rio de Janeiro, julho de 2011
FICHA CATALOGRÁFICA
Silva Ferraz, Valmária Rocha.
Estimação em Pequenas áreas
usando modelos assimétricos \
Valmária Rocha da Silva Ferraz.
Rio de Janeiro: UFRJ, IM, DME, 2011.
Tese - Universidade Federal do Rio de Janeiro, IM, DME.
1. Introdução. 2. Revisão de Literatura.
3. Modelo de Área para dados Assimétricos.
4. Extensão para Modelos Dinâmicos.
5. Conclusões e Trabalhos Futuros.
(Doutorado-UFRJ/IM/DME) I. Moura, F. A. S.
II. Universidade Federal do Rio de Janeiro III. Título.
Aos meus pais, Valmir
Benício e Maria de Lourdes,
e ao meu esposo Fernando
Nascimento.
Talvez não tenhamos conseguido fazer o melhor,
mas lutamos para que o melhor fosse feito. Não
somos o que deveríamos ser, não somos o que
iremos ser. . .mas Graças a Deus, não somos o que
éramos".
Martin Luther King
Agradecimentos
Agradeço em primeiro lugar a Deus pelo fôlego de vida, saúde, força e sabedoria
ao longo dessa caminhada.
Ao meu orientador, Fernando Moura, pelo incentivo, paciência, oportunidade e
conança.
Ao meu esposo, Fernando Nascimento, pelo apoio, força, amor, carinho e por
trazer ainda mais alegria à minha vida. Amo você!
À minha família maravilhosa: aos meus pais, Valmir e Maria; aos meus irmãos
Átila, Benite, Crisanto e Izamara; aos meus sobrinhos Letícia, Lara, Pedro e Izaellen;
aos meus cunhados Rafael, Jane, Elton e Roberto; e aos meus sogros Mauri e Neide.
Mesmo de longe, vocês estiveram sempre presentes.
Aos amigos da UFRJ, Marcelo, Adelmo, Marcus Vinícius, Carla, Ana Paula,
Vinícius, Fidel, Luzia, Alexandre, Luiz Ledo, Felipe, Joaquim, Mariana, Patricia,
Josiane, Thiago, Willian, Estelina, Giuseppe, Targino, Nassif, Larissa, João, Camila,
Renatinha, Carol (Jhones), Sheila e Carol (carioca). Obrigada pelas dúvidas tiradas
e pelas trocas de informações. Ir ao LPGE e encontrar pelo menos um de vocês era
sempre produtivo. Já sinto falta dos nossos cafezinhos. Agradecimento especial as
minhas irmãs de orientação Débora, Vera e Kelly. Guardarei em meu coração todos
os momentos de alegria compartilhados com todos vocês.
Aos professores do IM-DME-UFRJ, Nei, Flávia, Dani, Hélio, Alexandra, Marco
Antonio, Marina e Glauco. Só eu sei o quanto aprendi com vocês. Um agradecimento
também ao professor Carlos Abanto, por estar sempre pronto a ajudar e tirar umas
dúvidas. Muito obrigada por tudo.
Ao pessoal da secretaria: Cristiano, Claúdio, Eduardo, Davi e Rosi pelo bom
humor na prestação de serviços. Muito obrigada mesmo!
À CAPES, pelo apoio nanceiro.
Aos amigos e irmãos das Igrejas Batista Betânia do Rio e Batista Nacional de
Teresina, pelas palavras de encorajamento e pelos oceanos de orações.
Aos amigos mais chegados que irmãos, Laninha, Cleide, Ângelo, Alexandre e
Mônica e família. Obrigado por terem um par de ouvidos misericordiosos.
Quero agradecer também aos amigos e professores da UFPI, DM e DIE, dentre
eles, Paulinho, Sissy, Xavier, Aracy, Luiz Claúdio, Helder, Kelson, Keliny, Rita e
Jackélya. Agradeço especialmente a Lya Raquel pelo apoio e disponibilidade na luta
para que eu casse na UFPI. Nunca te agradecerei o suciente.
Ao amigo da república Waguim (in memory). Um dia a gente vai se encontrar!
A todos aqueles que de alguma maneira contribuíram, ou estiveram na torcida
pela realização deste trabalho.
E que venha o futuro!
Resumo
O objetivo principal deste trabalho é propor duas importantes extensões para o
modelo de estimação em pequenas áreas no nível de área de Fay & Herriot (1979) e
uma extensão para o modelo de estimação em pequenas áreas, no nível de unidade. A
primeira extensão permite que o erro amostral seja não simetricamente distribuído.
Isso é importante para o caso em que os tamanhos das amostras das áreas não
são sucientemente grandes para se utilizar o Teorema Central do Limite (TCL).
Lida-se com isso considerando que o erro amostral segue uma distribuição normal
assimétrica. A segunda extensão propõe modelar conjuntamente os estimadores
diretos, e os estimadores de variância amostral. Procedendo desta forma, consegue-
se levar em conta todas as fontes de incertezas. Além do modelo de área, propomos
um modelo no nível de unidade, que relaxa a suposição de que os erros amostrais
sejam simetricamente distribuídos. Resultados dos estudos de simulações mostraram
a eciência da estimação em recuperar os valores verdadeiros dos parâmetros e
apontam os modelos propostos, de área e de unidade, como sendo mais adequados do
que os modelos usuais, quando a variável de interesse apresenta assimetria. Aplica-
se o modelo de área a dois conjuntos de dados reais: dados de renda e dados
educacionais. Para o modelo de unidade, aplicou-se apenas aos dados de renda.
Ajustou-se os modelos normal e normal assimétrico para ns de comparação. Este
trabalho mostra que os modelos assimétricos propostos são mais ecientes.
Palavras-Chave: Inferência Bayesiana, Distribuição Normal Assimétrica,
Pequenas Áreas e Modelos Hierárquicos.
i
Abstract
The main aim of this work is to propose two important connected extensions of
the Fay & Herriot (1979) area level small area estimation model and an extension to
the unit level small model estimation model that might be of practical and theoretical
interests. The rst extension allows for the sampling error to be non- symmetrically
distributed. This is important for the case that the sample sizes in the areas are
not large enough to rely on the Central Limit Theorem. We deal with this by
assuming that the sample error is skew-normal distributed. The second extension
proposes to jointly model the direct survey estimator and its respective variance
estimator. Proceeding in this way, we manage to take into account all sources
of uncertainties. In addition to the area model, we propose a unit level model
that relaxes the assumption that the sampling errors are symmetrically distributed.
Results from simulation studies showed the eciency recovering the true values of
the parameters and pointing the true model. We apply the model to two real data
sets: income and educational data. We applied the unit level model to the income
data only. Our studies showed that the proposed skew models are more ecient
than the usual normal models when the data are assymetric.
Keywords: Bayesian Inference, small area, hierarchical model and skew-normal.
ii
Sumário
1 Introdução 1
1.1 Revisão Bibliográca . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . 6
2 Modelos de Pequenas Áreas e Distribuições Assimétricas 7
2.1 Principais Modelos de Pequenas Áreas . . . . . . . . . . . . . . . . . 7
2.1.1 Modelo no Nível de Área (Tipo A) . . . . . . . . . . . . . . . 8
2.1.2 Modelo no Nível da Unidade (Tipo B) . . . . . . . . . . . . . 9
2.2 Distribuição Normal Assimétrica . . . . . . . . . . . . . . . . . . . . . 12
2.2.1 Caso Univariado . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.2 Distribuição Normal Assimétrica Multivariada . . . . . . . . . 15
2.3 Critérios de comparação de Modelos . . . . . . . . . . . . . . . . . . . 17
2.3.1 Critério de Informação Bayesiano (BIC) . . . . . . . . . . . . 17
2.3.2 Critério de Informação dos Desvios (DIC) . . . . . . . . . . . 17
2.3.3 Erro Quadrático Médio Preditivo (EQMp) . . . . . . . . . . . 18
2.3.4 Erro Absoluto Médio Preditivo (EAMp) . . . . . . . . . . . . 18
2.3.5 Desvio Preditivo Esperado (EPD) . . . . . . . . . . . . . . . . 19
3 Modelo Assimétrico no Nível de Área 20
3.1 Modelo Assimétrico no Nível de Área . . . . . . . . . . . . . . . . . . 20
3.2 Modelo Conjunto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2.1 Especicação da Distribuição a Priori para o Parâmetro de
Assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2.2 Distribuições a Priori . . . . . . . . . . . . . . . . . . . . . . . 26
iii
3.2.3 Distribuição a Posteriori . . . . . . . . . . . . . . . . . . . . . 26
3.3 Simulação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3.1 Simulação 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.3.2 Simulação 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.3 Estudo de simulação . . . . . . . . . . . . . . . . . . . . . . . 43
3.3.4 Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.4 Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.4.1 Aplicação 1: Dados de Renda . . . . . . . . . . . . . . . . . . 50
3.4.2 Aplicação 2: Dados Educacionais . . . . . . . . . . . . . . . . 63
3.4.3 Conclusão das Aplicações . . . . . . . . . . . . . . . . . . . . 66
4 Modelo Assimétrico no Nível de Unidade 68
4.1 Modelo assimétrico no nível de unidade com λ comum (MNAC) . . . 69
4.2 Modelo assimétrico no nível de unidade com λi hierárquico (MNAH) . 70
4.3 Estudo de Simulação para o modelo assimétrico no nível da unidade. 71
4.3.1 Simulação 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.3.2 Simulação 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.3.3 Conclusão das Simulações . . . . . . . . . . . . . . . . . . . . 86
4.4 Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.4.1 Previsão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.5 Conclusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
5 Conclusões e Extensões 94
Bibliograa 96
Apêndice 100
iv
Lista de Tabelas
3.1 Medidas resumo da distribuição a posteriori dos parâmetros para
simulação com dados gerados com erros NA e λ = 8. . . . . . . . . . 30
3.2 Critérios de comparação de modelos para simulação com dados
gerados com erros NA e λ = 8. . . . . . . . . . . . . . . . . . . . . . . 31
3.3 Medidas resumo da distribuição a posteriori dos parâmetros para
simulação com dados gerados com erros NA e λ = −8. . . . . . . . . 32
3.4 Critérios de comparação de modelos para simulação com dados
gerados com erros NA e λ = −8. . . . . . . . . . . . . . . . . . . . . . 38
3.5 Medidas resumo para a distribuição a posteriori dos parâmetros para
os dados simulados gerados com erro normal. . . . . . . . . . . . . . . 39
3.6 Critérios de escolha de modelos para os dados simulados gerados com
erro normal com ajustes normal e normal assimétrico. . . . . . . . . . 42
3.7 Medidas resumos das médias a posteriori dos parâmetros para as 500
amostras simuladas do modelo normal assimétrico, considerando os
ajustes normal e normal assimétrico. . . . . . . . . . . . . . . . . . . 44
3.8 Medidas resumos das médias a posteriori dos parâmetros para as
500 amostras simuladas do modelo normal, considerando os ajustes
normal e normal assimétrico. . . . . . . . . . . . . . . . . . . . . . . . 45
3.9 Medidas de ajuste para estimação pontual e intervalar das médias das
pequenas áreas para as 500 amostras simuladas dos dados gerados do
modelo normal assimétrico considerando os ajustes normal e normal
assimétrico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.10 Medidas resumo para a distribuição a posteriori dos parâmetros para
os dados de renda segundo os ajustes do modelo normal assimétrico
e normal para amostra de 5%. . . . . . . . . . . . . . . . . . . . . . . 54
v
3.11 Medidas resumo para a distribuição a posteriori dos parâmetros para
os dados de renda segundo ajuste do modelo normal assimétrico e do
modelo normal para amostras de 10%. . . . . . . . . . . . . . . . . . 55
3.12 Critérios de escolha de modelos para ajustes dos dados de renda nas
amostras de 5% e 10%. . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.13 Medidas resumo para a distribuição a posteriori dos parâmetros para
os dados educacionais segundo ajustes normal e normal assimétrico. . 64
3.14 Critérios de escolha de modelos para aplicação dos dados educacionais. 64
4.1 Medidas resumo dos parâmetros da simulação para os dados
assimétricos no nível da unidade com λ comum a todas as áreas. . . . 73
4.2 Medidas resumo dos parâmetros da simulação para os dados
assimétricos de unidade com λi hierárquico. . . . . . . . . . . . . . . 79
4.3 Medidas de ajuste para dados gerados do modelo assimétrico com λ
comum e λi hierárquico, considerando os ajustes assimétrico e normal. 84
4.4 Medidas resumo para a distribuição a posteriori dos parâmetros para
os dados de renda segundo os ajustes do modelo normal, NAC e NAH
para amostra de 10%. . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.5 Critérios de escolha de modelos para aplicação dos dados de renda
com amostra de 10%. . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
vi
Lista de Figuras
2.1 Densidades normais assimétricas. . . . . . . . . . . . . . . . . . . . . 14
3.1 Histograma da distribuição a posteriori dos parâmetros β0, β1, β2,
σ2ν e λ para dados simulados com parâmetro λ = 8 com intervalo
de 95% de credibilidade considerando ajuste normal assimétrico. A
linha vertical cheia representa o valor verdadeiro e as linhas verticais
tracejadas os quantis 2,5% e 97,5% . . . . . . . . . . . . . . . . . . . 33
3.2 Histograma da distribuição a posteriori dos parâmetros β0, β1, β2 e
σ2ν para dados simulados com parâmetro λ = 8 e intervalo de 95%
de credibilidade considerando ajuste normal. A linha vertical cheia
representa o valor verdadeiro e as linhas verticais tracejadas os quantis
2,5% e 97,5%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.3 Histograma da distribuição a posteriori dos parâmetros β0, β1, β2,
σ2ν e λ para dados simulados com parâmetro λ = −8 com intervalo
de 95% de credibilidade considerando ajuste normal assimétrico. A
linha vertical cheia representa o valor verdadeiro e as linhas verticais
tracejadas os quantis 2,5% e 97,5%. . . . . . . . . . . . . . . . . . . . 35
3.4 Histograma da distribuição a posteriori dos parâmetros β0, β1, β2 e
σ2ν para dados simulados com parâmetro λ = −8 com intervalo de
95% de credibilidade considerando ajuste normal. A linha vertical
cheia representa o valor verdadeiro e as linhas verticais tracejadas os
quantis 2,5% e 97,5%. . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.5 Intervalo de Credibilidade de 95% para os µi obtidos da simulação
com erros NA. A barra vertical (|) representa o intervalo de 95% de
credibilidade, o traço (-) representa a média a posteriori e o asterisco
(∗) representa o valor verdadeiro. . . . . . . . . . . . . . . . . . . . . 37
vii
3.6 Histograma da distribuição a posteriori dos parâmetros β0, β1, β2, σ2ν
e λ para os dados gerados com erro normal, considerando ajuste NA
e intervalo de 95% de credibilidade. A linha vertical cheia representa
o valor verdadeiro e as linhas verticais pontilhadas os quantis 2,5% e
97,5% . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.7 Histograma da distribuição a posteriori dos parâmetros β0, β1, β2
e σ2ν para ajuste normal, com os dados gerados com erro normal e
intervalo de 95% de credibilidade. A linha vertical cheia representa
o valor verdadeiro e as linhas verticais pontilhadas os quantis 2,5% e
97,5% . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.8 Razão do Erro Quadrático Médio (REQM) e Razão do Erro Absoluto
Médio (REAM) para as médias das pequenas áreas sob o ajuste
normal e normal assimétrico. . . . . . . . . . . . . . . . . . . . . . . . 46
3.9 Medidas de ajustes MEQMp, MEAMp, Cobertura média e
comprimento médio para as 500 amostras simuladas do modelo
normal assimétrico para as 140 pequenas áreas. . . . . . . . . . . . . 48
3.10 Densidade da distribuição a posteriori dos parâmetros β0, β1, β2,
σ2ν e λ para aplicação com dados de renda com amostra de 5%,
considerando os ajustes Normal Assimétrico (NA) e Normal (N). . . . 52
3.11 Densidade da distribuição a posteriori dos parâmetros β0, β1, β2,
σ2ν e λ para aplicação com dados de renda com amostra de 10%,
considerando o ajuste Normal Assimétrico (NA) e Normal (N). . . . . 53
3.12 Boxplots das Conditional Predictive Ordinates (CPOs) para os
modelos normal e normal assimétrico, plotados para as amostras de
5% e 10%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.13 Intervalo de credibilidade de 95% para dados de renda. As barras
verticais representam os intervalos de credibilidade de 95% e “ • ” é
o valor verdadeiro da média versus o valor predito. . . . . . . . . . . 59
3.14 Diferença entre a estimativa do ajuste normal assimétrico e normal,
ηyi = µ(NA)i − µ(N)
i para dados de renda. . . . . . . . . . . . . . . . . 60
3.15 Comparação dos dois ajustes: valor amostral yi versus sua estimativaˆyi para dados de renda. . . . . . . . . . . . . . . . . . . . . . . . . . . 62
viii
3.16 Densidade da distribuição a posteriori dos parâmetros β0, β1, σ2ν e
λ para aplicação com dados de educacionais considerando os ajustes
Normal Assimétrico (NA) e Normal (N). . . . . . . . . . . . . . . . . 65
3.17 Comparação dos dois ajustes para aplicação com dados educacionais:
valor amostral yi versus estimativas ˆyi. . . . . . . . . . . . . . . . . . 66
4.1 Histograma da distribuição a posteriori dos parâmetros β0, β1, β2, σ2ν
e λ = −1 com intervalo de 95% de credibilidade, para simulação com
dados assimétricos no nível da unidade com ajuste NAC. . . . . . . . 74
4.2 Histograma da distribuição a posteriori dos parâmetros β0, β1, β2, σ2ν ,
e λ = 0 com intervalo de 95% de credibilidade, para simulação com
dados assimétricos no nível da unidade com ajuste NAC. . . . . . . . 75
4.3 Histograma da distribuição a posteriori dos parâmetros β0, β1, β2, σ2ν
e λ = 5 com intervalo de 95% de credibilidade, para simulação com
dados assimétricos no nível da unidade com ajuste NAC. . . . . . . . 76
4.4 Histograma da distribuição a posteriori dos parâmetros β0, β1, β2, σ2ν
e λ = 10 com intervalo de 95% de credibilidade, para simulação com
dados assimétricos no nível da unidade com ajuste NAC. . . . . . . . 77
4.5 Histograma da distribuição a posteriori dos parâmetros β0, β1, β2, σ2ν ,
σ2λ e λ = −1 com intervalo de 95% de credibilidade, para simulação
com dados assimétricos no nível da unidade com ajuste NAH. . . . . 80
4.6 Histograma da distribuição a posteriori dos parâmetros β0, β1, β2,
σ2ν , σ
2λ e λ = 0 com intervalo de 95% de credibilidade, para simulação
com dados assimétricos no nível da unidade com ajuste NAH. . . . . 81
4.7 Histograma da distribuição a posteriori dos parâmetros β0, β1, β2,
σ2ν , σ
2λ e λ = 5 com intervalo de 95% de credibilidade, para simulação
com dados assimétricos no nível da unidade com ajuste NAH. . . . . 82
4.8 Histograma da distribuição a posteriori dos parâmetros β0, β1, β2, σ2ν ,
σ2λ e λ = 10 com intervalo de 95% de credibilidade, para simulação
com dados assimétricos no nível da unidade com ajuste NAH. . . . . 83
ix
4.9 Intervalos de Credibilidade de 95% para µi em quatro pequenas áreas
do estudo de simulação 2 com dados gerados do modelo NAH com λ =
5. A barra vertical (|) representa o intervalo de 95% de credibilidade,
o traço (-) representa a média a posteriori e o asterisco (∗) representao valor verdadeiro. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.10 Intervalo de Credibilidade de 95% para as médias de cada pequena
área obtidos nos ajustes Normal, NAC e NAH. A barra vertical (|)representa o intervalo de 95% de credibilidade, o traço (-) representa
a média a posteriori e o asterisco (∗) representa o valor verdadeiro. . 91
4.11 Boxplot das diferenças relativas entre as médias das estimativas a
posteriori e os verdadeiros valores das médias. . . . . . . . . . . . . . 92
4.12 Boxplot dos coecientes de variação baseado na amostra, no modelo
normal, NAC e NAH. . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
x
Capítulo 1
Introdução
A demanda por informações estatísticas no nível de pequenas áreas geográcas,
tais como municípios, distritos ou mesmo bairros tem apresentado um crescimento
considerável nos últimos anos. Este crescimento tem sido motivado, por um lado pela
legislação vigente, que dene a distribuição de verbas federais a partir de critérios
populacionais, e por outro lado pela necessidade das autoridades locais em obter
um quadro preciso e atualizado da sua área de jurisdição. Os governos estaduais e
federal também necessitam de informações geográcas mais desagregadas, a m de
identicar sub-regiões menos desenvolvidas, auxiliando na elaboração de planos de
desenvolvimento regionais, o que pode acarretar em tamanho de amostras pequeno,
dentro de cada domínio. Outras vezes, interessa-se em obter informações em
subestratos de uma população (por exemplo, informações da renda familiar média
abaixo de um certo limite), o que também pode apresentar tamanhos de amostras
pequenos dentro de cada domínio.
Deste modo, muitas vezes, os domínios (sub-regiões) são demasiadamente
pequenos, levando ao mesmo problema de tamanhos de amostras pequenos. O
pequeno tamanho da amostra pode ser atribuído ao custo de coletar os dados, às
diculdades operacionais da pesquisa, ou até mesmo à necessidade não antecipada
da informação, no momento em que a pesquisa foi planejada. Estes cenários
estabelecem problemas estatísticos, típicos daqueles estudados em estimação em
pequenas áreas. Neste contexto, a estimação de uma característica de interesse
nessas pequenas áreas é obtida a partir de informações em outras áreas consideradas
1
2
similares à área em questão e/ou informações obtidas em ocasiões anteriores.
Abordagens baseadas em modelos são amplamente empregadas na estimação em
pequenas áreas. Eles emprestam informações dos dados disponíveis em todos os
domínios (áreas). Estes tipos de modelos utilizam variáveis auxiliares que estão
disponíveis em registros administrativos, censos, etc. O tipo do modelo empregado
depende do nível em que ambas as variáveis, resposta e auxiliares, estão disponíveis.
Tradicionalmente, na estimação em pequenas áreas, por meio de modelos, têm-se
assumido que os erros aleatórios sejam independentes e identicamente distribuídos,
provenientes de alguma distribuição simétrica em torno de zero, sendo a principal
delas a distribuição normal. Os principais modelos utilizados em pequenas áreas
são os modelos no nível de área e no nível de unidade. No modelo no nível de área,
apenas uma medida é utilizada para representar toda a área, como por exemplo o
estimador direto da média. No modelo no nível de unidade é necessário conhecer os
valores da característica de interesse para cada unidade pertencente à amostra.
Neste trabalho, propõe-se modelos para pequenas áreas em que a distribuição dos
erros segue uma distribuição assimétrica. Azzalini (1985) propõe uma maneira de
obter classes de distribuições assimétricas, cuja função densidade de probabilidade
(f.d.p) da classe resultante é o produto de uma f.d.p simétrica em torno de zero,
por uma função de distribuição acumulada (f.d.a), na qual a derivada também é
simétrica em torno de zero, sendo o argumento desta f.d.a multiplicado por um
parâmetro que controla a assimetria da distribuição resultante. Aqui, concentra-se
na distribuição normal assimétrica dos erros amostrais do modelo, que tem como
caso particular a distribuição normal quando o parâmetro que controla assimetria é
igual a zero.
Além disso, em pequenas áreas é comum assumir que as variâncias dos erros
amostrais são conhecidas. Essa suposição parece pouco realista, e por isso,
neste trabalho, as variâncias são tratadas no modelo proposto como quantidades
desconhecidas a serem estimadas conjuntamente com os outros parâmetros do
modelo.
Neste capítulo, faz-se uma revisão da literatura de estimação em pequenas áreas.
Apresenta-se, também, duas seções com os objetivos e a organização deste trabalho.
3
1.1 Revisão Bibliográca
Na literatura, vários métodos têm sido propostos e empregados com a nalidade
de fornecer estimativas em pequenas áreas. Muitos destes métodos envolvem o
uso de informações auxiliares provenientes de um censo ou registro administrativo,
combinado com informações das pequenas áreas obtidas através de uma amostra
de unidades populacionais. Esta combinação se dá por meio de um modelo
explicitamente assumido. Nesta abordagem, a variável de interesse (dependente)
é usualmente obtida através de uma amostra, e os previsores são um conjunto de
variáveis auxiliares disponíveis para todas as unidades da população, no nível de área
(modelo de área) ou no nível da unidade (modelo de unidade). Cada observação pode
ser modelada por um preditor linear mais um erro. Assumem-se, frequentemente,
que os erros são normalmente distribuídos com médias iguais a zero e variâncias
iguais para todas as áreas. O vetor de parâmetros do preditor linear é estimado
através do método dos mínimos quadrados, utilizando-se a informação amostral de
todas as pequenas áreas.
Estudos empíricos mostram que os estimadores de regressão captam pouca
variação entre as pequenas áreas e, consequentemente, as estimativas obtidas são
consideravelmente concentradas em torno de um valor médio de previsão. Outras
metodologias utilizam modelos de componentes de variância, a m de permitir
alguma variação entre as pequenas áreas que não possam ser atribuídas a diferenças
entre valores das variáveis auxiliares. Battese & Fuller (1981) e Battese, Harter &
Fuller (1988), propõem o modelo do intercepto aleatório para estimar a média de
uma característica de interesse em cada pequena área. O modelo apresentado em
Battese & Fuller (1981) assume duas componentes de erro; a primeira componente
com variâncias iguais para todas as áreas e a outra com uma variância especíca
para cada área. Neste modelo, assume-se que a fração de amostragem é desprezível.
Modelos no nível da unidade não são muito utilizados porque os dados nem
sempre estão disponíveis no nível mais desagregado. Na prática, modelos no
nível de área são mais utilizados. Os procedimentos utilizados em ambos os
modelos abrangem uma variedade de métodos utilizados para obter estimativas para
áreas geográcas ou domínios de estudo, nos quais os tamanhos das amostras são
demasiadamente pequenos para fornecerem estimativas diretas conáveis.
4
Um modelo de área muito utilizado é o modelo de Fay-Herriot (Fay & Herriot,
1979), que envolve tanto os erros relacionados ao desenho amostral quanto os erros
relacionados ao modelo.
Moura & Holt (1999) propuseram um modelo de dois níveis, com o objetivo
de fornecer estimativas de pequenas áreas, utilizando dados a partir de pesquisas
por amostragem. Este modelo constitui-se numa extensão do modelo de Battese
& Fuller (1981). O uso de modelos de múltiplos níveis é justicado pelo fato de
permitirem a variação entre as áreas a partir de: i) diferenças na distribuição das
variáveis no nível das unidades; ii) diferenças na distribuição das variáveis no nível
das áreas; e iii) a inclusão de componentes de variância especíca de cada área, para
acomodarem variações locais que não possam ser explicadas por covariáveis nos
níveis de unidade e de área. Qualquer um dos parâmetros de regressão do modelo
(em vez de apenas o intercepto, como proposto por Battese & Fuller, 1981), podem
variar aleatoriamente em relação às pequenas áreas. Moura (1994) apresenta um
estudo detalhado utilizando os dados do Censo Experimental de Limeira (1988), no
qual mostra que tais modelos são adequados para realizarem previsões no nível de
pequenas áreas. Neste estudo, as pequenas áreas foram consideradas como sendo os
setores censitários.
Uma aplicação comum para levar em conta possíveis efeitos de amostragem
é ponderar as medidas amostrais por pesos amostrais, denidos como o inverso
das probabilidades de seleção (veja Pfeermann, 2002, p. 137). Prasad & Rao
(1999) propuseram um modelo no nível de unidade considerando que não existe
variação entre as médias das pequenas áreas e com efeitos xos e aleatórios, supondo
normalidade para os dois efeitos. O estimador da média da pequena área é obtido
por meio deste modelo e, além disso, é proposto que sejam substituídas as médias
por médias ponderadas.
Outras aplicações na literatura reportam ao uso de modelos hierárquicos
bayesianos para estimação em pequenas áreas. You & Rao (2000) propõem uma
extensão do modelo de Moura & Holt (1999), assumindo uma hierarquia para o
parâmetro de precisão do modelo. Desta forma, a incerteza associada aos parâmetros
nos vários níveis do modelo é levada em conta.
Moura & Migon (2002) propõem um modelo logito hierárquico para previsão
de proporções em pequenas áreas, levando em consideração os possíveis efeitos de
5
heterogeneidade espacial e não estruturada.
Uma abordagem usual na estimação em pequenas áreas é obter uma estimativa
suavizada da variância amostral e, em seguida, tratá-la como conhecida no modelo.
Veja Dick (2007) para mais detalhes. Uma abordagem alternativa pode ser
encontrada em Arora & Lahiri (1997) e You & Chapman (2006). Seus trabalhos
propõem incorporar a incerteza nas estimativas da variância amostral, modelando-
as. You & Chapman (2006), também propuseram que no modelo de Fay-Herriot
as variâncias dos erros de amostragem sejam estimadas individualmente, através de
estimadores diretos. Neste caso, é suposto que as variâncias sejam desconhecidas e
estimadas por estimadores não viesados, como a variância amostral. Foi assumido
também que os estimadores dessas variâncias são condicionalmente independentes
dos estimadores direto da variável de interesse, e que tem a distribuição amostral
dada pela densidade da distribuição qui-quadrado com (ni − 1) graus de liberdade,
onde ni é o tamanho da amostra na i-ésima área.
Arellano-Valle, Bolfarine & Lachos (2007) desenvolveram um modelo normal
assimétrico para regressão mista com variáveis dependentes, mostrando que há um
ganho signicativo em relaxar a suposição de normalidade dos erros xos e aleatórios.
O custo seria a utilização de técnicas de otimização em softwares estatísticos já
existentes.
Neste trabalho, propõe-se duas extensões para o modelo de Fay-Herriot,
considerando uma distribuição não simétrica para os erros amostrais, e outra
considerando que as variâncias dos erros amostrais sejam desconhecidas e estimadas
conjuntamente com os outros parâmetros do modelo. Essa proposta abrange
situações em que os dados são moderadamente assimétricos.
1.2 Objetivos
O objetivo principal deste trabalho é propor duas importantes extensões do modelo
de Fay-Herriot e uma extensão para o modelo de unidade. A primeira extensão
permite que os erros amostrais não sejam simetricamente distribuídos. Dentre
as várias distribuições assimétricas, optou-se por utilizar a distribuição normal
assimétrica para modelar os erros. A segunda extensão consiste em retirar a
6
suposição de que as variâncias dos erros amostrais sejam conhecidas e estimá-
las conjuntamente com os outros parâmetros do modelo, a partir de um enfoque
bayesiano hierárquico. A extensão do modelo de unidade consiste em relaxar a
suposição de que os erros sejam simetricamente distribuídos. Optou-se, também,
pela distribuição normal assimétrica.
1.3 Organização do Trabalho
Este trabalho organiza-se da forma descrita a seguir. No Capítulo 2, apresenta-
se os principais modelos de pequenas áreas, segundo Rao (2003): i) modelo no
nível de área, ii) modelo no nível da unidade. Ainda nesse capítulo, apresenta-se a
distribuição normal assimétrica e suas principais propriedades e se mostra, também,
as medidas de ajustes que foram utilizadas para comparar os modelos.
No Capítulo 3, expõe-se o modelo proposto no nível de área, mostrando como foi
feita a estimação dos parâmetros e simulações que comprovam a eciência do modelo
proposto. Na Seção 3.4, duas aplicações com dados reais são apresentadas, uma
utilizando dados de renda e outra de dados educacionais de escolas do Rio de Janeiro.
No Capítulo 4, propõe-se um modelo no nível da unidade com erro assimétrico sob
duas abordagens: uma considerando o mesmo parâmetro de assimetria para todas
as áreas e outra considerando assimetria diferente para as áreas. Apresenta-se, na
Seção 4.3, um estudo de simulação e na Seção 4.4 uma aplicação. Por m, no
Capítulo 5, são apresentadas as conclusões e extensões deste trabalho.
Capítulo 2
Modelos de Pequenas Áreas e
Distribuições Assimétricas
Abordagens baseadas em modelos estatísticos são recomendadas para o problema de
estimação em pequenas áreas. Neste capítulo, descreve-se os principais modelos de
pequenas áreas, incluindo o modelo de Fay-Herriot e suas limitações. Apresenta-
se a distribuição normal assimétrica univariada, multivariada, e suas principais
propriedades. Descreve-se, também, alguns critérios de comparação de modelos
utilizados.
2.1 Principais Modelos de Pequenas Áreas
Abordagens baseadas em modelos são amplamente utilizadas em estimação em
pequenas áreas. Seguindo a terminologia de Rao (2003), pode-se classicar os
modelos de pequenas áreas em dois tipos: modelo no nível de área (Tipo A) e
modelo no nível da unidade (Tipo B).
7
8
2.1.1 Modelo no Nível de Área (Tipo A)
Empregando a notação encontrada em Rao (2003), seja θi = g(µi), onde µi é a média
populacional da pequena área i, para alguma função g(·) conhecida, relacionada ao
vetor de variáveis auxiliares zi = (z1i, . . . , zpi)′, para uma área especíca i, por meio
do modelo linear
θi = z′
iβ + vi, i = 1, . . . ,M, (2.1)
onde β = (β1, . . . , βp)′é um vetor p × 1 de coecientes de regressão. Além disso,
os vi's são efeitos aleatórios independentes e identicamente distribuídos (iid), com
Em(vi) = 0 e Vm(vi) = σ2v , onde Em e Vm denotam respectivamente a esperança
e a variância sob o modelo. Frequentemente, assume-se que viiid∼ N(0, σ2
v), ∀i =
1, . . . ,M .
Em algumas aplicações, nem todas as áreas são selecionadas na amostra.
Suponha que se tenha M áreas na população e somente m áreas são selecionadas.
Considera-se que as áreas amostradas também obedecem o modelo populacional.
Para fazer inferência sobre as médias das pequenas áreas sobre o modelo (2.1),
assume-se que os estimadores diretos de µi estejam disponíveis para as m áreas
amostradas. Assim, temos
θi = g(µi) = θi + ei, i = 1, . . . ,m, (2.2)
onde os erros amostrais ei são independentes, com
E(ei | θi) = 0, V (ei | θi) = ψ2i . (2.3)
É comum supor que as variâncias, ψ2i , sejam conhecidas. Esta suposição pode ser
completamente restrita em algumas aplicações. Por exemplo, o estimador direto θipode ser viesado para θi, sob o plano amostral empregado, se g(·) é uma função não
linear e o tamanho da amostra ni da i-ésima área é pequeno. Raramente as variâncias
ψ2i são conhecidas, e uma forma de lidar com o fato é suavizar as variâncias estimadas
ψ2i , de modo a obter maior estabilidade para ψ2
i , e tratá-las como verdadeiras.
Combinando (2.1) com (2.2), tem-se:
θi = z′
iβ + vi + ei i = 1, . . . ,m. (2.4)
9
Note que (2.4) envolve tanto os erros do desenho amostral ei quanto os erros do
efeito aleatório vi. Os erros ei e vi são considerados independentes. O modelo (2.4)
é um caso especial de um modelo linear misto.
A suposição de que Ep(ei | θi) = 0 no modelo (2.2) nem sempre é válida, por
exemplo, se o estimador direto do desenho é viciado. Neste caso, pode-se propor o
seguinte modelo:
θ∗i = θi + e∗i , i = 1, . . . ,m, (2.5)
com E(e∗i | θi) = 0, isto é, θ∗i é não viciado. Vale a pena ressaltar que, neste caso,
os modelos amostrais e de ligação não são iguais. Pode-se combinar (2.5) com o
modelo de ligação (2.1) para produzir um modelo linear misto da forma (2.4).
Modelos do Tipo A são bastante utilizados na prática, por exemplo, para estimar
a renda, grau de escolaridade de crianças pobres numa região, etc. Esses modelos
também têm sido utilizados no contexto de mapeamento de doenças, estimando
taxas de incidência e de mortalidade regional.
A maioria dos modelos de nível de área são inspirados no modelo Fay-Herriot.
Fay & Herriot (1979) estimaram a renda per capita em pequenas áreas nos EUA
com população menor que 1000 habitantes, utilizando como variável resposta à
média amostral. Foi suposto que as variâncias ψ2i são conhecidas, assumindo que o
vetor de dimensão-k das variáveis zi = (zi1, zi2, . . . , zik)′relaciona-se com as médias
µi em cada área i, e que µi's são independentes com distribuição N(z′iβ, σ
2v), onde
β é um vetor de k parâmetros desconhecidos. O modelo pode ser escrito como:
θi = θi + ei
θi = µi + vi, (2.6)
onde: θi é o estimador direto (ou uma função dele) da verdadeira média populacional
da pequena área i, θi; viiid∼ N(0, σ2
v) e eiiid∼ N(0, σ2
i /ni).
2.1.2 Modelo no Nível da Unidade (Tipo B)
Outro tipo de modelo para estimação em pequenas áreas, abordado em Rao (2003),
é o modelo no nível da unidade. Seja xij = (xij1, . . . , xijp)′os dados auxiliares
10
disponíveis para cada elemento populacional j na i-ésima área. Além disso, a variável
de interesse, yij, está relacionada com xij através de um modelo de regressão linear
misto:
yij = x′
ijβ + vi + eij; j = 1, . . . , Ni, i = 1, . . . ,m. (2.7)
Também é assumido que os efeitos de uma área especíca vi são iid com
Em(vi) = 0 e Vm(vi) = σ2v , eij = kij eij onde kij são constantes xas e eij são
variáveis aleatórias iid e independentes dos vi's. Além disso, é suposto que:
Em(eij) = 0; Vm(eij) = σ2e .
Frequentemente, são assumidos que os eij e os vi são normalmente distribuídos. Os
parâmetros de interesse são geralmente as médias das pequenas áreas ou os totais.
Rao (2003) também assume que uma amostra de tamanho ni é selecionada de
Ni unidades na i-ésima área (i = 1, . . . ,m), e que os valores amostrais também
satisfazem ao modelo (2.7). A última suposição é satisfeita sob amostragem aleatória
simples de cada área, ou mais geralmente para desenhos amostrais que usam as
informações auxiliares xij na seleção da amostra. Com efeito, escrevendo-se (2.7)
na forma matricial:
yPi = XPi β + vi1
Pi + ePi , i = 1, . . . ,m, (2.8)
onde XPi é Ni × p, yPi , 1Pi e ePi são vetores Ni × 1 e 1Pi = (1, . . . , 1)
′. Particiona-se
(2.8) em duas partes, a parte amostrada e a parte não amostrada:
yPi =
yi
y∗i
=
Xi
X∗i
β + vi
1i
1∗i
+
ei
e∗i
, (2.9)
onde o subescrito (∗) denota as unidades não amostradas. Se o modelo é válido para
a amostra, então a inferência sobre Θ = (β′, σ2v , σ
2e)′ é baseada em:
f(yi|XPi ,Θ) =
∫f(yi,y
∗i |XP
i ,Θ)dy∗i , i = 1, . . . ,m, (2.10)
onde f(yi,y∗i |XP
i ,Θ) é a distribuição conjunta de yi e y∗i . Por outro lado, sendo
ai = (aij, . . . , aiNi)′com aij = 1 se j pertence a amostra, e aij = 0 caso contrário, a
11
distribuição dos dados amostrais (yi, ai) é dada por
f(yi, ai|XPi ,Θ) =
∫f(yi,y
∗i |XP
i ,Θ)f(ai|yi,y∗i ,XPi )dy∗i
=
∫[f(ai|XP
i )]f(yi,y∗i |XP
i ,Θ)dy∗i ,
com f(ai|yi,y∗i ,XPi ) = f(ai|XP
i ), isto é, a probabilidade da amostra selecionada
não depende de yPi , mas pode depender de XPi (uso de planos amostrais não
informativos). Neste caso, não existe viés na seleção, e pode-se assumir que os
valores da amostra também obedecem ao modelo, isto é, usa-se f(yi|XPi ,Θ) para se
fazer inferência sobre Θ (Smith, 1983).
Se a amostra selecionada depende de uma variável auxiliar, digamos zPi , que não
está incluída em XPi , então a distribuição dos dados amostrais (yi, ai) é
f(yi, ai|XPi , z
Pi ,Θ) =
∫[f(ai|zPi ,XP
i )]f(yi,y∗i |XP
i , zPi ,Θ)dy∗i .
A inferência sobre Θ é baseada em f(yi|XPi , z
Pi ,Θ), que é diferente de (2.10) a menos
que zPi seja independente de yPi dado XPi . Neste caso, não se pode assumir que o
modelo (2.8) seja válido para os valores amostrais. Pode-se estender o modelo (2.8)
através da inclusão de zPi , e então fazer um teste de signicância para os coecientes
de regressão associados usando os dados amostrais. Se a hipótese nula for rejeitada,
então, assume-se que o modelo original (2.8) também é válido para os valores da
amostra (Skinner, 1994).
O modelo (2.8) não é apropriado sob amostragem de conglomerado em
dois estágios nas pequenas áreas, porque os efeitos de conglomeração não são
incorporados neste modelo.
Battese & Fuller (1981) e Battese et al. (1988) propõem o modelo (2.7) para
estimar a média da produção de soja por segmento para 12 pequenas áreas do
estado americano de Iowa, usando como variável auxiliar dados obtidos por satélite,
juntamente com dados obtidos através de uma amostra.
Para estimar as médias da variável resposta, escreve-se Yi como:
Yi = fiyi + (1− fi)Y ∗i (2.11)
onde fi = ni/Ni e yi, Y ∗i denotam respectivamente as médias dos elementos
amostrados e não amostrados. Segue, por (2.11) que a estimação da média da
pequena área Yi é equivalente a predizer a variável aleatória Y ∗i sob o modelo (2.7).
12
Se a população de tamanho Ni for grande, então as médias das pequenas áreas
podem ser obtidas por:
Yi = X′
iβ + vi (2.12)
note que Yi = X′iβ + vi + Ei e Ei ≈ 0, onde Ei é a média dos Ni erros eij e Xi é a
média conhecida dos XPi .
Os modelos descritos acima não são adequeados para dados assimétricos. Tem-
se observado que o comportamento dos dados nem sempre possui uma forma
simétrica. Isso motivou alguns pesquisadores a estudarem distribuições cujas
densidades possuem formas assimétricas. Estudos mostram que, por exemplo, dados
de renda são assimétricos, e possuem caudas pesadas em alguns casos. Por isso,
propõe-se uma modelagem de pequenas áreas, permitindo que a distribuição dos
erros possam seguir uma distribuição assimétrica.
2.2 Distribuição Normal Assimétrica
Obter uma classe de distribuições paramétricas que apresente uma transição
contínua da normalidade para a não normalidade foi a grande motivação para a
proposta da distribuição normal assimétrica, para modelar os erros amostrais.
Muitas famílias de f.d.p (função densidade de probabilidade) têm a distribuição
normal como caso limite, como a distribuição t de Student com ν graus de liberdade,
quando ν → ∞. Entretanto, existem poucas classes de distribuições paramétricas
que incluem a normal como um de seus membros e não apenas como um caso limite.
Dentre as classes que incluem propriamente a normal, algumas possuem expressões
mais estruturadas para a f.d.p e outras são obtidas de modo articial.
Azzalini (1985) dene uma família de distribuições paramétricas e tratável
matematicamente que inclui, propriamente, a distribuição normal padrão, porém
com um parâmetro extra que permite controlar a assimetria da distribuição. Os
membros desta família recebem o nome de normal assimétrica. Vê-se, ainda, que
esta família permite uma transição contínua da normalidade para a não normalidade
através da variação de um único parâmetro. Em Azzalini (1986) são apresentadas
novas propriedades da distribuição normal assimétrica.
13
Azzalini & Valle (1996) denem uma família paramétrica multivariada como
extensão dos resultados obtidos em Azzalini (1986), na qual as f.d.p marginais
são normais assimétricas. Aqui, como no caso univariado, essa família inclui a
distribuição normal simétrica multivariada como um caso particular.
Apresenta-se a distribuição normal assimétrica univariada e suas propriedades
na subseção 2.2.1 e na subseção 2.2.2 apresenta-se a distribuição normal assimétrica
multivariada.
2.2.1 Caso Univariado
O ponto de partida desta seção para modelagem de estimação em pequenas áreas
para dados assimétricos é dado pelo lema, apresentado em Azzalini (1985).
Lema 2.2.1 Seja f uma f.d.p simétrica em torno de 0, e G uma f.d.a (função de
distribuição acumulada) absolutamente contínua, tal que a derivada de G, g ≡ G′ é
simétrica em torno de 0. Então,
2f(x)G(λx), x ∈ R
é uma f.d.p para qualquer número real λ.
A partir do Lema 2.2.1, pode-se propor uma innidade de distribuições
assimétricas, mas a escolha mais usual é trabalhar com f.d.p e f.d.a que sejam
mais conhecidas. A primeira escolha é trabalhar com f e G, sendo a f.d.p e f.d.a
de uma variável aleatória normal padrão, respectivamente. A seguir, dene-se a
distribuição normal assimétrica, assim como algumas propriedades. Para maiores
detalhes, consultar Genton (2004).
Denição 2.2.2 Se uma variável aleatória X tem f.d.p dada por
φ(x | µ, σ, λ) = 21
σφ
(x− µσ
)Φ
(λx− µσ
), x ∈ R
onde φ e Φ são a f.d.p e a f.d.a de uma variável aleatória normal padrão,
respectivamente. Então, diz-se que X tem distribuição normal assimétrica (NA),
com parâmetros µ (posição), σ (escala) e λ (forma). Para simplicar, denota-se por
X ∼ NA(µ, σ, λ) e no caso µ = 0 e σ = 1 por X ∼ NA(λ).
14
O comportamento da distribuição normal assimétrica, NA(λ), para diferentes
valores do parâmetro de forma λ com posição µ = 0 e σ = 1 xos, é mostrado
na Figura 2.1. Note que a medida que o parâmetro λ cresce, a assimetria também
cresce. Para valores negativos de λ as curvas são assimetricamente deslocadas para
a esquerda.
Figura 2.1: Densidades normais assimétricas.
Algumas propriedades da classe de distribuições normais assimétricas são
descritas abaixo.
1. A densidade NA(0) é a densidade N(0, 1).
2. Quando λ → ∞, φ(x|λ) converge para uma distribuição normal truncada em
0, NTR+(0, 1). Se λ → −∞, φ(x|λ) converge para uma distribuição normal
truncada em 0, NTR−(0, 1).
3. SeX ∼ NA(λ), entãoX2 ∼ χ21, onde χ
2n é uma distribuição Qui-quadrada com
n graus de liberdade. Como a distribuição X2 não depende de λ, os momentos
pares de X são iguais aos momentos pares da distribuição normal padrão.
15
4. Se X ∼ NA(λ), então µ+ σX ∼ NA(µ, σ, λ).
5. Se X é uma variável aleatória N(0, 1), então
E(Φ(hX + k)) = Φ(k/√
1 + h2)
∀ h, k ∈ R. Assim, a função geradora de momentos da distribuição normal
assimétrica, NA(µ, σ, λ) é dada por
Ψ(t) = 2 exp
((t− µ)2
2σ2
)Φ
(λ(t− µ)
σ√
1 + λ2
).
Este resultado é importante para o cálculo dos momentos ímpares de X.
6. Se X ∼ NA(µ, σ, λ), então
E(X|µ, σ, λ) = µ+λσ√
1 + λ2
√2
π(2.13)
V ar(X|µ, σ, λ) = σ2
[1− 2
π· λ2
1 + λ2
]E(X3|µ, σ, λ) = µ3 + 3µ3σδ
√2
π+ 3µσ2 + 3σ3δ
√2
π− σ3δ3
√2
π
γ = δ3
[4
π− 1
] [1− 2δ2
π
]−3/2√
2
π
onde γ é o coeciente de assimetria com −0, 99527 < γ < 0, 99527 sendo
δ = λ/√
1 + λ2.
7. Sejam U e V variáveis aleatórias independentes tal que U ∼ N(0, 1) e
V ∼ N(0, 1). Então
X =λ√
1 + λ2|U |+ 1√
1 + λ2V ∼ NA(λ). (2.14)
Todas as propriedades acima de 1-6 podem ser encontrados em Genton (2004),
e a propriedade 7 foi mostrada por Henze (1986).
2.2.2 Distribuição Normal Assimétrica Multivariada
Azzalini & Valle (1996) introduziram uma versão multivariada da distribuição
normal assimétrica. Os autores ressaltaram o relevante potencial das aplicações
16
desta generalização, dado que no caso multivariado há uma maior escassez de
distribuições capazes de modelar dados não normais em comparação com o caso
univariado, em especial quando as marginais possuem moderada assimetria.
A família de distribuições normais assimétricas multivariadas caracteriza-se por
incluir a distribuição normal multivariada como um de seus membros, e possuir as
distribuições normais assimétricas univariadas como suas marginais.
Azzalini & Valle (1996) apresentaram dois métodos para a construção desta
família de distribuições multivariadas: via transformação das marginais e via
condicionamento.
Denição 2.2.3 Seja X um vetor aleatório cuja densidade é dada por
fk(x) = 2φ(x; Ω)Φ(α′x), com x ∈ Rk,
onde α′
= (λ′Ψ−1∆−1)/(1 + λ
′Ψ−1λ)
′; ∆ = ((1 − δ2
1)1/2, . . . , (1 − δ2k)
1/2); λ =
(λ(δ1), . . . , λ(δk))′; e Ω = ∆(Ψ + λλ
′)∆. Então, diz-se que X tem distribuição
normal assimétrica k-dimensional, com o vetor λ para o parâmetro de forma
(ou assimetria) e Ψ para parâmetro de dependência. A notação é dada por:
X ∼ NAk(0,λ,Ψ).
Na modelagem de dados reais é necessário introduzir parâmetros de posição e de
escala nas distribuições normais assimétricas multivariadas.
Azzalini & Capitanio (1999) examinaram propriedades probabilísticas da
distribuição normal assimétrica multivariada, com ênfase especial em problemas
de relevância estatística, forma linear e forma quadrática. A seguir, cita-se duas
proposições importantes desse trabalho, referente à transformação linear que se usará
posteriormente.
Proposição 2.2.4 Se X ∼ NAk(0,Ω,α), e A é uma matriz não singular k× k tal
que A′ΩA é uma matriz de correlação, então
A′X ∼ NAk(A
′ΩA,A−1α).
17
Proposição 2.2.5 Seja X ∼ NAk(Ω,α), e A é uma matriz como em 2.2.4 e
considere a transformação linear
Y = A′X =
A′1
...
A′
h
X
onde os vetores colunas A1, . . . , Ah tem dimensão m1, . . . ,mh respectivamente.
Então Yi ∼ NAmi(ΩYi ,αYi) onde
ΩYi = A′
iΩAi,
αYi =(A′iΩAi)
−1A′Ωα
1 + α′(Ω−ΩAi(A′iΩAi)
−1A′iΩ)α1/2
.
2.3 Critérios de comparação de Modelos
Nesta seção far-se-à uma breve revisão dos critérios de adequação e/ou seleção de
modelos. Neste trabalho foram adotados cinco critérios de comparação de modelos,
são eles: BIC, DIC, EQMp, EAMp e EPD.
2.3.1 Critério de Informação Bayesiano (BIC)
Este critério foi proposto por Schwarz (1978), e é um dos primeiros e mais utilizados
critérios de comparação de modelos. Este método penaliza o número de parâmetros,
de acordo com o tamanho da amostra.
O BIC pode ser estimado utilizando iterações do MCMC (assumindo
convergência) por:
BIC = −2
∑Ii=1 log ((fv(y | Θi))
I+ q log(n), (2.15)
onde fv(y | Θi) é a função de verossimilhança, Θi é o vetor de parâmetros Θ na
i-ésima iteração do MCMC, com i = 1, . . . , I, q é o número de parâmetros do
modelo e n é o tamanho da amostra. O primeiro termo do BIC avalia o ajuste do
modelo e o segundo termo é a penalização, de acordo com o número de parâmetros.
Comparando vários modelos, o melhor, segundo o BIC, é aquele que tiver o menor
valor.
18
2.3.2 Critério de Informação dos Desvios (DIC)
O DIC, introduzido por Spiegelhalter, Best, Carlin & Linde (2002), se baseia na
função de distribuição a posteriori da estatística dos desvios.
Para encontrar o DIC, considere uma medida D(Θ | y), dada por:
D(Θ | y) = −2 log(fv(y|Θ)),
onde fv(y|Θ) é a função de verossimilhança.
O DIC é calculado por
DIC = D(Θ | y) + pD(Θ | y),
onde pD é conhecido como número efetivo de parâmetros, e avalia a complexidade
do modelo, e pode ser calculado por
pD(Θ | y) = D(Θ | y)− D(Θ | y),
onde D(Θ | y) = E[D(Θ | y)] e D(Θ | y) = −2 log(f(y|Θ)), com Θ sendo uma
estimativa da média a posteriori de Θ, ou seja, no caso de um vetor Θ = (θ1, . . . , θm).
D(Θ) = D
(1
I
I∑j=1
θ(j)1 , . . . ,
1
I
I∑j=1
θ(j)m
),
onde θ(j)i é o i-ésimo parâmetro na j-ésima iteração do algoritmo MCMC.
Embora este método tenha sido utilizado com muita frequência nos últimos anos,
recomenda-se ter cuidado com algumas restrições, como por exemplo o número
efetivo de parâmetros, que em alguns casos pode ser negativo. O DIC pode
apresentar diculdades nos casos onde não há a garantia de que a função de
verossimilhança seja log-côncava e quando há mais de uma moda na distribuição
dos parâmetros. Comparando vários modelos, o melhor, segundo o DIC, é aquele
que tiver o menor valor.
2.3.3 Erro Quadrático Médio Preditivo (EQMp)
O erro quadrático médio preditivo é dado por
EQMp =I∑j=1
n∑i=1
(yi − y(k)i )2
nI,
19
onde yi é o valor observado para a i-ésima área e y(k)i é a estimativa do valor esperado
para a i-ésima observação na j-ésima iteração do algoritmo MCMC. O modelo que
obtiver menor EQMp, é apontado como melhor modelo.
2.3.4 Erro Absoluto Médio Preditivo (EAMp)
O erro absoluto médio preditivo é dado por:
EAMp =I∑j=1
n∑i=1
|yi − y(k)i |
nI,
onde yi é o valor observado para a i-ésima área e y(k)i é a estimativa do valor esperado
para a i-ésima área na j-ésima iteração do algoritmo MCMC. O modelo que obtiver
menor EAMp, é apontado como melhor modelo.
2.3.5 Desvio Preditivo Esperado (EPD)
O último critério usado para comparação de modelos, proposto por Gelfand &
Ghosh (1998), é o Desvio Preditivo Esperado (EPD). Este critério é obtido como
minimização da perda a posteriori de um dado modelo M . Quando a perda
quadrática é considerada, o EPD pode ser calculado explicitamente. Neste caso,
EPD =∑n
i=1 σ2i + c
c+1
∑ni=1(µi − yi)2, onde µi e σ2
i são a média e a variância da
distribuição preditiva, respectivamente µi = E[Yi,rep|yi,obs] e σ2i = V ar[Yi,rep|yi,obs]).
O modelo que minimiza este critério é selecionado. O c é uma constante que calibra
a importância da variância e dos devios da média. Neste trabalho, considera-se que
a variação e os desvios da média têm a mesmo peso.
Capítulo 3
Modelo Assimétrico no Nível de Área
Neste capítulo é proposto um modelo para estimação em pequenas áreas para
dados assimétricos a partir de distribuições assimétricas univariadas. Todas as
quantidades desconhecidas do modelo são estimadas através de enfoque bayesiano
e justica-se a escolha do modelo e a escolha da priori associada ao parâmetro
de assimetria. Para alguns dos casos apresentados, as distribuições a posteriori
têm formas fechadas desconhecidas, então técnicas de simulação Monte Carlo via
Cadeias de Markov (MCMC) são utilizadas para obter amostras das respectivas
distribuições a posteriori, como em Gamerman & Lopes (2006). Para diminuir a
correlação das cadeias dos parâmetros, utiliza-se o amostrador da fatia Neal (2003)
dentro do amostrador de Gibbs (Geman & Geman, 1984; Gelfand & Smith, 1990).
Neste capítulo, apresentou-se o modelo proposto no nível de área. Esse modelo
considera que os erros amostrais seguem uma distribuição normal assimétrica. Ainda
neste capítulo, mostrou-se simulações e duas aplicações a dados reais, e comparou-
se o modelo proposto com o modelo de Fey-Herriot, considerando a variância
desconhecida e estimada.
3.1 Modelo Assimétrico no Nível de Área
Considere a média amostral θi. Segundo a Propriedade 3 do Capítulo 2, página 14,
é razoável supor que θi e φi = σi/ni sejam condicionalmente independentes, pois os
20
21
momentos pares da distribuição normal assimétrica são iguais aos momentos pares
da distribuição normal.
Baseado no modelo de Fay-Herriot (2.6), propõs-se o seguinte modelo assimétrico
ao nível de área:
θi = µi + ei, com ei ∼ NA(0,√φi, λi),
µi = X′iβ + νi com νi ∼ N(0, σ2ν). (3.1)
onde φi = σ2i /ni, λi = λ/
√ni e µi é uma função das variáveis aleatórias auxiliares
Xi, na i-ésima área, e dos parâmetros xados e desconhecidos β, e λi é o parâmetro
de assimetria. Considerou-se que os erros amostrais ei são independentes e com
distribuição normal assimétrica ei ∼ NA(0,√φi, λi). Para os erros νi, considerou-
se que estes sejam independentes e que νi ∼ N(0, σ2ν). Porém, pode-se assumir
uma distribuição não simétrica para os mesmos, como uma distribuição normal
assimétrica, mas preferiu-se assumir distribuição não simétrica apenas para os erros
aleatórios ei's e não para ambos.
Para obter um modelo em que a distribuição da variável resposta convirja para
a normal quando n aumenta, modelou-se o parâmetro de posição como uma função
linear das covariáveis e dos efeitos aleatórios de área. Nota-se que quando o tamanho
da amostra aumenta, o parâmetro de forma, λi tende a zero, e a média e a variância,
respectivamente, tendem para os parâmetros de posição e escala da distribuição
normal. Portanto, a distribuição amostral de θi converge para a distribuição
normal, satisfazendo o Teorema Central do Limite. Gupta & Kollo (2003) dá uma
justicativa formal para a suposição de que o parâmetro de assimetria, λi, seja
inversamente proporcional à raiz quadrada do tamanho da amostra.
Observe que θi|µi segue uma distribuição normal assimétrica e que cada µi|X′iβsegue uma distribuição normal, mais precisamente: θi|µi ∼ NA(µi,
√φi, λi) e
µi|X′iβ ∼ N(X′iβ, σ2ν).
Amostras de densidade da distribuição normal assimétrica X ∼ NA(ξ, σ, λ)
podem ser hierarquicamente geradas pelo uso da seguinte representação estocástica
utilizando (2.14):
Xi|Wi, ξ, λ, σ ∼ N(ξ + σδWi, σ2(1− δ2)),
Wi ∼ HN(0, 1). (3.2)
22
onde HN(0, 1) denota a distribuição Half-Normal padrão e δ = λ/(√
1 + λ2).
3.2 Modelo Conjunto
Tomando o modelo de Fay-Herriot (2.6), supondo agora que o erro
eiiid∼ NA(0,
√φ, λi), e que a distribuição conjunta da média e da variância
amostral (θi, φi) sejam condicionalmente independentes, pode-se escrever o modelo
conjuntamente:
θi|µi, φi, λ, ni ∼ NA(µi,√φi, λ/
√ni), i = 1, . . . ,M
φi|ni, φi ∼ Ga[0, 5(ni − 1); 0, 5(ni − 1)φ−1i ] (3.3)
onde: ni é o tamanho da amostra na i-ésima área de uma população de tamanho Ni,
i = 1, . . . ,m; µi = X′iβ + νi é uma função linear das variáveis auxiliares Xi no nível
de área; β é um vetor de parâmetros xo e desconhecido e νi é o efeito aleatório
da área i. Y ∼ Ga[a; b] denota que Y segue uma distribuição gama, cuja função
densidade de probabilidade é dada por: f(y|a, b) = ba
Γ(a)ya−1exp(−by).
O estimador da variância amostral, φi, em (3.3) fornece informação sobre o
parâmetro de escala φi. O estimador φi é supostamente não viciado para φi.
Para o caso em que se tem uma amostra aleatória simples dentro das áreas,
desconsiderando a fração de amostragem, tem-se que θi = yi e φi = n−1i s2
i , onde
s2i = (ni−1)−1
∑nij=1(yij− yi)2 é um estimador não viesado da variância populacional
σ2i = (Ni − 1)−1
∑Nij=1(yij − Yi)2.
O modelo em (3.3) é completado introduzindo uma estrutura hierárquica no
parâmetro φi. Assume-se que φi segue uma distribuição Inversa Gama (IG). Para
completar o modelo, atribuiu-se prioris próprias com variância grande, de tal forma
que ela seja não informativa.
O parâmetro de assimetria da distribuição normal assimétrica, denominado de
λ, é um parâmetro que requer mais cuidado na estimação. Além disso, se quer que
a distribuição normal assimétrica convirja para uma distribuição normal à medida
em que o tamanho da amostra cresça, para obedecer ao TCL.
O modelo (3.3) pode ser derivado de um caso particular de uma amostra aleatória
simples com reposição, assumindo um modelo normal assimétrico multivariado no
23
nível de unidade e, em seguida, obtendo a distribuição conjunta da média amostral e
do estimador da sua variância amostral, sob a suposição de que os dados de unidade
seguem uma distribuição normal assimétrica multivariada.
Justicativa adicional para o modelo de área conjunto
O modelo conjunto (3.3) é obtido por meio de algumas suposições da distribuição
conjunta da variável resposta no nível de unidade dentro das áreas. Suponha
que para cada área amostrada i = 1, . . . ,m, a distribuição dos vetores
ni × 1 da variável resposta yi = (yi1, . . . , yini)′é uma distribuição normal
assimétrica multivariada, conforme denido em Azzalini & Capitanio (1999):
Yi ∼ NAni(ξYi ,ΩYi , αYi) com parâmetros ξYi = 1niµi, ΩYi = σ2i Ini e
αYi = n−1i λ1ni , onde 1ni é um vetor ni × 1 com todas as componentes iguais a
1. Então a densidade de Yi é dada por
fYi(yi) = 2φni(y − ξYi ; ΩYi)Φα′
i∆−1i (y − ξYi
),
onde φni(z; Ωi) denota a densidade da distribuição normal de dimensão ni com média
zero e matrix de covariância Ωi e ∆i é uma matrix diagonal com elementos iguais a
σi.
Usando uma simples extensão da proposição 5 em Azzalini & Capitanio (1999),
(ver também Gupta & Chen (2003)), não é difícil mostrar que yi = n−1i 1
′
niYi tem
uma distribuição normal assimétrica com parâmetros de locação, escala e forma
dados por µi, φi = σ2i /ni e λi = λ/
√ni, respectivamente.
Além disso, a variância amostral s2i é Ga0, 5(ni − 1), (ni − 1)0, 5σ−2
i e
condicionalmente independente de yi dado µi, σ2i e λi, o que implica a formulação
do modelo para os φi como indicado em 3.3 para o caso particular de uma amostra
aleatória simples sem reposição.
3.2.1 Especicação da Distribuição a Priori para o Parâmetro
de Assimetria
A estimação do parâmetro de assimetria apresenta algumas diculdades quando
métodos de máxima verossimilhança ou de momentos são empregados. O método
24
dos momentos não pode ser aplicado quando o coeciente de assimetria da amostra
está fora da faixa de admissibilidade (−0, 9953; 0, 9953). A função de verossimilhança
pode ser mal comportada, resultando em uma estimativa de máxima verossimilhança
innita. Além disso, a matriz de informação de Fisher é singular em λ = 0, e existe a
possibilidade de máximo local. Azzalini (1985) sugere fazer uma re-parametrização
centrada.
Vários autores, recentemente, têm estudado este problema de estimação do
parâmetro de assimetria. Liseo & Loperdo (2006) propõem a utilização de uma
priori de referência com base no método citado em Berger & Bernardo (1992).
Para o caso do modelo univariado, esta priori é também a priori de Jereys.
Liseo & Loperdo (2006) mostram que a distribuição a posteriori existe e propõem
uma maneira de calcula-lá numericamente. Bayes & Branco (2007) propõem uma
aproximação da priori de Jereys através da distribuição t-Student e comparam, por
meio de um estudo de simulação, o estimador de máxima verossimilhança (EMV)
com o obtido via uma distribuição a priori uniforme de uma transformação de
δ = λ/√
1 + λ2. O estudo de simulação apresentado em Bayes & Branco (2007),
conrma a superioridade dos métodos de estimação Bayesiana com relação ao
método de estimação de máxima verossimilhança.
Os principais resultados usados neste trabalho para atribuir uma priori para
λ podem ser encontrados em Sugden, Smith & Jones (2000). Eles formalmente
derivaram a regra de Cochran para o tamanho mínimo da amostra, para assegurar
uma cobertura de 95% do intervalo de credibilidade. A regra de Cochran (Cochran
(1977), página 42) arma que, para as populações em que o principal desvio da
normalidade consiste da assimetria, o tamanho mínimo da amostra é dado por
nmin = 25γ2, onde γ é o coeciente de assimetria de Fisher, que é dado pela razão
entre o terceiro momento central e o cubo do desvio padrão amostral. Assim,
se usa a distribuição normal assimétrica como uma aproximação da verdadeira
distribuição da média amostral obtida por uma amostra aleatória simples, tem-se
obrigatoriamente que (ver Sugden et al. (2000) para mais detalhes):
Pr(Zn ≤ 1, 96) > 0, 97 e Pr(Zn ≤ −1, 96) < 0, 03 ∀ n ≥ 25γ2 (3.4)
onde Zn =√
V (Xn)−1
Xn − E(Xn).
Para o modelo 3.3, Zn tem distribuição NA(µZ(n), σZ(n), λ/√n), onde
25
µZ(n) = −√
2πδ(n)
√1− (2/π)δ2
(n)
−1
, σZ(n) =√
1− (2/π)δ2(n)
−1
e δ(n) = λ√n+λ2 .
Aplicando a desigualdade (3.4) à função de distribuição normal assimétrica,
temos:
Pr(Zn ≤ 1, 96) = Φ(σ−1Z(n)1.96− µZ(n))− 2Γ(σ−1
Z(n)1, 96− µZ(n)) (3.5)
Pr(Zn ≤ −1, 96) = Φ(σ−1Z(n)−1.96− µZ(n))− 2Γ(σ−1
Z(n)−1, 96− µZ(n)) (3.6)
onde Γ(z, α) =∫∞z
∫ αs0φ(s)φ(t)dtds é a função estudada por Owen (1956).
Note que as desigualdades 3.5 e 3.6 são funções de λ e n. Para λ > 0, encontramos
numericamente que ambas as desigualdades em (3.4) são satisfeitas se√
25γ2 < 1, 1.
Analogamente, se λ < 0, obtemos√
25γ2 > −1, 1. Assim, se não se tem certeza do
sinal de λ, pode-se denir a seguinte restrição:
− 5, 5γ < λ < 5, 5γ. (3.7)
Finalmente, precisa-se obter uma previsão ou estimação do coeciente de
assimetria γ. Atribuiu-se uma priori para γ no intervalo [−a, a] tal que
P (−a < γ < a) = 0, 99. Combinando com a equação (3.7), tem-se:
Pr(−5, 5× a < λ < 5, 5× a) = 0, 99.
Se assume-se uma priori normal para λ, centrada em zero, tem-se que o desvio-
padrão da priori de λ é dada por σλ = (5, 5× a)/2, 576. Para os dados de renda, na
Secção 3.4, xa-se a em 2, 3, o que resulta em σλ ≈ 5. Portanto, a priori para λ é
dada por λ ∼ N(0, 25).
Aspectos Computacionais
As distribuições a posteriori de alguns parâmetros do modelo de área proposto
não podem ser obtidas de forma fechada. Portanto, é necessário utilizar métodos
numéricos. Uma alternativa, que é usada frequentemente e de fácil emplementação
é gerar amostras destas distribuições baseadas no algoritmo MCMC (Cadeias de
de Markov via Monte Carlo). Para facilitar os cálculos aplica-se a representação
hierárquica de densidade normal assimétrica indicado em (3.2) à primeira equação
descrita em (3.3) e obteve-se:
26
θi|Wi, µi, λ, ni, φi ∼ N(µi +√φiδiWi;φi(1− δ2
i ))
Wi ∼ HN(0, 1). (3.8)
Desta maneira, ao invés de realizar estimação dos parâmetros diretamente da
distribuição normal assimétrica, estimou-se θi e Wi que possui forma mais tratável.
Com a inserção da variável latente Wi, a densidade conjunta pode ser reescrita
por
f(θi, φi|·) = f(θi|·)f(φi|·)f(wi).
3.2.2 Distribuições a Priori
Para realizar a inferência bayesiana e encontrar a distribuição a posteriori dos
parâmetros, é necessário atribuir uma distribuição a priori para os parâmetros.
Seja Θ = (λ, σ2ν ,β,µ,φ) o vetor de parâmetros a serem estimados e (a, b) os
hiper parâmetros. Assume-se que sua distribuição a priori é dada por:
π(Θ) = π(λ)π(σ2ν)π(φ, a, b)π(µ,β)
π(Θ) = π(λ)π(σ2ν)π(φ|a, b)π(a)π(b)π(µ|β)π(β)
π(Θ) = π(λ)π(σ2ν)π(a)π(b)π(β)
m∏i=1
[π(φi|a, b)π(µi|β)].
Escreveu-se π(µ,β) e π(φ, a, b) na forma hierárquica, e considerou-se que os µisão independentes dado β e que os φi's também sejam independentes dado a e b.
Para os parâmetros φi e σ2ν foram escolhidas distribuições a priori Inversa Gama
e para λ, β e µi prioris normais, como segue:
φi|a, b ∼ IG(a, b),
σ2ν ∼ IG(c, d),
βk ∼ N(ak, bk), para todo k=1,. . . ,p
λ ∼ N(e, f), e
µi|β, σ2ν ∼ N(X′β, σ2
ν).
27
onde ak = 0, bk = 1000, para todo k, c = d = 0, 01 e (e = 0, f = 25), de acordo com
a seção 3.2.1.
Para os hiperparâmetros a e b atribuiu-se prioris vagas Ga(0, 01; 0, 01).
3.2.3 Distribuição a Posteriori
A função de verossimilhança aumentada do modelo é dada por:
L(Θ; D,W) =m∏i=1
f(θi|Θ)f(φi|φi, ni)f(wi)
=m∏i=1
1√2π(1− δ2
i )φiexp
(−(θi − (µi +
√φiδiwi))
2
2φi(1− δ2i )
)
×
Γ
(ni − 1
2
)−1(ni − 1
2φi
)ni−1
2
exp
(−(ni − 1)φi
2φi
)
×√
2
πexp
(−w
2i
2
).
onde D = (θi, φi), i = 1, . . . ,m é o conjunto de todos os dados disponíveis
na pequena área i, e w = (w1, . . . , wm) é o vetor de parâmetros introduzido na
representação da distribuição normal assimétrica em (3.8).
Dadas as distribuições a priori de acordo com a Subseção 3.2.2 e a
função de verossimilhança L(Θ; D,W), tem-se a distribuição a posteriori
π(Θ|D,W) ∝ L(Θ; D,W) · π(Θ).
As distribuições condicionais completas e o algoritmo para se obterem amostras
destas condicionais completas, estão detalhados no Apêndice A.
As expressões correspondentes para o modelo normal, que é um caso particular
do modelo proposto quando λ = 0, podem ser vistos no Apêndice B.
3.3 SimulaçãoForam feitas simulações considerando que os dados possuem erros normais e normais
assimétricos. Nas duas situações, os dois modelos foram ajustados para ns de
28
comparação e para vericar através de alguns critérios de comparação, se a estimação
aponta o melhor modelo como sendo o mesmo modelo gerado na simulação.
As simulações foram feitas sob diferentes congurações. Através da estimação
dos parâmetros, pode-se ter uma evidência empírica da precisão do método em
recuperar verdadeiros valores dos parâmetros. Com isso, tem-se uma base para
realizar a estimação pelo modelo proposto em dados reais, apresentada na Seção
3.4.
No estudo de simulação para dados de área, temos dois casos. No primeiro,
chamado de Simulação 1, foram gerados valores de uma amostra com erros amostrais
normais assimétricos com parâmetros de assimetria positivo e negativo. No segundo,
chamado de Simulação 2, foram gerados valores de uma amostra com erros amostrais
normais. Em ambos os casos, foram ajustados os modelos normal e normal
assimétrico para ns de comparação.
Utilizou-se o algoritmo MCMC para se gerar amostras da distribuição a posteriori
dos parâmetros de interesse. Foram feitas 200000 iterações das quais as 100 000
primeiras foram descartadas e tomada uma a cada 20 para serem evitados problemas
de autocorrelação nas cadeias. A linguagem usada para implementação do algoritmo
MCMC foi o software R, contudo no estudo de simulação foi usado o software
WinBugs.
Duas covariáveis xi = (x1i,x2i) foram geradas de uma distribuição normal padrão
N(0, 1). Utilizou-se m = 140 pequenas áreas com ni variando de 6 a 59. Estes
tamanhos de amostras são os mesmos observados para o conjunto de dados de renda,
estudado na Seção 3.4.1 . Os φi's foram gerados de uma distribuição Inversa Gama
IG(a, b), com a = 1 e b = 10. Os valores utilizados para os parâmetros regressores
foram β = (8, 0.8, 3) e σ2ν = 2. Os valores de λ utilizados nas simulações foram 8 e
−8.
3.3.1 Simulação 1
Os dados foram gerados de uma distribuição normal assimétrica com λ = 8 e λ = −8,
e ajustados os modelos normal e normal assimétrico. Utilizou-se os critérios BIC,
DIC e EPD para vericar o melhor ajuste.
29
Nas Tabelas 3.1 e 3.3, tem-se os valores verdadeiros dos parâmetros, a média e
mediana a posteriori dos parâmetros via MCMC, os desvios padrão (dp) e os quantis
2,5% e 97,5% para os ajustes normal e normal assimétrico. Também, nas Tabelas
3.2 e 3.4 têm-se os critérios de seleção de modelos BIC, DIC e EPD. Além disso, a
cobertura citada nestas tabelas se refere à proporção dos valores estimados dos µinas 140 pequenas áreas, que estão dentro do intervalo de 95% de credibilidade.
A Tabela 3.1 mostra as medidas resumos da distribuição a posteriori dos
parâmetros obtidos via MCMC para os dados gerados com λ = 8 sob os ajustes
normal e normal assimétrico. O desvio padrão do parâmetro λ se destaca em relação
aos demais com dp = 2, 84. Os valores dos parâmetros estimados no ajuste normal
assimétrico e normal são bem próximos. Na Tabela 3.2 observa-se que o DIC e
o EPD conseguem identicar o verdadeiro modelo. A proporção de µi nas 140
pequenas áreas contidas dentro do intervalo de credibilidade de 95% é maior para o
modelo normal assimétrico.
Na Tabela 3.3, tem-se as medidas resumos das distribuições a posteriori dos
parâmetros estimados via MCMC para os dados gerados com λ = −8, através
dos ajustes normal e normal assimétrico. Também, as estimativas dos dois ajustes
caram bem próximas. O parâmetro λ tem o maior intervalo de credibilidade, e
parece subestimado pela média a posteriori para essa amostra. Mais uma vez o
DIC e EPD conseguem identicar o modelo verdadeiro, segundo a Tabela 3.4. A
proporção dos µi's que estão contidos nos respectivos intervalos de credibilidade para
o ajuste normal assimétrico é maior que a referida proporção, considerando o ajuste
normal.
A Figura 3.1 mostra os histogramas da distribuição a posteriori dos parâmetros
gerados com λ = 8. A linha vertical cheia representa o valor verdadeiro e as linhas
verticais tracejadas os quantis 2,5% e 97,5%. O parâmetro β0 está bem próximo
do quantil 2, 5%; porém, é importante perceber que o intervalo de credibilidade é
pequeno. Todos os parâmetros estão dentro do intervalo de credibilidade para essa
amostra. O comportamento das estimativas é similar considerando o ajuste normal,
exceto para o parâmetro β0, como mostra a Figura 3.2. Este efeito parece aumentar
à medida que o valor da estimativa de λ aumenta. Isso se dá devido ao fato de que,
no modelo normal assimétrico, o valor esperado do intercepto é igual a β0 mais um
termo adicional, que é dado pelo valor esperado do erro normal assimétrico.
30
Tabela 3.1: Medidas resumo da distribuição a posteriori dos parâmetros para
simulação com dados gerados com erros NA e λ = 8.
ParâmetrosValor
média dp 2,5% mediana 97,5%Verdadeiro
Ajuste NA
σ2ν 2 1,81 0,35 1,21 1,78 2,56
β0 8 8,11 0,18 7,77 8,1 8,49
β1 0,8 1,11 0,24 0,64 1,11 1,6
β2 3 2,39 0,46 1,5 2,39 3,31
λ 8 8,3 2,84 3,6 7,97 14,77
a 1 0,57 0,06 0,46 0,57 0,7
b 10 11,05 2,04 7,47 10,91 15,43
Ajuste Normal
σ2ν 2 2,11 0,46 1,36 2,05 3,11
β0 8 8,71 0,18 8,36 8,71 9,06
β1 0,8 0,97 0,26 0,43 0,94 1,47
β2 3 2,72 0,50 1,73 2,73 3,70
a 1 0,52 0,06 0,41 0,52 0,65
b 10 8,8 1,95 5,3 8,61 13,07
31
Tabela 3.2: Critérios de comparação de modelos para simulação com dados gerados
com erros NA e λ = 8.
MedidasAjuste Normal Assimétrico Ajuste Normal
θi φi Total θi φi Total
BIC 2510,61 3281,04 5791,65 1898,69 2599,27 4497,96
DIC 490,21 1268,65 1758,86 560,66 1320,04 1880,7
D 410,41 1180,84 1591,25 495,26 1195,84 1691,1
D 330,61 1093,03 1423,64 429,86 1071,64 1501,5
pD 79,8 87,81 167,61 65,4 124,20 189,6
EQMp 1,65 71,77 - 2,52 64,51 -
EAMp 0,88 6,32 - 1,06 4,21 -
Cobertura 0,95 - - 0,90 - -
EPD 365,79 694,28
Na Figura 3.3 apresenta-se os histogramas da distribuição a posteriori dos
parâmetros gerados de uma distribuição normal assimétrica com λ = −8. A linha
vertical cheia representa o valor verdadeiro e as linhas verticais tracejadas os quantis
2,5% e 97,5%. Apesar do parâmetro λ está subestimado para essa amostra, todos os
parâmetros estão dentro do intervalo de credibilidade. Na Figura 3.4, os histogramas
dos parâmetros mostram que no ajuste normal os parâmetros também foram bem
estimados para essa amostra.
A Figura 3.5 mostra os intervalos de credibilidades de 95% para os µi's nas 140
pequenas áreas. A barra vertical (|) representa o intervalo de 95% de credibilidade,
o traço (-) representa a média a posteriori de µi, e o asterisco (∗) representa o valorverdadeiro. Pode-se observar que as médias a posteriori dos µi's são próximas dos
respectivos valores verdadeiros e que a maioria dos µi's das 140 pequenas áreas estão
dentro do intervalo de credibilidade de 95%.
32
Tabela 3.3: Medidas resumo da distribuição a posteriori dos parâmetros para
simulação com dados gerados com erros NA e λ = −8.
ParâmetrosValor
média dp 2,5% mediana 97,5%Verdadeiro
Ajuste NA
σ2ν 2 1,99 0,40 1,34 1,95 2,89
β0 8 7,98 0,20 7,57 7,99 8,35
β1 0,8 0,68 0,25 0,2 0,69 1,16
β2 3 3,21 0,46 2,33 3,2 4,12
λ -8 -6,31 2,35 -11,48 -6,06 -2,38
a 1 0,56 0,06 0,44 0,55 0,7
b 10 8,57 1,7 5,56 8,49 12,14
Ajuste Normal
σ2ν 2 1,37 0,34 0,79 1,34 2,17
β0 8 7,94 0,16 7,63 7,94 8,25
β1 0,8 0,46 0,23 0,01 0,46 0,92
β2 3 3,59 0,44 2,73 3,59 4,42
a 1 0,79 0,09 0,63 0,79 0,99
b 10 10,52 1,88 7,53 10,21 18,86
33
Figura 3.1: Histograma da distribuição a posteriori dos parâmetros β0, β1, β2, σ2ν e
λ para dados simulados com parâmetro λ = 8 com intervalo de 95% de credibilidade
considerando ajuste normal assimétrico. A linha vertical cheia representa o valor
verdadeiro e as linhas verticais tracejadas os quantis 2,5% e 97,5%
7.5 8.0 8.5 9.0
0.0
0.5
1.0
1.5
2.0
(a) β0 - NA
0.5 1.0 1.5 2.0
0.0
0.5
1.0
1.5
(b) β1 - NA
1 2 3 4
0.0
0.2
0.4
0.6
0.8
(c) β2 - NA
5 10 15 20
0.00
0.05
0.10
0.15
(d) λ - NA
1.0 1.5 2.0 2.5 3.0 3.5
0.0
0.2
0.4
0.6
0.8
1.0
(e) σ2ν - NA
34
Figura 3.2: Histograma da distribuição a posteriori dos parâmetros β0, β1, β2 e σ2ν
para dados simulados com parâmetro λ = 8 e intervalo de 95% de credibilidade
considerando ajuste normal. A linha vertical cheia representa o valor verdadeiro e
as linhas verticais tracejadas os quantis 2,5% e 97,5%.
8.0 8.5 9.0 9.5
0.0
0.5
1.0
1.5
2.0
(a) β0 - Normal
0.0 0.5 1.0 1.5 2.0
0.0
0.5
1.0
1.5
(b) β1 - Normal
1 2 3 4
0.0
0.2
0.4
0.6
0.8
(c) β2 - Normal
1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5
0.0
0.2
0.4
0.6
0.8
(d) σ2ν - Normal
35
Figura 3.3: Histograma da distribuição a posteriori dos parâmetros β0, β1, β2, σ2ν e λ
para dados simulados com parâmetro λ = −8 com intervalo de 95% de credibilidade
considerando ajuste normal assimétrico. A linha vertical cheia representa o valor
verdadeiro e as linhas verticais tracejadas os quantis 2,5% e 97,5%.
7.5 8.0 8.5
0.0
0.5
1.0
1.5
2.0
(a) β0 - NA
0.0 0.5 1.0 1.5
0.0
0.5
1.0
1.5
(b) β1 - NA
1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
0.0
0.2
0.4
0.6
0.8
(c) β2 - NA
−15 −10 −5 0
0.00
0.05
0.10
0.15
(d) λ - NA
1.0 1.5 2.0 2.5 3.0 3.5 4.0
0.0
0.2
0.4
0.6
0.8
1.0
(e) σ2ν - NA
36
Figura 3.4: Histograma da distribuição a posteriori dos parâmetros β0, β1, β2 e σ2ν
para dados simulados com parâmetro λ = −8 com intervalo de 95% de credibilidade
considerando ajuste normal. A linha vertical cheia representa o valor verdadeiro e
as linhas verticais tracejadas os quantis 2,5% e 97,5%.
7.4 7.6 7.8 8.0 8.2 8.4 8.6
0.0
0.5
1.0
1.5
2.0
2.5
(a) β0 - Normal
0.0 0.5 1.0
0.0
0.5
1.0
1.5
(b) β1 - Normal
2.0 2.5 3.0 3.5 4.0 4.5 5.0
0.0
0.2
0.4
0.6
0.8
(c) β2 - Normal
0.5 1.0 1.5 2.0 2.5 3.0
0.0
0.2
0.4
0.6
0.8
1.0
1.2
(d) σ2ν - Normal
37
Figura 3.5: Intervalo de Credibilidade de 95% para os µi obtidos da simulação com
erros NA. A barra vertical (|) representa o intervalo de 95% de credibilidade, o traço
(-) representa a média a posteriori e o asterisco (∗) representa o valor verdadeiro.
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
14
711
1519
2327
3135
3943
4751
5559
6367
7175
7983
8791
9599
104
109
114
119
124
129
134
139
051015
(a) NA com λ = 8
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
14
711
1519
2327
3135
3943
4751
5559
6367
7175
7983
8791
9599
104
109
114
119
124
129
134
139
51015
(b) NA com λ = −8
38
Tabela 3.4: Critérios de comparação de modelos para simulação com dados gerados
com erros NA e λ = −8.
MedidasAjuste Normal Assimétrico Ajuste Normal
θi φi Total θi φi Total
BIC 2507,83 3228,13 5735,96 1897,78 2565,26 4463,04
DIC 491 1223,29 1714,29 551,38 1282,80 1834,18
D 407,64 1127,93 1535,57 494,35 1161,83 1656,18
D 324,27 1032,57 1356,84 437,32 1040,86 1478,18
pD 83,37 95,36 178,93 57,03 120,97 178,00
EQMp 1,73 54,20 - 2,62 54,30 -
EAMp 0,73 4,49 - 1,09 3,63 -
Cobertura 0,97 - - 0,86 - -
EPD 322,95 643,71
3.3.2 Simulação 2Foram gerados dados considerando o modelo normal. As covariáveis x1 e x2 foram
geradas de uma distribuição normal padrão N(0, 1). Os valores de m e dos ni, e
demais parâmetros foram os mesmos utilizados na Simulação 1. Os φi foram gerados
de uma distribuição IG(a, b). Considerou-se também as mesmas prioris utilizadas
na Simulação 1.
A Tabela 3.5 mostra o valor verdadeiro, a média a posteriori, o desvio-padrão,
a mediana a posteriori, e os quantis 2,5% e 97,5% dos parâmetros, para os ajustes
normal e normal assimétrico. As estimativas de todos os parâmetros estão dentro
do intervalo de credibilidade de 95%, e são próximos nos dois ajustes. A média
a posteriori do λ foi igual a 0, 86 para o ajuste normal assimétrico, e o zero está
contido no intervalo de credibilidade de 95%, indicando que se rejeitou a hipótese
de assimetria quando os dados são normais.
As Figuras 3.6 e 3.7 mostram o histograma da distribuição a posteriori dos
parâmetros. Observe que todos os parâmetros estimados estão dentro do intervalo
de 95% de conança para os dois ajustes.
39
Tabela 3.5: Medidas resumo para a distribuição a posteriori dos parâmetros para os
dados simulados gerados com erro normal.
ParâmetrosValor Ajuste Normal Assimétrico
verdadeiro Média dp 2,5% Mediana 97,5 %
β0 8 7,87 0,24 7,39 7,87 8,32
β1 0,8 0,6 0,36 -0,12 0,60 1,30
β2 3 3,43 0,73 2,01 3,42 4,91
σ2ν 2 1,73 0,45 1,01 1,67 2,77
λ 0 0,86 1,06 -1,1 0,79 3,06
a 1 0,58 0,07 0,46 0,58 0,73
b 10 10,47 2,14 6,67 10,33 14,84
Ajuste Normal
β0 8 8,02 0,16 7,70 8,02 8,34
β1 0,8 0,65 0,37 -0,07 0,64 1,38
β2 3 3,31 0,75 1,86 3,29 4,80
σ2ν 2 1,63 0,42 0,95 1,58 2,59
a 1 0,58 0,07 0,46 0,58 0,73
b 10 10,48 2,03 6,69 10,38 14,65
40
Figura 3.6: Histograma da distribuição a posteriori dos parâmetros β0, β1, β2, σ2ν
e λ para os dados gerados com erro normal, considerando ajuste NA e intervalo de
95% de credibilidade. A linha vertical cheia representa o valor verdadeiro e as linhas
verticais pontilhadas os quantis 2,5% e 97,5%
7.0 7.5 8.0 8.5
0.0
0.5
1.0
1.5
(a) β0 - NA
−0.5 0.0 0.5 1.0 1.5 2.0
0.0
0.2
0.4
0.6
0.8
1.0
(b) β1 - NA
1 2 3 4 5 6
0.0
0.1
0.2
0.3
0.4
0.5
(c) β2 - NA
−2 0 2 4 6
0.0
0.1
0.2
0.3
0.4
(d) λ - NA
0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0
0.0
0.2
0.4
0.6
0.8
(e) σ2ν - NA
41
Figura 3.7: Histograma da distribuição a posteriori dos parâmetros β0, β1, β2 e
σ2ν para ajuste normal, com os dados gerados com erro normal e intervalo de 95%
de credibilidade. A linha vertical cheia representa o valor verdadeiro e as linhas
verticais pontilhadas os quantis 2,5% e 97,5%
7.5 8.0 8.5
0.0
0.5
1.0
1.5
2.0
2.5
(a) β0 - Normal
−1.0 −0.5 0.0 0.5 1.0 1.5 2.0
0.0
0.2
0.4
0.6
0.8
1.0
(b) β1 - Normal
1 2 3 4 5 6
0.0
0.1
0.2
0.3
0.4
0.5
(c) β2 - Normal
1 2 3 4
0.0
0.2
0.4
0.6
0.8
1.0
(d) σ2ν - Normal
42
A Tabela 3.6 mostra os critérios de escolha de modelos para os dados simulados
gerados de uma distribuição normal com ajustes normal e normal assimétrico.
Segundo os critérios DIC e EPD o melhor modelo é o normal assimétrico. O EQMp e
EAMp são melhores para as componentes θi. A proporção de valores verdadeiros das
140 pequenas áreas dentro do intervalo de 95% de credibilidade também apresenta
melhores resultados para as componentes θi.
Tabela 3.6: Critérios de escolha de modelos para os dados simulados gerados com
erro normal com ajustes normal e normal assimétrico.
MedidasAjuste NA Ajuste Normal
θi φi Total θi φi Total
BIC 2602,02 3257,93 5859,95 1912,32 2570,85 4483,17
DIC 566,83 1248,30 1815,13 572,75 1289,6 1862,35
D 501,82 1157,73 1659,55 508,89 1167,42 1676,31
D 436,81 1067,16 1503,98 445,03 1045,25 1490,28
pD 65,01 90,57 155,57 63,86 122,17 186,03
EQMp 3,72 107,83 - 3,75 99,41 -
EAMp 1,18 5,10 - 1,23 5,01 -
Cobertura 0,84 - - 0,81 - -
EPD 650,01 750,57
Mesmo que os erros dos dados sejam normais, não há perda em considerá-los
como sendo normais assimétricos, segundo todos os critérios, com exceção do BIC.
Isso ocorre devido ao BIC penalizar o maior número de parâmetros do modelo normal
assimétrico.
43
3.3.3 Estudo de simulação
O objetivo deste estudo de simulação é comparar os resultados obtidos na modelagem
normal assimétrica com os resultados obtidos na modelagem normal, para a média
a posteriori dos parâmetros da amostra de 10% dos dados de renda da Seção 3.4.1,
considerando não apenas uma amostra dos dados simulados. Com esse objetivo,
foram geradas 500 amostras de uma população sob o modelo normal e normal
assimétrico, com o mesmo número de áreas da amostra de 10% (140) e utilizado
como parâmetros verdadeiros as estimativas dos parâmetros obtidos para a amostra
de 10% (ver Tabela 3.11). Os tamanhos das amostras nas áreas foram os mesmos
da amostra de 10%.
Os valores das duas variáveis auxiliares também foram mantidos xos em todas
as simulações e obtidos do conjunto de dados reais de renda. Assim, teve-se que
gerar apenas os valores de di = (yi, S2i ) sob o modelo normal e normal assimétrico,
conforme visto em (3.1) e (3.3) para cada área i = 1, . . . , 140 e amostras simuladas
s = 1, . . . , 500.
No algoritmo MCMC fez-se 50000 iterações, das quais as 5000 primeiras foram
descartadas para cada s = 1, . . . , 500. Tomou-se uma a cada 20 iterações para a
estimação a posteriori dos parâmetros.
A Tabela 3.7 mostra a média das médias a posteriori dos parâmetros do modelo,
a média da raiz quadrada do erro quadrático médio predito (MREQMp) e a
cobertura média dos parâmetros com intervalos de 95% de credibilidade das 500
amostras simuladas do modelo normal assimétrico. Pode ser visto que existem
poucas diferenças entre as médias das estimativas dos dois modelos, com exceção
do intercepto β0. O mesmo comportamento é observado para MREQMp, quando
ajustados os modelos normal e normal assimétrico. Tanto a taxa de cobertura
empírica quanto o MREQMp para o parâmetro β0 é muito inferior a dos outros
parâmetros. Isso se dá devido ao fator de correção da normal assimétrica, (ver
propiedades da NA na Seção 2.2.1). Além disso, como já foi relatado, o parâmetro
de assimetria é um parâmetro de difícil estimação. A MREQMp de λ é 2,18, mas a
taxa de cobertura de λ é de 96%.
Na Tabela 3.8 tem-se a média das médias a posteriori dos parâmetros do modelo,
a média da raiz quadrada do erro quadrático médio predito (MEQMp) e a cobertura
44
média dos parâmetros com intervalos de 95% de credibilidade das 500 amostras
simuladas do modelo normal. Mesmo quando o verdadeiro modelo é o normal,
observa-se que as MREQMp são bem próximas, exceto para o parâmetro β0. Isto
revela que, quando os dados são gerados a partir do modelo mais simples (normal),
ajustando-se o modelo mais complexo (normal assimétrico) não causa nenhuma piora
na eciência ou no viés dos parâmetros estimados. Como esperado, a média das
médias dos parâmetros, nas 500 amostras, também são bem próximas para ambos
os ajustes.
Tabela 3.7: Medidas resumos das médias a posteriori dos parâmetros para as 500
amostras simuladas do modelo normal assimétrico, considerando os ajustes normal
e normal assimétrico.
Parâmetros
Valor Ajuste Normal Assimétrico Ajuste Normal
Verdadeiro Média MREQMp Cobertura Comprimento Média MREQMp Cobertura Comprimento
β0 7,84 7,98 0,23 94,0 0,84 8,63 0,80 0,0 0,57
β1 0,76 0,77 0,31 94,8 1,20 0,78 0,32 96,4 1,24
β2 2,90 2,88 0,60 93,8 2,28 2,94 0,61 95,8 2,36
σ2ν 1,53 1,40 0,36 92,8 1,38 1,09 0,55 72,0 1,22
λ 7,28 5,84 2,18 96,0 9,82 - - - -
a 1,39 1,41 0,18 94,2 0,65 1,41 0,18 93,8 0,66
b 48,900 49,89 8,16 94,0 29,02 50,13 8,26 94,0 29,16
As medidas resumo da Tabela 3.9 são relativas às médias de todas as médias das
pequenas áreas. Por isso, vale a pena comparar o desempenho dos indicadores para
cada área na Figura 3.8. Observe a diferença entre as medidas MEQM, cobertura e
comprimento em ambos os ajustes. Considerando que os dados são normais, há uma
equivalência no ajuste dos dois modelos. Isso mostra que não há perda em ajustar
o modelo normal assimétrico, mesmo quando os dados são normais. Se os dados
são normais assimétricos há um ganho signicativo em ajustar o modelo normal
assimétrico, principalmente em relação à MEQM (que é de 0,79 para o ajuste NA e
1,79 para o ajuste N) e a cobertura média (que é de 94,7% para o ajuste NA e 89%
45
Tabela 3.8: Medidas resumos das médias a posteriori dos parâmetros para as 500
amostras simuladas do modelo normal, considerando os ajustes normal e normal
assimétrico.
Parâmetros
Valor Ajuste Normal Ajuste Normal Assimétrico
Verdadeiro Média MREQMp Cobertura Comprimento Média MREQMp Cobertura Comprimento
β0 7,84 7,83 0,16 95,0 0,62 7,86 0,32 93,6 1,19
β1 0,76 0,76 0,36 94,0 1,36 0,76 0,36 93,6 1,36
β2 2,90 2,91 0,69 93,6 2,59 2,91 0,69 94,4 2,59
σ2ν 1,53 1,58 0,42 94,2 1,56 1,72 0,44 94,0 1,70
λ 0 - - - - -0,20 1,95 93,0 7,16
a 1,39 1,42 0,17 96,0 0,66 1,41 0,17 95,8 0,66
b 48,90 49,96 7,52 94,4 29,06 49,92 7,50 95,8 29,04
para o ajuste N).
Tabela 3.9: Medidas de ajuste para estimação pontual e intervalar das médias das
pequenas áreas para as 500 amostras simuladas dos dados gerados do modelo normal
assimétrico considerando os ajustes normal e normal assimétrico.
Modelo
Ajuste Normal Assimétrico Ajuste Normal
MEQM MEAM Cobertura Comprimento MEQM MEAM Cobertura Comprimento
Média(%) Médio Média(%) Médio
NA 0,79 8,10 94,7 3,25 1.01 11,01 94,2 3,70
Normal 1,79 9,78 89,0 3,21 0,89 10,71 94,5 3,60
A Figura 3.8 mostra a razão do erro quadrado médio (REQM) e a razão do
erro absoluto médio (REAM) quando são preditas as médias das pequenas áreas
sob os modelos normal assimétrico e normal, plotados contra o respectivo tamanho
da pequena área. É evidente, a partir dessa gura, que o ganho em eciência,
segundo REQM e o REAM, tende a diminuir à medida que o tamanho da amostra
46
aumenta. Este não é um resultado inesperado porque a assimetria da distribuição
para a i-ésima área do modelo (3.3) converge para a normal, quando o tamanho da
amostra da pequena área ni aumenta; portanto, ambos os modelos devem produzir
praticamente os mesmos preditores para ni grande.
As medidas REQM e REAM para a pequena área i são respectivamente
denidas como:
REQMi =
∑500s=1(µNi,s − µi,s)2/µi,s∑500s=1(µNAi,s − µi,s)2/µi,s
e REAMi =
∑500s=1 |µNi,s − µi,s|/µi,s∑500s=1 |µNAi,s − µi,s|/µi,s
,
onde µNi,s e µNAi,s representam, respectivamente, o preditor da média da pequena área
sob o modelo normal e normal assimétrico para uma dada área i obtida na simulação
s e µi,s denota o valor verdadeiro.
Figura 3.8: Razão do Erro Quadrático Médio (REQM) e Razão do Erro Absoluto
Médio (REAM) para as médias das pequenas áreas sob o ajuste normal e normal
assimétrico.
A Figura 3.9 mostra a média das medidas de ajuste para cada pequena área,
considerando o ajuste normal assimétrico versus o ajuste normal. Valores acima da
reta (N=NA) indicam que os valores do ajuste normal são maiores do que os valores
47
do ajuste normal assimétrico. Esta gura mostra a eciência do modelo assimétrico
proposto medido pela MEQMp (média do erro quadrático médio), MEAMp (média
do erro absoluto médio), cobertura média e pelo comprimento médio dos intervalos
das 500 simulações para cada área. Nota-se que em (a) e (b), tanto MEQMp quanto
MEAMp estão acima da reta, indicando que o modelo normal assimétrico, em média,
é melhor do que o modelo normal, pois possuem menores medidas de ajustes. As
Figuras (c) e (d) mostram que a cobertura média e o comprimento médio são maiores
para o ajuste normal assimétrico. Os valores da cobertura média tornam ainda mais
evidente a eciência do modelo proposto neste trabalho, quando comparado com o
modelo normal.
48
Figura 3.9: Medidas de ajustes MEQMp, MEAMp, Cobertura média e comprimento
médio para as 500 amostras simuladas do modelo normal assimétrico para as 140
pequenas áreas.
2 4 6 8 10 12
24
68
1012
NA
N
(a) MEQMp
5 10 15 20
510
1520
NA
N
(b) MEAMp
65 70 75 80 85 90 95
6570
7580
8590
95
NA
N
(c) Cobertura Média
3.0 3.5 4.0 4.5 5.0 5.5
3.0
3.5
4.0
4.5
5.0
5.5
NA
N
(d) Comprimento Médio
49
3.3.4 Conclusões
O estudo de simulação mostrou que a estimação do modelo assimétrico proposto
no nível de área é eciente, tanto para dados com assimetria positiva quanto com
assimetria negativa. Os parâmetros parecem bem estimados em ambos os casos.
Os critérios de seleção de modelos DIC e EPD mostraram-se ecientes para
comparar os modelos, pois em todos os casos o modelo com menor DIC e EPD foi
o modelo gerado.
Na Seção 3.3.3, foi mostrado um estudo de simulação completo, considerando
500 amostras simuladas, que conrmam alguns resultados obtidos nas Simulações
1 e 2. Segundo as medidas de ajustes: média do erro quadrático médio, média do
erro absoluto médio, cobertura média e comprimento médio, para as 500 amostras
simuladas do modelo normal assimétrico para as 140 pequenas áreas, o modelo
assimétrico mostrou-se mais eciente.
50
3.4 Aplicação
Este capítulo apresenta duas aplicações em pequenas áreas. Uma para dados de
renda e outra para dados de avaliações educacionais. A primeira aplicação consiste
em estimar a renda familiar de setores censitários de um município brasileiro e a
segunda tem como objetivo estimar a média escolar de um teste de matemática
aplicado a alunos de uma determinada série do ensino fundamental no município do
Rio de Janeiro. O modelo proposto é comparado com o modelo normal, segundo
os critérios de comparação BIC (Schwarz, 1978), DIC (Spiegelhalter et al., 2002), e
EPD (Gelfand & Ghosh, 1998) para as duas aplicações.
O modelo proposto é como o descrito no Capítulo 3 e foram utilizadas as mesmas
prioris para todos os parâmetros. Os valores apresentados foram baseados em 200000
iterações do algoritmo MCMC, nas quais as primeiras 100000 foram descartadas,
consideradas como aquecimento da cadeia e tomadas uma a cada 20 iterações,
reduzindo a autocorrelação das cadeias dos parâmetros.
3.4.1 Aplicação 1: Dados de Renda
Os dados utilizados para avaliar o modelo proposto neste trabalho foram os mesmos
descritos em Moura & Holt (1999). Os dados foram extraídos de um Censo
Demográco Experimental, que consiste de informações sobre 38.740 domicílios em
140 áreas de enumeração (pequenas áreas). Essas áreas são setores censitários. A
variável de interesse é a renda média familiar. O principal objetivo é fazer estimação
da renda média familiar para cada uma das 140 áreas. Como em Moura & Holt
(1999), duas variáveis foram escolhidas para ser o conjunto de covariáveis auxiliares:
o número de quartos no domicílio (1 − 11+), x1, e o nível de escolaridade do
chefe de família (escala ordinal de 0− 5), x2. Centrou-se ambas as covariáveis emtorno de suas respectivas médias populacionais. Diferentemente de Moura & Holt
(1999), que assume-se a informação disponível no nível da unidade, assumimos nesta
aplicação que as informações contidas em nosso conjunto de dados estão disponíveis
somente no nível de área e para todas as áreas. Como se sabe qual a verdadeira
renda média de cada área, pode-se comparar a estimativa de cada pequena área com
sua média verdadeira. O número de domicílios por área na população varia de 57 a
51
588. Considera-se que os dados disponíveis são a média e a variância amostral para
cada pequena área, di = (yi, s2i ), com i = 1, . . . , 140.
Avaliou-se dois conjuntos de dados separadamente. O primeiro foi o mesmo
utilizado em Moura & Holt (1999), e foi obtido por meio de uma amostra aleatória de
10% em cada área. O segundo, foi obtido por uma subamostra de 50% pertencente
à amostra de 10%. Assim, a segunda amostra utilizada é de 5% para cada área.
Portanto, as dimensões das amostras do primeiro e do segundo conjunto de dados
(ni) variam de 6 a 59 e de 3 a 30, respectivamente. Estes dois conjutos de dados
amostrais foram construídos para avaliar o desempenho da abordagem proposta,
quando o tamanho das amostras, em média, são moderados, e quando eles são
bastante pequenos. As frações de amostragem (f = n/N) foram respectivamente
iguais a 10% e 5%. Não se fez nenhuma correção de fração de amostragem na
formulação do modelo para esta aplicação especíca.
Uma análise preliminar da variável renda revela que existe uma assimetria
considerável. O coeciente de assimetria de Fisher é de cerca de 2, 3. Isto sugere que
a abordagem proposta possa ser mais adequada que aquela baseada na distribuição
normal para os erros amostrais. Para efeitos de comparação, o modelo normal
também foi ajustado.
Na Figura 3.10 tem-se as densidades da distribuição a posteriori dos parâmetros
estimados, segundo os modelos normal assimétrico e normal, para amostra de
5%. As densidades da distribuição a posteriori dos parâmetros, para as duas
abordagens normal e normal assimétrica têm comportamentos parecidos, exceto
para o intercepto β0. O parâmetro σ2ν apresenta um comportamento um pouco
assimétrico à direita. Esses comportamentos são similares para amostra de 10%
apresentados na Figura 3.11.
As Tabelas 3.10 e 3.11 apresentam algumas medidas síntese para os parâmetros
da distribuição a posteriori dos ajustes normal e normal assimétrico para as amostras
de 5% e de 10%. Observa-se que o parâmetro de assimetria λ é signicativamente
maior que zero para ambas as amostras. Estes resultados estão de acordo com
a expectativa de que os dados de renda tenham uma assimetria positiva. Ao
se comparar as estimativas dos parâmetros para os modelos normal e normal
assimétrico para cada uma das amostras, pode-se notar que todas as estimativas são
iguais ou um pouco menores para o modelo normal assimétrico. Nota-se, também,
52
Figura 3.10: Densidade da distribuição a posteriori dos parâmetros β0, β1, β2, σ2ν e
λ para aplicação com dados de renda com amostra de 5%, considerando os ajustes
Normal Assimétrico (NA) e Normal (N).
7.0 7.5 8.0 8.5 9.0
0.0
0.5
1.0
1.5
2.0 N
NA
(a) β0
−1.0 −0.5 0.0 0.5 1.0 1.5 2.0
0.0
0.2
0.4
0.6
0.8
1.0
1.2
NNA
(b) β1
1 2 3 4 5 6 7
0.0
0.1
0.2
0.3
0.4
0.5
0.6
NNA
(c) β2
0.5 1.0 1.5 2.0 2.5 3.0 3.5
0.0
0.2
0.4
0.6
0.8
1.0
1.2
NNA
(d) σ2ν
5 10 15 20 25
0.00
0.05
0.10
0.15
NA
(e) λ
53
Figura 3.11: Densidade da distribuição a posteriori dos parâmetros β0, β1, β2, σ2ν e
λ para aplicação com dados de renda com amostra de 10%, considerando o ajuste
Normal Assimétrico (NA) e Normal (N).
7.5 8.0 8.5 9.0
0.0
0.5
1.0
1.5
2.0
2.5
NNA
(a) β0
0.0 0.5 1.0 1.5 2.0
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
NNA
(b) β1
1 2 3 4 5
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
NNA
(c) β2
0.5 1.0 1.5 2.0 2.5 3.0 3.5
0.0
0.2
0.4
0.6
0.8
1.0
1.2
NNA
(d) σ2ν
0 5 10 15 20
0.00
0.05
0.10
0.15
NA
(e) λ
54
que o desvio-padrão de λ é maior que os desvios dos demais parâmetros. Para
amostra de 10%, os valores estimados da distribuição normal e normal assimétrica
parecem mais próximos do que para a amostra de 5%. Isso se dá devido aos tamanhos
da amostra de 10% serem maiores do que os tamanhos da amostra de 5%.
Tabela 3.10: Medidas resumo para a distribuição a posteriori dos parâmetros para
os dados de renda segundo os ajustes do modelo normal assimétrico e normal para
amostra de 5%.
ParâmetrosAjuste Normal Assimétrico
Média dp 2,5% Mediana 97,5 %
β0 7,23 0,19 6,87 7,22 7,61
β1 0,50 0,35 -0,18 0,5 1,19
β2 3,11 0,65 1,87 3,12 4,38
σ2ν 1,39 0,37 0,76 1,35 2,22
λ 8,6 2,83 4,08 8,20 14,87
a 1,2 0,15 0,92 1,19 1,48
b 36,84 6,24 24,68 37,03 48,23
Ajuste Normal
β0 8,38 0,20 8,01 8,38 8,79
β1 0,55 0,41 -0,23 0,54 1,38
β2 3,84 0,74 2,39 3,85 5,27
σ2ν 1,10 0,39 0,50 1,05 2,04
a 1,19 0,12 0,97 1,19 1,43
b 35,78 4,32 27,34 35,85 43,64
55
Tabela 3.11: Medidas resumo para a distribuição a posteriori dos parâmetros para
os dados de renda segundo ajuste do modelo normal assimétrico e do modelo normal
para amostras de 10%.
ParâmetrosAjuste Normal Assimétrico
Média dp 2,5% Mediana 97,5 %
β0 7,83 0,18 7,49 7,83 8,20
β1 0,77 0,32 0,16 0,76 1,42
β2 2,89 0,57 1,79 2,89 4,01
σ2ν 1,52 0,39 0,84 1,49 2,36
λ 7,33 2,77 3,12 6,88 13,82
a 1,35 0,12 1,13 1,35 1,6
b 46,79 5,15 38,37 46,04 57,48
Ajuste Normal
β0 8,60 0,17 8,28 8,60 8,94
β1 0,78 0,33 0,14 0,79 1,43
β2 3,37 0,59 2,23 3,37 4,54
σ2ν 1,21 0,35 0,64 1,18 2,01
a 1,40 0,15 1,13 1,40 1,71
b 49,21 6,70 38,19 49,09 61,85
56
Critérios de Comparação de modelos
Nesta seção utiliza-se alguns critérios de comparação de modelos para vericar se o
modelo normal assimétrico ajusta melhor os dados de renda do que o modelo normal,
para ns de predição, principalmente quando o tamanho da amostra não é grande
o suciente para se utilizar os resultados assintóticos estabelecidos pelo Teorema
Central do Limite. Foi feita uma comparação entre os modelos normal assimétrico
e normal, através dos critérios de seleção de modelos DIC, EQMp, EAMp e EPD.
Nas aplicações, o critério BIC não foi utilizado, pois ele não se mostrou eciente nas
simulações em detectar o modelo verdadeiro. [Ver Seção 3.3].
Na Tabela 3.12 são apresentados o DIC, juntamente com a média a posteriori dos
desvios (D) e o desvio da média a posteriori (D). Como os dados são formados pelo
par (yi, s2i ), estas medidas foram calculadas separadamente para cada uma destas
duas estatísticas. Medidas globais são obtidas pelo somatório (ver a linha Total
em Tabela 3.12). O modelo com o menor DIC deve ser o modelo preferido. Como
para esse conjunto de dados o valor verdadeiro da média em cada pequena área é
conhecido, calculou-se o EQMp e o EAMp para m de vericação do melhor modelo
segundo estes critérios. Além desses critérios, o EPD também foi calculado. Para
todas as medidas, o melhor ajuste é o que apresenta menor valor.
A Tabela 3.12 apresenta um sumário das medidas de comparação do modelo
normal e normal assimétrico para dados de renda. Pode ser visto, nesta tabela,
que os critérios DIC, EQMp, EAMp e EPD apresentam resultados menores para o
modelo normal assimétrico do que para o modelo normal. Note que, de acordo com
a Tabela 3.12, as medidas de comparação de ajuste para s2i são praticamente iguais
em ambos os modelos, já que os modelos para s2i são os mesmos.
Na Tabela 3.12 também apresenta-se o valor do Preditive Probability (PP) que
é dada por P (y(rep)i < y
(obs)i |y(obs)
i ), onde y(obs)i é o valor observado, e y(rep)
i é o valor
replicado utilizando o modelo preditivo. O valor mais próximo de 50% indica o
melhor modelo. O valor da medida PP na Tabela 3.12, refere-se a média dos PP's
nas 140 pequenas áreas. Observe que para o modelo normal assimétrico, o PP é
mais próximo de 50% do que o PP do modelo normal.
57
Tabela 3.12: Critérios de escolha de modelos para ajustes dos dados de renda nas
amostras de 5% e 10%.
Amostrade
5%
Ajustes
dados
DIC
DD
PD
EQMp
EAMp
EPD
PP
NA
y582,35
545,48
508,61
36,87
2,00
1,09
1097,92
54%
s21302,94
1220,15
1137,37
82,78
3818,72
47,85
Total
1885,29
1765,63
1645,98
119,65
--
Normal
y631,46
589,69
547,93
41,76
2,65
1,16
1695,91
57%
s21313,34
1215,24
1117,14
98,10
3708,44
38,99
Total
1944,80
1804,93
1665,07
139,86
--
Amostrade
10%
data
DIC
DD
PD
EQMp
EAMp
EPD
PP
NA
y520,95
443,39
365,83
77,56
1,54
0,92
650,12
53,7%
s21241,69
1134,87
1028,06
106,81
3385,75
45,69
Total
1762,64
1578,26
1393,89
184,37
--
Normal
y568,47
510,16
451,86
58,30
2,10
1,00
1111,33
56%
s21253,58
1138,54
1023,51
115,03
2629,21
29,31
Total
1822,05
1648,70
1475,37
173,33
--
58
Figura 3.12: Boxplots das Conditional Predictive Ordinates (CPOs) para os modelos
normal e normal assimétrico, plotados para as amostras de 5% e 10%.
NA N
0.00
0.05
0.10
0.15
0.20
0.25
0.30
Amostra de 5%
CP
O
NA N
0.00
0.05
0.10
0.15
0.20
0.25
0.30
Amostra de 10%
CP
O
A validação cruzada de densidades preditivas, também chamado de conditional
predictive ordinates (CPOs), foi feita para cada i = 1, . . . , 140 do par do conjunto
de dados, di = (yi, s2i ). Foram considerado os dois ajustes e para as duas frações de
amostragem. A denição utilizada aqui para a CPO da i-ésima área é feita através da
estimação da distribuição preditiva para todos os dados exceto di. Assim, o modelo
com maior CPOs indica melhor ajuste dos dados observados. Usa-se leave-one-out
method, pois este é adequado quando o número de exemplos rotulados N , é pequeno,
(ver Picard & Cook (1984)). Isto implica em ajustar o modelo 140 vezes para cada
um dos dois modelos, considerando as duas frações de amostragem, 5% e 10%. A
Figura 3.12 mostra os boxplots das CPOs calculada para cada um dos ajustes e
para cada fração de amostragem considerada. Aqui, novamente, o modelo normal
assimétrico ajusta melhor os dados do que o modelo normal, principalmente para
amostra de 5%. Este resultado conrma os resultados obtidos segundo o critério de
comparação de modelo DIC.
Na Figura 3.13 tem-se o valor predito ˆyi versus o valor verdadeiro das médias
Y . A linha vertical (|) indica o intervalo de credibilidade de 95%. O tamanho das
áreas foi ordenado de forma crescente. Nota-se que os intervalos de credibilidade do
ajuste normal assimétrico contém mais os valores das médias verdadeiras do que do
ajuste normal, tanto para a amostra de 5% quanto para amostra de 10%.
59
Figura 3.13: Intervalo de credibilidade de 95% para dados de renda. As barras
verticais representam os intervalos de credibilidade de 95% e “•” é o valor verdadeiro
da média versus o valor predito.
0 5 10 15 20
51
01
52
0
Valores Preditos
Va
lore
s V
erd
ad
eiro
s
(a) Amostra de 5% ajuste Normal
5 10 15 20
510
1520
Valor Predito
Val
or V
erda
deiro
(b) Amostra de 5% ajuste NA
0 5 10 15 20
51
01
52
0
Valores Preditos
Va
lore
s V
erd
ad
eiro
s
(c) Amostra de 10% ajuste Normal
5 10 15 20
510
1520
Valor Predito
Val
or V
erda
deiro
(d) Amostra de 10% ajuste NA
60
Figura 3.14: Diferença entre a estimativa do ajuste normal assimétrico e normal,
ηyi = µ(NA)i − µ(N)
i para dados de renda.
n_i
1 4 7 11 15 19 23 27 31 35 39 43 47 51 55 59 63 67 71 75 79 83 87 91 95 99 104 109 114 119 124 129 134 139
−1
01
23
45
(a) Amostra de 5%
n_i
1 4 7 11 15 19 23 27 31 35 39 43 47 51 55 59 63 67 71 75 79 83 87 91 95 99 104 109 114 119 124 129 134 139
02
46
8
(b) Amostra de 10%
61
A Figura 3.14 apresenta os valores padronizados para os dados estimados. No
eixo das ordenadas tem-se a diferença entre os valores preditos, considerando o ajuste
normal assimétrico e o ajuste normal, respectivamente. A notação utilizada para
essa medida é ηyi = µ(NA)i − µ(N)
i . No eixo das abscissas tem-se os tamanhos das
m = 140 pequenas áreas ordenados de forma crescente. Tanto para amostra de 5%
quanto para amostra de 10%, os valores estão bem distribuídos em torno de zero,
isto mostra que não há vício em nenhum dos modelos. Porém, as medidas ηyi de
cada pequena área são maiores para amostra de 5% do que para amostra de 10%.
Este gráco mostra que a medida em que o tamanho da amostra ni aumenta, as
estimativas do modelo normal assimétrico e normal tendem a se aproximar. Isso é
mais notório para amostra de 10%, em que os respectivos tamanhos das pequenas
áreas são maiores.
A Figura 3.15 mostra os valores amostrais versus os valores estimados. Para
o ajuste normal assimétrico, nas amostras de 5% e de 10%, as observações estão
mais próximas da reta identidade. Para o ajuste normal, as observações estão mais
distantes da reta, principalmente para a amostra de 5%. Os pontos distantes da
reta, na parte superior de cada gráco, representam as áreas em que a renda média
dos chefes do domicílio é alta.
62
Figura 3.15: Comparação dos dois ajustes: valor amostral yi versus sua estimativa
ˆyi para dados de renda.
5 10 15 20
510
1520
(a) Amostra de 5% ajuste Normal
5 10 15 20
510
1520
(b) Amostra de 5% ajuste NA
5 10 15 20
510
1520
(c) Amostra de 10% ajuste Normal
5 10 15 20
510
1520
(d) Amostra de 10% ajuste NA
63
3.4.2 Aplicação 2: Dados Educacionais
Este conjunto de dados foi extraído de um estudo de avaliação educacional realizado
no Estado do Rio de Janeiro, em 2001, com crianças em escolas primárias. A
população é composta por 57 escolas com um total de 2209 alunos. O número de
alunos por escola Ni varia de 7 a 67. O interesse deste estudo foi avaliar a prociência
média escolar de uma determinada série, por meio das notas dos alunos, obtidas nos
testes de matemática e português, de acordo com uma escala pré-denida. Nesta
aplicação não se tem os dados censitários de todos os alunos. Portanto, não foi
possível comparar os valores estimados com os verdadeiros.
Partiu-se do princípio de que a fração de amostragem é pequena para poder se
utilizar o modelo proposto. Cada pequena área (escola) possui apenas uma variável
explicativa x1, que representa o grau de escolaridade máximo dos pais. Para esse
banco de dados, ajustou-se os modelos normal assimétrico e normal, e comparou-se
os dois ajustes.
Foi utilizado o algoritmo MCMC com 200000 iterações e das quais as 100000
primeiras observações foram descartadas e, em seguida, foram selecionadas uma a
cada 20 das 100000 iterações restantes. Utilizou-se o software R.
Na Tabela 3.13 encontram-se os valores estimados dos parâmetros via MCMC. O
parâmetro de assimetria λ apresentou valor não signicativo. A média a posteriori
do parâmetro de assimetria resultou em valor negativo e com desvio padrão de
4,28. Observa-se que as outras medidas dos parâmetros são próximas para ambos
os ajustes, inclusive os quantis de 2,5% e 97,5%.
A Tabela 3.14 mostra os resultados dos critérios DIC e EPD utilizados para
comparação dos modelos. Aqui, o melhor modelo indicado pelo DIC e EPD é
o modelo normal assimétrico. Embora o parâmetro de assimetria (λ) seja muito
pequeno, os critérios DIC, EPD e PP apontam o modelo normal assimétrico como
o mais adequado aos dados.
A Figura 3.16 mostra as densidades da distribuição a posteriori dos parâmetros
para os ajustes normal assimétrico e normal. Observa-se que as densidades, para
ambos os ajustes, são muito próximas.
64
Tabela 3.13: Medidas resumo para a distribuição a posteriori dos parâmetros para
os dados educacionais segundo ajustes normal e normal assimétrico.
Parâmetros Ajuste Normal Assimétrico
Média dp 2 ,5% Mediana 97 ,5
β0 22,08 0,79 20,53 22,08 23,65
β1 7,19 1,94 3,35 7,22 11,03
σ2ν 3,53 0,96 1,95 3,43 5,76
λ -1,97 3,18 -9,27 -1,64 3,87
a 1,70 0,23 1,27 1,69 2,15
b 58,57 8,18 45,45 58,98 72,15
Ajuste Normal
β0 21 ,82 0 ,70 20 ,45 21 ,81 23 ,21
β1 7 ,28 1 ,95 3 ,41 7 ,28 11 ,17
σ2ν 3 ,36 0 ,95 1 ,86 3 ,24 5 ,51
a 1 ,76 0 ,26 1 ,35 1 ,72 2 ,31
b 59 ,70 9 ,45 47 ,71 54 ,74 76 ,95
Tabela 3.14: Critérios de escolha de modelos para aplicação dos dados educacionais.
Ajuste Normal Assimétrico Ajuste Normal
Medidas y s2 Total y s2 Total
BIC 879,89 1141,56 2021,45 651,95 911,42 1563,37
DIC 210,87 485,21 696,08 219,24 495,24 714,48
D 172,36 434,38 606,24 179,07 438,38 617,45
D 133,84 383.55 519,39 138,71 381,53 520,24
pD 38,52 50,83 86,85 40,36 56,85 97,21
PP 0,50 0,49
EPD 118,90 150,00
65
Figura 3.16: Densidade da distribuição a posteriori dos parâmetros β0, β1, σ2ν
e λ para aplicação com dados de educacionais considerando os ajustes Normal
Assimétrico (NA) e Normal (N).
19 20 21 22 23 24 25
0.0
0.1
0.2
0.3
0.4
0.5
NNA
(a) β0
0 5 10 15
0.00
0.05
0.10
0.15
0.20
0.25
NNA
(b) β1
2 4 6 8 10
0.0
0.1
0.2
0.3
0.4
0.5
NNA
(c) σ2ν
−20 −15 −10 −5 0 5 10
0.00
0.05
0.10
0.15
NA
(d) λ
66
Figura 3.17: Comparação dos dois ajustes para aplicação com dados educacionais:
valor amostral yi versus estimativas ˆyi.
20 22 24 26 28 30
2022
2426
2830
(a) Normal Assimétrico
20 22 24 26 28 30
2022
2426
2830
(b) Normal
A Figura 3.17 apresenta os valores observados da prociência dos alunos versus
os valores estimados. A disposição das observações em ambos os modelos são muito
próximas. A diferença das estimativas está, na maioria dos casos, na segunda casa
decimal. Isso mostra que os ajustes são bem parecidos.
3.4.3 Conclusão das Aplicações
Na aplicação de renda em que os erros possuíam um forte comportamento
assimétrico, pode-se notar que o modelo que leva em conta essa assimetria foi
superior ao modelo convencional, assumindo-se erros normais. Notou-se que existe
uma assimetria à direita na distribuição. A formulação do modelo proposto também
permitiu observar que a covariável grau de escolaridade tem inuência na média da
renda, ajudando a explicar o comportamento da variável de interesse.
Na aplicação com os dados educacionais houve uma leve assimetria à esquerda.
O intervalo de credibilidade da estimação do parâmetro de assimetria contém o zero,
sugerindo que os dados não têm assimetria e que o modelo normal pode ser adequado
67
para estimar os valores esperados das observações. É importante lembrar que o DIC
e EPD apontaram o modelo assimétrico como mais eciente. Em outras palavras, há
ganho preditivo ao se ajustar o modelo normal assimétrico na aplicação com dados
educacionais.
Os resultados das medidas de ajuste mostraram a superioridade dos modelos
assimétricos em comparação com os modelos usuais simétricos. Segundo o DIC o
melhor modelo foi o que considera assimetria nos dados para ambas as aplicações.
Isso também foi conrmado pelo EPD. Na primeira aplicação, em que os valores
verdadeiros da variável de interesse está disponível, ca ainda mais evidente a
eciência do modelo proposto ao se comparar os respectivos EAMp e EQMp.
Capítulo 4
Modelo Assimétrico no Nível de
Unidade
Além do modelo proposto no capítulo anterior, com as observações no nível de
área, é interessante propor um modelo no nível da unidade, cujos erros aleatórios
sejam normais assimétricos. Para isso, propõe-se dois casos: i) o primeiro, modelo
assimétrico no nível de unidade que considera o parâmetro de assimetria comum para
todas as áreas, chamado de Modelo Normal Assimétrico com λ Comum (MNAC);
e ii) o segundo, modelo assimétrico no nível de unidade, com um parâmetro de
assimetria variando de área para área, com estrutura hierárquica, chamado de
Modelo Normal Assimétrico Hierárquico (MNAH).
Essa motivação se dá devido à possibilidade do parâmetro de assimetria poder
ser igual ou diferente em cada pequena área. No modelo de área, só está disponível
uma observação para cada área, o que torna difícil a estimação desse parâmetro
se considerados diferentes para cada área. Nos modelos propostos neste capítulo,
tem-se ni observações para cada área.
A vantagem da estimação no nível de unidade em relação ao nível de área é que
se pode fazer previsão para cada unidade populacional não pertencente à amostra,
e não somente para a média de toda pequena área.
68
69
4.1 Modelo assimétrico no nível de unidade com λ
comum (MNAC)
O modelo proposto, baseado no modelo do nível de unidade e na suposição do erro
sendo normal assimétrico, pode ser escrito como: para a unidade j da pequena área
i,
yij|µij, λi, φi ∼ NA(µij,√φi, λi), (4.1)
onde µij = x′ijβ + νi com νi ∼ N(0, σ2
ν); φi|a, b ∼ IG(a, b), λi = λ para todo i.
Baseado na Propriedade 7 do Capítulo 2 pode-se inserir uma variável latente
para facilitar o processo de estimação via MCMC. Ou seja, pode-se escrever
yij|Wij, µij, λ, φi ∼ N [µij +√φiδwij;φi(1− δ2)], (4.2)
onde δ = λ/√
1 + λ2 e Wij ∼ HN(0, 1) é a variável latente.
Seja Θ = (µ,β,φ, λ, σν , a, b) o vetor de parâmetros a serem estimados, onde
µ = (µ1, . . . ,µm) com µi = (µi1, . . . , µij) para todo i e φ = (φ1, . . . , φm). Usando a
representação estocástica, a verossimilhança é dada por
L(D,w|Θ) =m∏i=1
ni∏j=1
f(yij|Θ,w).f(wij)
=m∏i=1
ni∏j=1
1√2π(1− δ2)φi
exp
(−(yij − (µij +
√φiδwij))
2
2φi(1− δ2)
)
×√
2
πexp
(−w2ij
2
), (4.3)
onde D = (yij) é o vetor de dados disponíveis, com j = 1, . . . , ni, e i = 1, . . . ,m
e w são os parâmetros introduzido para a representação estocástica da distribuição
normal assimétrica. A distribuição a priori para Θ pode ser escrito como segue:
π(Θ) = π(λ)π(σ2ν)π(a)π(b)π(β)
m∏i=1
(π(φi|a, b)
ni∏j=1
[π(µij|β)]
). (4.4)
As prioris utilizadas para os parâmetros foram σ2ν ∼ IG(0, 01; 0, 01),
βk ∼ N(0, 1000), para todo k = 1, . . . , p e φi ∼ IG(a, b) onde a e b são
70
hiperparâmetros com distribuição gama Ga(0, 01; 0, 10). A priori utilizada para
λ ∼ t(0, 12; 2), onde t(e, f ; gl) denota a distribuição t-Student centrada em e com
escala f e gl graus de liberdade. Essa priori foi escolhida baseada em Bayes &
Branco (2007). Com essa priori, tem-se que a transformação de δ = λ/√
1 + λ2
fornece uma priori não informativa U(−1, 1).
Combinando (4.3) e (4.4), a distribuição conjunta dos dados D e dos parâmetros
Θ mais w é dada por:
π(Θ,w,D) = L(D,w|Θ)× π(Θ). (4.5)
Mais detalhes sobre o processo de estimação por MCMC, inclusive as condicionais
completas, encontram-se no Apêndice C1.
4.2 Modelo assimétrico no nível de unidade com λi
hierárquico (MNAH)
A diferença desse modelo para a Seção 4.1 é que ele permite que o parâmetro de
assimetria λ seja diferente para cada pequena área. Assim, o modelo segue como
yij|µij, λi, φi ∼ NA(µij,√φi, λi) (4.6)
onde µij = x′ijβ + νi com νi ∼ N(0, σ2
ν); φi|a, b ∼ IG(a, b) e λi|λ, σ2λ ∼ N(λ, σ2
λ),
com i = 1, . . . ,m e j = 1, . . . , ni. Note que λi depende de um hiperparâmetro λ.
Pode-se escrever yij|· ∼ N [µij +√φiδiwij;φi(1 − δ2
i )], onde δi = λi/√
1 + λ2i e
Wij ∼ HN(0, 1) é a variável latente.
Seja Θ = (µ,β,φ,λ, σν , a, b) o vetor de parâmetros a serem estimados, onde µ =
(µ1, . . . ,µm) com µi = (µi1, . . . , µij) para todo i e j = 1, . . . , ni, φ = (φ1, . . . , φm)
e λ = (λ1, . . . , λm). Usando a representação estocástica, a verossimilhança é dada
por
L(D,w|Θ) =m∏i=1
ni∏j=1
f(yij|Θ,w).f(wij)
=m∏i=1
ni∏j=1
1√2π(1− δ2
i )φiexp
(−(yij − (µij +
√φiδiwij))
2
2φi(1− δ2i )
)
71
×√
2
πexp
(−w2ij
2
), (4.7)
com j = 1, . . . , ni, e i = 1, . . . ,m, e w são os parâmetros introduzido para
a representação estocástica da distribuição normal assimétrica. Portanto, a
distribuição a priori para Θ pode ser escrito como segue:
π(Θ) = π(λ)π(σ2λ)π(σ2
ν)π(a)π(b)π(β)m∏i=1
π(φi|a, b)π(λi|λ, σ2λ)
ni∏j=1
π(µij |β)
.(4.8)
As prioris utilizadas para os parâmetros foram as mesmas escolhidas para o
modelo de unidade da Seção 4.1. Para o parâmetro σ2λ e para os hiperparâmetros a
e b, foi utilizado uma priori Inversa Gama, IG(0, 01; 0, 01).
Combinando (4.7) e (4.8), a distribuição conjunta dos dados D e dos parâmetros
Θ mais w é dada por:
π(Θ,w,D) = L(D,w|Θ)× π(Θ). (4.9)
Mais detalhes sobre o processo de estimação podem ser encontrados no Apêndice
C2.
4.3 Estudo de Simulação para o modelo assimétrico
no nível da unidade.
Para avaliar a qualidade das estimações, zeram-se estudos de simulação dos modelos
propostos neste capítulo. Na primeira simulação, Simulação 1, foram geradas
observações segundo o modelo em que o parâmetro de assimétria λ é comum a
todas as áreas. Na segunda simulação, denominada de Simulação 2, foram geradas
observações segundo o modelo onde o parâmetro de assimétria λi possui uma
estrutura hierárquica e varia de acordo com a área. Nas duas simulações, a estimação
sob o modelo normal assimétrico é comparada com a estimação do modelo normal,
segundo alguns critérios de comparação de modelos.
As observações foram geradas segundo o modelo assimétrico com λ = −1, λ = 0,
λ = 5 e λ = 10. Para o modelo assimétrico hierárquico, os valores de λi foram
72
gerados segundo uma distribuição normal com N(λ, σ2λ). Escolhe-se σ2
λ = 0, 1 por
supor que a variância dentro das áreas é pequena.
As covariáveis x1ij e x2ij foram geradas de uma distribuição normal padrão
N(0, 1). Os valores de m e dos ni foram os mesmos da amostra de 10% dos dados
de renda, visto na Seção 3.4.
4.3.1 Simulação 1
A Simulação 1, refere-se a simulações baseadas no modelo no nivel de unidades
assimétrico, considerando mesmo parâmetro de assimetria em todas as áreas. Foram
feitas 80000 iterações, das quais as 30000 primeiras foram descartadas, e tomada
uma a cada 20. Utilizou-se os software R, Ox e Winbugs. A parte gráca foi feita
utilizando o R. As observações foram geradas através do OX e ajustou-se o modelo
via MCMC utilizando o WinBugs.
A Tabela 4.1 mostra as medidas resumos das posteriori dos parâmentros,
considerando o mesmo λ para todas as áreas. Observou-se que todos os parâmetros
estão dentro do intervalo de credibilidade, e que a média a posteriori estima bem os
verdadeiros parâmetros. O σ2ν é o único parâmetro que não está contido dentro do
intervalo de credibilidade de 95% em todas as simulações. Mesmo assim, o limite
inferior desse intervalo é muito próximo do valor verdadeiro.
As Figuras 4.1, 4.2, 4.3 e 4.4 mostram o histograma da distribuição a posteriori
dos parâmetros. Pode observar que em todas as simulações os valores verdadeiros
dos parâmetros, representado pela linha cheia em vertical, estão dentro do intervalo
de credibilidade de 95% (representado pelas linhas verticais tracejadas), com exceção
do parâmetro σ2ν , cujo valor verdadeiro está próximo do quantil 2,5%.
73
Tabela 4.1: Medidas resumo dos parâmetros da simulação para os dados assimétricosno nível da unidade com λ comum a todas as áreas.
ParâmetrosValor
Média dp 2,5% Mediana 97,5%Verdadeiro
MNAC: λ = −1σ2ν 5 6,397 0,810 4,981 6,308 8,190β0 9 9,396 0,234 8,949 9,387 9,864β1 1 0,981 0,024 0,935 0,982 1,028β2 3 3,014 0,030 2,956 3,013 3,076λ -1 -1,22 0,120 -1,448 -1,224 -0,970
MNAC: λ = 0σ2ν 5 6,64 0,846 5,267 6,599 8,499β0 9 9,555 0,878 7,952 9,563 11,05β1 1 0,978 0,0301 0,923 0,9763 1,039β2 3 3,002 0,039 2,918 3,005 3,078λ 0 -0,1893 0,367 -0,843 -0,164 0,470
MNAC: λ = 5σ2ν 5 6,580 0,810 5,189 6,506 8,403β0 9 9,174 0,221 8,739 9,176 9,596β1 1 0,993 0,014 0,965 0,993 1,019β2 3 2,997 0,019 2,959 2,998 3,035λ 5 5,146 0,354 4,484 5,135 5,888
MNAC: λ = 10σ2ν 5 6,591 0,804 5,200 6,526 8,347β0 9 9,205 0,219 8,768 9,205 9,635β1 1 0,991 0,011 0,969 0,991 1,014β2 3 2,995 0,015 2,964 2,995 3,025λ 10 9,716 0,948 8,093 9,662 11,97
74
Figura 4.1: Histograma da distribuição a posteriori dos parâmetros β0, β1, β2,σ2ν e λ = −1 com intervalo de 95% de credibilidade, para simulação com dados
assimétricos no nível da unidade com ajuste NAC.
8.5 9.0 9.5 10.0
0.0
0.5
1.0
1.5
(a) β0
0.90 0.95 1.00 1.05
05
1015
(b) β1
2.90 2.95 3.00 3.05 3.10 3.15
02
46
810
12
(c) β2
4 5 6 7 8 9 10
0.0
0.1
0.2
0.3
0.4
0.5
(d) σ2ν
−1.6 −1.4 −1.2 −1.0 −0.8
0.0
0.5
1.0
1.5
2.0
2.5
3.0
(e) λ
75
Figura 4.2: Histograma da distribuição a posteriori dos parâmetros β0, β1, β2, σ2ν , e
λ = 0 com intervalo de 95% de credibilidade, para simulação com dados assimétricosno nível da unidade com ajuste NAC.
7.5 8.0 8.5 9.0 9.5 10.0 10.5
0.0
0.2
0.4
0.6
0.8
(a) β0
0.90 0.95 1.00 1.05
02
46
810
12
(b) β1
2.90 2.95 3.00 3.05 3.10
02
46
810
(c) β2
4 5 6 7 8 9 10
0.0
0.1
0.2
0.3
0.4
(d) σ2ν
−0.4 −0.2 0.0 0.2 0.4 0.6
0.0
0.5
1.0
1.5
2.0
(e) λ
76
Figura 4.3: Histograma da distribuição a posteriori dos parâmetros β0, β1, β2, σ2ν e
λ = 5 com intervalo de 95% de credibilidade, para simulação com dados assimétricosno nível da unidade com ajuste NAC.
8.5 9.0 9.5 10.0
0.0
0.5
1.0
1.5
(a) β0
0.94 0.96 0.98 1.00 1.02 1.04
05
1015
2025
(b) β1
2.94 2.96 2.98 3.00 3.02 3.04 3.06
05
1015
20
(c) β2
5 6 7 8 9 10
0.0
0.1
0.2
0.3
0.4
0.5
(d) σ2ν
4.5 5.0 5.5 6.0
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
(e) λ
77
Figura 4.4: Histograma da distribuição a posteriori dos parâmetros β0, β1, β2,σ2ν e λ = 10 com intervalo de 95% de credibilidade, para simulação com dados
assimétricos no nível da unidade com ajuste NAC.
8.5 9.0 9.5 10.0
0.0
0.5
1.0
1.5
(a) β0
0.96 0.98 1.00 1.02
010
2030
(b) β1
2.94 2.96 2.98 3.00 3.02 3.04
05
1015
2025
(c) β2
4 5 6 7 8 9 10
0.0
0.1
0.2
0.3
0.4
0.5
(d) σ2ν
8 10 12 14
0.0
0.1
0.2
0.3
0.4
(e) λ
78
4.3.2 Simulação 2
A Simulação 2 refere-se a simulações feitas baseadas no modelo no nível de unidade
assimetrico, considerando variação no parâmetro de assimetria para cada área, e
assumindo uma estrutura hierárquia para este parâmetro. Foram feitas 40000
iterações, das quais as 15000 primeiras foram descartadas, e tomada uma a cada
10. Utilizou-se os software R, Ox e Winbugs. A parte gráca foi feita utilizando o
R. As observações foram geradas através do OX e ajustou-se o modelo via MCMC
utilizando o WinBugs.
A Tabela 4.2 mostra as medidas resumos das posteriori dos parâmentros,
considerando λi hierárquico. Observou-se que todos os parâmetros estão dentro
do intervalo de credibilidade, e que a média a posteriori estima bem os verdadeiros
parâmetros.
As Figuras 4.5, 4.6, 4.7 e 4.8 mostram o histograma da distribuição a posteriori
dos parâmetros. Pode-se observar que em todas as simulações os valores verdadeiros
dos parâmetros, representados pela linha cheia em vertical, estão dentro do intervalo
de credibilidade de 95% (representado pelas linhas verticais tracejadas). Para
o parâmetro σ2λ, embora a distribuição a posteriori não seja simétrica, o valor
verdadeiro do parâmetro está dentro do intervalo de credibilidade da distribuição.
A Tabela 4.3 mostra as medidas de ajuste para dados gerados do modelo NAC
e NAH. Observou-se que os dois modelos assimétricos NAC e NAH têm maior
capacidade preditiva do que o modelo normal, segundo os critérios DIC e EPD.
Porém, como os modelos assimétricos possuem mais parâmetros, o BIC penaliza
estes modelos em algumas situações, dando vantagem para o modelo normal.
A Figura 4.9 apresenta o intervalo de credibilidade da média a posteriori para
cada indivíduo da amostra, para quatro áreas com tamanhos iguais a 6, 20, 30 e 59,
respectivamente, cosiderando o modelo assimétrico hierárquico com λ = 5. Observa-
se que todos os valores estão dentro do intervalo de credibilidade de 95% nas quatro
áreas, e que quando o número de observações ni aumenta, as médias a posteriori
cam mais próximas dos valores verdadeiros dos µi.
79
Tabela 4.2: Medidas resumo dos parâmetros da simulação para os dados assimétricosde unidade com λi hierárquico.
ParâmetrosValor
Média dp 2,5% Mediana 97,5%Verdadeiro
MNAH: λ = −1σ2ν 5 6,02 0,8 4,63 5,94 7,81σ2α 0.1 0,05 0,06 0,01 0,03 0,23β0 9 9,26 0,34 8,46 9,29 9,83β1 1 1,03 0,02 0,98 1,02 1,07β2 3 3,00 0,03 2,93 3,00 3,06λ -1 -1,07 0,17 -1,30 -1,09 -0,64
MNAH: λ = 0σ2ν 5 5,84 0,86 4,26 5,8 7,63σ2α 0.1 0,08 0,11 0,00 0,04 0,36β0 9 9,6 0,66 8,28 9,64 10,8β1 1 1,03 0,03 0,97 1,03 1,09β2 3 3,00 0,04 2,92 3,00 3,07λ 0 -0,24 0,28 -0,76 -0,26 0,31
MNAH: λ = 5σ2ν 5 6,07 0,75 4,78 6,01 7,76σ2α 0.1 0,27 0,37 0,01 0,12 1,38β0 9 9,26 0,21 8,84 9,26 9,69β1 1 1,00 0,01 0,97 1,00 1,03β2 3 3,00 0,02 2,96 3,00 3,04λ 5 4,78 0,31 4,12 4,82 5,29
MNAH: λ = 10σ2ν 5 6,11 0,75 4,80 6,06 7,78σ2α 0.1 0,79 1,31 0,01 0,26 3,84β0 9 9,28 0,20 8,88 9,28 9,68β1 1 0,99 0,01 0,97 0,99 1,01β2 3 3,00 0,02 2,98 3,00 3,04λ 10 9,12 0,63 8,09 9,09 10,57
80
Figura 4.5: Histograma da distribuição a posteriori dos parâmetros β0, β1, β2, σ2ν ,
σ2λ e λ = −1 com intervalo de 95% de credibilidade, para simulação com dados
assimétricos no nível da unidade com ajuste NAH.
7.5 8.0 8.5 9.0 9.5 10.0 10.5
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
(a) β0
0.95 1.00 1.05 1.10
05
1015
(b) β1
2.90 2.95 3.00 3.05 3.10
02
46
810
12
(c) β2
4 5 6 7 8 9 10
0.0
0.1
0.2
0.3
0.4
0.5
(d) σ2ν
0.0 0.2 0.4 0.6
02
46
810
1214
(e) σ2λ
−1.5 −1.0 −0.5 0.0
0.0
0.5
1.0
1.5
2.0
2.5
3.0
(f) λ
81
Figura 4.6: Histograma da distribuição a posteriori dos parâmetros β0, β1, β2, σ2ν ,
σ2λ e λ = 0 com intervalo de 95% de credibilidade, para simulação com dados
assimétricos no nível da unidade com ajuste NAH.
8.0 8.5 9.0 9.5 10.0 10.5 11.0 11.5
0.0
0.1
0.2
0.3
0.4
0.5
(a) β0
0.95 1.00 1.05 1.10
02
46
810
1214
(b) β1
2.85 2.90 2.95 3.00 3.05 3.10 3.15
02
46
810
(c) β2
4 6 8 10
0.0
0.1
0.2
0.3
0.4
(d) σ2ν
0.0 0.2 0.4 0.6 0.8 1.0 1.2
02
46
810
(e) σ2λ
−1.0 −0.5 0.0 0.5
0.0
0.5
1.0
1.5
(f) λ
82
Figura 4.7: Histograma da distribuição a posteriori dos parâmetros β0, β1, β2, σ2ν ,
σ2λ e λ = 5 com intervalo de 95% de credibilidade, para simulação com dados
assimétricos no nível da unidade com ajuste NAH.
8.5 9.0 9.5 10.0
0.0
0.5
1.0
1.5
(a) β0
0.94 0.96 0.98 1.00 1.02 1.04
05
1015
2025
(b) β1
2.95 3.00 3.05
05
1015
20
(c) β2
4 5 6 7 8 9
0.0
0.1
0.2
0.3
0.4
0.5
(d) σ2ν
0.0 0.5 1.0 1.5 2.0 2.5
01
23
4
(e) σ2λ
4.0 4.5 5.0 5.5
0.0
0.2
0.4
0.6
0.8
1.0
1.2
(f) λ
83
Figura 4.8: Histograma da distribuição a posteriori dos parâmetros β0, β1, β2, σ2ν ,
σ2λ e λ = 10 com intervalo de 95% de credibilidade, para simulação com dados
assimétricos no nível da unidade com ajuste NAH.
8.8 9.0 9.2 9.4 9.6 9.8
0.0
0.5
1.0
1.5
2.0
(a) β0
0.96 0.98 1.00 1.02 1.04
05
1015
2025
30
(b) β1
2.96 2.98 3.00 3.02 3.04 3.06
05
1015
2025
(c) β2
4 5 6 7 8 9
0.0
0.1
0.2
0.3
0.4
0.5
(d) σ2ν
0 5 10 15
0.0
0.2
0.4
0.6
0.8
1.0
1.2
(e) σ2λ
8 9 10 11
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
(f) λ
84
Tabela 4.3: Medidas de ajuste para dados gerados do modelo assimétrico com λcomum e λi hierárquico, considerando os ajustes assimétrico e normal.
Dados gerados do MNAC com λ = −1 Dados gerados do MNAH com λ = −1Ajuste NAC Ajuste Normal Ajuste NAH Ajuste Normal
BIC 51451,26 51469,56 52578,31 51419,55
DIC 18439,23 18466,74 18408,28 18422,61
D 18227,51 18254,07 18189,54 18204,07
D 18015,79 18041,4 17970,8 17985,53
PD 211,72 212,67 218,74 218,54
EPD 6,76×108 9,19×109 7,14×108 9,20×109
PP 0,5 0,86 0,5 0,87
Dados gerados do MNAC com λ = 0 Dados gerados do MNAH com λ = 0Ajuste NAC Ajuste Normal Ajuste NAH Ajuste Normal
BIC 52922,56 52917,14 53863,53 52690,57
DIC 19899,4 19909,25 19652,94 19688,91
D 19698,81 19701,65 19474,76 19475,08
D 19498,22 19494,05 19296,58 19261,25
PD 200,59 207,6 178,18 213,83
EPD 3,99×108 1, 22× 1010 9,64×109 1, 20× 1010
PP 0,50 0,90 0,50 0,90
Dados gerados do MNAC com λ = 5 Dados gerados do MNAH com λ = 5Ajuste NAC Ajuste Normal Ajuste NAH Ajuste Normal
BIC 48681,11 49249,68 49891,95 49260,52
DIC 15674,97 16254,11 15708,22 16254,50
D 15457,36 16034,2 15503,18 16045,03
D 15239,75 15814,28 15298,13 15835,56
PD 217,61 219,91 205,04 209,47
EPD 1,74×108 1, 67× 1010 4,24×108 1, 65× 1010
PP 0,50 0,97 0,50 0,98
Dados gerados do MNAC com λ = 10 Dados gerados do MNAH com λ = 10Ajuste NAC Ajuste Normal Ajuste NAH Ajuste Normal
BIC 48132,02 49053,52 49331,54 49059,81
DIC 15126,55 16060,43 15146,3 16056,65
D 14908,27 15838,03 14942,77 15844,33
D 14689,99 15615,63 14739,24 15632,01
PD 218,28 222,4 203,53 212,32
EPD 4,19×108 1, 68× 1010 1,62×108 1, 66× 1010
PP 0,50 0,98 0,50 0,98
85
Figura 4.9: Intervalos de Credibilidade de 95% para µi em quatro pequenas áreasdo estudo de simulação 2 com dados gerados do modelo NAH com λ = 5. A barravertical (|) representa o intervalo de 95% de credibilidade, o traço (-) representa amédia a posteriori e o asterisco (∗) representa o valor verdadeiro.
−
*
−
*
−
*
−
*
−
*
−
*
1 2 3 4 5 6
1015
2025
30
(a) n117 = 6
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
1015
2025
(b) n27 = 20
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
−50
510
15
(c) n103 = 30
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59
05
1015
(d) n67 = 59
86
4.3.3 Conclusão das Simulações
O estudo de simulação mostrou que a estimação dos modelos de unidade assimétricos
NAC e NAH são ecientes, tanto para dados com assimetria positiva quanto com
assimetria negativa, com assimetria grande ou pequena. Os parâmetros são bem
estimados em ambos os casos, e em quase todos eles o intervalo de credibilidade
de 95% contém o verdadeiro valor do parâmetro, sendo estes intervalos pequenos,
indicando que a estimação dos parâmetros é precisa.
Os critérios de seleção de modelos DIC e EPD mostram-se ecientes para
comparar os modelos, pois em todos os casos o modelo com menor DIC e EPD foi o
modelo gerado. Isso mostra que estes critérios podem apontar qual o melhor modelo
para dados reais. É necessário ter cuidado ao utilizar o BIC, pois nas simulações ele
aponta como melhor modelo o mais simples, com menor número de parâmetros.
4.4 Aplicação
Esta seção apresenta uma aplicação em pequenas áreas para dados de renda. A
amostra considerada foi obtida por meio de uma amostra aleatória de 10% em cada
área. Os dados utilizados para avaliar o modelo proposto neste trabalho foram os
mesmos descritos em Moura & Holt (1999) e na Seção 3.4.1; contudo, considerou-se
os dados no nível de unidade. A aplicação consiste em estimar a renda familiar de
setores censitários de um município brasileiro, utilizando as covariáveis X1ij e X2ij,
que representam, repectivamnete, o número de quartos no domicílio e o grau de
escolaridade do chefe da família, ambas as variáveis padronizadas pela média. Foram
ajustados os dois modelos assimétricos no nível de unidade (MNAC e MNAH), além
do modelo normal, para ns de comparação, segundo os critérios de comparação
BIC (Schwarz, 1978), DIC (Spiegelhalter et al., 2002), e EPD (Gelfand & Ghosh,
1998).
Os modelos propostos são como o descrito nas Seções 4.1 e 4.2 e foram utilizadas
as mesmas prioris para todos os parâmetros. Os valores apresentados foram baseados
em 60000 iterações do algoritmo MCMC, nas quais as primeiras 20000 foram
descartadas, consideradas como aquecimento da cadeia e tomadas uma a cada 20
iterações, reduzindo a autocorrelação das cadeias dos parâmetros.
87
Na Tabela 4.4, nota-se que as médias a posteriori dos dois modelos assimétricos
são bem parecidos. A estimação do parâmetro β0 no ajuste normal é o que mais se
diferencia dos ajustes assimétricos. Isso se dá devido ao fator de correção do valor
esperado da distribuição normal assimétrica, onde E(X)− µij = f(λi, φi).
Na Tabela 4.5, observou-se que segundo os critérios BIC e EPD, o modelo
assimétrico que considera assimetria comum entre as áreas é melhor que os demais
modelos, embora os valores sejam bem próximos dos obtidos no modelo assimétrico
hierárquico. Segundo o DIC, o melhor modelo é o modelo assimétrico com hierarquia
no λi. Isso indica que os dois modelos assimétricos são parecidos, tendo capacidade
preditiva similares, o que indica que existe pouca variação nas pequenas áreas em
relação a este parâmetro de assimetria. Em todas as medidas, observou-se uma
grande vantagem dos modelos assimétricos em relação ao modelo normal, indicando
a necessidade de impor assimetria na estimação do modelo. Embora o NAC e o NAH
apresentem resultados similares, não se pode concluir que para todas as aplicações
a assimetria seja comum para todas as áreas. Em algumas aplicações pode ocorrer
uma grande variação de assimetria entre as áreas. Nestas situações, espera-se que
modelo NAH possua capacidade preditiva signicativamente maior que a do modelo
NAC.
88
Tabela 4.4: Medidas resumo para a distribuição a posteriori dos parâmetros para osdados de renda segundo os ajustes do modelo normal, NAC e NAH para amostrade 10%.
ParâmetrosMédia dp 2,5% Mediana 97,5 %
Ajuste Normalβ0 8,64 0,14 8,37 8.64 8.93β1 1,08 0,05 0,97 1,08 1,19β2 2,15 0,07 2,00 2,15 2,29σ2ν 1,11 0,34 0,54 1,08 1,82
Ajuste NACβ0 1,61 0,10 1,42 1,60 1,80β1 0,35 0,04 0,28 0,35 0,42β2 1,13 0,06 1,01 1,12 1,24σ2ν 0,47 0,12 0,25 0,46 0,74λ 8,82 0,73 7,56 8,78 10,29
Ajuste NAHβ0 1,62 0,09 1,44 1,62 1,81β1 0,34 0,04 0,27 0,34 0,41β2 1,12 0,05 1,02 1,12 1,23σ2ν 0,38 0,12 0,17 0,37 0,64λ 10,68 1,13 8,06 10,61 13,12σ2λ 11,39 5,31 3,56 10,46 24,25
Tabela 4.5: Critérios de escolha de modelos para aplicação dos dados de renda comamostra de 10%.
Medidas Ajuste NAH Ajuste NAC Ajuste NromalBIC 58152,12 57037,71 58236,37DIC 23955,18 23990,99 25197,29D 23763,35 23813,96 25020,88D 23571,52 23636,93 24844,47pD 191,83 177,03 176,41EPD 5, 21× 109 3,89×109 9, 55× 109
PP 0,46 0,46 0,84
89
4.4.1 Previsão
Nesta subseção, foi feita a previsão para valores não observados da aplicação de renda
para amostra de 10%. Como esses dados são censitários, tem-se os valores de toda
a população. Com isso, pode-se fazer comparações entre os modelos normal, NAC
(normal assimétrico com λ comum a todas as áreas) e NAH (normal assimétrico
com λi hierárquico) e vericar qual o modelo cujas estimativas estão mais próximas
dos valores verdadeiros das médias das pequenas áreas.
Moura & Migon (2002) construiram um modelo para proporções de pequenas
áreas cujas previsões são relacionadas ao conjunto de variáveis auxiliares disponíveis
para todas as unidades da população. Assim, a distribuição a posteriori para cada
proporção da pequena área θi pode ser obtida através da distribuição preditiva de
yij para cada unidade não amostrada j /∈ Si, i = 1, . . . ,m.
Para fazer a estimativa da média populacional de uma determinada área i,
utilizou-se os valores amostrados e previu-se todos os valores não observados, por
meio da distribuição a posteriori dos parâmetros e das covariáveis. Então, na iteração
k, o valor amostrado da média populacional na pequena área i, é dado por:
µ(k)i =
∑j∈Si yij +
∑j /∈Si y
(k)ij
Ni
(4.10)
onde Si é o conjunto dos índices das unidades que fazem parte da amostra da pequena
área i e Ni é o tamanho da população na área i. A esperança e a variância a
posteriori são, repectivamente, estimadas por E(µi|D) = 1k
∑Ik=1 µ
(k)i , e V (µi|D) =
1k
∑Ik=1[µ
(k)i −E(µi|D)]2, para k = 1, . . . , I. Assim, para o indivíduo não observado
j da pequena área i, na iteração k, tem-se
y(k)ij ∼ NA(µ
(k)ij ,
√φ
(k)i , λ
(k)i ). (4.11)
onde, segundo o modelo proposto, µ(k)ij ∼ N(X
′ijβ
(k), (σ2ν)
(k)). Os somatórios∑j /∈Si y
(k)ij , que é o termo utilizado para calcular a média de toda a área i, foram
estimados de acordo com cada modelo ajustado. Note que para fazer a previsão para
toda a população é necessário ter disponível os valores das covariáveis para todos os
indivíduos da população.
A Figura 4.10 mostra os intervalos de credibilidade de 95% para as médias das
pequenas áreas, obtidos sob os ajustes Normal, NAC e NAH. A barra vertical (|)
90
representa o intervalo de 95% de credibilidade, o traço (-) representa a média a
posteriori e o asterisco (∗) representa o valor verdadeiro. Pode-se observar que os
ajustes assimétricos possuem estimativas parecidas, e que quase todos os valores
verdadeiros estão dentro do intervalo de credibilidade da média da pequena área.
No ajuste normal, os comprimentos dos intervalos de credibilidade são pequenos, e
não contemplam a maioria das médias verdadeiras na maioria das áreas. Isso mostra
que os modelos assimétricos possuem maior poder de previsão intervalar do que o
modelo normal.
Na Figura 4.11 temos o boxplot das diferençasˆyNi −YiYi
no item (a),ˆyNACi −YiYi
no item
(b) eˆyNAHi −YiYi
no item (c), onde Yi, ˆyNi , ˆy
NACi e ˆy
NAHi denotam, respectivamente, as
médias populacionais, as médias a posteriori em relação aos ajustes normal, NAC
e NAH para cada área i. Pode-se observar que os ajustes assimétricos apresentam
boxplot parecidos e que o modelo normal apresenta melhor previsão pontual para
esse conjunto de dados.
Uma outra medida importante para avaliação da previsão é o coeciente de
variação. A Figura 4.12 mostra o boxplot dos coecientes de variação, segundo
os estimadores diretos da amostra e segundo os ajustes normal e assimétricos
(NAC e NAH). Para a média amostral, o coeciente de variação é dado por
CV (Y ) =
√s2i (1−ni/Ni)/ni)
y, onde s2
i e y são respectivamente, a variância e a média
amostral. Para os demais modelos, o coeciente de variação foi calculado através da
razão direta entre a raiz quadrada da variância a posteriori e a média a posteriori.
Pode-se observar que os ajustes que consideram um modelo de previsão de toda a
população tem menor variação do que os estimadores diretos da amostra. Portanto,
há um ganho em fazer previsão utilizando todos os indivíduos da população: os
observados e os valores previstos para os não observados. Entre os modelos que
utilizam a previsão, o que tem menor coeciente de variação é o modelo normal.
91
Figura 4.10: Intervalo de Credibilidade de 95% para as médias de cada pequena áreaobtidos nos ajustes Normal, NAC e NAH. A barra vertical (|) representa o intervalode 95% de credibilidade, o traço (-) representa a média a posteriori e o asterisco (∗)representa o valor verdadeiro.
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
1 4 7 11 15 19 23 27 31 35 39 43 47 51 55 59 63 67 71 75 79 83 87 91 95 99 104 109 114 119 124 129 134 139
510
1520
(a) Ajuste Normal
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
1 4 7 11 15 19 23 27 31 35 39 43 47 51 55 59 63 67 71 75 79 83 87 91 95 99 104 109 114 119 124 129 134 139
510
1520
2530
35
(b) Ajuste NAC
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
−
*
1 4 7 11 15 19 23 27 31 35 39 43 47 51 55 59 63 67 71 75 79 83 87 91 95 99 104 109 114 119 124 129 134 139
510
1520
2530
35
(c) Ajuste NAH
92
Figura 4.11: Boxplot das diferenças relativas entre as médias das estimativas aposteriori e os verdadeiros valores das médias.
(a) Normal (b) NAC (c) NAH
−0.
4−
0.2
0.0
0.2
0.4
0.6
Figura 4.12: Boxplot dos coecientes de variação baseado na amostra, no modelonormal, NAC e NAH.
Amostral Normal NAC NAH
0.05
0.10
0.15
0.20
0.25
93
4.5 Conclusão
Após realizar simulações e estimação do modelo assimétrico no nível de unidade,
pode-se concluir que a estimação consegue recuperar os valores verdadeiros dos
parâmetros. O parâmetro de assimetria parece ser bem estimado, tanto pela média a
posteriori quanto pela mediana. Nas medidas de ajuste foi observado que a maioria
delas acerta em apontar como melhor modelo o modelo simulado, em comparação
com o modelo normal. Em algumas situações, o BIC apontou como melhor modelo
o modelo normal.
Na aplicação, segundo os critérios de comparação BIC, DIC e EPD, os modelos
assimétricos foram melhores do que o modelo normal. Isso mostra que há ganho em
considerar assimetria no modelo de unidade. Além disso, observou-se que o poder
de previsão intervalar dos modelos assimétricos, NAC e NAH são mais ecientes.
O modelo normal apresentou poder de previsão pontual maior do que os modelos
assimétricos, segundo as diferenças relativas dos ajustes e o coeciente de variação.
Uma outra alternativa para tentar melhorar a estimação pontual dos modelos
assimétricos, pode ser feito tornando a esperança do erro igual a zero. Assim,
yij|µij, λi, φi ∼ NA(µij − δi√φi
√2
π,√φi, λi)
onde δi = λi/√
1 + λ2i . Dessa forma, E(eij) = 0.
Os resultados obtidos na previsão, segundo essa parametrização, mostraram
valores semelhantes aos do modelo não parametrizado. Houve um pequeno ganho
no somatório das diferenças relativas. Para o modelo assimétrico NAC, a soma das
diferenças relativas∑140
i=1(ˆyNACi −YiYi
) foi 11,29, enquanto considerando erro centrado,
a soma das diferenças relativas foi de 10,82. Para o modelo assimétrico NAH, a soma
das diferenças relativas∑140
i=1(ˆyNAHi −YiYi
) foi 11,42, e passou para 10,93 ao considerar
o erro centrado em zero.
Capítulo 5
Conclusões e Extensões
Baseando-se no trabalho realizado, pode-se tirar as seguintes conclusões:
• Foi desenvolvida uma nova metodologia para estimar dados em pequenas áreas,
que leva em consideração a assimetria dos dados e relaxa a suposição de que a
variância é conhecida. Para o modelo no nível de área, quando o tamanho
da amostra cresce, a distribuição da variável resposta converge para uma
distribuição normal, obedecendo assim o Teorema Central do Limite.
• O modelo de área proposto, através da aplicação de dados de renda, mostrou-
se mais eciente que o modelo que não considera assimetria. O critério DIC,
embora com várias restrições na literatura, pareceu ser um bom critério de
comparação, de acordo com os resultados da aplicação de renda em que se
conhece o valor verdadeiro.
• Nas aplicações do modelo de área, o EPD e DIC apontou como melhor modelo
o modelo normal assimétrico. Observou-se, também, por meio do estudo de
simulação, que o modelo proposto é mais eciente que o modelo usual (normal)
para estimar as médias das pequenas áreas, quando os dados apresentam
assimetria. Além disso, não há perdas signicativas ao se ajustar o modelo
normal assimétrico quando os dados são gerados de acordo com o modelo
normal. A cobertura dos intervalos de credibilidade é próxima ao xado em
95%.
• Embora a estimativa do parâmetro de assimetria no modelo de área apresente
desvio padrão um pouco alto, isso parece não interferir na estimação da
94
95
quantidade de interesse (média das pequenas áreas). É visto na literatura
que o parâmetro de assimetria da normal assimétrica não é de fácil estimação.
• Nos modelos assimétricos de unidade, NAC e NAH, após realizar simulações e
estimação, pode-se concluir que a estimação consegue recuperar os valores
verdadeiros dos parâmetros. O parâmetro de assimetria parece ser bem
estimado nos dois casos, tanto pela média a posteriori quanto pela mediana.
Isso se dá pelo fato de se ter mais observações disponíveis por pequena área.
Além disso, foi possível propor um modelo hierárquico, NAH onde λi varia
para cada área.
• Nas medidas de ajuste foi observado que a maioia delas acerta em apontar
como melhor modelo o modelo simulado, em comparação com o modelo
normal.
• Na aplicação dos modelos assimétricos de unidade, segundo os critérios de
comparação, os modelos assimétricos foram melhores do que o modelo normal.
Isso mostra que há ganho em considerar assimetria no modelo de unidade.
Além disso, observou-se que o poder de previsão intervalar dos modelos
assimétricos NAC e NAH são mais ecientes.
Trabalhos futuros:
• Comparar os modelos assimétricos no nível de área (agregado) e no nível
da unidade (desagregado) para vericar se o modelo agregado consegue
estimativas tão boas, ou próximas, do modelo desagregado.
• Propor um modelo dinâmico conjunto para o modelo no nível de área, com
hierarquia no parâmetro de assimetria, como segue:
Seja θi,t = yi,t o estimador direto e φi = S2i,t o estimador da variância e t o
tempo para cada área i, então o modelo dinâmico proposto é dado por
ˆyi,t | µi,t, λ, nit, σ2i ∼ NA(µi,t, n
−1it σ
2i , λ/√nit)
S2i,t | nit, σ2
i ∼ Ga
0.5 ∗ (nit − 1), 0.5(nit − 1)σ−2i
µi,t = µi,t−1 + wi,t. (5.1)
Detalhes sobre as condicionais completas estão no Apêndice D.
Referências Bibliográcas
Arellano-Valle, R. B., Bolfarine, H. & Lachos, V. H. (2007).
Bayesian inference for skew-normal linear mixed models. Journal of Applied
Statistics 34(6) 663682.
Arora, V. & Lahiri, P. (1997). On the superiority of the bayesian method
over the blup in small area estimation problems. Statistica Sinica 7 1053
1063.
Azzalini, A. (1985). A class of distributions wich includes the normal ones.
Scandinavian Journal of Statistics 12 171178.
Azzalini, A. (1986). Further results on a class of distributions which includes
the normal ones. Scandinavian Journal of Statistics 46 199208.
Azzalini, A. & Capitanio, A. (1999). Statistical applications of the
multivariate skew normal distribution. Journal of the Royal Statistical
Society, Series B 61 579602.
Azzalini, A. & Capitanio, A. (2003). Distributions generated by
perturbations of symmetry with emphasis on a multivariate skew t
distribtuion. Journal of the Royal Statistical Society, Series B 65 367389.
Azzalini, A. & Valle, A. D. (1996). The multivariate skew normal
distribution. Biometrika 83 715726.
Battese, G. E. & Fuller, W. A. (1981). Prediction of county crop
areas using survey and satellite data. Journal of the American Statistical
Association 500505.
96
97
Battese, G. E., Harter, R. M. & Fuller, W. A. (1988). An error
components model for prediction of county crop areas using survey and
satellite data. Journal of the American Statistical Association 83 2836.
Bayes, C. L. & Branco, M. D. (2007). Bayesian inference for the skewness
parameter of the scalar skew-normal distribution. Brazilian Journal of
Probability and Statistics 21 141163.
Berger, J. O. & Bernardo, J. M. (1992). On the development of reference
priors. Bayesian Statistics.
Cochran, W. G. (1977). Sampling Techniques. Jonh Wiley and Sons.
Dick, P. (2007). Modeling net undercoverage in the 1991 canadian census.
Survey Methodology 21 4554.
Fay, R. E. & Herriot, R. A. (1979). Estimation of income from small
places: An application of james-stein procedures to census data. Journal of
the American Statistical Association 74 269277.
Gamerman, D. & Lopes, H. F. (2006). Markov chain Monte Carlo:
Stochastic simulation for Bayesian inference. Chapman and Hall/CRC.
Gelfand, A. & Ghosh, S. K. (1998). Model choice: A minimun posterior
predictive loss approach. Biometrika 85 111.
Gelfand, A. & Smith, A. (1990). Sampling based approaches to calculating
marginal densities. Journal of the American Statistical Association 85 398
409.
Geman, S. & Geman, D. (1984). Stochastic relaxation, gibbs distributions
and bayesian restoration of images. IEEE Transactions on Pattern Analysis
and Machine Intelligence 6 721741.
Genton, M. (2004). Skew-elliptical distributions and their applications (1
ed.). New York: Chapman and Hall.
Gupta, A. K. & Chen, T. (2003). On the sample characterization criterion
for normal distributions. Journal of Statistical Computation and Simulation
73(3) 155163.
98
Gupta, A. K. & Kollo, T. (2003). Density expansions based on the
multivariate skew normal distribution. Sankya 65 821835.
Henze, N. (1986). A probabilistic representation of the skew-normal
distribution. Scandinavian Journal of Statistics 13 271275.
James, W. & Stein, C. (1961). Estimation with quadratic loss.
Proceedings of the Fourth Berkeley Sympossium of Mathematical Statistics
and Probability 1 361379.
Liseo, B. & Loperfido, N. (2006). A note on reference prioris for a scalar
skew-normal distribution. Journal of Statistical Planning and Inference 136
373389.
Moura, F. A. S. (1994). Small Area Estimation Using Multilevel Models.
Tese de Doutorado: University of Southampton.
Moura, F. A. S. (2008). Estimação em Pequenos Domínios (18o SINAPE).
ABE.
Moura, F. A. S. & Holt, D. (1999). Small area estimation using multilevel
models. Survey Methodology 25 7380.
Moura, F. A. S. & Migon, H. S. (2002). Bayesian spatial models for small
area estimation of proportions. Statistical Modelling 2 183201.
Neal, R. (2003). Slice sampling (with discussion). Annals of Statistics 31
705767.
Owen, D. (1956). Tables for computing bivariate normal probabilities. Annals
of Mathematics and Statistics 27 10751090.
Pfeffermann, D. (2002). Small area estimation - new developments and
directions. International Statistical Review 70 125143.
Picard, R. R. & Cook, R. D. (1984). Cross-validation of regression models.
Journal of the American Statistical Association 79(387) 575583.
Prasad, N. & Rao, J. (1999). On robust small area estimation using a
simple randon eetcs model. Survey Methodology 25 6772.
99
Rao, J. N. K. (2003). Small Area Estimation. New Jersey: Wiley Series in
Survey Methodology.
Schwarz, G. (1978). Estimating the dimension of a model. Annals of
Statistics 6(2) 461464.
Skinner, C. (1994). Sample models and weights. Proceeding of the section
on survey research methods American Statistical association, Washington
133142.
Smith, T. (1983). On the validity of inferences from non-random samples.
Journal of the Royal Statistical Society Series A 146 394403.
Spiegelhalter, D. J., Best, N. G., Carlin, B. P. & Linde, A. (2002).
Bayesian measures of model complexity and t. Journal of the Royal
Statistical Society Series B 64 134.
Sugden, R., Smith, T. & Jones, R. (2000). Cochran's rule for simple
random sampling. Journal of the Royal Statistical Society Series B 62 787
793.
You, Y. & Chapman, B. (2006). Small area estimation using area level
models and estimated sampling variance. Survey Methodology 20 315.
You, Y. & Rao, J. N. K. (2000). Hierarquical bayes of small area mean
using multi-level models. Survey Methodology 26 173181.
Apêndice
Apêndice A: Modelo Assimétrico no nível de Área
Condicionais Completas
Encontramos as seguintes condicionais completas para σ2ν , β0 β1, β2, µi e wi:
σ2ν |· ∼ GI
[c+
m
2, d+
m∑i=1
(µi − β0 − β1x1i − β2x2i)2
2
],
β0|· ∼ N
[(m∑i=1
µi − β1x1i − β2x2i
σ2ν
+a0
b0
)(m
σ2ν
+1b0
)−1
,
(m
σ2ν
+1b0
)−1]
β1|· ∼ N
[(m∑i=1
x1i(µi − β0 − β2x2i)σ2ν
+a1
b1
)(∑mi=1 x
21i
σ2ν
+1b1
)−1
,
(∑mi=1 x
21i
σ2ν
+1b1
)−1]
β2|· ∼ N
[(m∑i=1
x2i(µi − β0 − β1x1i)σ2ν
+a2
b2
)(∑mi=1 x
22i
σ2ν
+1b2
)−1
,
(∑mi=1 x
22i
σ2ν
+1b2
)−1]
µi|· ∼ N
[((θi −
√φiwiδi)
φi(1− δ2i )
+X′βσ2ν
)(1
φi(1− δ2i )
+1σ2ν
)−1
,
(1
φi(1− δ2i )
+1σ2ν
)−1]
wi|· ∼ N
[(δi(θi − µi)√φi(1− δ2
i )
)(1 +
δ2i
(1− δ2i )
)−1
,
(1 +
δ2i
(1− δ2i )
)−1].
Não existe forma fechada das distribuições a posteriori para os demais
parâmetros. Assim, usamos Gibbs para amostrar µi, σ2ν , β0, β1 e β2, e
algoritmo de Gibbs com passos de Metropolis-Hasting para estimar φi, a, b
e λ.
100
101
Algoritmo
Num passo (s) da iteração, a atualização dos parâmetros no passo (s + 1) é
dado por:
amostrando σ2ν :
σ2ν
(s+1)|· ∼ GI
[c+
m
2, d+
m∑i=1
(µ(s)i − β
(s)0 − β
(s)1 x1i − β(s)
2 x2i)2
2
],
atualizando β0:
β0(s+1)|· ∼ N
( m∑i=1
µ(s)i − β1
(s)x1i − β2(s)x2i
σ2ν
(s+1)+a0
b0
)(m
σ2ν
(s+1)+
1b0
)−1
,
(m
σ2ν
(s+1)+
1b0
)−1
atualizando β1:
β(s+1)1 |· ∼ N
( m∑i=1
x1i(µ(s)i − β
(s+1)0 − β(s)
2 x2i)
σ2ν
(s+1)+a1
b1
)(∑mi=1 x
21i
σ2ν
(s+1)+
1b1
)−1
,
(∑mi=1 x
21i
σ2ν
(s+1)+
1b1
)−1 ,
atualizando β2:
β(s+1)2 |· ∼ N
( m∑i=1
x2i(µi − β(s+1)0 − β(s+1)
1 x1i)
σ2ν
(s+1)+a2
b2
)(∑mi=1 x
22i
σ2ν
(s+1)+
1b2
)−1
,
(∑mi=1 x
22i
σ2ν
(s+1)+
1b2
)−1 ,
atualizando µi:
µ(s+1)i |· ∼ N
( (θi − (√φi
(s)w
(s)i δ
(s)i ))
φi(s)(1− δ2i
(s))/ni
+X′β
σ2ν(s+1)
)(1
φi(s)(1− δ2i
(s))
+1
σ2ν(s+1)
)−1
,
(1
φi(s)(1− δ2i
(s))
+1
σ2ν(s+1)
)−1 ,
atualizando wi:
w(s+1)i |· ∼ N
( δ(s)i (θi − µ(s+1)
i )√φi
(s)(1− δ2i
(s))
)(1 +
δ2i
(s)
(1− δ2i
(s))
)−1
,
(1 +
δ2i
(s)
(1− δ2i
(s))
)−1 .
amostrando λ. Para atualizar λ é proposto um valor
λ∗ | λ(s) ∼ N(λ(s), Vλ),
onde Vλ é uma variância escolhida adequadamente de acordo com o
comportamento da cadeia. Assim, λ(s+1) = λ∗ com probabilidade αλonde,
αλ = min
1,π(Θ∗|y)
π(Θ|y)
,
Θ∗ = (σ2ν
(s+1), β
(s+1)0 , β
(s+1)1 , β
(s+1)2 ,w(s+1), λ∗,µ(s+1),φ(s)) e
Θ = (σ2ν
(s+1), β
(s+1)0 , β
(s+1)1 , β
(s+1)2 ,w(s+1), λ(s),µ(s+1),φ(s)).
102
amostrando φi. Para i = 1, . . . ,m, φi∗ é amostrado de uma
Ga[φi(s)/Vφi ;φi
(s)/Vφi ]. Assim, E(φi∗|φi(s)) = φi
(s) e V ar(φi∗|φi(s)) = Vφi .
φi(s+1) recebe φ∗i com probabilidade αφi , onde
αφi = min
1,π(Θ∗|y)
π(Θ|y)· fG(φi
(s)|φi∗)fG(φi
∗|φi(s))
,
Θ∗ = (σ2ν
(s+1), β
(s+1)0 , β
(s+1)1 , β
(s+1)2 ,w(s+1), λ(s+1), (σ2
i )(s+1)k<i , φi
∗, (φi)(s)k>i,µ
(s+1)) e
Θ = (σ2ν
(s+1), β
(s+1)0 , β
(s+1)1 , β
(s+1)2 ,w(s+1), λ(s+1), (φi)
(s+1)k<i , (φi)
(s)k≥i,µ
(s+1));
103
Apêndice B: Modelo Normal
O modelo normal aqui estudado é dado por
θi = µi + εi com εi ∼ N(0, σ2i /ni)
µi = x′iβ + νi com νi ∼ N(0, σ2ν) (5.2)
onde xi são as covariáveis, β o vetor de coecientes dimensão p + 1, com
i = 1, . . . ,m. Observou-se que θi|µi ∼ N(µi, σ2i /ni) e µi|x′iβ ∼ N(x′iβ, σ
2ν).
Escreveu-se π(µ,β) na forma hierárquica, e considerou-se que µi dado β e
σ2i são independentes. Desta forma, tem-se que π(µ|xβ) =
∏mi=1 π(µi|β) e
π(σ) =∏m
i=1 π(σ2i ).
Assume-se que os erros εi e νi são independentes e identicamente distribuídos
com εi ∼ N(0, σ2i ) e νi ∼ N(0, σ2
ν), respectivamente. Para os parâmetros
σ2i e σ2
ν foram escolhidas distribuições a priori Gama Inversa e para β e
(µi|x′β) prioris normais. Diferentemente do que é considerado no modelo Fay-
Herriot, supõe-se que os erros amostrais são desconhecidos e que os mesmos
são estimados, conjuntamente com os demais parâmetros do modelo.
Para realizar a abordagem bayesiana e encontrar a distribuição a posteriori
dos parâmetros é necessário atribuir uma distribuição a priori para os hiper-
parâmetro.
Sabendo que a média amostral e sua variância amostral são
independentes, então se pode considerar o modelo conjunto como sendo
f(θi, σ2i |·) = f(θi|·)f(σ2
i |·), com σ2i |ni, σ2
i ∼ Ga[0, 5(ni − 1); 0, 5(ni − 1)σ−2i ].
Detalhando o modelo normal, tem-se:
O vetor de parâmetros a serem estimados igual a Θ = (σ2ν ,β,µ,σ, a, b).
A distribuição conjunta de Θ
π(Θ) = π(µ|X′
iβ)π(β)π(σ2ν)π(σ)π(a)π(b)
= π(σ2ν)π(β)π(a)π(b)
[m∏i=1
π(σ2i |a, b)π(µi|β)
(π(µi|X
′
iβ))]
.
104
A função de verossimilhança
L(Θ|y) =m∏i=1
f(θi|Θ)f(s2i |σ2
i , ni)
L(Θ|y) =m∏i=1
1√2πσ2
i /niexp
(−(θi − µi)2
2σ2i /ni
)
×(ni − 1
2σ2i
)ni−1
2
exp
(−(ni − 1)s2
i
2σ2i
).
As prioris:
σ2i |a, b ∼ GI(a, b),σ2ν ∼ GI(c = 2.001, d = 1.001),βk ∼ N(ak = 0, bk = 1000), para todo k=1,. . . ,p
µi|β, σ2ν ∼ N(X′iβ, σ
2ν).
Para os hiperparâmetros a e b escolheu-se prioris vagas Ga(0, 01; 0, 01).
Posteriori:
π(Θ|y) ∝ L(Θ|y)π(Θ).
Condicionais Completas
Encontramos as seguintes condicionais:
σ2ν |· ∼ GI
[c+
m
2, d+
m∑i=1
(µi − β0 − β1x1i − β2x2i)2
2
],
β0|· ∼ N
[(m∑i=1
µi − β1x1i − β2x2i
σ2ν
+a0
b0
)(m
σ2ν
+1b0
)−1
,
(m
σ2ν
+1b0
)−1]
β1|· ∼ N
[(m∑i=1
x1i(µi − β0 − β2x2i)σ2ν
+a1
b1
)(∑mi=1 x
21i
σ2ν
+1b1
)−1
,
(∑mi=1 x
21i
σ2ν
+1b1
)−1]
β2|· ∼ N
[(m∑i=1
x2i(µi − β0 − β1x1i)σ2ν
+a2
b2
)(∑mi=1 x
22i
σ2ν
+1b2
)−1
,
(∑mi=1 x
22i
σ2ν
+1b2
)−1]
µi|· ∼ N
[(θi
σ2i /ni
+X′βσ2ν
)(niσ2i
+1σ2ν
)−1
,
(niσ2i
+1σ2ν
)−1]
σ2i |· ∼ GI
[a+
ni2, b+
(θi − µi)2
2/ni+
(ni − 1)s2i
2
].
105
Todos os parâmetros do modelo possuem distribuição condicional completa
conhecida. Para encontrar a distribuição a posteriori de cada parâmetro
foram utilizadas técnicas MCMC, utilizando o algoritmo de Gibbs. Para os
hiperparâmetros a e b utilizou-se algoritmo de Gibbs com passos de Metropolis-
Hasting.
Algoritmo
Num passo (s) da iteração, a atualização dos parâmetros no passo (s + 1) é
dado por:
amostrando σ2ν :
σ2ν
(s+1)|· ∼ GI
[c+
m
2, d+
m∑i=1
(µ(s)i − β
(s)0 − β
(s)1 x1i − β(s)
2 x2i)2
2
],
atualizando β0:
β0(s+1)|· ∼ N
( m∑i=1
µ(s)i − β1
(s)x1i − β2(s)x2i
σ2ν
(s+1)+a0
b0
)(m
σ2ν
(s+1)+
1b0
)−1
,
(m
σ2ν
(s+1)+
1b0
)−1
atualizando β1:
β(s+1)1 |· ∼ N
( m∑i=1
x1i(µ(s)i − β
(s+1)0 − β(s)
2 x2i)
σ2ν
(s+1)+a1
b1
)(∑mi=1 x
21i
σ2ν
(s+1)+
1b1
)−1
,
(∑mi=1 x
21i
σ2ν
(s+1)+
1b1
)−1 ,
atualizando β2:
β(s+1)2 |· ∼ N
( m∑i=1
x2i(µi − β(s+1)0 − β(s+1)
1 x1i)
σ2ν
(s+1)+a2
b2
)(∑mi=1 x
22i
σ2ν
(s+1)+
1b2
)−1
,
(∑mi=1 x
22i
σ2ν
(s+1)+
1b2
)−1 ,
atualizando µi:
µ(s+1)i |· ∼ N
( θi
σ2i(s)/ni
+X′β
σ2ν(s+1)
)(ni
σ2i(s)
+1
σ2ν(s+1)
)−1
,
(ni
σ2i(s)
+1
σ2ν(s+1)
)−1 ,
amostrando σ2i :
σ2i
(s+1)|· ∼ GI
[a(s) +
ni2, b(s) +
(θi − µi(s+1))2
2/ni+
(ni − 1)s2i
2
].
106
Apêndice C: Modelo Assimétrico no Nível deUnidade
Apêndice C1: MNAC
Resumindo o modelo tem-se:
o vetor de parâmetros a serem estimados:
Θ = (µi·,wi·, β0, . . . , βp, λ, σ2ν , φ1, . . . , φm, a, b)
com µi· = (µi1, . . . , µini), wi· = (wi1, . . . , wini) e i = 1, . . . ,m;
a distribuição conjunta de Θ
π(Θ) = π(µ|X′
ijβ)π(β)π(λ)π(σ2ν)π(φ|a, b)π(a)π(b)
= π(λ)π(σ2ν)π(β)π(a)π(b)
[m∏i=1
π(φi|a, b)π(µi|β)
(ni∏j=1
π(µij|X′
ijβ)
)];
a verossimilhança
L(Θ; y) =m∏i=1
ni∏j=1
f(yij|µij, wij)f(wij)
=m∏i=1
ni∏j=1
1√2πφi(1− δ2)
exp
((yij − (µij +
√φiδwij))
2
2φi(1− δ2)
)
×√
2
πexp
(−w2ij
2
);
prioris:
φi|a, b ∼ GI(a, b),σ2ν ∼ GI(c = 2.001, d = 1.001),βk ∼ N(ak = 0, bk = 1000), para todo k=1,. . . ,p
λ ∼ t(0, e = 1/2; gl = 2), eµij |β, σ2
ν ∼ N(X′ijβ, σ2ν);
para os hiperparâmetros a e b escolheu-se prioris vagas Ga(0, 01; 0, 01).
Posteriori:
π(Θ|y) ∝ L(Θ|y)π(Θ)
.
107
Condicionais Completas
Encontrou-se as seguintes condicionais completas para os parâmetros domodelo desagregado:
σ2ν |· ∼ GI
c+∑mi=1 ni2
, d+m∑i=1
ni∑j=1
(µij − β0 − β1x1ij − β2x2ij)2
2
,β0|· ∼ N
m∑i=1
ni∑j=1
µij − β1x1ij − β2x2ij
σ2ν
+a0
b0
(∑mi=1 niσ2ν
+1b0
)−1
,
(∑mi=1 niσ2ν
+1b0
)−1
β1|· ∼ N
m∑i=1
ni∑j=1
x1ij(µij − β0 − β2x2ij)σ2ν
+a1
b1
(∑mi=1
∑ni
j=1 x21ij
σ2ν
+1b1
)−1
,
(∑mi=1
∑ni
j=1 x21ij
σ2ν
+1b1
)−1
β2|· ∼ N
m∑i=1
ni∑j=1
x2ij(µij − β0 − β1x1ij)σ2ν
+a2
b2
(∑mi=1
∑ni
j=1 x22ij
σ2ν
+1b2
)−1
,
(∑mi=1
∑ni
j=1 x22ij
σ2ν
+1b2
)−1
µij |· ∼ N
[((yij −
√φiwijδ)
φi(1− δ2)+
x′ijβσ2ν
)(1
φi(1− δ2)+
1σ2ν
)−1
,
(1
φi(1− δ2)+
1σ2ν
)−1]
wij |· ∼ N
[(δ(yij − µij)√φi(1− δ2)
)(1 +
δ2
(1− δ2)
)−1
,
(1 +
δ2
(1− δ2)
)−1].
Não existe forma fechada das distribuições a posteriori para os demais
parâmetros λ, φi, a e b. Assim, usou-se Gibbs para amostrar µij, σ2ν , wij,
β0, β1 e β2, e algoritmo de Gibbs com passos de Metropolis-Hasting para
estimar φi, a, b e λ.
Algoritmo
Num passo (s) da iteração, a atualização dos parâmetros no passo (s + 1) é
dado por:
amostrando σ2ν :
σ2ν
(s+1)|· ∼ GI
[c+
∑mi=1 ni2
, d+m∑i=1
ni∑j=1
(µ(s)ij − β
(s)0 − β
(s)1 x1ij − β(s)
2 x2ij)2
2
],
atualizando β0:
β0(s+1)|· ∼ N
m∑i=1
ni∑j=1
µ(s)ij − β1
(s)x1ij − β2(s)x2ij
σ2ν(s+1)
+a0
b0
(∑mi=1 ni
σ2ν(s+1)
+1
b0
)−1
,
(∑mi=1 ni
σ2ν(s+1)
+1
b0
)−1
108
atualizando β1:
β(s+1)1 |· ∼ N
m∑i=1
ni∑j=1
x1ij(µ(s)ij − β
(s+1)0 − β(s)
2 x2ij)
σ2ν(s+1)
+a1
b1
(∑mi=1
∑nij=1 x
21ij
σ2ν(s+1)
+1
b1
)−1
,
(∑mi=1
∑nij=1 x
21ij
σ2ν(s+1)
+1
b1
)−1 ,
atualizando β2:
β(s+1)2 |· ∼ N
m∑i=1
ni∑j=1
x2ij(µij − β(s+1)0 − β(s+1)
1 x1ij)
σ2ν(s+1)
+a2
b2
(∑mi=1
∑nij=1 x
22ij
σ2ν(s+1)
+1
b2
)−1
,
(∑mi=1
∑nij=1 x
22ij
σ2ν(s+1)
+1
b2
)−1 ,
atualizando µij:
µ(s+1)ij |· ∼ N
(yij −√φi
(s)w
(s)ij δ
(s))
φi(s)(1− δ2(s))
+X′β
σ2ν(s+1)
( 1
φi(s)(1− δ2(s))
+1
σ2ν(s+1)
)−1
,
(1
φi(s)(1− δ2(s))
+1
σ2ν(s+1)
)−1 ,
atualizando wij:
w(s+1)ij |· ∼ N
(δ(s)(yij − µ(s+1)ij )
√φ
(s)i (1− δ2(s))
)(1 +
δ2(s)
(1− δ2(s))
)−1
,
(1 +
δ2(s)
(1− δ2(s))
)−1 .
amostrando λ. Para atualizar λ é proposto um valor
λ∗ | λ(s) ∼ N(λ(s), Vλ),
onde Vλ é uma variância escolhida adequadamente de acordo com o
comportamento da cadeia. Assim, λ(s+1) = λ∗ com probabilidade αλonde,
αλ = min
1,π(Θ∗|y)
π(Θ|y)
,
Θ∗ = (σ2ν
(s+1), β
(s+1)0 , β
(s+1)1 , β
(s+1)2 , w
(s+1)ij , λ∗,µ(s+1),φ(s)) e
Θ = (σ2ν
(s+1), β
(s+1)0 , β
(s+1)1 , β
(s+1)2 , w
(s+1)ij , λ(s),µ(s+1),φ(s)).
amostrando φ. Para i = 1, . . . ,m, φi∗ é amostrado de uma
Ga[φi(s)/Vφi , φi
(s)/Vφi ]. Assim, E(φi∗|φi(s)) = φi
(s) e V ar(φi∗|φi(s)) = Vφi .
Os φi(s+1) recebe φi
∗ com probabilidade αφi , onde
αφi = min
1,π(Θ∗|y)
π(Θ|y)· fG(φi
(s)|φi∗)fG(φi
∗|φi(s))
,
Θ∗ = (σ2ν
(s+1), β
(s+1)0 , β
(s+1)1 , β
(s+1)2 , w
(s+1)ij , λ(s+1), (φi)
(s+1)k<i , φi∗, (φi)
(s)k>i,µ
(s+1))
Θ = (σ2ν
(s+1), β
(s+1)0 , β
(s+1)1 , β
(s+1)2 , w
(s+1)ij , λ(s+1), (φi)
(s+1)k<i , (φi)
(s)k≥i,µ
(s+1)).
109
Apêndice C2: MNAH
Resumindo o modelo tem-se:
o vetor de parâmetros a serem estimados:
Θ = (µi·,wi·, β0, . . . , βp, λ1, . . . , λm, λ, σ2ν , σ
2λ, φ1, . . . , φm, a, b)
com µi· = (µi1, . . . , µini), wi· = (wi1, . . . , wini) e i = 1, . . . ,m;
a distribuição conjunta de Θ
π(Θ) = π(µ|X′
ijβ)π(β)π(λ|λ, σ2λ)π(λ)π(σ2
λ)π(σ2ν)π(φ|a, b)π(a)π(b)
= π(λ)π(σ2ν)π(σ2
λ)π(β)π(a)π(b)
[m∏i=1
π(φi|a, b)π(µi|β)
(ni∏j=1
π(µij|X′
ijβ)
)];
a verossimilhança
L(Θ; y) =m∏i=1
ni∏j=1
f(yij|µij, wij)f(wij)
=m∏i=1
ni∏j=1
1√2πφi(1− δ2
i )exp
((yij − (µij +
√φiδiwij))
2
2φi(1− δ2i )
)
×√
2
πexp
(−w2ij
2
);
prioris:
φi|a, b ∼ GI(a, b),σ2ν ∼ GI(c = 2.001, d = 1.001),σ2λ ∼ GI(c = 2.001, d = 1.001),βk ∼ N(ak = 0, bk = 1000), para todo k=1,. . . ,p
λi ∼ N(λ, σ2λ)
λ ∼ t(0, e = 1/2; gl = 2), eµij |β, σ2
ν ∼ N(X′ijβ, σ2ν);
para os hiperparâmetros a e b escolheu-se prioris vagas Ga(0, 01; 0, 01).
Posteriori:
π(Θ|y) ∝ L(Θ|y)π(Θ)
.
110
Condicionais Completas
Encontrou-se as seguintes condicionais completas para os parâmetros domodelo desagregado:
σ2ν |· ∼ GI
c+∑mi=1 ni2
, d+m∑i=1
ni∑j=1
(µij − β0 − β1x1ij − β2x2ij)2
2
,σ2λ|· ∼ GI
[c+
m
2, d+
m∑i=1
(λi − λ)2
2
],
β0|· ∼ N
m∑i=1
ni∑j=1
µij − β1x1ij − β2x2ij
σ2ν
+a0
b0
(∑mi=1 niσ2ν
+1b0
)−1
,
(∑mi=1 niσ2ν
+1b0
)−1
β1|· ∼ N
m∑i=1
ni∑j=1
x1ij(µij − β0 − β2x2ij)σ2ν
+a1
b1
(∑mi=1
∑ni
j=1 x21ij
σ2ν
+1b1
)−1
,
(∑mi=1
∑ni
j=1 x21ij
σ2ν
+1b1
)−1
β2|· ∼ N
m∑i=1
ni∑j=1
x2ij(µij − β0 − β1x1ij)σ2ν
+a2
b2
(∑mi=1
∑ni
j=1 x22ij
σ2ν
+1b2
)−1
,
(∑mi=1
∑ni
j=1 x22ij
σ2ν
+1b2
)−1
µij |· ∼ N
[((yij −
√φiwijδi)
φi(1− δ2i )+
x′ijβσ2ν
)(1
φi(1− δ2i )+
1σ2ν
)−1
,
(1
φi(1− δ2i )+
1σ2ν
)−1]
wij |· ∼ N
[(δi(yij − µij)√φi(1− δ2i )
)(1 +
δ2i(1− δ2i )
)−1
,
(1 +
δ2i(1− δ2i )
)−1].
Não existe forma fechada das distribuições a posteriori para os demais
parâmetros λi, λ, φi, a e b. Assim, usou-se Gibbs para amostrar µij, σ2ν ,
wij, σ2λ, β0, β1 e β2, e algoritmo de Gibbs com passos de Metropolis-Hasting
para estimar φi, a, b, λ e λi.
Algoritmo
Num passo (s) da iteração, a atualização dos parâmetros no passo (s + 1) é
dado por:
amostrando σ2ν :
σ2ν
(s+1)|· ∼ GI
[c+
∑mi=1 ni2
, d+m∑i=1
ni∑j=1
(µ(s)ij − β
(s)0 − β
(s)1 x1ij − β(s)
2 x2ij)2
2
],
111
atualizando σ2λ:
σ2λ
(s+1)|· ∼ GI
[c+
m
2, d+
m∑i=1
(λ(s)i − λ(s))2
2
],
atualizando β0:
β0(s+1)|· ∼ N
m∑i=1
ni∑j=1
µ(s)ij − β1
(s)x1ij − β2(s)x2ij
σ2ν(s+1)
+a0
b0
(∑mi=1 ni
σ2ν(s+1)
+1
b0
)−1
,
(∑mi=1 ni
σ2ν(s+1)
+1
b0
)−1
atualizando β1:
β(s+1)1 |· ∼ N
m∑i=1
ni∑j=1
x1ij(µ(s)ij − β
(s+1)0 − β(s)
2 x2ij)
σ2ν(s+1)
+a1
b1
(∑mi=1
∑nij=1 x
21ij
σ2ν(s+1)
+1
b1
)−1
,
(∑mi=1
∑nij=1 x
21ij
σ2ν(s+1)
+1
b1
)−1 ,
atualizando β2:
β(s+1)2 |· ∼ N
m∑i=1
ni∑j=1
x2ij(µij − β(s+1)0 − β(s+1)
1 x1ij)
σ2ν(s+1)
+a2
b2
(∑mi=1
∑nij=1 x
22ij
σ2ν(s+1)
+1
b2
)−1
,
(∑mi=1
∑nij=1 x
22ij
σ2ν(s+1)
+1
b2
)−1 ,
atualizando µij:
µ(s+1)ij |· ∼ N
(yij −√φi
(s)w
(s)ij δ
(s)i )
φi(s)(1− δ2i
(s))
+X′β
σ2ν(s+1)
( 1
φi(s)(1− δ2i
(s))
+1
σ2ν(s+1)
)−1
,
(1
φi(s)(1− δ2i
(s))
+1
σ2ν(s+1)
)−1 ,
atualizando wij:
w(s+1)ij |· ∼ N
(δ(s)i (yij − µ(s+1)
ij )√φ
(s)i (1− δ2
i(s))
)(1 +
δ2i
(s)
(1− δ2i
(s))
)−1
,
(1 +
δ2i
(s)
(1− δ2i
(s))
)−1 .
amostrando λ. Para atualizar λ é proposto um valor
λ∗ | λ(s) ∼ N(λ(s), Vλ),
onde Vλ é uma variância escolhida adequadamente de acordo com o
comportamento da cadeia. Assim, λ(s+1) = λ∗ com probabilidade αλonde,
αλ = min
1,π(Θ∗|y)
π(Θ|y)
,
Θ∗ = (σ2ν
(s+1), σ2
λ(s+1)
, β(s+1)0 , β
(s+1)1 , β
(s+1)2 , w
(s+1)ij , λ∗,µ(s+1),λ(s),φ(s))
Θ = (σ2ν
(s+1), σ2
λ(s+1)
, β(s+1)0 , β
(s+1)1 , β
(s+1)2 , w
(s+1)ij , λ(s),µ(s+1),λ(s),φ(s)).
112
amostrando λi. Para atualizar λi, com i = 1, . . . ,m, é proposto um valor
λ∗i | λ(s+1), σ2λ
(s+1) ∼ N(λ(s+1), σ2λ
(s+1)),
assim, λ(s+1)i = λ∗i com probabilidade αλ onde,
αλi = min
1,π(Θ∗|y)
π(Θ|y)
,
Θ∗ = (σ2ν
(s+1), σ2
λ(s+1)
, β(s+1)0 , β
(s+1)1 , β
(s+1)2 , w
(s+1)ij , λ(s+1),µ(s+1), (λi)
(s+1)k<i , (λi)
∗, (λi)(s)k>i,φ
(s)) e
Θ = (σ2ν
(s+1), σ2
λ(s+1)
, β(s+1)0 , β
(s+1)1 , β
(s+1)2 , w
(s+1)ij , λ(s+1),µ(s+1), (λi)
(s+1)k<i , (λi)
(s)k≥i, ,φ
(s)).
amostrando φ. Para i = 1, . . . ,m, φi∗ é amostrado de uma
Ga[φi(s)/Vφi , φi
(s)/Vφi ]. Assim, E(φi∗|φi(s)) = φi
(s) e V ar(φi∗|φi(s)) = Vφi .
Os φi(s+1) recebe φi
∗ com probabilidade αφi , onde
αφi = min
1,π(Θ∗|y)
π(Θ|y)· fG(φi
(s)|φi∗)fG(φi
∗|φi(s))
,
Θ∗ = (σ2ν
(s+1), β
(s+1)0 , β
(s+1)1 , β
(s+1)2 , w
(s+1)ij , λ(s+1), (σ2
λ)(s+1)
,λ(s+1), (φi)(s+1)k<i , φi∗, (φi)
(s)k>i,µ
(s+1))
Θ = (σ2ν
(s+1), β
(s+1)0 , β
(s+1)1 , β
(s+1)2 , w
(s+1)ij , λ(s+1), (σ2
λ)(s+1)
,λ(s+1), (φi)(s+1)k<i , (φi)
(s)k≥i,µ
(s+1)).
113
Apêndice D: Extensão Dinâmica
Sabendo que yit|µit é uma distribuição normal assimétrica e que µit|X′itβé uma distribuição normal, mais precisamente: yit|µit ∼ NA(µit,
√φi, λi) e
µit|X′itβ ∼ N(X′itβ, σ2ν), com
√φi = σ2
i /√nit.
A partir da reparametrização vista na Propriedade 2.14, o modelo dinâmico
proposto yit|µit ∼ NA(µit,√φi, λi), considerando Wi como sendo uma
HN(0, 1), é dado por
π(yit, wit|µit) = π(yit|µit, wit)π(wit),
onde π(yit | wit) ∼ N(µit +√φitδiwit, φi(1 − δ2
i )) e π(wit) ∼ HN(0, 1) com
δi = λi√1+λ2
i
.
Com essa reparametrização, o modelo conjunto encontrado é
f(yit, s2it|·) = f(yit|·)f(s2
it|·)f(wit).
O vetor de parâmetros a serem estimados igual a
Θ = (λ, σ2ν , σ
2λ,β,λ, a, b,µ1, . . . ,µm,φ)
e sua distribuição a priori
π(Θ) = π(λ, λ, σ2λ)π(σ2
ν)m∏i=1
π(φ, a, b)π(µ,β)
= π(λ)π(σ2ν)π(σ2
λ)π(a)π(b)π(β)m∏i=1
[π(φi|a, b)π(λi)T∏t+1
π(µit|β)].
Para os parâmetros (φi|a, b) e σ2ν foram escolhidas distribuições a priori Gama
Inversa e para λ, β e (µi|β) priori Normal, como segue:
φi|a, b ∼ GI(a, b),
σ2ν ∼ GI(c = 2.001, d = 1.001),
σ2λ ∼ GI(c = 2.001, d = 1.001),
βk ∼ N(ak = 0, bk = 1000), para todo k=1,. . . ,p
λi ∼ N(λ, σ2λ)
λ ∼ t(0, 1/2; 2), e
µit|β, σ2ν ∼ N(X′itβ, σ
2ν).
114
Para os hiperparâmetros a e b escolheu-se prioris vagas Ga(0, 01; 0, 01).
A função de verossimilhança que é dada por
L(Θ; y) =m∏i=1
T∏t=1
f(yit|µit, wit)f(wit)
=m∏i=1
T∏t=1
1√2πφi(1− δ2
i )exp
((yit − (µit +
√φiδiwit))2
2φi(1− δ2i )
)
×√
2πexp
(−w
2it
2
);
e a Posteriori
π(Θ|y) ∝ L(Θ|y)π(Θ).
Encontrou-se as seguintes condicionais completas para os parâmetros domodelo dinâmico de área proposto:
σ2ν |· ∼ GI
[c+
mT
2, d+
m∑i=1
T∑t=1
(µit − β0 − β1x1it − β2x2it)2
2
],
σ2α|· ∼ GI
[c+
m
2, d+
m∑i=1
(αi − λ)2
2
],
β0|· ∼ N
[(m∑i=1
T∑t=1
µit − β1x1it − β2x2it
σ2ν
+a0
b0
)(mT
σ2ν
+1
b0
)−1
,
(σmν T2
+1
b0
)−1]
β1|· ∼ N
( m∑i=1
T∑t=1
x1it(µit − β0 − β2x2it)
σ2ν
+a1
b1
)(∑mi=1
∑Tt=1 x
21it
σ2ν
+1
b1
)−1
,
(∑mi=1
∑Tt=1 x
21it
σ2ν
+1
b1
)−1
β2|· ∼ N
( m∑i=1
T∑t=1
x2it(µit − β0 − β1x1it)
σ2ν
+a2
b2
)(∑mi=1
∑Tt=1 x
22it
σ2ν
+1
b2
)−1
,
(∑mi=1
∑Tt=1 x
22it
σ2ν
+1
b2
)−1
µit|· ∼ N
[(nit(yit −
√phiiwitδi/)
φi(1− δ2i )+
x′itβ
σ2ν
)(1
φi(1− δ2i )+
1
σ2ν
)−1
,
(1
φi(1− δ2i )+
1
σ2ν
)−1]
wit|· ∼ N
[(δi(yit − µit)√φi(1− δ2i )
)(1 +
δ2i(1− δ2i )
)−1
,
(1 +
δ2i(1− δ2i )
)−1].
Não existe forma fechada das distribuições a posteriori para os demais
parâmetros. Assim, usou-se amostrador de Gibbs com passos de Metropolis-
Hasting para estimar φi, a, b, λi e λ, de maneira similar ao algoritmo do
capítulo anterior.