Revisitando MLD para fam lia exponencial p-dimensional · distribui˘c~ao de probabilidade...
Transcript of Revisitando MLD para fam lia exponencial p-dimensional · distribui˘c~ao de probabilidade...
Revisitando MLD para famılia exponencial
p-dimensional
Raıra Marotta Bastos Vieira
Universidade Federal do Rio de Janeiro
Instituto de Matematica
Departamento de Metodos Estatısticos
2018
Revisitando MLD para famılia exponencial
p-dimensional
Dissertacao de Mestrado submetida ao Programa de Pos-Graduacao em Estatıstica
do Instituto de Matematica da Universidade Federal do Rio de Janeiro - UFRJ, como
parte dos requisitos necessarios a obtencao do tıtulo de Mestre em Estatıstica.
Raıra Marotta Bastos Vieira
Orientadores:
Mariane B. Alves
Helio dos Santos Migon
Rio de Janeiro, RJ - Brasil
2018
ii
Revisitando MLD para famılia exponencial
p-dimensional
Raıra Marotta Bastos Vieira
Dissertacao de Mestrado submetida ao Programa de Pos-Graduacao em Estatıstica
do Instituto de Matematica da Universidade Federal do Rio de Janeiro - UFRJ, como
parte dos requisitos necessarios a obtencao do tıtulo de Mestre em Estatıstica.
Aprovada por:
Mariane Branco Alves
DME/IM - UFRJ - Orientadora.
Dani Gamerman
DME/IM - UFRJ.
Heudson Mirandola
IM - UFRJ
Rio de Janeiro, RJ - Brasil
2018
iii
Agradecimentos
A minha famılia, por todo amor, suporte e compreensao.
Aos meus amigos, por tornarem esta jornada mais leve e cheia de alegrias.
Ao Matheus Rebelo, por todo carinho, cuidado e apoio.
Aos meus orientadores Mariane e Migon, por serem fonte inesgotavel de inspiracao.
Alem da paciencia e suporte durante essa jornada.
Ao professor Heudson Mirandola, por acreditar no trabalho e ser extramente solıcito,
nos ajudando a desenvolve-lo.
v
Resumo
Os modelos lineares generalizados dinamicos sao uma extensao de modelos lineares
dinamicos (no sentido de considerar respostas nao gaussianas) e para modelos lineares
generalizados, que consideram respostas na famılia exponencial, mas presumem efeitos
fixos ao longo do tempo. O presente trabalho revisita metodos de inferencia para essa
classe de modelos nao so no que concerne a famılia exponencial uniparametria como
k-parametrica. Metodos como Conjugate Updating, Conjugate Updating Estendido e
modelos nao estruturados sao apresentados. Neste trabalho apresenta-se uma extensao
do metodo Conjugate Updating Estendido para o caso Multinomial. Alem do mais,
uma nova abordagem via geometria da informacao para estimacao de modelos lineares
dinamicos generalizados e proposta. Conceitos como Divergencia de Kullback-Leibler e
Teorema da Projecao sao utilizados no desenvolvimento do metodo. Estudos simulados
bem como aplicacao a dados reais foram feitos e apresentaram resultados satisfatorios.
Palavras-Chaves: inferencia bayesiana, modelos lineares dinamicos generalizados, ge-
ometria da informacao, conjugate updating.
vi
Abstract
Dynamic generalized linear models are an extension of dynamic linear models (in the
sense of considering non-Gaussian responses) and for generalized linear models, which
consider responses in the exponential family, but assume fixed effects over time. The
present work revisits inference methods for this class of models, not only for the one-
parameter exponential family but also for the k-parameter. Methods such as Conjugate
Updating, Extended Conjugate Updating, and unstructured models are presented. In this
work we extend the Extended Conjugate Updating method for the Multinomial case.
Moreover, a new approach via information geometry is proposed for estimating dynamic
generalized linear models. Concepts such as Kullback-Leibler Divergence and Projection
Theorem are used in the development of the method. Simulation studies as well as
application to real data were made and satisfactory results were obtained.
Keywords: bayesian inference, dynamic generalized linear models, information geo-
metry, conjugate updating.
vii
Sumario
1 Introducao 1
2 Conceitos Basicos 5
2.1 Famılia Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.1 Conjugacao na Famılia Exponencial . . . . . . . . . . . . . . . . . 7
2.2 Geometria da Informacao . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.1 Divergencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.1.1 Divergencia de Bregman . . . . . . . . . . . . . . . . . . 10
2.2.1.2 Divergencia de Kullback-Leibler . . . . . . . . . . . . . . 11
2.2.2 Teoremas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.3 Exemplos de Projecoes . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.3.1 Projetando a Distribuicao Log-Normal na Gama . . . . 15
2.2.3.2 Projetando a Distribuicao Logito-Normal na Beta . . . . 18
3 Modelos Dinamicos Generalizados 20
3.1 Modelos Lineares Dinamicos . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2 Modelos Lineares Dinamicos Generalizados . . . . . . . . . . . . . . . . . 25
3.2.1 Conjugate Updating . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.2 Modelos Dinamicos de Nıvel Local . . . . . . . . . . . . . . . . . 30
4 MLDG via Geometria da Informacao 35
4.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2 Metodo proposto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
viii
4.2.1 Modelo Linear Dinamico Generalizado Poisson . . . . . . . . . . . 38
4.2.2 Modelo Linear Dinamico Generalizado Bernoulli/Binomial . . . . 41
4.2.3 Estudo de Simulacao . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.2.3.1 Modelo Poisson . . . . . . . . . . . . . . . . . . . . . . . 43
4.3 Compatibilizando diferentes modelos . . . . . . . . . . . . . . . . . . . . 44
4.3.1 Modelo Linear Dinamico Generalizado Poisson . . . . . . . . . . . 46
4.3.2 Modelo Linear Dinamico Generalizado Bernoulli/Binomial . . . . 49
4.3.3 Aplicacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5 Conjugate Updating estendido 58
5.1 Distribuicao Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.2 Distribuicao Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.3 Distribuicao Multinomial . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.3.1 Estudo Simulado . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.4 Aplicacoes a dados reais . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
6 Conclusao 77
A Resultados secundarios referentes a serie de vendas 79
A.1 Tabela de resultados do modelo Poisson via Geometria da Informacao que
compatibiliza modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
A.2 Cadeias obtidas pelo MCMC . . . . . . . . . . . . . . . . . . . . . . . . . 80
ix
Lista de Tabelas
4.1 Resultados da estimacao dos parametros do modelo de nıvel local . . . . 54
4.2 Tempo computacional gasto em cada um dos metodos . . . . . . . . . . . 54
4.3 Comparacao dos modelos via geometria da informacao compatibilizando
modelos e sem compatibilizar, Conjugate Updating e modelo de nıvel local 57
A.1 Tabela com os resultados obtidos de acordo com os parametros s e ω para
os 10 melhores modelos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
x
Lista de Figuras
2.1 Exemplo do Teorema da Projecao . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Exemplo de Compatibilizacao de Variaveis . . . . . . . . . . . . . . . . . 14
2.3 Distribuicoes Log-Normal e Gama aproximadas atraves da minimizacao da
divergencia de Kullback-Leibler quando utilizados diferentes parametros
para as distribuicoes Log-Normal. . . . . . . . . . . . . . . . . . . . . . . 17
2.4 Distribuicoes Logito-Normal e Beta aproximadas atraves da minimizacao
da divergencia de Kullback-Leibler quando utilizados diferentes parametros
para as distribuicoes Logito-Normal. . . . . . . . . . . . . . . . . . . . . 19
3.1 Ilustracao da evolucao do sistema . . . . . . . . . . . . . . . . . . . . . . 23
4.1 Boxplots resultantes das replicas para a media a posteriori do parametro
natural e seus valores verdadeiros representados pela linha vermelha . . . 44
4.2 Media a posteriori da distribuicao preditiva a um passo para diferentes
tamanhos de amostra junto ao seu intervalo de credibilidade. As escalas
dos graficos diferem para facilitar a visualizacao. . . . . . . . . . . . . . . 44
4.3 Serie Observada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.4 Predicao 1 passo a frente via geometria da informacao compatibilizando
modelos e sem compatibilizar, Conjugate Updating e modelo de nıvel local
junto a serie observada. Considerou-se que apos 10 passos todos os modelos
ja tinham aprendido o comportamento da serie. . . . . . . . . . . . . . . 55
4.5 E(αt|DT ) estimado por diferentes metodos . . . . . . . . . . . . . . . . . 55
4.6 Media a posteriori suavizada para o par de harmonicos. . . . . . . . . . . 56
xi
5.1 Boxplots para as medias a posteriori dos parametros λ1t e λ2t junto aos
seus valores verdadeiros (linha vermelha). . . . . . . . . . . . . . . . . . . 72
5.2 E(η1t|Dt) e E(η2t|Dt) (linha pontilhada azul) junto aos seus valores verda-
deiros (linha contınua preta). . . . . . . . . . . . . . . . . . . . . . . . . 73
5.3 E(Y1t+1|Dt), E(Y2t+1|Dt) e E(Y3t+1|Dt) (linha pontilhada azul) junto a serie
observada (linha contınua preta). . . . . . . . . . . . . . . . . . . . . . . 74
5.4 Serie mensal do log-retorno da SP500 . . . . . . . . . . . . . . . . . . . . 75
5.5 Serie observada junto a predicao 1 passo a frente e seu respectivo intervalo
de credibilidade. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.6 Media a posteriori filtrada e suavizada junto ao intervalo de credibilidade
da media suavizada para o parametro da media e de precisao. . . . . . . 76
A.1 Cadeias resultantes obtidas pelo metodo MCMC para cada um dos parametros
β e para o parametro ω. . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
xii
Capıtulo 1
Introducao
Propostos por Nelder and Wedderburn (1972), os modelos lineares generalizados sao
uma extensao dos modelos lineares que permitem que a variavel resposta tenha uma
distribuicao de probabilidade diferente da gaussiana, desde que sua distribuicao pertenca
a famılia exponencial de distribuicoes. Entretanto, no contexto de series temporais seu
uso nao e o mais adequado, pois e assumida a independencia entre as observacoes, o que
nao ocorre em series temporais.
Harrison and Stevens (1976) definiram a classe dos modelos lineares dinamicos e
desenvolveram uma abordagem bayesiana para tal tipo de modelagem e previsao. A
ideia e que os parametros possam variar no tempo. Desta forma, a relacao entre as
covariaveis e variavel resposta e dinamica, mantendo, condicionalmente aos estados a
independencia dos observaveis.
Smith (1979) propoe uma extensao da metodologia de Harrison and Stevens (1976)
na qual considera a modelagem de dados com distribuicao diferente da gaussiana. O
autor busca encontrar formas alternativas para atualizar o nıvel da serie, uma vez que a
simples adicao de termos de erro para inflacao de incerteza acarreta intratabilidade para
a priori, em contextos mais genericos que o normal. E utilizado entao um processo de
tomada de decisao bayesiano, de forma que sejam satisfeitas as seguintes condicoes: as
decisoes relacionadas a uma determinada funcao perda deverao permanecer constantes
enquanto nao houver informacoes futuras, ja perda esperada associada a essas decisoes
aumentara no decorrer deste intervalo. A ideia e que a priori para os estados no tempo
1
t e proporcional a priori do tempo t− 1 elevada a uma determinada potencia ω. Dessa
forma, mantem-se a media da distribuicao e a incerteza aumenta. Uma explicacao mais
detalhada sobre tal modelo podera ser encontrada na Secao 3.2.2.
Nessa linha de pensamento, Harvey and Fernandes (1989) apresentam uma forma de
modelar a media da serie para dados qualitativos e de contagem. Um hiperparametro e
introduzido no modelo de forma que as observacoes passadas sao descontadas ao se fazer
previsoes. O metodo de estimacao escolhido para este hiperparametro foi o de maxima
verossimilhanca. Variaveis explicativas podem ser inseridas atraves da funcao de ligacao
do Modelo Linear Generalizado (MLG). Tambem e permitido que efeitos sazonais e de
tendencia sejam considerados na modelagem, contudo nao e permitido que estes sejam
estocasticos.
Gamerman et al. (2013) introduzem a classe dos Modelos Dinamicos da Famılia Gama.
Tambem e apresentada uma especificacao expandida para a evolucao do sistema que,
assim como em Harvey and Fernandes (1989), utiliza um hiperparametro na distribuicao
da componente do nıvel do modelo que atua como um fator de desconto. Como metodos
de inferencia para tal, sao utilizados o Metodo de Maxima Verossimilhanca e estimadores
Bayesianos. Uma vantagem do metodo e que a forma analıtica da verossimilhanca e
mantida.
Uma outra alternativa de inferencia para modelos lineares dinamicos generalizados e
o metodo via compatibilizacao de momentos proposto por West et al. (1985). Este utiliza
metodos de aproximacao para obter as estimativas do modelo, uma vez que somente as
distribuicoes do parametro canonico e da preditiva tem forma analıtica fechada. Uma das
dificuldades encontradas e que ha duas distribuicoes a priori para o parametro natural da
famılia exponencial: uma induzida pelo vetor de estados e outra obtida por conjugacao
da famılia exponencial. A solucao encontrada por West et al. (1985), foi compatibilizar
os momentos de tais prioris.
No que concerne a compatibilizacao de prioris, Poole and Raftery (2000) e referencias
citadas neste artigo propoem uma metodologia denominada Bayesian Melding. Sao su-
geridas duas formas de compatibilizacao: linear pooling e logarithm pooling. No primeiro
caso, sugere-se uma combinacao convexa de prioris, isto e, atribui-se pesos para cada
2
uma delas. Ja no segundo caso, e proposta uma multiplicacao de prioris, de forma que
cada uma e elevada a um determinado peso. Argumenta-se que o segundo caso e mais
eficiente no sentido de que pode-se compatibilizar e depois atualizar a priori via Teorema
de Bayes, ou atualizar e depois compatibilizar, obtendo-se a mesma posteriori, o que nao
acontece quando utilizada a metodologia linear pooling.
Nesta dissertacao, sera proposta uma outra forma de compatibilizacao de prioris
que utiliza conceitos de Geometria da Informacao tais como Teorema da Projecao e
Divergencia de Kullback-Leibler. A ideia e projetar a priori induzida para o parametro
canonico pelo vetor de estados no espaco da priori conjugada para este parametro e depois
compatibiliza-las. Uma vez que as prioris sao compatibilizadas, torna-se simples atualiza-
las. Duas distribuicoes a posteriori sao obtidas para o preditor linear: uma induzida pela
conjugacao do parametro canonico e outra induzida pela distribuicao assumida para os
estados. A solucao encontrada foi projetar a distribuicao induzida pela conjugacao do
parametro natural no espaco da distribuicao induzida pelo vetor de estados. Uma vez que
tal compatibilizacao seja feita, utilizamos o metodo Linear Bayes para obter os momentos
do vetor de estados.
Souza et al. (2016) expandem a metodologia proposta por West et al. (1985) para a
famılia exponencial biparametrica. Tal expansao nao e simples de ser feita, pois ha de
se resolver um sistema que conta, eventualmente, com mais equacoes, referentes aos mo-
mentos relacionados a media e precisao do vetor de preditores lineares, do que parametros
provenientes da priori conjugada da famılia exponencial. Como solucao, foi utilizado o
Metodo de Momentos Generalizado. Serao apresentado neste trabalho aplicacoes de tal
metodologia, bem como uma solucao para o caso Multinomial, sendo esta uma extensao
do trabalho de Souza et al. (2016).
Este trabalho esta organizado em 6 capıtulos, incluindo este. O segundo capıtulo
contem conceitos basicos de famılia exponencial e geometria da informacao para desen-
volvimento das metodologias a serem propostas. O capıtulo 3 revisita os metodos de
estimacao para MLDG sugeridos por West et al. (1985) e Gamerman et al. (2013). O
quarto capıtulo traz uma proposta de inferencia para os MLDG da famılia exponencial
uniparametrica via geometria da informacao. O capıtulo 5 apresenta uma abordagem via
3
metodo Conjugate Updating estendido para a famılia exponencial k-parametrica, sugerida
por Souza et al. (2016). Por fim, o ultimo capıtulo apresenta as conclusoes e trabalhos
futuros desta pesquisa.
4
Capıtulo 2
Conceitos Basicos
Ao longo deste capıtulo serao apresentados conceitos basicos que serao utilizados no
desenvolvimento do modelo proposto. As secoes deste capıtulo estao divididas entre
Famılia Exponencial e Geometria da Informacao.
2.1 Famılia Exponencial
Uma distribuicao e pertencente a famılia exponencial se a sua funcao densidade de
probabilidade, p(y|η), pode ser escrita da seguinte forma (Bernardo and Smith (2001)):
p(y|η) = f(y)g(η)exp
k∑i=1
ciφihi(y)
(2.1)
onde h = (h1, . . . , hk), φ(η) = (φ1, . . . , φk) e dadas as funcoes f, h, φ e as constantes ci,
1
g(η)=
∫Y
f(y)exp
k∑i=1
ciφihi(y)
dy <∞. (2.2)
Ademais, se y1, . . . , yn ∈ Y e uma sequencia permutavel tal que, dada a famılia
exponencial regular k-parametrica,
p(y1, . . . , yn) =
∫H
n∏i=1
p(y|η)dQ(η), (2.3)
5
para algum dQ(η), entao,
Tn = Tn(y1, . . . , yn) =
[n∑i=1
h1(yi), . . . ,n∑i=1
hk(yi)
], n = 1, 2, . . . (2.4)
e uma sequencia de estatısticas suficientes.
Usualmente, a famılia exponencial e apresentada em sua forma canonica. Tal repre-
sentacao pode ser obtida apos algumas tranformacoes na definicao apresentada, resul-
tando na seguinte expressao:
p(x|ψ) = c(x)expxtψ − b(ψ)
. (2.5)
Em que x = (x1, . . . , xk), xi = hi(y), ψi = ciφi(η) e ψ = (ψ1, . . . , ψk) onde i = 1, . . . , k.
Utilizando elementos de sua representacao na forma canonica, podemos encontrar
media e variancia da distribuicao em analise, isto e,
E(x|ψ) = ∇b(ψ), V (x|ψ) = ∇2b(ψ) (2.6)
A seguir serao apresentados exemplos de distribuicoes pertencentes a famılia exponencial.
Exemplo 2.1.1 Poisson(η):
p(y|η) =ηye−η
y!
=1
y!exp y log(η)− η.
Dessa forma, a distribuicao Poisson pertence a famılia exponencial uniparametrica
com: x = h(y) = y, c(y) = 1/y!, ψ = log(η) e b(ψ) = η.
6
Exemplo 2.1.2 Normal(µ, σ2):
p(y|µ, σ2) =1√2πσ
exp
−1
2σ2(y − µ)2
=
1√2πσ
exp
−1
2σ2(y2 − 2µy + µ2)
=
1√2π
exp
−y2
2σ2+µy
σ2− µ2
σ2− 1
2log(σ2)
.
Portanto a distribuicao Normal pertence a famılia exponencial biparametrica com
vetor parametrico η = (µ, σ2), onde: x1 = h1(y) = y, x2 = h2(y) = y2, c(y) =
1√2π
,
ψ = [(−µ/σ2) , (−1/2σ2)] e b(ψ) = (1/2) (µ2/σ2) + log(σ2).
Exemplo 2.1.3 Bernoulli(η):
p(y|η) = ηy(1− η)1−y
= exp
y log
(η
1− η
)+ log(1− η)
.
Assim, a distribuicao Bernoulli pertence a famılia exponencial uniparametrica onde: x =
h(y) = y, c(y) = 1, ψ = log(
η1−η
)e b(ψ) = log(1− η).
Exemplo 2.1.4 Multinomial com p categorias, assumindo∑p
i=1 yi = n e∑p
i=1 ηi = 1:
p(y|η) =n!∏pi=1 yi!
p∏i=1
ηyii
=n!∏pi=1 yi!
exp
p∑i=1
yi log(ηi)
.
Portanto a distribuicao Multinomial pertence a famılia exponencial p-parametrica com
vetor parametrico η = (η1, . . . , ηk), onde: x1 = h1(y) = y1, x2 = h2(y) = y2, . . . , xp =
hp(y) = yp, c(y) = n!∏pi=1 yi!
e ψ = (log(η1), . . . log(ηp)).
2.1.1 Conjugacao na Famılia Exponencial
Uma caracterıstica importante da famılia exponencial e que existe uma estatıstica
suficiente para o vetor parametrico com dimensao fixa. Assim, torna-se simples encontrar
7
a distribuicao a priori conjugada a distribuicoes pertencentes a tal famılia. A ideia
e que, uma vez atribuıda uma distribuicao a priori para os parametros, e sendo esta
pertencente a famılia exponencial, a distribuicao a posteriori pertencera a mesma classe
de distribuicoes da priori havendo apenas uma mudanca nos hiperparametros.
Seja y = (y1, . . . , yn) uma amostra de uma distribuicao pertencente a famılia expo-
nencial tal que
p(y|η) =n∏i=1
f(yj) [g(η)]n exp
k∑i=1
ciφi(η)
(n∑j=1
(yj)
),
entao a conjugada para η tera a seguinte forma (Bernardo and Smith (2001)):
p(η|τ) = [K(τ)]−1 [g(η)]τ0 exp
k∑i=1
ciφi(η)τi
, η ∈ H,
onde τ e tal que K(τ) =∫H
[g(η)]τ0 exp∑k
i=1 ciφi(η)τi
dη <∞.
Exemplo 2.1.5 Poisson(η):
p(y|η) =η∑ni=1 yie−nη∏ni=1 yi!
=
[n∏i=1
yi!
]−1exp −nη exp
log(η)
n∑i=1
yi
.
Logo,
p(η|τ0, τ1) ∝ exp −τ0η exp τ1 log(η)
=1
K(τ0, τ1)ητ1 exp −τ0η (2.7)
Sendo este o nucleo da distribuicao Gama, pois e da forma ηae−bη. Assim, a priori
conjugada sera η ∼ G(α, β), onde α = τ1 + 1 e β = τ0.
8
Exemplo 2.1.6 Bernoulli(p):
p(y|p) = p∑ni=1 yi(1− p)n−
∑ni=1 yi
= (1− p)n exp
log(p)
n∑i=1
yi − log(1− p)n∑i=1
yi
.
Assim,
p(p|τ0, τ1, τ2) ∝ (1− p)τ0 exp
τ1log
(p
1− p
)=
1
K(τ0, τ1)pτ1(1− p)τ0−τ2 .
Dessa forma, o nucleo encontrado remete a distribuicao Beta.
Exemplo 2.1.7 Multinomial com k categorias, assumindo∑k
i=1 yi = n,∑k
i=1 ηi = 1 e
ηk = 1−∑k−1
i=1 ηi:
p(y|η) =n!∏k−1i=1 yi!
(k∏i=1
ηyii
)η(n−
∑k−1i=1 yi)
k
=n!∏ki=1 yi!
exp
k∑i=1
yi log
(ηiηk
)+ n log(ηk)
.
Deste modo,
p(η|τ1, . . . , τp) ∝ exp
k∑i=1
τi
(ηiηk
)+ τ0 log(ηk)
=1
K(τ0, . . . , τk)exp
k∑i=1
τi
(ηiηk
)+ τ0 log(ηk)
,
que e o nucleo da distribuicao Dirichlet onde cada αi = τi + 1, i = 1, . . . , n.
9
2.2 Geometria da Informacao
2.2.1 Divergencias
No presente trabalho, a nocao de divergencia sera aplicada da seguinte forma: ad-
mitiremos que o vetor de estados que governam o preditor linear em um MDLG siga,
a priori, distribuicao gaussiana. Como veremos adiante, tal hipotese induz uma distri-
buicao de probabilidade para o parametro canonico da famılia exponencial. Entretanto,
como visto na subsecao anterior, e possıvel obter distribuicao a priori conjugada para tal
parametro. Buscaremos compatibilizar a distribuicao conjugada e a distribuicao induzida
pelos estados por meio da minimizacao da divergencia entre estas.
A seguir, serao apresentadas as condicoes para que uma determinada divergencia seja
valida .
Sejam duas distribuicoes p(y) e q(y) em um espaco Y , que possuem como parametros
ξP e ξQ, respectivamente. A divergencia entre estas, D[p : q], e uma funcao de tais
parametros que satisfazem os seguintes criterios:
1. D[p : q] ≥ 0.
2. D[p : q] = 0, se e somente se p = q.
3. Se p(y) e q(y) sao distribuicoes suficientemente proximas, denotando suas coorde-
nadas como ξq = ξp + dξ, a expansao de Taylor de D pode ser escrita como:
D[ξP : ξQ + dξ] =1
2
∑gij(ξP )dξidξj +O(|dξ|3),
e a matrix G = (gij) e positiva definida, dependendo de ξP .
2.2.1.1 Divergencia de Bregman
Sejam duas distribuicoes de probabilidade p(y) e q(y), parametrizadas por ξP e ξQ,
respectivamente. A divergencia de P para Q, derivada de uma funcao convexa ψ, pode
ser escrita como:
10
Dψ[p(y) : q(y)] = ψ(ξP )− ψ(ξQ)−∇ψ(ξQ)T (ξP − ξQ), (2.8)
onde ∇ representa o gradiente da funcao.
Se ψ(u) for definida como∑
i uilog(ui), obtem-se a divergencia de Kullback-Leibler a
ser apresentada a seguir.
2.2.1.2 Divergencia de Kullback-Leibler
Uma das metricas mais utilizadas para se medir dissimilaridades entre distribuicoes e
a divergencia de Kullback-Leibler. Podemos defini-la da seguinte forma: sejam p(y) e q(y)
duas distribuicoes de probabilidade da variavel aleatoria Y , a divergencia de Kullback-
Leibler sera dada por:
DKL[p(y) : q(y)] =
∫p(y) log
p(y)
q(y)dy (2.9)
Se Y for uma variavel discreta, a integral e substituıda pelo somatorio. A seguir
encontra-se a prova de que a divergencia de KL e de fato uma divergencia.
Prova das condicoes:
(a) DKL[p(y) : q(y)] ≥ 0:
Seja D = Y : p(y) > 0 o espaco de p(y). Admita Y variavel aleatoria contınua,
−DKL[p(y) : q(y)] = −∫p(y) log
p(y)
q(y)dy (2.10)
=
∫p(y) log
q(y)
p(y)dy (2.11)
≤ log
∫p(y)
q(y)
p(y)dy (2.12)
= 0 (2.13)
Logo, DKL[p(y) : q(y)] ≥ 0. A equacao (2.12) e resultado obtido da Desigualdade de
Jensen.
11
(b) Se p(y) = q(y):
DKL[p(y) : p(y)] =
∫p(y) log
p(y)
p(y)dy
= 0
(c) Por expansao de Taylor:
f(ξ) = f(ξ0) + fi(ξ)(ξ − ξ0)i +1
2fij(ξ0)(ξ − ξ0)i(ξ − ξ0)j +O(|dξ|3)...
Onde fi(ξ) representa a primeira derivada e fij(ξ) a segunda derivada da funcao a
ser expandida em serie de Taylor; no caso em tela, a propria Divergencia de KL.
Conforme observado anteriormente, temos que f(ξ0) = 0 pois DKL[p(y) : p(y)] e
igual a zero por (a). Temos inclusive que fi(ξ) tambem e igual a zero, pois e a ponto
mınimo da funcao e a derivada do mınimo e zero.
Sejam as disribuicoes p(y) e q(y) parametrizadas por ξp e ξq + dξ, respectivamente.
Assim,
DKL[ξp : ξq + dξ] =1
2
∑gij(ξp)dξidξj +O(|dξ|3),
onde,∑gij(ξp) = fij(ξ0)(ξ − ξ0)i(ξ − ξ0)j
2.2.2 Teoremas
Os teoremas apresentados aqui servirao como base para o desenvolvimento da metodo-
logia proposta para a classe dos Modelos Lineares Dinamicos Generalizados. O teorema
da projecao nos indica que a menor distancia entre duas distribuicoes vai ser equivalente
a minimizar a Divergencia de KL entre elas, o que tambem equivale a igualar os momenos
na famılia exponencial. Ja o teorema seguinte nos auxilia no que concerne a abordagem
que compatibiliza modelos.
12
Teorema 2.2.1 (Teorema da projecao) Seja p(y) uma distribuicao de probabilidade
em um espaco Y. Considere S um modelo da famılia exponencial em Y. O Teorema de
Projecao afirma que a distribuicao q(y) que minimiza a divergencia DKL [p : q] , q(y) ∈ S
e tal que Eq(hi(y)) = Ep(hi(y)) ∀i.
x
xP
Qp
S
M
Figura 2.1: Exemplo do Teorema da Projecao
Prova:
Seja τ = argminτDKL[p : q] =∫p log p−
∫p log q . Observe que a primeira integral
nao depende dos parametros em q(y), portanto focaremos na segunda integral. Temos
que
−∫p(y) log q(y) = −
∫p(y) h(y)η − b(η)
∂ηi =
∫p(y)hi(y) + ∂ηib(η)
= −Ep(hi(y)) + µi = 0
µi = Ep(hi(y)) (2.14)
Teorema 2.2.2 Sejam R, Q e U distribuicoes de probabilidade equivalentes e pertencen-
tes a famılia exponencial, parametrizadas respectivamente por ξr, ξq e ξu. Por definicao,
estas estao sob a mesma geodesica e portanto uma combinacao convexa pode ser feita nos
13
parametros de forma que ξx pode ser escrito da seguinte forma:
ξu = sξq + (1− s)ξr (2.15)
De forma que o uso dos teoremas (2.2.1) e (2.2.2) simultaneamente, resultam na
compatibilizacao das distribuicoes em uma das abordagens propostas.
x
xP
Qp
SSR
x
xU
Figura 2.2: Exemplo de Compatibilizacao de Variaveis
14
2.2.3 Exemplos de Projecoes
2.2.3.1 Projetando a Distribuicao Log-Normal na Gama
Seja p(y) a distribuicao Log-Normal. Queremos encontrar a distribuicao Gama que
melhor aproxima tal distribuicao segundo a divergencia de Kullback-Leibler. Tal distri-
buicao esta representada aqui por q(y).
Pelo Teorema (2.2.1) apresentado, sabe-se que devemos encontrar a Gama que mini-
miza a divergencia de Kullback Leibler.
Assim, deseja-se encontrar os parametros da Gama que minimizam a distancia de
Kullback-Leibler. Ou seja, tem-se por objetivo encontrar o
minξ DKL(p : q) = min
∫p(y) log
p(y)
q(y)dy
onde, p(y) e a distribuicao Log-Normal(µ, σ2) e q(y) e a distribuicao Gama(a, b).
Podemos reescrever a divergencia como
DKL(p : q) =
∫p(y) log p(y)dy −
∫p(y) log q(y)dy. (2.16)
Observe que minimizar a divergencia de Kullback-Leibler e equivalente a maximizar a
segunda integral, pois∫p(y) log p(y)dy e uma constante que nao depende dos parametros
a e b.
Como,
log q(y) = a log b+ (a− 1) log y − by − logΓ (a).
l(a, b) =
∫p(y) log q(y)dy = a log b+ (a− 1)Ep(log y)− bEp(y)− logΓ (a)
= a log b+ (a− 1)µ− b exp(µ+ (1/2)σ2)− logΓ (a).
(2.17)
Derivando e igualando a equacao (2.17) a zero e possıvel encontrar os parametros da
Gama que melhor aproxima uma distribuicao Log-Normal.
15
Dessa forma,
∂l(a, b)
∂a= log b+ µ− Ψ(a) (2.18)
∂l(a, b)
∂b=a
b− exp(µ+ (1/2)σ2) (2.19)
onde Ψ(a) e a funcao digamma de a.
Igualando as derivadas acima a zero temos que:
b = exp(Ψ(a)− µ) (2.20)
a = b exp(µ+ (1/2)σ2). (2.21)
Nas equacoes (2.20) e (2.21), os parametros a e b ainda nao puderam ser isolados de
forma que um nao dependesse mais do outro. Assim, o log foi aplicado nas equacoes
como forma de contornar esse problema. Alem disso, aplicou-se uma aproximacao para
Ψ(a) como proposto por Abramovitz:
Ψ(a) = log a− 1
2a+O
(1
a2
), se a →∞.
Dessa forma,
log b = log a− 1
2a− µ
log a = log b+ µ+ (1/2)σ2. (2.22)
Resolvendo esse sistema de equacoes,
1
2a= (1/2)σ2
a =1
σ2(2.23)
16
b = a exp(−µ− (1/2)σ2)
=1
σ2exp(−µ− (1/2)σ2). (2.24)
Foi possıvel, portanto, encontrar os valores de a e b
a = σ−2 e b = σ−2 exp−µ− (1/2)σ2
. (2.25)
A Figura (2.3) exibe exemplos de aproximacoes Gama para distribuicoes Log-Normal
obtidas por meio da minimizacao da divergencia de Kullback-Leibler.
0 2 4 6 8 10
0.0
0.1
0.2
0.3
0.4
Log−Normal(1,0.3)
Gama Aprox
0 2 4 6 8 10
0.0
0.2
0.4
0.6
0.8
Log−Normal(0,1)
Gama Aprox
0 2 4 6 8 10
0.0
0.2
0.4
0.6
0.8 Log−Normal(0,2)
Gama Aprox
0 5 10 15 20
0.00
0.04
0.08
Log−Normal(3,0.3)
Gama Aprox
Figura 2.3: Distribuicoes Log-Normal e Gama aproximadas atraves da minimizacao dadivergencia de Kullback-Leibler quando utilizados diferentes parametros para as distri-buicoes Log-Normal.
17
2.2.3.2 Projetando a Distribuicao Logito-Normal na Beta
Seja p(y) a distribuicao Logito-Normal(µ, σ2). Queremos encontrar a distribuicao
Beta(a, b) que melhor aproxima tal distribuicao segundo a distancia de Kullback-Leibler.
Tal distribuicao Beta esta representada aqui por q(y).
DKL(p : q) =
∫p(y) log p(y)dy −
∫p(y) log q(y)dy. (2.26)
Assim, basta maximizar a segunda integral, pois a primeira nao depende dos parametros
da Beta que se deseja obter.
log q(y) = (a− 1) log(y) + (b− 1) log(1− y) + log
Γ (a+ b)
Γ (a)Γ (b)
.
l(a, b) =
∫p(y) log q(y)dy = (a− 1)Ep(log(y)) + (b− 1)Ep(log(1− y)) + log
Γ (a+ b)
Γ (a)Γ (b)
Os momentos da distribuicao Logito-Normal nao tem solucao analıtica. Para contor-
nar esse problema, foi utilizado o metodo de Monte-Carlo para encontrar E(log(y)) e
E(log(1− y)). Uma vez encontrado tais valores esperados, segue-se para o proximo
passo, que e encontrar os parametros a e b da Beta.
Dessa forma,
∂l(a, b)
∂a= E(log(y)) + Ψ(a+ b)− Ψ(a) (2.27)
∂l(a, b)
∂b= E(log(1− y)) + Ψ(a+ b)− Ψ(b) (2.28)
onde, Ψ(θ) representa a funcao digamma de θ. Aqui tambem utilizou-se como apro-
ximacao de Ψ(θ) como proposto por Abramovitz:
Ψ(θ) = log (θ)− 1
2θ.
Dessa forma,
18
log b− 1
2b= E(log(1− y)) + Ψ(a+ b);
log a− 1
2a= E(log(y)) + Ψ(a+ b). (2.29)
Observe que nao e possıvel isolar os parametros a e b analiticamente. Para que tais
resultados pudessem ser encontrados, foi utilizado o metodo de Newton-Raphson.
A Figura(2.4) exibe exemplos de aproximacoes Beta para distribuicoes Logito-Normal
obtidas por meio da minimizacao da divergencia de Kullback-Leibler.
0.0 0.2 0.4 0.6 0.8 1.0
01
23
45
6
Beta − Aproximada
Logito−Normal(1,0.6)
0.0 0.2 0.4 0.6 0.8 1.0
01
23
45
6
Beta − Aproximada
Logito−Normal(0,1)
0.0 0.2 0.4 0.6 0.8 1.0
01
23
45
6
Beta − Aproximada
Logito−Normal(0,2.6)
0.0 0.2 0.4 0.6 0.8 1.0
01
23
45
6
Beta − Aproximada
Logito−Normal(0.6,1)
Figura 2.4: Distribuicoes Logito-Normal e Beta aproximadas atraves da minimizacao dadivergencia de Kullback-Leibler quando utilizados diferentes parametros para as distri-buicoes Logito-Normal.
19
Capıtulo 3
Modelos Dinamicos Generalizados
E bastante usual ter-se interesse na modelagem de variaveis que nao sao acomodadas
por uma distribuicao normal. Por exemplo, variaveis binarias ou de contagem e variaveis
com comportamento assimetrico. Este capıtulo tem por objetivo apresentar a classe
dos modelos lineares generalizados tanto na sua forma estatica quanto dinamica. No
que se refere a inferencia na classe dos modelos lineares dinamicos generalizados, serao
apresentados os metodos de inferencia via Conjugate Updating e via modelos dinamicos
que admitem evolucao somente da media o qual denominaremos de modelos dinamicos
nao estruturados.
Os modelos dinamicos lineares generalizados podem ser vistos como uma generalizacao
dos modelos lineares generalizados, no sentido de aliar a flexibilidade de respostas nao
gaussianas, efeitos dinamicos associados a covariaveis e outras componentes estruturais.
Tal mecanismo de dinamica naturalmente acomoda a autocorrelacao inerente a dados
temporalmente observados.
Os modelos lineares generalizados sao uma extensao dos modelos lineares para res-
posta gaussiana. Propostos por Nelder e Wedderburn (1972), estes permitem que a
variavel que se deseja analisar tenha uma distribuicao de probabilidade diferente da
gaussiana, uma vez que sua distribuicao pertenca a famılia exponencial de distribuicoes.
Os modelos lineares generalizados contem tres componentes, sendo:
(a) a variavel resposta Y, que e a componente aleatoria do modelo e para o qual assume-se
20
distribuicao pertencente a famılia exponencial na forma canonica.
(b) componente sistematica dada por um preditor linear λ construıdo com base nas
variaveis explicativas do modelo, x = (x1, . . . , xp);
(c) uma funcao g monotona e diferenciavel que liga o valor esperado de T , µ = E(Y ),
ao preditor linear λ denominada funcao de ligacao. Embora a funcao de ligacao
possa ser especificada arbitrariamente, uma forma de se determinar g e atraves da
parametrizacao natural (canonica) da famılia exponencial. Tem-se entao:
λi = g(µi) (3.1)
onde λi e o preditor linear, µi e a media e g a funcao de ligacao.
E assumido que a media transformada segue um modelo linear, de forma que:
λi = xTi β. (3.2)
Como a funcao e um-a-um,
µi = g−1(xTi β). (3.3)
Ha diversas formas de se escolher a funcao de ligacao a ser utilizada, sendo o metodo
mais usual e considerar ψi = λi, onde ψi e chamado parametro canonico da distri-
buicao. Dessa forma, esse tipo de funcao de ligacao e chamada de funcao de ligacao
canonica.
21
3.1 Modelos Lineares Dinamicos
Um caso particular dos modelos dinamicos lineares generalizados sa os modelos li-
neares dinamicos, para os quais pressupoe-se resposta gaussiana. Harrison and Stevens
(1976) definiram a classe dos modelos lineares dinamicos e desenvolveram uma aborga-
gem Bayesiana para tal tipo de modelagem e previsao. A ideia e que os parametros
possam variar no tempo. Desta forma, a relacao entre as covariaveis e a variavel resposta
e dinamica. E importante ressaltar que os MLG (e os Modelos Lineares normais, que sao
um de seus casos particulares) nao dao tratamento a dependencia temporal inerente a da-
dos observados ao longo do tempo, o que ocorre no caso dos Modelos Lineares Dinamicos.
Sejam:
θt o vetor de estados de dimensao p× 1;
Yt o vetor de observacoes de dimensao r × 1;
Ft a matriz que contem as covariaveis no tempo t de dimensao p× r;
Gt a matriz de evolucao parametrica no tempo t de dimensao p× p ;
Vt e Wt matrizes de covariancia, sendo a primeira relacionada ao erro observacional e a
segunda ao erro evolutivo.
Um modelo dinamico e caracterizado pela quadrupla Ft, Gt, Vt,Wt e sua estrutura
mais geral pode ser definida da seguinte forma:
Equacao Obs.: Yt = F ′tθt + νt onde νt ∼ N(0, Vt) (3.4)
Equacao Evol.: θt = Gtθt−1 + ωt onde ωt ∼ N(0,Wt) (3.5)
onde a primeira equacao e a observacional e a segunda e a de evolucao.
Seja Dt o historico das informacoes ate o tempo t e admita Dt = Dt−1 ∪ Yt, com D0
denotanto a informacao que se tem antes da primeira observacao. Assuma a informacao
inicial como (θ0|D0) ∼ N(m0, C0).
Condicionalmente a θt, yt independe de yt−1, ..., y1. Observe-se, entretanto, a asso-
22
ciacao entre θt e θt−1, explicitada na equacao de evolucao em 3.5. O tratamento da
autocorrelacao temporal entre as quantidades observaveis y1, ..., yt e viabilizado por tal
relacao, como ilustra a figura 3.1:
yt−1 yt
θt−1 θt
Figura 3.1: Ilustracao da evolucao do sistema
Os erros observacionais e evolutivos sao independentes ao longo do tempo e uns com os
outros. Os erros ωt controlam a evolucao atraves de sua variancia, elementos da diagonal
principal de Wt. Quanto maior (menor) seu valor, mais erratica (suave) a variacao da
media sera e a media zero dos erros garante constancia local. A relacao entre Wt e Vt
fornece indıcios para avaliar de onde vem o movimento da serie. No caso W/V pequeno
teremos que boa parte deste movimento se da devido as observacoes. Enquanto W/V
grande implica que o movimento se da devido as observacoes, mas tambem as variacoes
do nıvel da serie, sendo este F ′tθt.
Considere o caso Y escalar e a variancia observacional constante e conhecida igual
a Vt = V = 1/φ. Assim, as distribuicoes a priori para o vetor de estados, posteriori e
previsao um passo a frente serao dadas por:
(a) priori :
(θt|Dt−1) ∼ N(at, Rt) (3.6)
at = Gtmt−1,
Rt = GtCt−1G′t +Wt.
(b) Previsao 1 passo a frente:
(Yt|Dt−1) ∼ N(ft, qt) (3.7)
23
ft = F ′tat,
qt = F ′tRtFt + V.
(c) posteriori :
(θt|Dt) ∼ N(mt, Ct) (3.8)
mt = at +RtFt(et)φ/(qtφ+ 1), (3.9)
Ct = Rt −RtFt(FtRt)′φ/(qtφ+ 1) (3.10)
et = Yt − ft
Harrison and Stevens (1976) indicam que a especificacao de Wt pode ser difıcil de
ser feita, entao, uma alternativa que foi proposta por Ameen and Harrison (1984) e
utilizada. Eles propuseram a utilizacao de fatores de desconto, sendo estes a porcentagem
de informacao que passa de um perıodo a outro. Desta forma, a matriz Wt passa a ser
especificada a partir de uma matriz de fatores de desconto Bt e Rt passa a ser dada por:
Rt = BtGtCt−1G′tBt,
sendo B a matriz diagonal r × r de descontos 1√δi
com 0 < δi < 1 para i = 1, ..., p.
A ideia de fator de desconto e a seguinte: a medida que a informacao ”envelhece”, torna-
se menos util e, portanto, seu peso deve diminuir. Ou seja, o fator de desconto δ pode
ser pensado como a porcentagem de informacao passada, a cada tempo t, aos tempos
posteriores. Quanto mais proximo de 1 for o desconto, mais suave sera a evolucao dos
estados, enquanto quanto menor, mais brusca ela sera, pois teremos mais incerteza para a
predicao. Se o desconto for 1, desde que G seja a matriz identidade e os erros de evolucao
tenham media nula, o estado sera fixo no tempo, ou seja, o modelo e estatico no tempo.
Caso haja mais de uma componente no modelo, seja de tendencia ou sazonalidade, e im-
portante ressaltar a aplicacao pratica sugerida por (West and Harrison, 1996, p. 193:202)
de aplicar nao aplicar desconto fora da diagonal de GtCt−1G′t.
24
3.2 Modelos Lineares Dinamicos Generalizados
Esta secao tem por objetivo discutir metodos de inferencia para a classe dos modelos
lineares dinamicos generalizados (MLDG). Com o intuito de tornar mais claro o objetivo
da discussao de tais metodos de inferencia, segue como exemplo o caso Poisson.
Seja yt|ηt ∼ Poisson(ηt). Observe que a densidade desta distribuicao pode ser escrita
na famılia exponencial da seguinte forma:
p(yt|ηt) =ηytt e
−ηt
yt!
=1
yt!exp yt log(ηt)− ηt.
Vimos na Secao 2.1.1 que, uma vez que a distribuicao e pertencente a famılia exponencial,
torna-se simples encontrar a conjugada para seu parametro. Nessa mesma secao foi
mostrado que a distribuicao conjugada para o parametro ηt e uma Gama.
Alguns metodos de inferencia para a classe dos MLDG como os propostos por Smith
(1979), Harvey and Fernandes (1989) e Gamerman et al. (2013), atribuem uma evolucao
na media a cada tempo t, utilizando propriedades de conjugacao. Desta forma, nao
e necessario que se faca uso de nenhuma forma de aproximacao, uma vez que tanto a
distribuicao a posteriori para o parametro ηt como a distribuicao preditiva, terao formas
analıticas fechadas e conhecidas. Contudo, os modelos propostos por tais autores, embora
permitam a presenca de componentes sazonais e de tendencia, nao permitem que estas
sejam estocasticas.
Por outro lado, West et al. (1985) propoe que a media nao seja modelada diretamente
e sim atraves de uma funcao de ligacao que relaciona a tais componentes de tendencia
e sazonalidade. No caso da Poisson especificada anteriormente, e sabido que a media e
igual a ηt. Suponha que a funcao de ligacao escolhida, seja a canonica, ou seja, log(ηt).
g(ηt) = log(ηt) = F ′tθt (3.11)
onde Ft e o vetor de planejamento, que pode conter ou nao covariaveis, e θt e o vetor
25
de estados que, conforme visto na equacao 3.5, estao relacionados as componentes de
tendencia e sazonalidade. Observe que uma vez atribuıda uma distribuicao a priori para
θt, teremos uma distribuicao a priori induzida para ηt. Contudo, a adocao de distri-
buicao a priori conjugada e conveniente, entre outros motivos, pela decorrente existencia
de forma analıtica fechada para a distribuicao preditiva de futuras observacoes.. Dessa
forma, a solucao encontrada por West et al. (1985) foi igualar os momentos dessa dis-
tribuicao a priori induzida pelos estados aos momentos da priori conjugada. Observe
inclusive que os autores nao atribuem uma distribuicao especıfica para θt, sendo esta
especificada somente em termos de primeiro e segundo momentos. Uma vez definidos os
momentos da priori conjugada para ηt, e possıvel incorporar a nova informacao obtida
para que a posteriori para tal parametro seja definida. Veja que ηt e um escalar, en-
quanto θt e um vetor. Assim, a atualizacao dos estados a partir da posteriori de ηt nao
e trivial, sendo necessario o uso de um metodo de aproximacao chamado Linear Bayes.
Dessa forma, a distribuicao a posteriori para θt e obtida. E importante relembrar que,
embora sejam utilizados metodos de aproximacao, o modelo permite que sejam atribuıdas
componentes de tendencia e sazonalidade estocastimente e que a media seja decomposta
em termos de cada uma delas.
No metodo que proporemos no capıtulo seguinte, sugerimos que seja atribuıda uma
distribuicao Normal para o vetor de estados e que a priori induzida, por essa especificacao,
para o vetor canonico e sua priori conjugada sejam compatibilizadas a partir do uso de
conceitos de Geometria da Informacao.
Ao longo desta secao serao apresentados os modelos citados nesta breve introducao,
de forma mais aprofundada.
3.2.1 Conjugate Updating
Modelos lineares dinamicos generalizados (MLDG) sao uma extensao para os modelos
lineares dinamicos e para os modelos lineares generalizados. Os MLDG:
(a) Acomodam respostas pertencentes a famılia exponencial;
(b) Nao pressupoem, necessariamente, efeitos fixos associados a covariaveis no tempo.
26
West et al. (1985) propuseram uma extensao do tradicional modelo linear generalizado
relacionando µt a um preditor dinamico F ′tθt, atraves de uma funcao de ligacao monotona
e diferenciavel g(µt):
λt = g(µt) = F ′tθt. (3.12)
Admite-se, nesta classe de modelos, que Yt pertence a famılia exponencial e que o
parametro natural ψt tem priori conjugada da forma PC(αt, βt) para algum αt e βt,
podendo ser escrita da seguinte forma
p(ψt|Dt−1) = c(αt, βt) exp(αtψt − βta(ψt)).
O problema e que impor (3.12) traria muitas restricoes para a priori ψt, entao, para
contornar o problema, foi sugerido que a relacao entre g(ψt) e λt seria usada somente
como guia para formar a priori ψt, sendo notada por g(ψt) ≈ λt
As distribuicoes a priori e posteriori nao serao normalmente distribuıdas, contudo,
por analogia ao MLD, os primeiro e segundo momentos do vetor de estados θt serao dados
por
(θt−1|Dt−1) ∼ (mt−1, Ct−1), (3.13)
(θt|Dt−1) ∼ (at, Rt), (3.14)
onde,
at = Gtmt−1 e Rt = BtGtCt−1G′tBt
com matriz de evolucao Gt e matriz de desconto Bt conhecidas.
De (3.12),
ft = E(λt|Dt−1) = F ′tat,
qt = V ar(λt|Dt−1) = F ′tRtFt.
Ate aqui, a priori natural para o parametro ψt e somente parcialmente especificada,
27
tendo a forma
(ψt|Dt−1) ∼ PC(αt, βt)
sem nenhuma restricao a αt e βt. Esses valores serao escolhidos de acordo com a relacao
g(ψt) ≈ λt, de modo que fixando os dois primeiros momentos de g(ψt), sera possıvel
determinar αt e βt atraves de ft e qt.
Dessa forma, fica claro que a preditiva tem forma
p(Yt|Dt−1) =c(αt, βt)
c(αt + φYt, βt + φ)(3.15)
Enquanto a posteriori para (ψt|Dt) tem forma conjugada
PC(αt + φYt, βt + φ)
Uma analise Bayesiana completa requere tambem a distribuicao a posteriori para θt,
mas esta nao esta disponıvel porque a priori(θt|Dt−1) e apenas parcialmente especificada
e o modelo nao fornece uma verossimilhanca para θt. Entretanto, conforme visto anteri-
ormente o modelo nao precisa da especificacao completa da distribuicao para passar para
o tempo t+ 1 e sim dos primeiros e segundo momentos. Estes podem ser encontrados da
seguinte forma:
mt = E(E(θt|ψt, Dt)), (3.16)
Ct = V ar(E(θt|ψt, Dt)) + E(V ar(θt|ψt, Dt)). (3.17)
Como no caso normal, (θt|ψt, Dt) e condicionalmente independente de It = (Yt, Ft), sabe-
se que os momentos (3.16) e (3.17) sao de (θt|ψt, Dt−1). Na maioria das vezes, esses
momentos nao serao conhecidos e as unicas informacoes diponıveis serao os momentos
da conjunta (g(ψt), θ′t|Dt−1),
28
g(ψt)
θt|Dt−1
∼ ft
at
,
qt (RtFt)′
(RtFt) Rt
,onde a matriz de covariancia completa e singular. Assim, uma abordagem alternativa e
necessaria para que a informacao em It seja incorporada de de volta a θt.
O metodo Linear Bayes pode ser usado para fornecer o retorno da informacao em It
para θt. A densidade p(θt|ψt, Dt−1) e a distrbuicao preditiva desconhecida de (θt|ψt). A
media e o preditor no sentido de minimizar traco do risco quadratico [At(d)] com respeito
a d onde
At(d) = E[(θt − d)(θt − d)′|ψt, Dt−1].
A matriz de covariancia da distribuicao e o valor de At(d) na media. Dado que a media
e desconhecida, adota-se uma funcao linear g(ψt) como preditor de θt. Especificamente,
d deve ser escolhido de forma que d = d0 + d1g(ψt) para algum d0,d1 e d minimize a
soma de variancias dada por
rt(d) = traco E(At(d)|Dt−1), (3.18)
com esperanca em relacao a p(ψt|Dt−1).
Nesse modelo, os momentos da conjunta sao suficientes para determinar o preditor
requerido. Minimizando diretamente rt(d) com respeito a d0 e d1, mostra-se que o ponto
de mınimo e obtido em d = at, onde
at = at +RtFt(g(ψt)− ft)
qt. (3.19)
Assim, o resultado de E(At(d)|Dt−1 no ponto de mınimo e
Rt = Rt −RtFt(RtFt)
′
qt. (3.20)
Os valores at e Rt fornecem um preditor linear otimo de p(θt|ψt, Dt−1). O retorno da
informacao It pode ser completado agora, substituindo a media e covariancia condicionais
29
em (3.16) (3.17) por at e Rt para encontrar o preditor esperado e risco relativo dados por
mt = at +Rt(gt − ft)/qt, (3.21)
Ct = Rt −RtFt(RtFt)
′(1− pt/qt)qt
. (3.22)
onde gt = E(g(ψt|Dt) e pt = V ar(g(ψt)|Dt) podem ser calculados a partir da posteriori
(ψt|Dt).
3.2.2 Modelos Dinamicos de Nıvel Local
Smith (1979) estende a metodologia de Harrison and Stevens (1976) no sentido de
considerar a modelagem de dados com distribuicao diferente da gaussiana. A ideia pro-
posta e pensar na evolucao dos estados como um processo de decisao bayesiano de forma
que as decisoes com respeito a uma certa funcao perda permanecam constantes enquanto
nao houver novas observacoes e a perda esperada associada a essas decisoes aumente
durante esse intervalo. Verificou-se que a funcao (de calibre b) que satisfaz esses criterios
e tal que so assume dois valores, ou seja:
Lb(θ − d) =
0, |θ − d| ≤ b, b > 0
1, caso contrario.(3.23)
Smith (1979) demonstrou que a distribuicao a priori de hoje (tempo t) para os estados
e proporcional a posteriori do tempo anterior (tempo t− 1) elevada a uma determinada
potencia ω, tais criterios sao satisfeitos. Assim,
f(θt|Dt−1) ∝ f(θt−1|Dt−1)ωt , onde 0 < ω < 1. (3.24)
Dessa forma, garante-se que a media da distribuicao seja mantida e que a incerteza
aumente a cada tempo t.
Seja θt−1|Dt−1 ∼ N(mt−1, Ct−1)︸ ︷︷ ︸ft−1(·)
.
30
Desse modo,
ft−1(·) ∝ exp
−(θt −mt−1)
2
2Ct−1
. (3.25)
De (3.24),
θt|Dt−1 ≡ ctft−1(·)ω;
∝ ft−1(·)ω. (3.26)
De (3.25) e (3.26),
f(θt|Dt−1) ∝ exp
−(θt −mt−1)
2
2Ct−1
ω;
∝ exp
−(θ2t − 2mt−1θt)ω
2Ct−1
;
∝ exp
−1
2
θ2t1ωCt−1
− θtmt−11ωCt−1
.
Assim,
at = E(θt|Dt−1) = mt−1 = E(θt−1|Dt−1);
Rt = V (θt|Dt−1) =1
ωCt−1 =
1
ωV (θt−1|Dt−1).
Verifica-se, portanto, que a media da posteriori foi equivalente a da priori enquanto a
variancia foi inflacionada por um fator 1/ω
Uma vantagem desta forma de atualizacao proposta por Smith (1979) e a capacidade de
se poder compatibilizar e depois atualizar a priori via Teorema de Bayes, ou atualizar
e entao compatibilizar posterioris, preservando-se o mesmo resultado.. A distribuicao
a priori utilizada para formular o modelo de nıvel local com essas caracterısticas foi a
conjugada natural da famılia exponencial. Foi observado que seus procedimentos deram
origem a previsoes do tipo media movel exponencial ponderada. Harvey and Fernandes
(1989), tambem interessados em modelagem de dados qualitativos e de contagem, se ba-
seiam neste modelo. De forma analoga, introduzem hiperparametro que atua da mesma
forma que um fator de desconto. A diferenca se da na forma de estimacao desse hiper-
31
parametro: enquanto o primeiro nao menciona um metodo especıfico, o segundo sugere
o uso do estimador de maxima verossimilhanca. Smith and Miller (1986) generalizam a
metodologia de Smith (1979); consideram a equacao de evolucao exata, de forma que nao
sejam necessarias aproximacoes para a obtencao da distribuicao preditiva e dos estados.
Gamerman et al. (2013) se baseiam em Smith and Miller (1986), introduzem a classe
dos Modelos Dinamicos da Famılia Gama e apresentam uma forma de suavizacao para a
componente do nıvel do modelo.
E importante salientar que os modelos propostos por tais autores, embora permitam
a presenca de componentes sazonais e de tendencia, nao permitem que estas sejam es-
tocasticas. Os autores argumentem que esta nao e uma grave limitacao. Outro ponto
que deve ser mencionado e que a modelagem proposta permite que a distribuicao dos
dados sejam tanto uniparametricas, como k parametricas, sendo esta uma vantagem do
metodo. Sera apresentada nesta secao uma breve descricao dos modelos mencionados.
Mais detalhes podem ser encontrados em Smith (1979),Smith and Miller (1986), Harvey
and Fernandes (1989) e Gamerman et al. (2013).
Seja o Modelo Dinamico da Famılia Gama (MDFG) como definido em Gamerman
et al. (2013):
p(yt|µt, φ) = a(yt, φ)µb(yt,φ)t exp −µtc(yt, φ) (3.27)
Onde, yt ∈ H(φ) ⊂ < e p(yt|µt, φ) = 0, caso contrario.
Variaveis explicativas, podem ser inseridas em vetor de covariaveis xt. Este vetor se
relacionara com µt atraves da funcao de ligacao, de forma que µt = λtg(x′tβ), onde β
se refere aos coeficientes da regressao e λt e um parametro referente ao nıvel do modelo
dinamico. Tal parametro e definido atraves da equacao de evolucao λt = ω−1λt−1ζt, onde
ζt ∼ Beta(ωat−1, (1− ω)at−1), isto e,
ωλt
(1− λt)∼ Beta(ωat−1, (1− ω)st−1). (3.28)
As informacoes iniciais acerca do nıvel sao definidas atraves da priori λ0|D0 ∼
Gama(a0, b0).
Resultados referentes ao modelo apresentado em 3.27, sao apresentados a seguir.
32
A priori para λt|Dt−1 e uma distribuicao Gama(at|t−1, bt|t−1), onde :
at|t−1 = ωat−1; (3.29)
bt|t−1 = ωbt−1; (3.30)
0 ≤ ω ≤ 1.
Dessa forma,
E(λt|Dt−1) = ωat−1/ωbt−1 = at−1/bt−1, (3.31)
V ar(λt|Dt−1) = ωat−1/(ωbt−1)2 = ω−1V ar(λt−1|Dt−1). (3.32)
Nota-se, portanto, que a media se mantem e a variancia e inflacionada por um fator
1/ω a cada tempo t. Pode-se observar que ω atua conforme um fator de desconto.
Sendo µt = λtg(x′tβ), a distribuicao µt|Dt−1 e uma Gama com parametros a∗t|t−1 e
b∗t|t−1, onde tais parametros podem ser definidos como:
at|t−1 = ωat−1; (3.33)
bt|t−1 = ωbt−1g(x′tβ). (3.34)
Dada uma nova observacao a distribuicao a posteriori, µt|Dt, e uma Gama(a∗t , b∗t )
com parametros especificados por:
a∗t = a∗t|t−1 + b(yt, φ); (3.35)
b∗t = b∗t|t−1 + c(yt, φ). (3.36)
Desta maneira, a distribuicao a posteriori para λt|Dt tambem sera uma Gama com
parametros at e bt, com
at = at|t−1 + b(yt, φ); (3.37)
bt = bt|t−1 + c(yt, φ)g(x′tβ). (3.38)
33
A distribuicao preditiva um passo a frente, de forma que:
p(yt|Dt−1) =
∫ ∞0
p(yt|µt)p(µt|Dt−1dµt)
=Γ(a∗t|t−1 + b(yt, φ)
)c(yt, φ)(b∗t|t−1)
a∗t|t−1
Γ(a∗t|t−1
) [c(yt, φ) + b∗t|t−1
]b(yt,φ)+a∗t|t−1
(3.39)
34
Capıtulo 4
MLDG via Geometria da Informacao
4.1 Introducao
Ate o momento foram apresentados dois metodos de estimacao para a classe de mo-
delos lineares dinamicos generalizados: Conjugate Updating e Modelos de Nıvel Local. O
primeiro utiliza Linear Bayes para obter as estimativas do modelo, uma vez que somente
as distribuicoes do parametro canonico e da preditiva tem forma analıtica fechada. A
evolucao dos estados e descrita somente pelos primeiro e segundo momentos. Uma das
dificuldades encontradas e que ha duas distribuicoes a priori para o parametro natural
da famılia exponencial: uma induzida pelo vetor de estados e outra vinda por conjugacao
da famılia exponencial. A solucao encontrada por West, Harrison e Migon, foi igualar
os momentos de primeira e segunda ordem de tais prioris. Abre-se mao de ter forma
analıtica fechada para as distribuicoes associadas ao vetor de estados, mas preserva-se a
conveniencia das formas analıticas fechadas para a distribuicao a posteriori do parametro
canonico e para a distribuicao preditiva. Um dos objetivos do presente trabalho e pro-
por uma forma alternativa de compatibilizacao de prioris. Para isso, sao utilizados
conceitos de Geometria da Informacao tais como teorema da Projecao e divergencia de
Kullback-Leibler.No metodo proposto, assume-se evolucao gaussiana para os estados.E
importante ressaltar que, diferentemente dos modelos apresentados em 3.2.2, esta meto-
dologia permite que componentes de sazonalidade e de tendencia possam ser incorporadas
estocasticamente e que as regressores tenham parametros associados variando no tempo.
35
4.2 Metodo proposto
O metodo a ser apresentado e muito similar ao proposto por West et. al (1985)
e utiliza grande parte de sua estrutura. De forma analoga, e um metodo de inferencia
proposto para a famılia exponencial uniparametrica. A diferenca aqui se da na forma com
que duas prioris para o parametro canonico sao compatibilizadas: a priori conjugada
para tal parametro e a priori implicada pela suposicao de normalidade dos parametros
de estado que controlam o preditor linear do modelo.
Sabe-se que,
λt = g(ηt) = F ′tθt; (4.1)
Onde, Ft e uma matriz de forma de tamanho p×n, θt e o vetor de estados de tamanho
o p × 1, ηt e o parametro da distribuicao uniparametrica de interesse e g(ηt) e a funcao
de ligacao escolhida.
Observe que uma vez atribuıda uma priori para θt, havera duas prioris para a mesma
quantidade ηt: de um lado a priori implicada pela conjugacao na famılia exponencial e
de outro, a priori induzida pelo vetor de estados.
A metodologia proposta no presente trabalho funciona da seguinte forma: uma vez
atribuıda uma distribuicao a priori para o vetor de estados, obtenha a priori para o
parametro natural induzida por tal vetor. Projete-a no espaco da distribuicao conjugada
da famılia exponencial. Esta sera a priori utilizada no prosseguimento do metodo.
Como esta e conjugada da famılia exponencial, sua posteriori pode ser facilmente
encontrada. Contudo, observe que agora temos duas posterioris para o preditor linear:
uma induzida pela conjugacao do parametro natural e outra Normal (ja que o preditor
e uma funcao linear dos estador que, sob normalidade, tem distribuicao a posteriori
normal). A solucao adotada, para lidar com essa duplicidade, foi projetar a distribuicao
a posteriori induzida pela conjugacao do parametro natural no espaco da distribuicao
Normal. Dessa forma, gostarıamos de encontrar a Normal que melhor aproxima tal
distribuicao. Uma vez que tal compatibilizacao seja feita, utilizamos o metodo Linear
Bayes para obter os momentos do vetor de estados. Observe que a normalidade e mantida.
36
O uso do metodo Linear Bayes se faz necessario porque, enquanto o preditor linear e um
escalar, o vetor de estados e p-dimensional. Desta forma, escolhemos o esse metodo para
que tal expansao pudesse ser feita.
Um resumo da metodologia proposta e apresentado a seguir.
• Modelo yt|ηt ∼ FamExp(ηt)
ηt|Dt−1 ∼ C − FamExp(τt−1)
• Funcao de Ligacao
g(ηt) = F ′tθt = λt,
onde g e uma funcao contınua, monotona e duas vezes diferenciavel.
• Evolucao do Vetor de Estados
θt = Gtθt−1 + ωt, ωt ∼ N(0,W ),
o que implica em
p(ηt|Dt−1) = pθt|Dt−1(g−1(ηt))
∣∣∣ ∂θt∂ηtg−1(ηt)
∣∣∣• Distribuicoes a priori resultantes
ηt|Dt−1 ∼ C − FamExp(τt−1)
p(ηt|Dt−1) = pθt|Dt−1(g−1(ηt))
∣∣∣ ∂θt∂ηtg−1(ηt)
∣∣∣• Metodologia Proposta
Seja q(x) a distribuicao a priori conjugada e seja p(x) a priori induzida pelo vetor
de estados. Obtem-se parametros τ ∗ tais que
τ ∗ = argminτDKL[p : q] (4.2)
37
Uma vez que esse vetor parametrico seja definido,
ηt|Dt−1 ∼ C − FamExp(τ ∗t−1). (4.3)
Uma vez que obtemos a priori compatibilizada para ηt, podemos incorporar facil-
mente novas informacoes atraves da conjugacao. Observe que agora, duas distri-
buicoes a posteriori para o preditor linear devem ser combinadas:
λt|Dt ∼ pηt|Dt(g(ηt))∣∣∣ ∂ηt∂λtg(ηt)
∣∣∣λt|Dt ∼ N(ht, pt)
Em seguida, projetamos a distribuicao a posteriori obtida atraves da conjugacao no
espaco da distribuicao Normal, encontrando seus momentos. Observe que λt e um
escalar, para cada tempo t, enquanto θt e um vetor parametrico p− dimensional.
Uma vez que a distribuicao a posteriori para λt e obtida, gostarıamos de obter
a posteriori para θt, levando em consideracao a diferenca de dimensoes para es-
sas quantidades. Usamos o metodo Linear Bayes para encontrar os momentos de
(θt|Dt).
Nas subsecoes 4.2.1 e 4.2.2, detalha-se a metodologia descrita, considerando-se
MLDGs para respostas Poisson e Binomial, respectivamente. Na subsecao 4.2.3,
aplica-se o metodo a dados artificialmente gerados, seguindo um MLDG para res-
posta Poisson.
4.2.1 Modelo Linear Dinamico Generalizado Poisson
Seja (yt|ηt) ∼ Poisson (ηt):
p(yt|ηt) =ηytt e
−ηt
yt!. (4.4)
Esta densidade pode ser reescrita na forma da famılia exponencial da seguinte forma:
38
p(yt|ηt) =1
yt!exp yt log(ηt)− ηt . (4.5)
Assim temos que a precisao φ e igual a 1, o preditor linear λt e igual ao log(ηt),
que e o parametro canonico, neste caso. Tem-se, ainda, b(λt) = ηt = eλt . Assim, a
media e variancia da distribuicao sao dadas por b(λt) = ηt = eλt e b(λt) = ηt = eλt ,
respectivamente.
No caso da distribuicao Poisson, sabemos que a a priori conjugada para o parametro
ηt e a Gama(αt, βt) e portanto, a priori implicada para o preditor linear λt, adotando-se
a especificacao conjugada, e a Log-Gama.
(ηt|Dt−1) ∼ PC(αt, βt) ≡ Gama(αt, βt). (4.6)
Onde,
λt = log(ηt) = F ′tθt. (4.7)
Por outro lado, a informacao inicial (θ0|D0) tem distribuicao Normal com parametros
(m0, C0) e usando θt = Gtθt − 1 + ωt, tem-se que
(θt|Dt−1) ∼ N(at, Rt) e (λt|Dt−1) ∼ N(ft, qt) (4.8)
em que ft = F ′tat e qt = F ′tRtFt.
Dessa forma, desejamos projetar a priori induzida pelo vetor de estados 4.8 no espaco
da distribuicao conjugada. Sabendo que a priori induzida tem distribuicao Log-Normal,
gostarıamos de projeta-la no espaco da distribuicao Gama com o intuito de preservar a
conveniencia de se trabalhar com a conjugada.
Temos portanto que
(ηt|Dt−1) ∼ Log −Normal(ft, qt) e desejamos obter (ηt|Dt−1) ∼ Gama(αt, βt)
Como visto na Secao (2.2), os parametros da Gama deduzida da Log-Normal sao:
39
αt =1
qt(4.9)
βt = qt−1 exp −ft − 0.5qt (4.10)
Uma vez encontrada a priori compatibilizada para ηt, pertencente a famılia de prioris
conjugadas, sua posteriori e facilmente obtida por conjugacao. Agora temos que
(λt|Dt) ∼ Log −Gama(α∗t , β∗t ) e desejamos obter (λt|Dt) ∼ Normal(µt, σ
2t ).
Projeta-se entao a Log-Gama no espaco da distribuicao Normal e aplica-se o metodo Li-
near Bayes para encontrar os momentos de (θt|Dt). Tal distribuicao tera como parametros
(mt, Ct). Sendo estes:
mt = mt−1 +RtFt(gt − ft)/qt,
Ct = Rt −RtFt(RtFt)′(1− pt/qt)/qt,
onde gt = E(f(ηt)|Dt) e pt = V ar(f(ηt)|Dt) podem ser calculados a partir da posteriori
(ηt|Dt) ja compatibilizada, onde f(ηt) = log(ηt).
Observe que no modelo Poisson via Conjugate Updating os parametros α e β sao
dados por:
αt =1
qtβt = qt
−1 exp −ft (4.11)
Dessa forma, nota-se que os parametros sao bem similares nos dois metodos, havendo
diferenca somente no parametro β.
40
4.2.2 Modelo Linear Dinamico Generalizado Bernoulli/Binomial
Seja (yt|pt) ∼ Bernoulli (pt):
p(yt|pt) = pytt (1− pt)(1−yt). (4.12)
Pode-se escrever a funcao de probabilidade acima na famılia exponencial da seguinte
forma:
p(Yt|pt) = exp
yt
log(pt)
log(1− pt)
+ log(1− pt)
. (4.13)
Assim temos que a precisao φ e igual a 1, o preditor linear λt e igual ao log
pt1−pt
, sendo
este o parametro natural ou canonico, e b(λt) = log(1− pt). Assim, a media e variancia
da distribuicao sao dadas por b(λt) = pt =(
11+e−λt
)e b(λt) = pt(1 − pt) =
e−λt
(1+e−λt )2
,
respectivamente.
No caso da distribuicao Bernoulli, sabemos que a a priori conjugada para o parametro
pt e a Beta(αt, βt) e portanto, a priori implicada para o preditor linear λt e a Logito-Beta.
(pt|Dt−1) ∼ PC(αt, βt) ≡ Beta(αt, βt), (4.14)
de forma que,
λt = logito(pt) = F ′tθt ∼ Logito−Beta(αt, βt). (4.15)
Por outro lado a informacao inicial (θ0|D0) tem distribuicao Normal com parametros
(m0, C0), tem-se que
(θt|Dt−1) ∼ N(at, Rt) e (λt|Dt−1) ∼ N(ft, qt) (4.16)
em que ft = F ′tat e qt = F ′tRtFt.
Conforme mencionado anteriormente, a ideia e projetar a priori induzida pelo vetor
de estados no espaco da distribuicao conjugada. Sabendo que a priori induzida e Logito-
41
Normal, deseja-se projeta-la no espaco da distribuicao Beta.
(pt|Dt−1) ∼ Logito−Normal(ft, qt) e buscamos (pt|Dt−1) ∼ Beta(αt, βt).
Como visto na Secao (2.2), os parametros da Beta compatibilizada nao tem solucao
analıtica, portanto foram utilizados metodos computacionais como Newton-Raphson e
Monte Carlo para que esses pudessem ser obtidos. A cada tempo t, esses metodos devem
ser utilizados para calcula-los.
Uma vez encontrada a priori compatibilizada para pt na famılia de prioris connjuga-
das,, sua posteriori e facilmente obtida via Teorema de Bayes.
Agora temos que
(λt|Dt) ∼ Logito−Beta(α∗t , β∗t ) e desejamos obter (λt|Dt) ∼ Normal(µt, σ
2t ).
Projeta-se entao a distribuicao Logito-Beta no espaco da distribuicao Normal e aplica-se
o metodo Linear Bayes para encontrar os momentos de (θt|Dt). Tal distribuicao tera
como parametros (mt, Ct). Sendo estes:
mt = mt−1 +RtFt(gt − ft)/qt,
Ct = Rt −RtFt(RtFt)′(1− pt/qt)/qt,
onde gt = E(f(pt)|Dt) e pt = V ar(f(pt)|Dt) podem ser calculados a partir da posteriori
(pt|Dt) ja compatibilizada, onde f(pt) = logito(pt).
4.2.3 Estudo de Simulacao
Um estudo simulado e apresentado nesta secao com o intuito de verificar o compor-
tameto da metodologia proposta no que concerne a estimativas pontuais e predicao a
um passo. Visando avaliar a eficacia do metodo quando comparado a outros que fazem
inferencia para esta mesma classe de modelos, tambem sera apresentado o fator de Bayes
comparando-os.
42
4.2.3.1 Modelo Poisson
Seja Yt|ηt ∼ Poisson(ηt) em que:
λt = log(ηt) = F ′tθt,
θt = Gtθt−1 + εt, εt ∼ N(0, 0.0012).
Ft e Gt foram definidas da seguinte forma:
Ft = [1, 0, 1, 0] ∀t, t = 1, . . . , 80,
Gt =
1 1 0 0
0 1 0 0
0 0 cos(w) sen(w)
0 0 −sen(w) cos(w)
, onde w = π/2.
Foram geradas 50 replicas de um modelo Poisson com essa estrutura. No processo
inferencial foram utilizados fatores de desconto tanto para as componentes de tendencia
quanto de sazonalidade. Esses foram iguais a 0.95 e 0.99, respectivamente. A Figura 4.1
exibe os boxplots obtidos atraves de tais replicas para a media a posteriori do parametro
natural ηt e seu valor verdadeiro (linha vermelha). Nota-se que o modelo e capaz de
captar bem a estrutura do dado, de forma que o E(ηt|Dt) ficou bem proximo ao valor
verdadeiro em todo tempo t. E importante ressaltar que o custo computacional da
metodologia proposta e muito baixo, com cada modelo levando em media 0.2 segundos
para ser estimado em um computador com processador Intel Core i5-6500, com 4GB de
RAM e sistema operacional de 64 Bits.
Verifica-se, atraves da Figura 4.2, que o metodo proposto e capaz de fazer predicoes
a um passo que acompanham a estrutura dos dados observados independentemente do
tamanho da amostra. Nota-se que a grande maioria dos valores observados encontram-se
dentro do intervalo de credibilidade obtido. Nota-se, inclusive, que tanto a sazonalidade
quanto a tendencia crescente, sao captadas pelo modelo, resultado indicativo de um bom
ajuste.
43
0 20 40 60 80 100
020
6010
0
Figura 4.1: Boxplots resultantes das replicas para a media a posteriori do parametronatural e seus valores verdadeiros representados pela linha vermelha
0 20 40 60 80 100
010
2030
4050
yt
Pred. 1 passo
(a) T = 30
0 20 40 60 80 100
010
2030
4050
yt
Pred. 1 passo
(b) T = 60
0 20 40 60 80 100
020
4060
80
yt
Pred. 1 passo
(c) T = 80
0 20 40 60 80 100
020
4060
8010
0
yt
Pred. 1 passo
(d) T = 100
Figura 4.2: Media a posteriori da distribuicao preditiva a um passo para diferentestamanhos de amostra junto ao seu intervalo de credibilidade. As escalas dos graficosdiferem para facilitar a visualizacao.
4.3 Compatibilizando diferentes modelos
Observe que o modelo proposto por Smith (1979) nao permite que sejam introduzi-
das componentes estruturais estocasticamanete. Suponha que haja interesse em nao so
44
utilizar a estrutura de inferencia proposta em artigo, mas tambem em inserir compo-
nentes de tendencia e sazonalidade estocasticamente no modelo. Uma combinacao entre
os metodos propostos por Smith (1979) e West et al. (1985) pode ser feita utilizando
conceitos de geometria da informacao. A descricao de tal metodologia sera apresentada
ao longo desta secao.
O funcionamento do metodo e similar ao explicitado anteriormente com o acrescimo
de um novo passo referente a combinacao das distribuicoes de probabilidade a priori e a
posteriori, baseadas em ambas as especificacoes. De um lado, tem-se um modelo como o
apresentado por West et al. (1985), completamente especificado. De outro, um modelo
como o retratado por Smith (1979) e outros, fazendo uso da priori conjugada para o
parametro canonico da famılia exponencial. Analogamente o procedimento apresentado
na secao 4.2, projeta-se a priori para o parametro usual da famılia exponencial, induzida
pelo vetor de estados, no espaco da distribuicao conjugada da famılia exponencial.Uma
vez que tal projecao tenha sido feita, torna-se simples encontrar a priori compatibilizada
que leva em consideracao as informacoes do modelo de nıvel local (priori conjugada) e
do modelo estruturado (priori induzida pelo vetor de estados), utilizando-se, para tanto,
o teorema 2.2.2.
Observe-se que os parametros da priori conjugada nao serao obtidos atraves da com-
patibilizacao dos momentos, como e feito em West et al. (1985), o que faz com que seja
necessario atribuir uma estrutura evolutiva para esses parametros que independe do ve-
tor de estados. O metodo escolhido foi evoluir da posteriori no tempo t-1 para priori no
tempo t, preservando-se a media a posteriori e inflacionando-se a variancia da posteriori
por um fator multiplicativo 1/ω, 0 < ω < 1.
Assim, os parametros da priori compatibilizada para o parametro canonico depen-
derao tanto dos parametros da priori conjugada quanto da priori induzida.
Como as duas distribuicoes a priori compatibilizadas pertencem ao espaco das prioris
conjugadas para o parametro canonico (a primeira, projetada neste espaco utilizando-se
o teorema da projecao e a segunda, ja naturalmente pertencente a este espaco), tambem
a priori resultante da aplicacao do teorema 2.2.2, para o parametro canonico, sera conju-
gada a famılia exponencial. Tal distribuicao a priori tera seus parametros influenciados
45
tanto pelas componentes estruturais do modelo baseado em um preditor dinamico com
componentes estruturais, quanto pelo modelo dinamico, mas de nıvel local, especificado
somente com base na informacao vinda da variavel resposta. Sao fatores relevantes, na
ponderacao entre esses dois modelos, tanto o parametro s , que controla a combinacao
convexa apresentada no teorema 2.2.2, quanto as precisoes associadas a cada uma das
prioris a serem combinadas. Uma vez obtida a priori compatibilizada, pertencente a
famılia de prioris conjugadas a famılia exponencial, sua posteriori pode ser facilmente
encontrada. Contudo, observe que agora temos duas posterioris para o preditor linear:
uma induzida pela conjugacao do parametro natural da famılia exponencial e outra pro-
veniente da normalidade dos estados. A solucao encontrada foi projetar a distribuicao
induzida pela conjugacao do parametro natural no espaco da distribuicao Normal. Dessa
forma, gostarıamos de encontrar a Normal que melhor aproxima tal distribuicao. Uma
vez que tal aproximacao seja feita, utilizamos o metodo Linear Bayes para obter os mo-
mentos do vetor de estados, dada a diferenca de dimensao entre o preditor linear (escalar)
e tal vetor (p-dimensional).
Nas subsecoes 4.3.1 e 4.3.2, detalha-se a metodologia descrita, considerando-se MLDGs
para respostas Poisson e Binomial, respectivamente. Na subsecao 4.3.3, aplica-se o
metodo a dados de vendas, seguindo um MLDG para resposta Poisson.
4.3.1 Modelo Linear Dinamico Generalizado Poisson
Seja (yt|ηt) ∼ Poisson(ηt):
p(yt|ηt) =ηytt e
−ηt
yt!. (4.17)
A distribuicao a priori conjugada para o parametro ηt e a Gama(αt, βt) e, portanto,
a priori implicada para o preditor linear e a Log-Gama. Isto e,
(ηt|Dt−1) ∼ PC(αt, βt) ≡ Gama(αt, βt). (4.18)
ηt = exp(λt) = exp(F ′tθt). (4.19)
46
Observe que uma vez atribuıda uma priori para θt, havera duas prioris para a mesma
quantidade ηt: de um lado a distriuicao a priori conjugada da famılia exponencial e de
outro, a priori induzida pelo vetor de estados.
Assumindo que a informacao inicial (θ0|D0) tem distribuicao Normal com parametros
(m0, C0), tem-se que
(θt|Dt−1) ∼ N(at, Rt) e (λt|Dt−1) ∼ N(ft, qt),
onde ft = F ′tat e qt = F ′tRtFt.
De forma que as duas prioris a serem compatilizadas serao:
(ηt|Dt−1) ∼ Log −Normal(ft, qt) e (ηt|Dt−1) ∼ Gama(αt, βt).
Como visto na Secao 2.2, os parametros da Gama ja compatibilizada sao:
a∗t = s1
qt+ (1− s)αt (4.20)
b∗t = s(qt−1 exp −ft − 0.5qt) + (1− s)βt (4.21)
Observe aqui, que αt e βt nao sao atualizados de acordo com a estrutura do vetor de
estados, portanto e necessario que se crie uma estrutura de atualizacao para os mesmos.
A forma escolhida foi a proposta por Smith (1979):
αt = ω(a∗t−1 + yt−1)
βt = ω(b∗t−1 + 1)
Com essa estrutura de atualizacao, nota-se que, ao se passar da posteriori no tempo
t− 1 a priori no tempo t, a media da distribuicao Gama e mantida e que dua variancia
e inflacionada por um fator multiplicativo 1ω
onde 0 < ω ≤ 1.
Nesta etapa do procedimento, tem-se duas distribuicoes Gama, a priori, para o
parametro ηt, que devem ser compatibilizadas via teorema 2.2.2. Uma vez encontrada a
priori compatibilizada para ηt pertencente a famılia de prioris conjugadas, sua posteriori
47
e facilmente obtida via Teorema de Bayes. Agora temos que
(λt|Dt) ∼ Log −Gama(α∗∗t , β∗∗t ) e desejamos obter (λt|Dt) ∼ Normal(µt, σ
2t ).
Projeta-se, entao, a distribuicao Log-Gama no espaco da distribuicao Normal e aplica-se
o metodo Linear Bayes para encontrar os momentos de (θt|Dt). Tal distribuicao tera
como parametros (mt, Ct). Sendo estes:
mt = mt−1 +RtFt(gt − ft)/qt,
Ct = Rt −RtFt(RtFt)′(1− pt/qt)/qt,
onde gt = E(f(ηt)|Dt) e pt = V ar(f(ηt)|Dt) podem ser calculados a partir da posteriori
(ηt|Dt) ja compatibilizada, onde f(ηt) = log(ηt).
48
4.3.2 Modelo Linear Dinamico Generalizado Bernoulli/Binomial
Seja (yt|pt) ∼ Bernoulli(pt):
p(yt|pt) = pytt (1− pt)(1−yt). (4.22)
No caso da distribuicao Bernoulli, sabemos que a distribuicao a priori conjugada para
o parametro pt e a Beta(αt, βt) e portanto, a priori implicada para o preditor linear λt e
a Logito-Beta.
(pt|Dt−1) ∼ PC(αt, βt) ≡ Beta(αt, βt), (4.23)
λt = logito(pt) = F ′tθt. (4.24)
Observe novamente que, uma vez atribuıda uma priori para θt, havera duas prioris
para a mesma quantidade ηt: de um lado a priori conjugada da famılia exponencial e de
outro, a priori induzida pelo vetor de estados.
Assuma-se que a informacao inicial (θ0|D0) tem distribuicao Normal com parametros
(m0, C0). Assim,
(θt|Dt−1) ∼ N(at, Rt) e (λt|Dt−1) ∼ N(ft, qt)
onde ft = F ′tat e qt = F ′tRtFt.
As duas prioris a serem compatilizadas serao:
(pt|Dt−1) ∼ Logito−Normal(ft, qt) e (pt|Dt−1) ∼ Beta(αt, βt).
Como visto na Secao (2.2), os parametros da Beta compatibilizada nao tem solucao
analıtica, portanto metodos como Newton-Raphson e Monte Carlo sao necessarios para
que tais parametros possam ser obtidos.
Novamente os parametros da priori naturalmente conjugada, αt e βt nao sao atuali-
zados de acordo com a estrutura do vetor de estados, portanto e necessario que se crie
uma estrutura de atualizacao para os mesmos. Como ja descrito, adota-se a proposta de
49
Smith (1979):
αt = ω(a∗t−1 + yt−1)
βt = ω(b∗t−1 + n− yt−1), sendo n o numero de ensaios de Bernoulli associados a distribuicao Binomial
Com essa estrutura de atualizacao, nota-se que a media da distribuicao Gama e
mantida e que sua variAncia e inflacionada por um fator multiplicativo 1ω
, 0 < ω ≤ 1.
Tem-se duas prioris Beta para o parametro pt, que sao compatibilizadas por meio do
teorema 2.2.2. Uma vez encontrada a distribuicao a priori compatibilizada para pt, sua
posteriori e facilmente obtida por Teorema de Bayes. Agora temos que
(λt|Dt) ∼ Logito−Beta(α∗t , β∗t ) e desejamos obter (λt|Dt) ∼ Normal(µt, σ
2t ).
Projeta-se, entao, a distribuicao Logito-Beta no espaco da distribuicao Normal e aplica-
se o metodo Linear Bayes para encontrar os momentos de (θt|Dt). Tal distribuicao tera
como parametros (mt, Ct). Sendo estes:
mt = mt−1 +RtFt(gt − ft)/qt,
Ct = Rt −RtFt(RtFt)′(1− pt/qt)/qt,
onde gt = E(f(pt)|Dt) e pt = V ar(f(pt)|Dt) podem ser calculados a partir da posteriori
(pt|Dt) ja compatibilizada, onde f(pt) = logito(pt).
4.3.3 Aplicacao
A seria ser analisada e uma serie trimestral de vendas com padrao sazonal conhecido
na literatura. Adota-se um modelo Poisson para a contagem de vendas.
E observado que essa possui uma mudanca de padrao sazonal a partir, aproximada-
mente, do tempo 20, alem de possuir uma tendencia crescente. O intuito do uso dessa
serie e verificar se o modelo consegue captar essa mudanca de padrao sazonal. Alem
da estimacao via metodologia que compatibiliza modelos (GI - com comp), apresentada
50
0 5 10 15 20 25 30 35
2040
6080
Figura 4.3: Serie Observada
nesta subsecao, foram feitas estimacoes via geometria da Informacao sem compatibilizar
modelos (GI - sem comp), Conjugate Updating e Modelos de Nıvel Local (MNL) conforme
descrito na secao 3.2.2.
No que concerne a estimacao via GI - sem comp. e com comp., componentes de
sazonalidade foram introduzidas no modelo atraves da matriz G de forma que o primeiro
e segundo harmonicos foram considerados. Como fatores de desconto foram utilizados
0.9 para componentes de tendencia e 0.7 para componentes de sazonalidade. Nao e usual
que o desconto atribuıdo para a sazonalidade seja maior que o da tendencia, entretanto
os resultados encontrados por Pole et al. (1994) foram similares a esses apresentados,
fornecendo o melhor resultado no que concerne a funcao de log-verossimilhanca.
51
Por conseguinte, considera-se o modelo
yt|ηt ∼ Poisson(ηt)
λt = log(ηt) = F ′tθt
θt = Gtθt−1.
De modo que,
θt = (α1t, α2t, β1t, β2t, β3t, β4t);
Ft = [1, 0, 1, 0, 1, 0] ;
Gt =
1 1 0 0 0 0
0 1 0 0 0 0
0 0 cos(w) sen(w) 0 0
0 0 −sen(w) cos(w) 0 0
0 0 0 0 cos(2w) sen(2w)
0 0 0 0 −sen(2w) cos(2w)
, sendo w = 2π/4.
Essas mesmas matrizes de desenho e de evolucao foram utilizadas no metodo de
geometria da informacao que compatibiliza modelos estruturado e nao estrurado e no
metodo Conjugate Updating. De forma analoga, os fatores de desconto foram os mesmos.
Conforme mencionado anteriormente,os parametros da priori conjugada nao serao
mais obtidos atraves da compatibilizacao dos momentos, fazendo com que seja necessario
atribuir uma evolucao para eles que independe do vetor de estados. O metodo escolhido
foi evoluir da posteriori no tempo t-1 para priori no tempo t, preservando-se a media a
posteriori e inflacionando-se a variancia da posteriori por um fator multiplicativo 1/ω,
como em Smith (1979); Harrison and Stevens (1976); Gamerman et al. (2013). Para que
tal parametro fosse definido, foi especificada uma grade de valores possıveis e o modelo
estimado com cada um desses valores. Como este atua como um fator de desconto,
os possıveis valores foram definidos como (0.5, 0.7, 0.75, 0.8, 0.85, 0.9, 0.95, 0.975, 0.99, 1).
Na abordagem baseada em compatibilizacao de modelos estruturado e de nıvel local, s,
52
necessario a aplicacao do teorema 2.2.2, tambem deve ser escolhido e portanto uma grade
de valores para tal foi definida. Essa foi igual a (0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9,
1.0), com menores valores atribuindo menor peso ao modelo estrurado que ao modelo
de nıvel local. Em seguida foi criada uma grade unica com as todas as combinacoes
possıveis para esses parametros. Exemplo: ω = 0.5, s = 0.1;ω = 0.975, s = 0.8 e assim
por diante. O melhor modelo foi definido como aquele que forneceu maior valor para
a log-verossimilhanca preditiva. A tabela resultante pode ser encontrada no apendice 1
deste trabalho. Segundo esse criterio, s = 0.9 e ω = 0.5. Este modelo tambem foi o que
forneceu o menor EQM preditivo.
Para aplicacao do modelo de nıvel local baseado em covariaveis sem efeito dinamico
e que, portanto, apresentando apenas um nıvel dinamico, foram definidas 3 covariaveis:
x1 = cos(wt), x2 = sen(wt), x3 = cos(2wt), onde t=1, . . . , 35 e w = 2π/4. Observe-se
que, para este valor de w, sen(2wt) e sempre nulo. Dessa forma o modelo foi definido
como:,
Yt|ηt ∼ Poisson(ηt)
ηt = αt exp(β1x1t + β2x2t + β3x3t)
Alem dos coeficientes atrelados as covariaveis,o fator de inflacao do modelo tambem
deve ser determinado. Tal estimacao foi feita a partir do metodo de Monte Carlo via
Cadeia de Markov com algoritmo Metropolis-Hastings. A priori para o parametro natu-
ral, ηt, foi definida como ηt ∼ G(0.01, 0.01). Para o parametro ω, uma Uniforme(0,1) foi
atribuıda e para os coeficientes atrelado as covariaveis (βk, k = 1, . . . 3.) foram definidas
como prioris distribuicoes Normal(0, 100). As amostras da distribuicao a posteriori fo-
ram obtidas utilizando o metodo MCMC com 100.000 iteracoes, descartando-se um burn-
in de 1000 iteracoes e aplicando um espacamento de tamanho 20, resultando em uma
amostra de tamanho 4951. A convergencia pode ser verificada com auxılio de metodos de
diagnostico presentes no pacote coda no R (Plummer et al. (2006)). O modelo tambem
foi estimado seguindo abordagem classica.
A tabela 4.1 indica que as estimativas classica e bayesiana ficaram bem proximas. Os
53
EMV EB-Mediana 2.5% via MCMC 97.5% via MCMCω 0.65 0.61 0.36 0.74β1 -0.41 -0.41 -0.52 -0.30β2 -0.43 -0.44 -0.53 -0.35β3 -0.13 -0.12 -0.19 -0.05
Tabela 4.1: Resultados da estimacao dos parametros do modelo de nıvel local
estimadores bayesianos foram considerados para futuras analises.
Metodo segundosMCMC 456.225
GI - sem comp. 0.178GI - com comp. 0.235
Conjugate Updating 0.199
Tabela 4.2: Tempo computacional gasto em cada um dos metodos
Analisando a tabela 4.2, nota-se que o metodo MCMC foi o mais custoso computa-
cionalmente. Por outro lado, todos os metodos sequenciais levaram menos de 1 segundo
para obter as estimativas do modelo.
Nota-se que a predicao a 1 passo via GI - sem comp. e bem proxima a estimativa
obtida atraves do metodo Conjugate Updating (Figura 4.4). Assim como no modelo de
geometria via compatibilizacao de modelos,esses modelos conseguem captar a mudanca no
padrao sazonal, sem necessidade de uma intervencao manual. As estimativas do modelo
GI - com comp. diferem ligeiramente das obtidas pelos modelos citados anteriormente,
mas ainda assim estao proximas aos valores observados. O modelo de nıvel local nao
capturou a mudanca no padrao sazonal. Harvey and Fernandes (1989) afirma em seu
artigo que nao permitir que componentes de sazonalidade sejam estocasticas nao e uma
grave limitacao do metodo, contudo o que pode ser visto que melhores resultados sao
obtidos quando se permite que esssas sejam estocasticas. Isso se da porque modelos mais
estruturados tem vantagem, pois permitem que tais componentes variem no tempo, ou
seja, ha uma flexibilidade maior para os parametros que capturar mudancas estruturais
no dado.
54
0 5 10 15 20 25 30 35
020
6010
014
0
yt
Pred. 1 passo via GI − Sem CompPred. 1 passo via GI − Com CompPred. 1 passo via Conjugate UpdatingPred. 1 passo via MNL
(a)
0 5 10 15 20 25 30 35
020
6010
014
0
yt
Pred. 1 passo via GI − Sem CompPred. 1 passo via Conjugate Updating
(b)
0 5 10 15 20 25 30 35
020
6010
014
0
yt
Pred. 1 passo via GI − Sem CompPred. 1 passo via GI − Com CompPred. 1 passo via MNL
(c)
0 5 10 15 20 25 30 350
2060
100
140
yt
Pred. 1 passo via GI − Com CompPred. 1 passo via MNL
(d)
Figura 4.4: Predicao 1 passo a frente via geometria da informacao compatibilizandomodelos e sem compatibilizar, Conjugate Updating e modelo de nıvel local junto a serieobservada. Considerou-se que apos 10 passos todos os modelos ja tinham aprendido ocomportamento da serie.
Analisando a Figura 4.5, fica claro que as estimativas do nıvel obtidas atraves dos
modelos estruturados sao bem proximas durante todo o perıodo de tempo. Contudo,
as estimativas provenientes do modelo de nıvel local apresentam um nıvel menor que o
obtido atraves dos outros modelos.
0 5 10 15 20 25
1020
3040
5060
70 GI − Sem CompGI − Com CompConjugate UpdatingMNL
Figura 4.5: E(αt|DT ) estimado por diferentes metodos
55
Pode-se obervar que, tambem no que se refere as estimativas suavizadas para o par de
harmonicos, verifica-se que as obtidas atraves de todos os modelos encontram-se muito
proximas uma das outras.
0 5 10 15 20 25
01
23
45 GI − Sem Comp
GI − Com CompConjugate UpdatingMNL
(a) Harmonico 1
0 5 10 15 20 25
0.5
1.0
1.5
2.0
2.5
GI − Sem CompGI − Com CompConjugate UpdatingMNL
(b) Harmonico 2
Figura 4.6: Media a posteriori suavizada para o par de harmonicos.
Como forma de compararmos o desempenho de tais modelos, utilizou-se como criterio
o Fator de Bayes a ser descrito a seguir.
Seja o Fator de Bayes do modelo 1 com respeito ao modelo 2 definido como em Kass
and Raftery (1995):
FB12 =p(x|m1)
p(x|m2)
Suponha que desejemos comparar 2 modelos diferentes, problema este que pode ser
tratado como um teste de hipoteses. Um problema de decisao e completamente especifi-
cado pela trıplice A,H,X, onde A e o espaco de decisao , H o espaco de parametros
e X e o espaco amostral.
Seja o modelo m1 definido por η ∈ H1 e o modelo m2 definido por η ∈ H2, onde
esses sao designados por Ri, i = 1, 2. O espaco de parametros e particionado em dois
componentes disjuntos H1 e H2. O espaco de acao e definido por dois componentes,
A = a1, a2, onde ai indica que a hipotese de Ri e a verdadeira e, portanto, deve ser
aceita. Sejam k1 e k2 as perdas associadas a escolha dos modelos com respeito a uma
determinada funcao perda.
Sabe-se pela literatura de teoria da decisao que deve-se tomar a acao a1 se e somente
se a perda esperada com relacao a a1 for menor que em a2, sendo este valor esperado
56
relacionado as distribuicoes a posteriori. Isso equivale a aceitar H1 se e somente se
P (R1|x)P (R2|x) >
k2k1
, que e equivalente a
FB12 >k2P (R2)
k1P (R1).
Se considerarmos k1 = k2, teremos que
FB12
(1 + FB12)>
p(R2)
p(R1) + p(R2).
Esse resultado sera usado neste trabalho para escolha de um modelo dentre os modelos
de interesse.
Seja Kij =FBij
(1+FBij), i 6= j, i = 1, 2, 3, 4 e j = 1, 2, 3, 4, onde 1 representa o metodo
via Geometria da Informacao - Sem compatibilizar modelos, 2 - o metodo via Geometria
da Informacao - Compatibilizando Modelos, 3 - O metodo Conjugate Updating e 4 - o
modelo de nıvel local.
Temos que
Comparacao de ModelosK12 = 0.4768K13 = 0.4959K14 = 0.7222K23 = 0.5191K24 = 0.7404K34 = 0.7254
Tabela 4.3: Comparacao dos modelos via geometria da informacao compatibilizandomodelos e sem compatibilizar, Conjugate Updating e modelo de nıvel local
Assim fica claro que os modelos estruturados, com estimacao via via geometria da
informacao e Conjugate Updating sao muito proximos, pois as probabilidades variaram
em torno de 0.5. Tais modelos apresentaram desempenho superior ao modelo de nıvel
local de forma que as probabilidades variaram em torno de 0.7, indicando que o modelo
de nıvel local seria escolhido em cerca de apenas 30% dos casos.
57
Capıtulo 5
Conjugate Updating estendido
O metodo Conjugate Updating estendido sugerido por Souza et al. (2016) e uma
extensao ao modelo proposto por West et al. (1985) para a famılia exponencial bipa-
rametrica. De modo igual, destaca-se por sua rapidez computacional quando comparado
a metodos como MCMC. A estimacao para os parametros da distribuicao do vetor de
estados e preditiva e feita de forma sequencial, assim cada nova observacao que chega e
imediatamente incorporada. A seguir, uma breve descricao do metodo e feita.
Seja a famılia exponencial biparametrica definida como em Bernardo and Smith
(2001):
p(yt|ηt, φt) = f(yt)exp φt [ηtd1(yt) + d2(yt)]− ρ(ηt, φt) , (5.1)
sendo f(yt) uma funcao nao negativa, ηt e φt parametros desconhecidos, d1(·), d2(·) e
ρ(ηt, φt) funcoes conhecidas.
A partir de 5.1, pode-se encontrar a media do processo, denotada por µt = E(yt|ηt, φt).
Suponha que tanto as medias como os parametros de precisao podem ser descritos por um
conjunto de variaveis explicativas a cada tempo t atraves de funcoes de ligacao diferentes.
Assim,
λ1t
λ2t
=
g(µt)
g(φt)
= F ′tθt (5.2)
A priori para o vetor (ηt, φt), tambem seguindo a forma proposta por Bernardo and
58
Smith (2001), pode ser definida como:
p(ηt, φt|Dt−1) ∝ exp ηtφtτ1 + φtτ2 − τ0ρ(ηt, φt) (5.3)
Desta forma, fica claro que a posteriori sera tal que
p(ηt, φt|Dt) ∝ exp ηtφtτ ∗0 + φtτ∗2 − τ ∗0 ρ(ηt, φt) , (5.4)
de forma que τ ∗0 = τ0 + 1, τ ∗1 = τ1 + d1(yt) e τ ∗2 = τ2 + d2(yt).
O primeiro passo do metodo consiste na evolucao dos estados e da preditiva dado mt−1
e Ct−1. Tal evolucao e feita do mesmo modo como apresentado em West et al. (1985).
Sejam: mt = E(θt|Dt), Ct = V ar(θt|Dt), at = E(θt|Dt−1), Rt = V ar(θt|Dt−1), ft =
E(λt|Dt−1), Qt = V ar(λt|Dt−1). Tem-se entao:
at = Gtmt−1
Rt = GtCt−1G′t +Wt
ft = F ′tat
Qt = F ′tRtFt (5.5)
Seguidamente, deseja-se encontrar os parametros τ0t, τ1t e τ2t. Para tal utiliza-se os
momentos a priori de (µt|Dt−1) e (φt|Dt−1). A partir destes, e possıvel encontrar os
momentos a priori de (λ1t|Dt−1) e (λ2t|Dt−1) em funcao de τ0t, τ1t e τ2t.
Seguindo a notacao de Souza et al. (2016), tem-se que:
E(λ1t|Dt−1) = h1(τ0t, τ1t, τ2t),
E(λ2t|Dt−1) = h2(τ0t, τ1t, τ2t),
V (λ1t|Dt−1) = h3(τ0t, τ1t, τ2t),
V (λ2t|Dt−1) = h4(τ0t, τ1t, τ2t),
Cov(λ1t, λ2t|Dt−1) = h5(τ0t, τ1t.τ2t).
(5.6)
59
De modo que ao compatibilizar com as equacoes em 5.5, o seguinte sistema e obtido:
f1t = h1(τ0t, τ1t, τ2t),
f2t = h2(τ0t, τ1t, τ2t),
q11t = h3(τ0t, τ1t, τ2t),
q22t = h4(τ0t, τ1t, τ2t),
q12t = h5(τ0t, τ1t.τ2t). (5.7)
Pode-se observar que este sistema e superespecificado, ou seja, ha mais equacoes do que
parametros, portanto nao ha uma solucao unica para o sistema. A abordagem adotada
para lidar com esse problema, em Souza et al. (2016) e no presente trabalho foi utilizar
o Metodo de Momentos Generalizado. Este metodo consiste em encontrar a solucao que
minimiza a funcao
gn(τ ,ft,Qt)Ωngn(τ ,ft,Qt), (5.8)
onde, τ = (τ0t, τ1t, τ2t) e gn(τ ,ft,Qt) e a seguinte funcao vetorial:
gn(τ ,ft,Qt) =
f1t − h1(τ0t, τ1t, τ2t)
f2t − h2(τ0t, τ1t, τ2t)
q11t − h3(τ0t, τ1t, τ2t)
q22t − h4(τ0t, τ1t, τ2t)
q12t − h5(τ0t, τ1t.τ2t)
. (5.9)
Neste trabalho considerou-se a matriz Ωn como sendo uma matriz identidade, isto
e, considerou-se que todas equacoes possuem o mesmo peso. Uma vez que o argumento
mınimo da funcao e encontrado, e feita a atualizacao dos parametros com base na nova
observacao. Obtem-se τ ∗0 , τ∗1 , τ
∗2 , tornando possıvel, portanto, encontrar os momentos
atualizados da posteriori do preditor linear e por fim, os estados. A seguir, alguns
exemplos serao apresentados.
60
5.1 Distribuicao Gama
• Modelo Observacional:
Seja αt = φtµ2t e βt = φtµt, de forma que:
µt =αtβt
e φt = αt.
p(yt|µt, φt) = y−1t exp
−φµyt + φt log(yt)
× exp
−[log(Γ (φt))− (φt)log
(φtµt
)],
= y−nt exp
(φtµ
2t )
t∑i=1
log(yt)
.
• Distribuicao a priori conjugada:
p(µt, φt|τ0t, τ1t, τ2t) ∝ exp
(φtµ2t )τ1t − (φtµt)τ2t
× exp
−τ0t
[log(Γ (φtµ
2t ))− (φtµ
2t )log(φtµt)
].
Onde, µt > 0 e φt > 0.
• Aproximando os momentos da priori conjugada:
Como a priori nao tem formula analıtica fechada, obtou-se por encontrar sua moda
e curvatura. Sejam λ1t e λ2t dois preditores dinamicos para mut e φt, respectiva-
mente e considere funcoes de ligacao logarıtimicas relacionando tais preditores aos
parametros de interesse:
λ1t = log(µt),
λ2t = log(φt).
61
• Equacoes Resultantes no Modelo Dinamico:
Nota-se que a disribuicao a priori conjugada nao tem forma conhecida. Desse
modo, obtou-se por encontrar sua moda e matriz de curvatura, que resultou em:
f1t = E(log(µt)|Dt−1) = log
(τ1tτ0t
),
f2t = E(log(φt)|Dt−1) = log
τ0t
2[τ0t log
(τ1tτ0t
)− τ2t
] ,
Q1t = V ar(log(µt)|Dt−1) =2
τ 20t
[τ0t log
(τ1tτ0t
)− τ2t
],
Q2t = E(log(φt)|Dt−1) =2
τ0t.
• Restricoes:
Como as quantidades Q1t e Q2t representam variancias e estas sao positivas por
definicao, o uso de restricoes se faz necessario. Assim,
τ0t > 0, τ1t > 0,τ2tτ0t
> f1t.
• Atualizacao:
τ ∗0t = τ0t + 1
τ ∗1t = τ1t + yt
τ ∗2t = τ2t + log(yt)
62
5.2 Distribuicao Normal
• Modelo Observacional:
p(yt|µt, φ) =
(φt2π
)1/2
exp
−φt
2(yt − µt)2
,
= (2π)t/2[φ1/2t exp
−φtµ2
t
2
]× exp
µtφtyt −
1
2φty
2t
.
• Distribuicao a priori conjugada:
p(µt, φt|τ0t, τ1t, τ2t) ∝[φ1/2t exp
−1
2φtµ
2t
]τ0texp
µtφtτ1t −
1
2φtτ2t
,
∝[φτ0t/2t
]exp
−1
2φtτ2t
exp
−1
2φtτ0t
(µ2t − 2µt
τ1tτ0t
),
∝[φτ0t/2t
]exp
−1
2φtτ2t
exp
−1
2φtτ0t
(µ2t − 2µt
τ1tτ0t
+
(τ1tτ0t
)2)
× (φtτ0t)1/2exp
−φtτ0t
2
(−τ
21t
τ 20t
)(φtτ0t)
−1/2,
=1
κ(τ0t, τ1t, τ2t)φ(τ0t−1)/2t exp
−φt
2
(τ2t −
τ 21tτ0t
)× φ
1/2t exp
φtτ0t
2
(µt −
τ1tτ0t
)2.
Sendo este o nucleo da densidade da distribuicao Normal-Gama. Esta distribuicao
e especificada de acordo com os parametros (γ, V, αt, βt), nesta ordem. Dessa forma,
temos que: γ = τ1tτ0t, V = τ0t, αt = (τ0t+1)
2, βt = 1
2
(τ2t − τ21t
τ0t
).
63
• Equacoes Resultantes nos Modelo Dinamico:
f1t = E(µt|Dt−1) =τ1tτ0t,
f2t = E(log(φt)|Dt−1) = log
((τ0t + 1)
2
[1
2
(τ2t −
τ 21tτ0t
)]−1),
Q1t = V ar(µt|Dt−1) =
(τ2t −
τ 21tτ0t
)τ−10t
(τ0t + 1
2− 1
)−1,
Q2t = V ar(log(φt)|Dt−1) =2
(τ0t + 1).
• Restricoes:
Como as quantidades Q1t e Q2t representam variancias e estas sao positivas por
definicao, o uso de restricoes se faz necessario. Assim,
τ0t > 1, τ2t > τ 21t/τ0t
• Atualizacao:
τ ∗0t = τ0t + 1
τ ∗1t = τ1t + yt
τ ∗2t = τ2t + (yt)2
64
5.3 Distribuicao Multinomial
A seguir uma extensao da metodologia proposta por Souza et al. (2016) e apresentada
para o caso Multinomial.
• Modelo Observacional:
p(yt|η1t, η2t) =
(N
y1t y2t y3t
)ηy1t1t η
y2t2t (1− η1t − η2t)N−y1t−y2t ,
=
(N
y1t y2t y3t
)(η1t
1− η1t − η2t
)y1t ( η2t1− η1t − η2t
)y2t+ (1− η1t − η2t)N .
onde 0 < η1t, η2t < 1 e yt ∈ R+.
• Distribuicao a priori conjugada:
p(η1t, η2t) ∝(
η1t1− η1t − η2t
)τ1 ( η2t1− η1t − η2t
)τ2+ (1− η1t − η2t)τ0 ,
∝ ητ11tητ22t (1− η1t − η2t)τ0−τ1−τ2 ,
que representa o nucleo da funcao densidade de probabilidade Dirichlet com parametros
α1 = τ1 + 1, α2 = τ2 + 1 e α3 = τ0 − τ1 − τ2 + 1.
• Funcoes de ligacao:
λ1t = log
(η1t
1− η1t − η2t
),
λ2t = log
(η2t
1− η1t − η2t
).
• Aproximando os momentos das funcoes de ligacao:
65
Observe que nao ha forma analıtica fechada para as distribuicoes das funcoes de
ligacao. Optou-se, portanto, em utilizar expansao de Taylor bivariada para que os
momentos pudessem ser encontrados.
Seja z = < x, y > e a = (a,b), a serie de Taylor pode ser escrita como:
f(z) = f(a) + [(z− a)∇f(a)] + [(z− a)TH(z)(z− a))].
Sendo H(x) a matriz de segundas derivadas (Hessiana):
H(x, y) =
fxx(x, y) fxy(x, y)
fyx(x, y) fyy(x, y)
.A expansao de Taylor de segunda ordem pode ser reescrita como:
f(x, y) = f(a, b) + fx(a, b)(x− a) + fy(a, b)(y − b)
+1
2
[fxx(x− a)2 + 2fxy(x− a)(y − b)fyy(y − b)2
].
No caso da multinomial, considere
f1(η1t, η2t) = log
(η1t
1− η1t − η2t
),
f2(η1t, η2t) = log
(η2t
1− η1t − η2t
),
a = E(η1t),
b = E(η2t).
Para que a expansao de Taylor seja feita, e necessario que as primeiras e segundas
derivadas, assim como os momentos de η1t e η2t, sejam encontrados. Os resultados
encontram-se dispostos a seguir.
66
∂f1(η1t, η2t)
∂η1t=
1− η2tη1t(1− η1t − η2t)
,
∂f1(η1t, η2t)
∂η2t=
1
1− η1t − η2t,
∂f1(η1t, η2t)
∂η1t∂η1t=
(1− η2t)(2η1t + η2t − 1)
η21t(1− η1t − η2t)2,
∂f1(η1t, η2t)
∂η2t∂η2t=
1
(1− η1t − η2t)2,
∂f1(η1t, η2t)
∂η1t∂η2t=
1
(1− η1t − η2t)2.
∂f2(η1t, η2t)
∂η2t=
1− η1tη1t(1− η1t − η2t)
,
∂f2(η1t, η2t)
∂η1t=
1
1− η1t − η2t,
∂f2(η1t, η2t)
∂η2t∂η2t=
(1− η1t)(2η2t + η1t − 1)
η22t(1− η1t − η2t)2,
∂f2(η1t, η2t)
∂η1t∂η1t=
1
(1− η1t − η2t)2,
∂f2(η1t, η2t)
∂η1t∂η2t=
1
(1− η1t − η2t)2.
67
E(η1t|Dt−1) =α1
α1 + α2 + α3
=τ1 + 1
τ0 + 3= η1t,
E(η2t|Dt−1) =α2
α1 + α2 + α3
=τ2 + 1
τ0 + 3= η2t,
V ar(η1t|Dt−1) =α1(α2 + α3)
(α1 + α2 + α3)2(α1 + α2 + α3 + 1)
=(τ1 + 1)(τ0 − τ1 + 2)
(τ0 + 3)2(τ0 + 4)= σ2
1,
V ar(η2t|Dt−1) =α2(α1 + α3)
(α1 + α2 + α3)2(α1 + α2 + α3 + 1)
=(τ2 + 1)(τ0 − τ2 + 2)
(τ0 + 3)2(τ0 + 4)= σ2
2,
Cov((η1t, η2t)|Dt−1) = − α1α2
(α1 + α2 + α3)2(α1 + α2 + α3 + 1)
= − (τ1 + 1)(τ2 + 1)
(τ0 + 3)2(τ0 + 4)= σ1σ2.
68
Dessa forma,
E
(log
(η1t
1− η1t − η2t
)|Dt−1
)≈ log
(η1t
1− η1t − η2t
)+
1
2
(1− η2t)(2η1t + η2t − 1)σ21
η21t(1− η1t − η2t)2
+1
2
σ22
(1− η1t − η2t)2+
σ1σ2(1− η1t − η2t)2
E
(log
(η2t
1− η1t − η2t
)|Dt−1
)≈ log
(η2t
1− η1t − η2t
)+
1
2
(1− η1t)(2η2t + η1t − 1)σ22
η22t(1− η1t − η2t)2
+1
2
σ21
(1− η1t − η2t)2+
σ1σ2(1− η1t − η2t)2
V ar
(log
(η1t
1− η1t − η2t
)|Dt−1
)≈
(1− η2t
η1t(1− η1t − η2t)
)2
σ21 +
(1
1− η1t − η2t
)2
σ22
+
(1
1− η1t − η2t
)(1− η2t
η1t(1− η1t − η2t)
)σ1σ2
V ar
(log
(η2t
1− η1t − η2t
)|Dt−1
)≈
(1− η1t
η2t(1− η1t − η2t)
)2
σ22 +
(1
1− η1t − η2t
)2
σ21
+
(1
1− η1t − η2t
)(1− η1t
η2t(1− η1t − η2t)
)σ1σ2
Seja f(η1t, η2t) =(log(
η1t1−η1t−η2t
)log(
η2t1−η1t−η2t
))
f(η1t, η2t) ≈ f(η1t, η2t) +
η1t − η1tη2t − η2t
′ ∇f(η1t, η2t)|(η1t,η2t)=(η1t,η2t)
= log
(η1t
1− η1t − η2t
)log
(η2t
1− η1t − η2t
)
+
η1t − η1tη2t − η2t
′ ∇f(η1t, η2t)|(η1t,η2t)=(η1t,η2t)
69
Onde,
∇f(η1t, η2t)|(η1t)=(η1t) =
((1− η2t)
(η1t
1− η1t − η2t
)+ η1tlog
(η2t
1− η2t − η1t
))× 1
η1t(1− η1t − η2t)
∇f(η1t, η2t)|(η2t)=(η2t) =
((1− η1t)
(η2t
1− η1t − η2t
)+ η2tlog
(η1t
1− η2t − η1t
))× 1
η2t(1− η1t − η2t)
Mas, se aproximarmos E(η1t|Dt−1) = η1t e E(η2t|Dt−1) = η2t
η1t − η1tη2t − η2t
′ =
0
0
′
E, portanto,
E(λ1tλ2t|Dt−1) = log
(η1t
1− η1t − η2t
)log
(η2t
1− η1t − η2t
)Assim, a covariancia entre as funcoes de ligacao sera dada por:
Cov(λ1t, λ2t|Dt−1) = log
(η1t
1− η1t − η2t
)log
(η2t
1− η1t − η2t
)− log
(η1t
1− η1t − η2t
)log
(η2t
1− η1t − η2t
)= 0
70
O sistema a ser resolvido sera tal que:
f1t = log
(τ1 + 1
τ0− τ1 − τ2 + 1
)f2t = log
(τ2 + 1
τ0− τ1 − τ2 + 1
)q1t =
((τ0 + 3)(τ0 − τ2 + 2)
(τ1 + 1)(τ0− τ1 − τ2 + 1)
)2((τ1 + 1)(τ0 − τ1 + 2)
(τ0 + 3)2(τ0 + 4)
)+
(τ0 + 3
τ0− τ1 − τ2 + 1
)2((τ2 + 1)(τ0 − τ2 + 2)
(τ0 + 3)2(τ0 + 4)
)+
((τ0 + 3)(τ0 − τ2 + 2)
(τ1 + 1)(τ0− τ1 − τ2 + 1)
)(τ0 + 3
τ0− τ1 − τ2 + 1
)(− (τ1 + 1)(τ2 + 1)
(τ0 + 3)2(τ0 + 4)
)q2t =
((τ0 + 3)(τ0 − τ2 + 2)
(τ1 + 1)(τ0− τ1 − τ2 + 1)
)2((τ2 + 1)(τ0 − τ2 + 2)
(τ0 + 3)2(τ0 + 4)
)+
(τ0 + 3
τ0− τ1 − τ2 + 1
)2((τ1 + 1)(τ0 − τ1 + 2)
(τ0 + 3)2(τ0 + 4)
)+
((τ0 + 3)(τ0 − τ2 + 2)
(τ1 + 1)(τ0− τ1 − τ2 + 1)
)(τ0 + 3
τ0− τ1 − τ2 + 1
)(− (τ1 + 1)(τ2 + 1)
(τ0 + 3)2(τ0 + 4)
)
71
5.3.1 Estudo Simulado
Visando avaliar o comportamento da metodologia proposta, um estudo simulado foi
feito e seus resultados serao apresentados ao longo desta secao.
Considere (Yt|η1t, η2t, η3t) ∼ Multinomial(η1t, η2t, η3t) e seja a estrutura do modelo a
seguinte:
at = at−1 + ωt,W ∼ N(0, 0.12)
bt = bt−1 + ωt,W ∼ N(0, 0.12)
η1t =exp(at)
1 + exp(at)
η2t =exp(bt)
1 + exp(bt)
De modo que at e bt sao parametros auxiliares e
λ1t = log
(η1t
1− η1t − η2t
),
λ2t = log
(η2t
1− η1t − η2t
).
Para analise, foram geradas 50 amostras de um modelo com essa estrutura, sendo a1 = 1.1
e b1 = 0.8. A Figura 5.1 mostra que o metodo foi capaz de capturar a estrutura dos
0 50 100 150
−2
02
46
8
(a) E(λ1t|Dt)
0 50 100 150
−2
02
46
8
(b) E(λ2t|Dt)
Figura 5.1: Boxplots para as medias a posteriori dos parametros λ1t e λ2t junto aos seusvalores verdadeiros (linha vermelha).
parametros λ1 e λ2 duranto todo o perıodo de tempo, conforme esperado. Nota-se que
72
a media das estimativas das amostras ficou muito proxima ao valor verdadeiro, a cada
tempo t, indicando um bom ajuste.
0 50 100 150
−2
02
46
8
(a) E(η1t|Dt)
0 50 100 150
−2
02
46
8
(b) E(η2t|Dt)
Figura 5.2: E(η1t|Dt) e E(η2t|Dt) (linha pontilhada azul) junto aos seus valores verdadei-ros (linha contınua preta).
Nota-se pela Figura 5.2 que a estimativas das medias a posteriori para η1t e η2t ficaram
bem proximas aos seus respectivos valores verdadeiros, novamente indicando um bom
ajuste do modelo.
Como forma de ilustrar como ficaram as predicoes um passo a frente, o resultado de
uma das replicas e apresentado na figura 5.3.
Verifica-se atraves das Figuras 5.3 que as predicoes acompanharam a estrutura da
serie observada em todos os casos. Conclui-se, portanto, que a metodologia apresentada
teve um bom desempenho no que concerne a estimacao de parametros e predicao a um
passo.
73
0 50 100 150
05
1015
Index
YtPred 1 passo
(a) E(Y1t+1|Dt)
0 50 100 150
05
1015
Index
YtPred 1 passo
(b) E(Y2t+1|Dt)
0 50 100 150
−2
02
46
810
Index
YtPred 1 passo
(c) E(Y3t+1|Dt)
Figura 5.3: E(Y1t+1|Dt), E(Y2t+1|Dt) e E(Y3t+1|Dt) (linha pontilhada azul) junto a serieobservada (linha contınua preta).
74
5.4 Aplicacoes a dados reais
Como forma de ilustrar o metodo proposto, a serie mensal de log-retorno da IBM sera
analisada nesta secao. Utilizou-se o modelo Normal com media e precisao desconhecidos
para estimacao. Os dados encontram-se disponıveis em Tsay (2005) e discutidos em
Triantafyllopoulos (2008). Os resultados a serem apresentados foram obtidos com auxılio
do pacote nloptr do software R, que permite resolver o sistema com mais equacoes do
que parametros impondo restricoes nao lineares. O algoritmo de otimizacao escolhido foi
o de Otimizacao restrita por aproximacao linear (COBYLA). As matrizes Ft e Gt foram
definidas como sendo iguais a 1 para todo tempo t.
1930 1940 1950 1960 1970 1980
−30
−10
010
2030
Figura 5.4: Serie mensal do log-retorno da SP500
No que se refere a previsao a 1 passo, temos que essa acompanha bem os movimentos
da serie observada, apresentado queda quando ha decaimentos mais fortes no log-retorno.
Por fim, tem-se que todas as observacoes encontram-se dentro do intervalo de credibili-
dade obtido.
75
0 100 200 300 400 500 600
−30
−10
1030
Valor VerdadeiroPred. 1 passo a frenteValor VerdadeiroPred. 1 passo a frente
Figura 5.5: Serie observada junto a predicao 1 passo a frente e seu respectivo intervalode credibilidade.
Analisando a Figura 5.6(a), nota-se que a media se encontra em torno de zero, o que
esta de acordo com a literatura. Suas flutuacoes acompanham o movimento da serie,
indicando um bom ajuste. No que concerne ao parametro de precisao (Figura 5.6(b)),
observa-se que este esta entre zero e 0.2, ou seja, assume valores muito pequenos. A
volatilidade da serie, portanto, e alta, resultado este condizente com o que se encontra
na literatura.
0 100 200 300 400 500 600
−10
05
1015
20
Média FiltradaMédia Suavizada
(a) µt
0 100 200 300 400 500 600
0.0
0.2
0.4
0.6
0.8
1.0
Média FiltradaMédia Suavizada
(b) φt
Figura 5.6: Media a posteriori filtrada e suavizada junto ao intervalo de credibilidade damedia suavizada para o parametro da media e de precisao.
76
Capıtulo 6
Conclusao
O presente trabalho teve por objetivo discutir metodos de inferencia para a classe de
modelos lineares dinamicos para a famılia exponencial p-dimensional. Foram visitadas
metodologias propostas por West et al. (1985), Gamerman et al. (2013), Smith (1979) e
Souza et al. (2016), alem de apresentar-se novas abordagens para inferencia nessa classe
de modelos via elementos de geometria da informacao.
Foi verificado que, uma vez que se atribui uma distribuicao a priori para o vetor de
estados, uma priori induzida para o parametro canonico da famılia exponencial e obtida.
Por outro lado, ha tambem a priori conjugada natural nesta famılia. Por motivos de
conveniencia, uma vez que conhecemos as propriedades de tal distribuicao, deseja-se
trabalhar com a conjugada.
Uma abordagem de geometria da informacao apresentada sugere que a distribuicao
induzida seja projetada no espaco da distribuicao conjugada via minimizacao da di-
vergencia de Kullback-Leibler. Outra sugere que nao apenas se faca tal projecao, mas
tambem que se compatibilize tal informacao com a proveniente de um modelo de nıvel
local. A vantagem do segundo e que, o modelo de nıvel local por si nao permite que as
componentes de tendencia e sazonalidade sejam estocasticas, enquanto o metodo aqui
proposto admite essa propriedade.
Verificou-se, atraves de exercıcios de simulacao e aplicacao a dados reais que tal
metodologia tem um bom desempenho no que concerne a estimacao do vetor de estados
e predicao a um passo. Foi verificado, inclusive, que mudancas no padrao sazonal sao
77
captadas sem necessidade de intervencao manual. Ficou claro que as estimativas do
modelo via geometria da informacao - sem compatibilizar modelos ficam muito proximas
das obtidas via Conjugate Updating (West et al. (1985)). No que se refere oo modelo
via geometria que compatibiliza informacoes de um modelo estrurado e de um modelo de
media local, nota-se que suas estimativas vao dependender do peso dado a cada modelo,
podendo se aproximar mais de Conjugate Updating, ou do modelo de nıvel local. Quanto
ao ultimo, foi verificado que nao consegue captar mudancas no padrao sazonal, o que
pode estar relacionado ao fato de nao permitir que as componentes de sazonalidade
sejam estocasticas, conforme mencionado anteriormente. Embora Harvey and Fernandes
(1989) argumentem que essa nao e uma forte limitacao, acreditamos que e sim.
No que concerne a famılia exponencial k-parametrica o metodo apresentado por Souza
et al. (2016) foi visitado. Uma vez utilizada a priori definida por Bernardo and Smith
(2001), nos casos aqui apresentados, 3 parametros devem ser estimados. Entretanto
neste caso ha 2 funcoes de ligacao: uma para o parametro da media e outra para o
parametro de precisao. Observe que cada uma dessas tera sua media e variancia, alem
da covariancia que pode existir entre elas, totalizando ate 5 equacoes. Dessa forma,
nota-se que o sistema e super especificado: 5 equacoes para 3 parametros. A solucao
encontrada pelos autores foi utilizar o metodo de momentos generalizado para reducao
do sistema. Apresentou-se nesse trabalho uma extensao do metodo para a distribuicao
Multinomial. Foi verificado, atraves de simulacao, que a metodologia proposta consegue
captar o nıvel dos parametros, assim como a predicao a um passo acompanha a estrutura
dos dados observados.
Como trabalhos futuros, pretende-se desenvolver uma metodologia baseada em geo-
metria da informacao para a famılia exponencial k-parametrica. Alem disso, a expansao
da metodologia para dados composicionais.
78
Apendice A
Resultados secundarios referentes a
serie de vendas
A.1 Tabela de resultados do modelo Poisson via Ge-
ometria da Informacao que compatibiliza mode-
los
s ω EQM Preditivo Log- verossimilhanca1 0.90 0.50 74.62 -131.322 0.90 0.70 87.89 -132.663 0.90 0.75 91.78 -133.124 0.90 0.80 95.82 -133.625 0.90 0.85 99.97 -134.166 0.90 0.90 104.21 -134.747 0.90 0.95 108.50 -135.348 0.90 0.97 110.67 -135.659 0.90 0.99 111.97 -135.8410 0.90 1.00 112.84 -135.97
Tabela A.1: Tabela com os resultados obtidos de acordo com os parametros s e ω paraos 10 melhores modelos.
79
A.2 Cadeias obtidas pelo MCMC
0 1000 2000 3000 4000 5000
−0.
6−
0.4
−0.
2
Iterações
(a) β1
0 1000 2000 3000 4000 5000
−0.
6−
0.4
−0.
2
Iterações
(b) β2
0 1000 2000 3000 4000 5000
−0.
25−
0.15
−0.
050.
05
Iterações
(c) β3
0 1000 2000 3000 4000 5000
0.3
0.5
0.7
Iterações
(d) ω
Figura A.1: Cadeias resultantes obtidas pelo metodo MCMC para cada um dosparametros β e para o parametro ω.
80
Referencias Bibliograficas
Amari, S.-i. (2016). Information geometry and its applications. Springer.
Ameen, J. and Harrison, P. (1984). Discount weighted estimation. Journal of Forecasting,
3(3):285–296.
Bernardo, J. M. and Smith, A. F. (2001). Bayesian theory.
Gamerman, D., Santos, T. R., and Franco, G. C. (2013). A non-gaussian family of
state-space models with exact marginal likelihood. Journal of Time Series Analysis,
34(6):625–645.
Harrison, P. J. and Stevens, C. F. (1976). Bayesian forecasting. Journal of the Royal
Statistical Society. Series B (Methodological), pages 205–247.
Harvey, A. C. and Fernandes, C. (1989). Time series models for count or qualitative
observations. Journal of Business & Economic Statistics, 7(4):407–417.
Kass, R. E. and Raftery, A. E. (1995). Bayes factors. Journal of the american statistical
association, 90(430):773–795.
Nelder, J. A. and Wedderburn, R. W. M. (1972). Generalized linear models. Journal of
the Royal Statistical Society, Series A, General, 135:370–384.
Plummer, M., Best, N., Cowles, K., and Vines, K. (2006). Coda: Convergence diagnosis
and output analysis for mcmc. R News, 6(1):7–11.
Pole, A., West, M., and Harrison, J. (1994). Applied Bayesian forecasting and time series
analysis. CRC press.
81
Poole, D. and Raftery, A. E. (2000). Inference for deterministic simulation models:
the bayesian melding approach. Journal of the American Statistical Association,
95(452):1244–1255.
Powell, M. J. (1994). A direct search optimization method that models the objective and
constraint functions by linear interpolation. In Advances in optimization and numerical
analysis, pages 51–67. Springer.
Smith, J. (1979). A generalization of the bayesian steady forecasting model. Journal of
the Royal Statistical Society. Series B (Methodological), pages 375–387.
Smith, R. and Miller, J. (1986). A non-gaussian state space model e application to pre-
diction of records. Journal of the Royal Statistical Society. Series B (Methodological),
pages 79–88.
Souza, M. A. d. O., Migon, H. d. S., and Pereira, J. (2016). Extended dynamic generalized
linear models: the two-parameter exponential family. Computational Statistics & Data
Analysis.
Triantafyllopoulos, K. (2008). Dynamic generalized linear models for non-gaussian time
series forecasting. arXiv preprint arXiv:0802.0219.
Tsay, R. S. (2005). Analysis of financial time series, volume 543. John Wiley & Sons.
West, M. and Harrison, P. J. (1996). Bayesian forecasting. Wiley Online Library.
West, M., Harrison, P. J., and Migon, H. S. (1985). Dynamic generalized linear models
and bayesian forecasting. Journal of the American Statistical Association, 80(389):73–
83.
82