Métodos de Aproximação e Aplicação de MCMC na Estimação de ... · Métodos de Aproximação...

Métodos de Aproximação e Aplicação de MCMC na Estimação de Máxima Verossimilhança para

Processos AR(p) e MA(q)

'Marcia Fumi Mizoi

,ntador: Prof. Dr. Marinho Gomes de Andrade Filho

"Dissertação apresentada ao Instituto de Ciências Matemáticas e de Computação - USP, como pane dos requisitos necessários para a obtenção do titulo de Mestre em Ciências - Área: Ciências de Computação e Matemática Computacional"

São Carlos -1998-

"A nobreza do homem está

em sentir gratidão pelas

graças recebidas e gravá-las

no seu coração."

M. Okada

Agradecimentos

Acima de tudo a Deus que através de sua Luz me deu saúde e forças em todos os

momentos.

Ao meu orientador prof. Dr. Marinho Gomes de Andrade Filho pela realização deste

trabalho, pelo apoio dado principalmente no início e também pela possibilidade de iniciar

carreira na área estatística.

Ao João Eduardo pelo apoio, carinho e amor nos momentos mais difíceis.

Aos professores do ICMC que contribuiram para a minha formação, em especial aos

professores doutores Cassilda Maria Ribeiro e Marcos Nereu Arenales pelas contribuições

dadas no exame de qualificação.

À todos os amigos e à todos os funcionários do campus USP - São Carlos que direta

ou indiretamente me ajudaram na realização deste trabalho.

Ao Conselho Nacional de Desenvolvimento Científico e Tecnológico - CNPq pelo

apoio financeiro fornecido.

Resumo

Neste projeto, abordamos os modelos de séries temporais estacionárias do tipo AR(p)

e MA(q). O interesse é obter para estes modelos as- estimativas de máxima verossimilhança

exata. A diferenciação explicita da função de verossimilhança exata para se obter estas

estimativas, não é recomendável por envolver operações complicadas. Assim, [Box, Jenkins e

Reinsel - 1994] sugerem métodos numéricos baseados em aproximações. Em [Miller - 1995]

são apresentadas expressões mais simples para as derivadas da função de verossimilhança

junto com um algoritmo iterativo, no caso de modelos AR(p). O objetivo do presente projeto é

propor o uso de algoritmos de simulação de Monte Carlo com Cadeia de Markov (MCMC)

para o cálculo das estimativas de máxima verossimilhança. Aqui, os algoritmos utilizados

foram o amostrador de Gibbs em conjunto com o algoritmo de Metropolis-Hastings. Os

resultados obtidos usando MCMC são comparados com as estimativas feitas pelos métodos

numéricos propostos em [Box, Jenlcins e Reinsel - 1994] e [Miller - 1995].

Abstract

In this work, the autoregressive and moving average time series models are

considered. The main objective here is to use Markov Chain Monte Cano (MCMC) method

(Metropolis-Hastings algorithm and the Gibbs Sampler) to calculate the maximum likelihood

estimates in the ordinary sense (a point in the parameter space that maximizes the likelihood).

The porpoused method was applied to the simulated and real date record. The estimates

obtained by MCMC method was compared with likelihood estimate by iterative numerical

methods.

ÍNDICE

Capitulo 1 - Séries Temporais 1

1.1 Preliminares 1

1.2 Objetivos da Análise de Séries Temporais 4

1.3 Modelos para Séries Temporais 5

1.4 Objetivo e Roteiro 6

Capitulo 2 - Modelos Lineares Estacionários 8

2.1 Introdução 8

2.2 Condições de Estacionariedade e Invertibilidade 10

2.3 Modelos Auto-regressivos de Ordem p - AR(p) 11 2.3.1 Condições de Estacionariedade e Invertibilidade 11 2.3.2 Função de Auto-correlação 12

2.4 Modelos de Médias Móveis de Ordem q - MA(q) 15

2.4.1 Condições de Estacionariedade e Invertibilidade 15

2.4.2 Função de Auto-correlação 16

2.5 Modelos Mistos Auto-regressivos - Médias Móveis 18

2.5.1 Condições de Estacionariedade e Invertibilidade 18

2.5.2 Função de Auto-correlação 18

2.6 Função de Auto-correlação Parcial 19

Capitulo 3 - Função de Verossimilhança Exata 22

3.1 Função de Verossimilhança Exata para um Processo Auto-regressivo 22

3.2 Função de Verossimilhança Exata para um

Processo de Médias-móveis 28

Capítulo 4 - Métodos Numéricos para Estimativas de Máxima Verossimilhança 33

4.1 Métodos Numéricos para Estimativas de Máxima Verossimilhança para Processos AR(p) 33 4.1.1 Estimativas Mínimos Quadrados 33 4.1.2 Aproximação das Estimativas de Máxima Verossimilhança 34 4.1.3 ARMLE 36

4.2 Métodos Numéricos para Estimativas de Máxima Verossimilhança para Processos MA(q) 40 4.2.1 Estimação de Máxima Verossimilhança Condicional 40 4.2.2 Estimação de Máxima Verossimilhança Incondicional 42

Capítulo 5 - Método de Simulação de Monte Carlo com Cadeia de Markov (MCMC) para Estimativas de Máxima Verossimilhança

5.1 Introdução 46

5.2 Amostrador de Gibbs 47

5.3 Algoritmo de Metropolis-Hastings 48

5.4 Critério de Convergência de Gelman e Rubin 49

5.5 Aplicação de Métodos MCMC para Processos AR(p) 51

5.6 Aplicação de Métodos MCMC para Processos MA(q) 53

Capítulo 6 - Aplicação 56

6.1 Aplicação aos Modelos AR(p) 56

6.2 Aplicação aos Modelos MA(q) 77

Capítulo 7 - Conclusão 91

Bibliografia 93

Apêndice 95

Capitulo 1 - Séries Temporais

1.1 Preliminares

Uma série temporal é qualquer conjunto de observações seqüenciais no tempo.

Exemplos de séries temporais ocorrem em várias áreas, como economia, engenharia,

medicina, ciências sociais, meteorologia e oceanografia.

Representaremos a série temporal por;, t e T, onde T é um conjunto dos instantes de

observações. Quando T for um conjunto finito ou enumerável, como o conjunto dos inteiros, a

série temporal é dita discreta e quando T for um intervalo da reta, a série é dita contínua.

Em nossos estudos, trataremos de séries temporais discretas com observações feitas

em intervalos eqüidistantes no tempo onde denotaremos por z, a observação feita no instante

t„ ou seja, zi = z,,, i = 1, 2, ... , n.

A seguir são dados alguns exemplos reais de séries temporais com seus respectivos

gráficos.

a) Consumo de energia elétrica no Estado do Espírito Santo de 1977 a 1978, com 141

observações mensais [Morettin e Toloi - 1981];

b) Importações feitas pelo Brasil de 1973 a 1974, com 150 observações mensais

,[Morettin e Toloi - 1981];

c) índice do custo de vida de São Paulo de 1976 a 1977, com 126 observações mensais

[Morettin e Toloi - 1981];

d) Média mensal da temperatura do ar em Recife de 1953 a 1962 [Chatfield - 1989];

e) Total mensal de passageiros da linha aérea internacional, em milhares, de 1949 a

1960 [Chatfield - 1989].

O 5 10 15 20 25

fig.1 - Consumo de energia elétrica no Espírito Santo (Mwh) -janeiro de 1977 a dezembro de 1978.

1.600,0

1.400,0

1.200,0 ca o 1.000,0 to

800,0 o o. .E 600,0

5 10 15

fig. 2- Importações feitas pelo Brasil (106U5$) -janeiro de 1973 a dezembro de 1974.

COMUM°

o o 2 4 6 8 10 12 14 16 18 20 22 24

fig.3 - índice de Custo de Vida de São Paulo -janeiro de 1976 a dezembro 1977.

27 - V. _2 26 - 03 ?L3 25

R- 24 - a)

fig.4 - Média mensal da temperatura do ar (°C) em Recife - janeiro de 1953 a dezembro de 1962.

50 100 150

600 - 2 o —5oo - 0 0 o

kl 400 - o .c c.

o S200 - E c 100

È 300 - 2 E

fig.5 Total mensal de passageiros da linha aérea internacional - janeiro de 1949 a dezembro de 1960.

1.2 Objetivos da Análise de Séries Temporais

Os objetivos principais da análise de séries temporais são:

a) investigar o mecanismo gerador da série temporal;

b) descrever o comportamento da série;

c) fazer previsões de valores futuros da série;

d) procurar periodicidades relevantes nos dados.

Através da análise da série temporal construimos modelos matemáticos para a série.

Esta análise pode ser feita no domínio temporal, onde os modelos propostos são modelos

paramétricos, ou no domínio de freqüências, onde os modelos propostos são não-

paramétricos.

1.3 Modelos para Séries Temporais

Os modelos utilizados para descrever séries temporais são processos estocásticos, isto

é, processos controlados por leis probabilísticas.

Um processo estocástico é uma família de variáveis aleatórias {;(w), t c T, w c Q)

definidas num espaço de probabilidades (Q, A, P), tal que, para cada t c T, z(w) é uma

variável aleatóriae para cada w E Q fixado,; é uma função de t, ou seja, uma realização ou

trajetória do processo. Cada uma dessas trajetórias representa uma série temporal.

Uma suposição que normalmente é feita no estudo de modelos para séries temporais, é

a de que o processo é estacionário, ou seja, o processo se desenvolve no tempo de modo que a

origem não é importante.

Formalmente há dois tipos de estacionariedade: forte (ou estrita) e fraca (ou ampla, ou

de segunda ordem).

Definição 1: Um processo estocástico {;(w), t c T, w c Q} é fortemente estacionário se suas

distribuições finito-dimensionais são invariantes sob translações no tempo, isto é,

F(z„..., z ; t, + tr, + = F(z, ..... z„ ; t„ .... tn)

para quaisquer t,,..., t , T E T.

Definição 2: Um processo estocástico {;(w), t c T, w c Q} é fracamente estacionário se, e

somente se:

i) E[ztl = m, constante, para qualquer t E T;

ii) Var[zi] = a2, constante, para qualquer t E T;

Cov[z,,, = é uma função de t, — t,.

Processos fracamente estacionários cujas distribuições finito-dimensionais são

gaussianos são automaticamente fortemente estacionários. Estaremos interessados aqui

somente nos processos gaussianos fracamente estacionários, os quais serão denominados a

partir de agora simplesmente processos estacionários. No caso de processos não estacionários

homogêneos, isto é, processos cujo nível e/ou inclinação mudam com o decotrer do tempo,

estes podem ser transformados por diferenças sucessivas da série original, ou usando outros

tipos de transformações [Box e Cox - 1964], até se obter a estacionariedade.

A classe de modelos para séries temporais que vamos abordar aqui são os modelos

paramétricos auto-regressivos AR(p) e de médias-móveis MA(q) que serão introduzidos no

próximo capitulo.

1.4 Objetivo e Roteiro

Na análise de séries temporais, um dos passos importantes é a estimação dos

parâmetros do modelo matemático ajustado à série dada. Uma maneira de proceder esta

estimação é através do uso de métodos de estimativas de máxima verossimilhança. No nosso

caso estamos interessados em obter as estimativas para os modelos de séries temporais

estacionárias do tipo AR(p) e MA(q). A complexidade da expressão da função de

verossimilhança exata para estes modelos sugere o uso de métodos numéricos baseados em

aproximações como os apresentados em [Box, Jenkins e Reinsel - 1994]. Também em [Miller

- 1995] é proposto um método numérico, para o caso de modelos AR(p), que utiliza um

algoritmo iterativo baseado em expressões mais simples para as derivadas da função de

verossimilhança. Um método proposto para estimar os parâmetros de modelos MA(1) é

apresentado em [Anderson, et ai - 1996]. O objetivo deste projeto é propor como método de

obtenção das estimativas de máxima verossimilhança, o uso de algoritmos de simulação de

Monte Cano com Cadeia de Markov (MCMC), mais especificamente o algoritmo amostrador

de Gibbs [Casella e George - 19921 e o algoritmo de Metropolis-Hastings [Chib e Greenberg -

1995]. O uso de simulação de Monte Cano para cálculo de estimativas de máxima

verossimilhança foi proposto inicialmente por [Geyer - 1992] e [Geyer - 1994]. Nesse trabalho

é usado programação linear para encontrar o suporte da função de verossimilhança e então

achara distribuição da família exponencial neste suporte. Na proposta do nosso trabalho os

parâmetros dos modelos são interpretados como variáveis aleatórias cuja densidade tem como

núcleo a função de verossimilhança do modelo, então os algoritmos amostrador de Gibbs e

Metropolis-Hastings são usados para gerar uma amostra desses parâmetros e a estimativa de

máxima verossimilhança desses parâmetros é tomada como sendo a moda da amostra gerada.

Comparações entre os resultados da aplicação dos métodos numéricos e da aplicação de

MCMC foram realizadas para algumas séries temporais.

No capitulo 2 introduzimos os conceitos fundamentais da metodologia de Box &

Jenlcins para modelos de séries temporais estacionárias e descrevemos as propriedades básicas

necessárias para a identificação do tipo de modelo. A formulação da expressão da função de

verossimilhança exata para os modelos AR(p) e MA(q) é detalhada no capítulo 3 e a seguir,

no capítulo 4, apresentamos os métodos numéricos propostos em [Box, Jenkins e Reinsel -

1994] e em [Miller - 1995] para a obtenção das estimativas de máxima verossimilhança para

cada um destes modelos. Iniciamos o capítulo 5 apresentando os algoritmos de simulação

MCMC, amostrador de Gibbs e Metropolis-Hastings. Em seguida, descrevemos o

desenvolvimento da teoria necessária para a aplicação destes algoritmos nos modelos AR(p) e

MA(q). No capitulo 6 discutimos a aplicação dos métodos numéricos e do algoritmo MCMC

no caso especifico de séries geradas por modelos AR(1), AR(2), MA(1) e MA(2) fazendo

comparações entre os resultados obtidos. Finalmente, no capítulo 7 discutimos as conclusões e

as perspectivas de extensão do presente trabalho.

Capitulo 2- Modelos Lineares Estacionários

2.1 Introdução

Os modelos que analisaremos aqui são casos particulares de um modelo de filtro

linear. Neste modelo uma série de entrada a, é convertida em outra série y, através de uma

função de transferência, onde a série ; é um ruído branco. Um ruído branco consiste de uma

seqüência de variáveis aleatórias não correlacionadas, com média zero e variância constante

Formalmente, temos

y, = i ± a, ± stpla,„ + CO

= p ± a2 +E3a23 (2.1)

00 onde p é um parâmetro que determina o nível série. Quando Etfrj converge, então p = E[yi].

k. Chamando z, =14 /.4 , temes =

z =a2+a3 t t i=1

Também podemos escrever z, alternativamente, como uma sorfiá ponderada de

valores passados zt-1, zt-2 , ..., mais um ruído a„ isto é,

= ir1z ± 71-2 zi_2+ ai co

= zt j=1

As relações entre os pesos tP e os pesos Ir podem ser obtidas usando o operador

translação para o passado, denotado por B e definido por:

Bz, = zt_i

Binz, = zt,

A expressão (2.2) pode então ser escrita como

Z = ± E Bi a,

= tP(B); (2.4)

tP(B) =>B i=o

com 00 = 1.

O operador tP(B) acima, é o operador linear que transforma ; em z, e é chamado

função de transferência do filtro linear.

Analogamente, a expressão (2.3) pode ser escrita como

ir(B)z = a (2.5)

onde 7r(B) é o operador

7r(B) = 1 — E 71-213'

De (2.4) e (2.5), segue que:

7r(B)0(B)a, = a,

e, portanto

7r(B) = zi) 1(B) (2.6)

Com esta relação, podemos obter os pesos 71-,, conhecendo os pesos 0,, e vice-versa.

2.2 Condições de Estacionariedade e Invertibilidade

Para um processo linear, pode ser demonstrado que a estacionariedade é garantida se

as raízes do polinômio /P(B) estiverem dentro ou sobre o círculo unitário e, para que o

processo seja invertível, a condição é que a série 7r(B) convirja dentro ou sobre o círculo

unitário. Então, temos a seguinte proposição:

Proposição 1: Um processo linear será estacionário se a série 7P(B) convergir para IB< 1 e

será invertível se 7r(B) convergir para IBI < 1.

2.3 Modelos Auto-regressivos de Ordem p - AR(p)

Consideremos a expressão (2.3) no caso especial em que somente um ntl ro finito de

pesos vi é diferente de zero, ou seja, 7ri = 01, 7r2 = 02, ••• ar, = Op e 7rk = O para k > p.

Obtemos então, um modelo auto-regressivo de ordem p, que denotaremos de agora em diante

Zt = Zt_t + 02 Zt~2 0p Zt_p (2.7)

O modelo acima é usualmente identificado por AR(p).

Utilizando o operador B definido anteriormente, também podemos escreiver (2.7) na

O(B) = 1 — 0,B — cfr2B2 —

é o operador auto-regressivo de ordem p.

Proposição 2: Um processo AR(p) é estacionário se as raízes do polinômio O(B) = O estão

todas fora do círculo de raio unitário.

A proposição 2 é uma conseqüência do conceito de estacionariedade dado na imoposição1

como veremos a seguir.

2.3.1 Condições de Estacionariedade e Invertibilidade

O conjunto de parâmetros 4 ,(fr„ de um processo AR(p) deve sati$fazer certas

condições para que o processo seja estacionário.

Sejam i = 1, , p, as raízes do polinômio çb(B) = O. Então,

«B)= (1 — G,B) (1 — G2B) ... (1 G„B)

e, expandindo em frações parciais

1 A. 1C-tT3)

i=1 i=1

onde A, , i = 1, , p, são constantes. Então:

P 0-1 Zi - - (B)a, — E (1-GB)

Para termos a estacionariedade, zi)(B) = çb (B) deve convergir para (Bi

devemos ter IG,1 < 1, i = I, 2, , p. Esta condição é equivalente à de que

equação çb(B) = O estejam fora do círculo unitário.

1, ou seja,

raizes da

Visto que a série r(B) = çb(B) = 1 — çkB — 02B2 — — çkBP é fin ta, não há

restrições sobre os parâmetros de um processo auto-regressivo para segurar a

invertibilidade.

2.3.2 Função de Auto-correlação

Multiplicando ambos os membros da equação (2.7) por z 3, temos

zz = çb, + +

e, denotando por •-)•3 = = E [

z z } temos: t-;

= 01111-1 + 02111-2 + • • • +

pois E [atzt _i] = o , j > O.

Dividindo por 70, vem

= 01M-1+ 02 Pj-2 ± • • • ± 0,P3-p j > O (2.8)

Vemos da expressão acima que a função de auto-correlação pi é determinada pela

equação:

0(B),0; = o

para j > O.

Então, escrevendo

srb(B) = 1(1 — GA) i=1

pode ser mostrado que a solução geral de (2.8) é

Portanto, a função de auto-correlação de um processo auto-regressivo decai de acordo

com exponenciais e/ou senóides amortecidas.

Se substituirmos j = 1, 2,..., p em (2.8), obteremos um conjunto de equações lineares

da forma

A = 951 + 952A + • • • + 95,,P,-1

A = 951A +4)2 + • • • +

PP = 41P P-1 ± 4)2PP-2 ± • • • ± p

que são chamadas equações de Yule-Walker.

Na forma matricial, escrevemos

p1 p-2

q5,-q52

(2.10)

p3,_1 p,,-2 ... 1 _ _ P,

As funções de auto-correlações p acima, podem ser estimadas usando as seguintes

funções de auto-correlações amostrais

c r1 = —co

Li c. = — (zt _ z)( ze+j _7) n t=1

é a função de auto-covariância amostrai e

n = E Zt

é a média amostrai. Geralmente os valores de cj são calculados para j < 4.

Substituindo p, por suas estimativas 5 em (2.10), podemos obter estimativas dos

parâmetros 02,... , p do modelo AR(p). Este método de estimar os parâmetros é chamado

método dos momentos e oferece estimativas ruins quando o processo está próximo da

fronteira da região de estacionariedade no espaço dos parâmetros.

2.4 Modelos de Médias Móveis de Ordem q - MA(q)

Na expressão (2.2), se tivermos somente um número finito de pesos diferente de zero,

isto é, tp, = — 0,, = — 02, , tp, — e, e O, = O para k > q, então o processo

resultante é dado por:

= at — — 0,a,_2 — (2.11)

o qual é chamado processo de médias móveis de ordem q, e denotado por MA(q).

De forma equivalente, podemos escrever

= 0(B)a,

0(B) = 1 — 01B — 02B2 — — 0,Bg

é o operador de médias móveis de ordem q.

Visto que a série

0(B) = 0(B) = 1 —0B —02B2 — — 0,Bq

é finita, não há restrições sobre os parâmetros para que o processo seja estacionário.

Vamos verificar então, quais as condições para a invertibilidade do processo MA(q)

z = 0(B)a

Temos que

a, = Cri (B)zt

Portanto, se j = 1, , q, são as raízes do polinômio 0(B) = O, temos:

0(B) = 191 (1 — 115B) 1=1

e então, expandindo em frações parciais,

Mi ir(B) = 0-1(B) — E (1-H.B)

Para que o processo seja invertível, temos que r(B) deve convergir para IBI < I, ou

seja, devemos ter AI < 1,1 = 1, 2, ..., q. Visto que 1-1-11 são as raízes de 0(B) = O, segue que

a condição de invertibilidade para um processo MA(q) é que as raízes do polinômio 0(B) = O

estejam fora do círculo unitário.

Usando a equação (2.11), obtemos que a função de autocovariância de um processo

MA(q) é

= E [(a, — — — — 01a j_1 — — gat _ j_

Como a série ; é um ruído branco, temos que

E [42,a,_j] = a., se 3 = O

O, sej O

Portanto, a variância do processo é

= + o: + + o2)cf:

=( - Oi + + 020j+2 + + 0,0r) Cf: , j = 1, ..., O, j >

Das duas relações acima, obtemos a função de auto-correlação

—0i+010j+1+020i+2+

1+02+02+ Pi =

0, j > q

Vemos então que a função de auto-correlação para um processo MA(q) é igual a zero

para j > q. Esta propriedade é importante para identificar quando uma dada série é gerada por

um processo MA(q).

2.5 Modelos Mistos Auto-regressivos - Médias Móveis

Através da combinação de termos auto-regressivos e de médias móveis é formada uma

classe importante de modelos para séries temporais.

Um modelo misto auto-regressivos - médias móveis contendo p termos AR e q termos

MA, denotado por ARMA(p,q), é dado por

z, ckizi_, + ck2 z+ + çb z + a, — — — —

ck(B)z, = 0(B)a1

(2.12)

Temos que os termos de médias móveis que aparecem no lado direito da equação

(2.12) acima, não afetam o argumento usado para estabelecer condições de estacionariedade

de um processo auto-regressivo. Então, o processo ck(B)z, = 0(B)a, será estacionário sob a

condição de que o polinômio ck(B) = O tenha todas as raízes fora do círculo de raio unitário.

Analogamente, o processo será invertível se todas as raízes de 0(B) = O cairem fora

do circulo de raio unitário.

Consideremos a equação (2.12). Multiplicando ambos os membros por e tomando

esperanças, obtemos

= + + + + 'yza (j) — (j — 1) — — 6yyza(j — q)

(2.13)

onde ̂yz.(j) é a covariância cruzada definida por

(j) = E [atzl

Visto que z depende somente de choques a, ocorridos até o instante t-j, temos

f =O, se j > O 0, se j < O

Então, a equação (2.13) fica

= (1):Yj-1 + 027 .1-2 4". ' ' Op7i-P

e com isso obtemos a função de auto-correlação

pi = 01PJ-1 02p;-2 " OpPi- p >q

de onde concluimos que para j> q as auto-correlações comportam-se como nos modelos

auto-regressivos.

2.6 Função de Auto-correlação Parcial

Vimos que as funções de auto-correlação de cada processo visto anteriormente,

apresentam características especiais. Assim, tendo um conjunto de dados observados,

podemos estimar as funções de auto-correlação e, comparando o comportamento das funções

0k1 pI

PI P2 • ' • 1

Pk-2 Pk-3 ' • . 1

estimadas com as características teóricas dessas funções, podemos escolher um ou mais

modelos para descrever o processo que eventualmente gerou a série temporal.

Outro instrumento utilizado para facilitar a identificação do modelo, é a função de

auto-correlação parcial (facp).

Denotemos por Oki o j-ésimo coeficiente de um modelo AR(k), de tal Modo que Okk

seja o último coeficiente. Da equação (2.8), temos que Oki satisfaz o conjunto de equações

P.; = 9SkiPfri Ok2Pi-2 ± • • . OkkPi_k j = 1, k

levando às equações de Yule-Walker (2.9), que podem ser escritas na forma:

Resolvendo estas equações sucessivamente para k = 1, 2, 3, ..., teremos:

1 p1 2 P1 P2 aLIP2L 1 1—pi

Em geral, para Okk, o determinante no numerador tem os mesmos elementos que o

denominador, mas com a última coluna trocada pelo vetor de auto-correlações.

Ao valor kk , denominamos função de auto-correlação parcial.

Para os processos vistos anteriormente, temos que:

i) um processo AR(p) tem faelp Okk O, se k < pe kk = O, se k > p;

ii) um processo MA(q) é equivalente a um processo AR de ordem infinita, logo

O quando k —+ oo, então um processo MA(q) tem facp que se comportam de modo

similar às funções de auto-correlações de um processo AR(p);

iii) um processo ARMA(p,q) tem facp que se comporta como a facp de um processo

MA puro quando k > q.

Assim, como no caso das funções de auto-correlações, podemos usar as funções de

auto-correlações amostrais 5 definidas na seção 2.3.2 e obter estimativas para kk. Em

seguida, comparamos com as características dadas acima e escolhemos um modelo para a

série dada.

Os modelos escolhidos devem ser parcimoniosos (no sentido que o número de

parâmetros deve ser o menor possível) pois, para um número fixo de observações, quanto

mais parâmetros em um modelo, menos eficiente é a estimação dos parâmetros.

Após a identificação do modelo para a série temporal dada, partimos para a estimação

dos parâmetros. Empregaremos aqui métodos de estimativas de máxima verossimilhança, ou

seja, métodos que obtêm os valores que maximizam a função de verossimilhança.

No capítulo seguinte, veremos como obter a função de verossimilhança para os

modelos auto-regressivos e para os modelos de médias-móveis.

Capitulo 3 - Função de Verossimilhança Exata

3.1 Função de Verossimilhança Exata para um Processo Auto-regressivo

Vamos supor aqui que uma dada série z = (z z,1 1 7, z ) é gerada pelo modelo auto- n

regressivo estacionário de ordem p

z, — — 02z,_2 — — = a,

onde E [z] = O.

Assumindo que os a's e conseqüentemente os z's têm distribuição normal, temos que a

função densidade de probabilidade conjunta dos z's é

= (2,142-. IM(P)t exp{ — z' Af(Az a n jpn n

onde çb = (ø1'02' , çbp) e a matriz Mn(P) é dada por

71 70 • • • 771-2

m(p) {m} - I 2

I Gra =

com -yo, ...,7,,_, as autocovâriancias teóricas do processo.

Devido ao caráter reversível do processo geral, a matriz M.(P) é duplamente simétrica,

isto é, é simétrica em relação à ambas as suas diagonais principais.

Fazendo T = 3 a equação (3.1) fica

p(z„10,'r) = eirr12 1.11da(P)1 1/2 exp{ — .114-,P)k}

Observamos que, para z; = (z2 , z, , z.) fixado, as séries (an„ a1,.+2, an) e

(z.,+„ z.+2, z.) são relacionadas pela seguinte transformação:

= z — 1z — — —

an = z„ — — 02z._2 — —

Assumindo que os ap+1, ;4.2, ; têm distribuição normal, temos

n„ ..., a. lz,„ 0, 7) = ( -7.r )(4")/2exp — í rÉ a a: } { t=p-I-1

e, como o jacobiano da transformação é unitário, segue que

( tr )(n-p)/2

= eXp — (Z, — 01;_, — ... — OpZi_p) 2

{ t=p+1

A função acima é chamada função de verossimilhaça aproximada (ou condicional) por

estar condicionada em zp. Podemos obter a função de verossimilhança exata, para os dados

(z1, z2 , z.), através da seguinte equação:

p(zniq5, 7-)

p(zpiq5, 7-) -- ( \p/2M(P) I eXP{ Z. M(P)Z

P (3.3)

onde /14-64 é a matriz de correlação entre as p-primeiras observações, segue que

1/2 p(zn 10, 7-) = (ir 1/14",(P)1 exp{ — íS(q5)} (3.4)

P 71 2 S(q5) = E E trt(P)zzJ. ± (Zt OtZt_t OitZt_p)

i=1 i=1 t---"P+1

Veremos agora como calcular os elementos de /14",(1 ). Seja n = p + 1, de modo que

P P 2 62) M(P)Z = E E m ;z + (zp., — — — — opzi pél pèl ptl

i=1:2=1 ti .1

Então

o 02„ 0,0,, • • •

m(p) o (b2,, _, • • •

0 ... o — — Or, • •

e os elementos m(P) de /14.(P) podem ser deduzidos usando o fato que ambos M(P) e M(P) são if p 1, P+I

duplamente simétricos.

Assim, por exemplo, para p = 1

m(i) ine011 [ 1 — çb, 1 = —

— (1) i2

rn11 -I- ça1

Igualando os elementos nas duas matrizes, obtemos

771(1) = =

Im1(')1 =1- o:

Então, a função densidade de probabilidade para p = I é

p(znick,r) = r/2 (1 - 023

exp{— {(1 — 023 t=2

z: ± E (zi - 0,z)2}]

Analogamente, para p = 2, temos

m2(2) [ 1 - 022

1 — Çb22

i1%4,(2)1 (1+ 02)2 {(1 - 02)2 021 }

Portanto,

n141, = C“" [ ± 02)2 { (1 — 02)2 H — O: I O • 71

í{(1 — 02)(z: + ) — 20, (1 + 03ziz, +

Observamos que os elementos de Mp(P) gerados pelo processo acima são quadráticos

nos O's. Assim, de (3.5), temos que S(0). 114:(P)zn é uma forma quadrática não somente

nos z's, mas também nos parâmetros efr.

Definindo o vetor efiti = (1, çbi, 02, ..., Op), temos que, para alguma matriz D de

ordem (p+1) x (p+1) cujos elementos são funções quadráticas dos z's,

Mn(P)z„ = 4): Dçb

D„ — — —

- Di2 D„

— D1„1 D2,p+1 D3,p+I DP+1.p+I

A inspeção de (3.5) mostra que os elementos Dij são somas "simétricas" de quadrados

e produtos espaçados, definidos por

Du = D. = zizj + zi+1zj+1 + . +

onde a soma acima possui n — (i — 1) — (j — 1) termos.

Podemos agora escrever a densidade de probabilidade exata e, conseqüentemente, a

verossimilhança exata, como:

p(z,, = L(0, rlz„) = (fir ri2 11/1"P)

exp{ — -;• S (0)} (3.7)

S(0) -= M(P)Z + E - çblz, — t=p+1

— = (3.8)

Por conveniência, costuma-se trabalhar com a função log-verossimilhança

1(0, rIzn) = ln{L (0 ,r1z.)} = tit tri(r) + »hl — S (0) (3.9)

Estimativas de Máxima Verossimilhança

Os valores dos parâmetros que maximizam a função de verossimilhança, ou

equivalentemente a função log-verossimilhança, são chamados estimativas de máxima

verossimilhança.

Diferenciando a função (3.9) em relação a /- e em relação a cada um dos çb's, obtemos

= —1.ist(0)

(3.10)

= M ± r {D1J+1- 1D231 • . • j = 1, 2,..., p (3.11) 6q5i

ô{i lrilM(P)1} M1 = 2 P 6951

Igualando estas expressões a zero e resolvendo a equação resultante, podemos obter

estimativas de máxima verossimilhança.

Denotaremos aqui as estimativas dos parâmetros por ""r e 3 .

Uma estimativa para o parâmetro ré obtida diretamente da expressão (3.10)

(3.12)

Se para a obtenção das estimativas dos parâmetros Ø's simplesmente igualarmos a

equação (3.11) a zero, obtemos uma expressão complicada devido ao fator

No próximo capítulo, na seção 4.1, veremos três métodos que evitam o cálculo deste

fator.

3.2 Função de Verossimilhança Exata para um Processo de Médias-

móveis

Consideremos o modelo de médias-móveis invertível de ordem q, dado por

= a, — — — — (3.13)

e. onde os z's têm média = O, e suponhamos que uma dada série, zir p (z„ z„ zn) é gerada

por este modelo.

Supondo que os as e, portanto, os z's têm distribuição normal, a função densidade de

probabilidade conjunta dos z's pode ser escrita como:

p (zn Ia, = 24.2,-) I MtLq) I in exp{ —M(q)zft (3.14) ara r, ft

onde O = (9„ 92, Oq) e (MM)-lo-2 representa a matriz de covariância dos z's para um

processo MA(q).

Antes de definir a função de verossimilhança, vamos obter uma expressão mais

conveniente para a densidade acima. Através da equação (3.13), fazendo t -= I, 2, ... , n,

podemos obter as ri equações:

z = a, — 611 — 612a_1 — — 61„a,_„

z2 = a, — 611 — 612a0 — —

= a„ — — 612a„, — —

Vamos reescrever estas ri equações na seguinte forma matricial:

zy, = Ga ± Fa,,,

- z = (z„ z2,..., zn), a' = (a„ a„ ci„) e = (a,-0 a2-0> a0) é um vetor T.

q-dimensional dos valores preliminares do ruído;

- G é uma matriz triangular inferior de tamanho ri x ri formada por Is na diagonal

principal, -611 na primeira subdiagonal, -02 na segunda subdiagonal, e assim por

diante, com Oi = O, para i > q;

- F é uma matriz de tamanho ri x q da forma F = (.1319,, O')', onde

[61q 61q-1 • •• ei

Bq ,___ _ O Oq

••• • O O ... tjg

é uma matriz quadrada de ordem q e O uma matriz nula de ordem (ri — q) x q.

Agora, considerando o vetor formado pelos ruídos (a', a'„), temos que a distribuição

conjunta desses ri + q valores é dada por:

(n+q)/2 p(a,asla2) = 27+ exp{ — (da A- a.a.)}

Observamos que a transformação de (a, a„) em (z., a,) tem jacobiano unitário e é

dada pela relação a = G-1 (z„ — Fa.). Usando esse fato, e fazendo T = , podemos

escrever a densidade conjunta de z. e a, como:

p(z., a.I0, = &-IT'r)(n+q)12

exp{ — S(O , a.,)}

S(O, a.) = (z. — Fa.)/ G' G-1 (z„ — Fa.) +

(3.15) \

Utilizando a teoria dos mínimos quadrados generalizada, pode ser mostradcLmAtse

é o vetor que minimiza S(0, a.), então a. = D 1 F' G' G 1 z. onde D = + F' G' G ,

Além disso, teremos que:

S(0, a„) = S(0) + (a. — (a. —a.)

S(0) = S(0, a.) = (z. — Fasy G' 1G-1(z. — Fa.„) + (3.16)

Portanto, substituindo em (3.15), temos

,r,y2 p(z.119,7) =((4)n/ 1/?1- eXp{ — S(8)} (3.18)

p(z., asit 9 , = (Frl: )(n+q)I2

exp{ — 22: [S(8) + (as, --às)/ D ,

Visto que podemos fatorar a distribuição conjunta acima como o produto

p(z., asile 1, = p(z .11 9 , dr) p{a„.1 z.,1 9 ,

segue que:

)q12 p{asi z.,1 9 = (-57 [Dl exp{ — 22: Ra. —as)/ D ---414]} (3.17)

Agora, analisando a expressão (3.17), podemos deduzir que it. = E[a.jz„, O]. Para

simplificar, denotaremos esta esperança condicional por [a.]. Daí, usando o fato que

a = G-1 (z„ — Fa,.), concluímos que

[a] = G-1 (z. — F [a,l)

é a esperança condicional de a dado z„ e 19 e, substituindo em (3.16), vem

S(8) = [a]i [a] + [adia.] = Ê [a,12 (3.19) t=1-q

onde [as] = E [a, i ,19] .

Conseqüentemente, através das equações (3.18) e (3.19), obtemos finalmente a

seguinte expressão para a função de verossimilhança exata (ou incondicional) para um

processo MA(q):

n/2 _1/2 fl

Me, 7- exp{ 2

— E [aj

t="1-q

(3.20)

O cálculo dos estimadores de máxima verossimilhança para os parâmetros O só pode

ser feito numericamente.

No capitulo 4 apresentamos alguns métodos que possibilitam obter as estimativas de

máxima verossimilhança.

Destacamos aqui que o estimador de O que maximiza (3.20) é função das estimativas

de mínimos quadrados a..

Capitulo 4 - Métodos Numéricos para Estimativas de Máxima

Verossimilhança

4.1 Métodos Numéricos para Estimativas de Máxima Verossimilhança

para Modelos AR(p)

Exporemos aqui três métodos para a obtenção das estimativas dos parâmetros de um

modelo AR(p). O primeiro método utiliza estimativas mínimos quadrados obtidas resolvendo-

se um sistema linear de p equações. O segundo método obtém uma aproximação para as

derivadas — da expressão (3.11) e calcula as estimativas 7) de 4) através de um sistema 601

linear de equações similar ao do primeiro método. O último método propõe um algoritmo

iterativo, utilizando expressões mais simples para as derivadas da função log-verossimilhança.

4.1.1 Estimativas Mínimos Quadrados

Analisando a equação (3.7), observamos que para amostras moderadas ou grandes o

valor de 1114.(P)1 é pequeno em comparação a S(0), visto que o valor esperado de .9(0) é

proporcional a n e IM,(P)! é independente de a

Então, ignorando a influência deste termo, temos

1(0,-rik) c 9 ln(i) — (4.1)

e as estimativas 3 de cfr obtidas pela maximização de (4.1) são as estimativas mínimos

quadrados obtidas minimizando S(0). De (3.8) temos que S(0) = ck'Dck onde D é a

matriz definida em (3.6). Calculando esta expressão, diferenciando em relação a cada um dos

q5i's e igualando a zero, os valores de minimização obtidos são dados pelo sistema de

equações:

/312 =

31/322

+ 32/3z,

+ 32/3,3

+ 37,D3,41

Di,p+1 = D24,1-1 ± 1.-42 D3,n1 "+" " Dp+1,p+1

Em notação matricial, podemos escrever o sistema acima na forma

de modo que

= D-id

4.1.2 Aproximação das Estimativas de Máxima Verossimilhança

Vimos anteriormente na expressão (3.11) que

2 ± 7 {D OiD2J+1 • • Oppp-21..i+1 (50i

Então, dividindo por T e tomando esperanças obtemos

722- + (n— — (n— j-1).1517,-1 — (n — j — 2)952'4_2 — • • •

usando o fato que para os valores de maximização temos que E [81 (50i] = O.

Na seção 2.3.2, vimos que num processo autoregressivo as autocovariâncias são dadas

•••= 01")/3-1 + 02'YJ-.2 " • 4" OpeY

que pode ser escrito na forma

"Yi 4)17.i-1 — 027,-2 — • • • — 0„7„„ = O j > O

Agora, multiplicando esta expressão por n e subtraindo o resultado de (4.3), obtemos

m. = ± 1)01%-i — + 2)027 — • • • — +

Tomando — j — i) como uma estimativa de eybH, uma estimativa natural de

M1/r é

• D ;A-1 .D2,i+1 Dp+1,j-1-1 3 n-3 (i 1)01 n_i_j • • • - (i n-j-p

Substituindo esta estimativa em (3.11), segue que

61 D1,i+1 D2,j+1 ,4, 12-12:2L1 nr

9'1 n j —1 " • n—j—p ‘1",7

o que leva a um conjunto de equações lineares da forma (4.2), mas agora com

D. = nDu/{n — (ti — 1) — (j — 1)}

no lugar de D.

4.1.3 ARNILE

Este método, proposto por [Miller - 1995], é baseado em dois teoremas que propõem

expressões mais simples para as derivadas da função log-verossimilhança dada em (3.9).

Teorema 1: As derivadas da função log-verossimilhança em relação aos parâmetros 7 e q5

61 n 1 = Fr — g(41) (4.4)

61 r n P c50i —

j=1 = 1, 2, ..., p (4.5)

Prova: Obtemos a equação (4.4) pela simples diferenciação da função log-verossimilhança

em relação a 7. Provemos então a segunda equação. Temos que

61 1 6 I 'r 6

= tn -- o f • • =1, 2,..., p

óT5i 6q5; 6çbi

Desde que (3.7) é uma função densidade,

1/2 f p(z.10, 7) dz. = f (f -ir r/2 1/1//,041 exp{ — S(0)}dz„ = 1

o que implica

1a ( f;r)R

12 imp(P)1 = [ f exp { —

Aplicando logaritmo em ambos os lados desta expressão, vem

tn(*) + = — tn[f exp { — s(0)}dz.]

e diferenciando cada lado em relação a 0,

f {(9 -12)(5150i) S(0)} exp S(Ø)}4,, - f S(0)}drn

= 1E{A—S(0)} 2 .50i

Substituindo (4.7) em (4.6), obtemos

61 _ r rE r ikS(0)} - i = 1, 2, ..., p (4.8)

Usando o fato que (3.8) pode ser escrito na forma

S(4)) = D„ — 2 j=1

± OiDi+7.k+70k j=1 k=1

podemos verificar que

45(0) = -2 {D,1.1 — y5j./3,+1J+1 j=1

(4.10)

E{ ¡ti S(0)} = — 2 {E(./31+1,1) — xOJE(D1+1 j+1) j=1

= — 2. { j=1

= 2 { i)-Y, — — + J=1. .1=1

Da equação de Yule-Walker para modelos AR(p), temos

7,-- Egsfrfri i=1

E{ »-LS(0)} = 60i

i = 1, 2, ..., p (4.11)

Finalmente, substituindo (4.10) e (4.11) em (4.8), obtemos

= - 2 E+ 2 Di+u — 5=1

= T {6+1 - E q5 (Di+1j+1 y

Teorema 2: As equações de verossimilhança obtidas igualando as expressões (4.4) e (4.5) a

zero podem ser expressas na forma

D „ E o, (D,,, + tr;) + j=1

D i+1,1 = E O, +

(4.12)

(4.13)

Prova: A equação (4.13) 6 obtida simplesmente igualando a expressão (4.5) a zero. Vamos

então provar a equação (4.12). Igualando (4.4) a zero, obtemos

e reescrevendo (4.9) na forma

5(0) - E — E 0, { D — E j=1 i=1 5=1

segue que

= E çbiD1,1 + E 0, D 1 - E + .1=1 i=1 5=1

(4.14)

(4.15)

Da equação (4.13), vem

Di+1,1 E çbiD,+,J+, = E .0,7fri j=1 j=1

e, portanto

Du = E çbi(D11+1 hi) + 5=1

A seguir é apresentado um algoritmo iterativo para obter as estimativas de máxima

verossimilhança de '7- e Ø.

Ãlgoritmo:

1) Calcule a matriz D e as estimativas iniciais de ey, = , 7p) usando

autocovariâncias amostrais.

2) Usando D e as estimativas de en, correntes, resolver (4.12) e (4.13) para obter

estimativas de g' e Ø.

3) Use

-=j=1 0.7. I 1-

para obter estimativas atualizadas de substituindo as estimativas correntes de T

4) Repita os passos 2) e 3) até que -y„, 7- e estabilizem em pontos estacionários -y:,

T. e 0*.

Quanto à convergência deste processo iterativo, [Miller - 1995] afirma que embora não

se possa provar formalmente a convergência, para um conjunto de dados suficientemente

grande e bem modelado por um processo auto-regressivo estacionário, geralmente os pontos

estacionários são alcançados rapidamente.

4.2 Métodos Numéricos para Estimativas de Máxima Verossimilhança

para Modelos MA(q)

Veremos nesta seção dois métodos de estimação de máxima verossimilhança para a

obtenção das estimativas dos parâmetros 61 e ci-c de um modelo MA(q), utilizando mínimos

quadrados.

4.2.1 Estimação de Máxima Verossimilhança Condicional

Para o modelo MA(q) invertível

z, = a, — O1a 1 — 02( 2 — — Oa1 (4.16)

supondo que os at's são normalmente distribuidos, a função densidade de probabilidade

conjunta de c/1, ao, ..., an é dada por:

p(a„ ao, an) = exp Tig a a t=1

Podemos reescrever (4.16) na seguinte forma:

at = + O1 a 1 62a2 _2 + + ei ct,_4 (4.17)

e, então, assumindo que q valores iniciais al _o, ao _o, ..., ao são conhecidos, podemos obter a

função de verossimilhança dos parâmetros. Suponhamos então que o vetor = (a1-0 ao) seja dado. A função de verossimilhança condicional a esta escolha de af é dada

1 , ct..) = (-2- 21ria exP ÉrT I9 a q )2

n/2 71

Aplicando o logaritmo e fazendo r = -(17.7 , a função log-verossimilhança condicional é:

1. (6 1,r I = 7itin(á-yr) — S.(6) (4.18)

S.(61) = (61 I z n, ct,.) (4.19) t=i

é a função soma de quadrados condicional.

Observando que a expressão (4.18) envolve os dados somente através de (4.19), segue

que, para qualquer valor fixado r, o valor que minimiza S.(61) será também o valor que

maximiza 1. (09,T I z, a.) , ou seja , será o estimador de máxima verossimilhança

condicional para o modelo.

Uma maneira de especificar os valores do vetor an é assumir a1q = = =

ao = 0. A seguir, utilizando a expressão (4.17), podemos calcular ;, t = 1, , n para vários

valores de 09 e conseqüentemente S.(61). Após obter a estimativa , a estimatiVa'-f- de T pode

ser encontrada de

— df

onde d f é igual ao número de termos usado no somatório de S.(6) menos o número de

parâmetros estimados, ou seja, d f = n—(q + 1).

4.2.2 Estimação de Máxima Verossimilhança Incondicional

Na seção 3.2 apresentamos na equação (3.20) a expressão da função de

verossimilhança incondicional:

n/2 9,7- I z )

-1/2 = (1--) IDI exp{ — E [ag] 27r

Aplicando o logaritmo, temos:

1(09,T1Zn) = In(*) + f (09) — S(09)

(4.20)

onde f (09) é uma função de 09 dada por InPI '12 e

S(0) = E [a.,]2 t=i-q

(4.21)

é a soma de quadrados incondicional, com

[as] = E [a, I z„ , (4.22)

denotando a esperança condicional de a, dado z. e O.

Para amostras de dados de tamanho moderado ou grande, o valor de f(0) em (4.20)

será pequeno. Conseqüentemente, estimativas mínimos quadrados de O obtidas minimizando

S(0) serão boas aproximações para os estimadores de máxima verossimilhança.

O cálculo de S(0) para um dado O, é feito gerando-se os [as] 's recursivamente da

expressão

[ai = [z1] -I- 91[a1 _1] + 0,[a,..2] + + 9 [a1_,1 (4.23)

a qual é obtida tomando-se esperanças condicionais em (4.17). Entretanto, para inicializar este

processo recursivo, é necessário o conhecimento dos valores iniciais [zo], [z_j, , [z] afim

de calcular [as] para t < 1. Para gerar estes valores, utilizamos o procedimento sugerido por

Box e Jenkins chamado "backforecasting" ou "previsão para o passado". Este procedimento é

baseado no fato que o modelo (4.16) também pode ser escrito na forma "bacicward":

zt =e—Be —Be — —08 1 1+1 2 t+2 t+9 (4.24)

1 OIF — O,F4 — — 9,,Fq) e,

onde e, é um ruído branco com a mesma variância que at eFéo operador translação para o

futuro dado por F; z, =

Reescrevendo (4.24) na forma

e, = z + O, e,,, + 02e1~2 + 0,e1„

e, tomando esperanças, vem:

[ej == [z1] 1- 0,[e„i] 02[e12] H- ... -F 0,[e1„] (4.25)

Então, a partir desta relação, assumindo que [e 1] = O para t = n + 1, n + 2, , e

usando o fato que [zi] = zt, para t = 1, , n, calculamos:

[eal = [zr,] + 9,[e n+,1+ + [e„,1

[e n_,] = [zn _1] + Oi [e„] + + O [e,-,+,}

[e0] = [z0] + 0 [e ,] + . . . + 0 g[e

[6_ 1 ] = [z_i] +91[e0] + +00[e01]

[e i _g] = Fz 1 + 0,[e2 _,1+ + 0,[ei ]

Como nas últimas q equações temos que [eo] = [e _ i] = = O, pois eo, e_i, ... são

independentes de zn, podemos então tirar os valores de [z0], [z_ 1], , [zi g]. Finalmente,

usando a relação (4.23) geramos [ai , t = 1 — q, 2 — q, , n levando em consideração o fato

que [a ] = [a 1 ] = = O, pois a , a_q_l, ... são independentes de zn num processo -q- _q

MA(q).

Realizamos este procedimento e calculamos S(0) para vários valores de O. O valor

que minimizar S(0) será então o estimador de máxima verossimilhança para o parâmetro O.

Após calcular a estimativa --"Õ , a estimativa lr de r pode ser encontrada de

— S(7))

No capítulo 6, ilustraremos em exemplos o procedimento acima bem como o

procedimento condicional da seção 4.2.1.

Capítulo 5 - Método de Simulação de Monte Carlo com

Cadeia de Markov (MCMC) para Estimativas

de Máxima Verossimilhança

5.1 Introdução

Considerando a função de verossimilhança L(A), A A (espaço de parâmetros), para

os modelos AR(p) ou MA(q), podemos construir uma função densidade de probabilidade por:

p(À) = —c L(A)

Desta forma, o estimador de máxima verossimilhança 5.k é a moda da densidade p(A).

A vantagem desta interpretação é que podemos calcular usando algoritmos de

simulação MCMC, sem necessidade do conhecimento da constante c. Esses algoritmos

simulam no espaço de parâmetros uma cadeia de Markov cuja distribuição estacionária seja

dada por p, de modo que, para uma iteração suficientemente alta da cadeia podemos

considerar que os valores finais simulados representam amostras da densidade desejada.

Neste capítulo, apresentamos dois desses algoritmos que atualmente têm recebido

considerável atenção.

5.2 Amostrador de Gibbs

Seja p(À), À = (A1, A2, , )i), uma função densidade conjunta da qual seja difícil

gerar amostras diretamente. Porém, suponhamos que as densidades condicionais completas

são conhecidas e possíveis de simular. O amostrador de Gibbs, [Casella e Geol-ge - 1992], é

um método iterativo que nos permite gerar amostras da densidade de interesse p(A) simulando

cadeias de Markov através das condicionais.

O algoritmo simula amostras Aiw ,A,(2) ..... A,(') de cada parâmetro A, E À. A partir destas

amostras podemos então, obter estimativas de máxima verossimilhança encontrando o vetor

que maximiza p(À). O algoritmo é baseado em sucessivas gerações das distribuições

condicionais completas e é apresentado a seguir.

Algoritmo:

1) Faça j = 1 e forneça um valor inicial arbitrário À(D) = (À° , , ).

2) Calcule um novo valor X01 = (Au: ) a partir de X(1-1) = (AL71), , À")

através de sucessivas gerações de valores

p(Ai Ar) A3(/-1), Aro-i) )

(A ( r.4 Nn

1 21 ) ) • • • /

Al(n p( AU) , AU) )

3) Faça j 4— j + 1 e repita 2) e 3) até a convergência.

A convergência deste algoritmo ocorre quando após um número finito de iterações

temos que a amostra gerada é uma amostra da densidade conjunta p(À).

5.3 Algoritmo de Metropolis-Hasting,s

Assim como o amostrador de Gibbs, o algoritmo de Metropolis-Hastings também é

utilizado para gerar amostras de uma densidade p(À), mas no caso em que as densidades

condicionais não têm forma padrão conhecida. Neste caso, poderhos escrever

p(A) oc W(A)q(A) onde q(A) é um núcleo com forma padrão conhecida e, portanto, é possível

gerar amostras A de q(À). Quando não é possível fatorar p(À), mesmo assim é possível

escolher um núcleo q(A) para gerar novos valores. Métodos de escolha deste núcleo são dados

em [Chib e Greenberg - 1995]. O algoritmo introduz uma probabilidade de aceitação do valor

simulado de q(À), chamada "probabilidade de movimento", afim de garantir que esse valor

represente uma amostra de p(À).

Apresentamos a seguir o algoritmo:

Algoritmo:

1) Faça j = 1 e forneça um valor inicial arbitrário A" = (Ar) , , ).

2) Gere um novo valor )3 a partir da densidade q( • ).

3) Calcule a probabilidade de aceitação do novo valor gerado 0:

a( A(1-1), ) = min{1, (/5)q(P) xp( À(3-1))q( Ào-0) Au-1)k( )(1-1)

4) Gere uma variável aleatória uniforme u e, U(0, 1).

u) 0, se u < 5) Faça A =

, caso contrário

6) Faça j 4— j + 1 e volte ao passo 2) até a convergência.

Na prática, para os dois algoritmos apresentados, a formação da amostra A(1), Am

A.(3) de cada parâmetro de interesse À, E À, é feita tomando-se valores gerados após a

convergência e espaçados de k iterações (afim de obter amostras não correlacionadas).

Para identificar e monitorar a convergência, utilizamos aqui o critério de convergência

proposto por [Gelman e Rubin -1992].

5.4 Critério de Convergência de Gebnan e Rubin

O método proposto por Gelman e Rubin, consiste em utilizar paralelamente mais de

uma cadeia com valores iniciais distintos e arbitrários e analisar a variância entre as médias de

cada cadeia comparando com a média das variâncias dentro de cada cadeia. O método é

formado pelos seguintes passos:

1- Simular m > 2 cadeias, iniciadas com valores distintos e arbitrários. Descartar uma

parte inicial das iterações, para diminuir o efeito da dependência dos valores iniciais, e

considerar as n iterações restantes.

2- Calcular para cada parâmetro escalar de interesse A:

B = — )2 / (271 — 1) : variância entre as médias das m cadeias

rn W = Es

2 /m : média das variâncias dentro das m cadeias

onde k são as médias das m seqüências, cada uma baseada em n valores de À, é a média

2 destas médias e s = E( À — k.)

2 / (n — 1).

3- Estimar a variância c2por uma média ponderada de B e W da seguinte forma:

^-2 n-1 1 = W + —nB

Note que é uma média amostral usada como estimador de p = fÀp(À)dÀ e a2 é

um estimador não viciado de a2 = f (À - it)2p(À) dÀ. 2

4- Sob a hipótese de que a distribuição de equilíbrio é N(2' ., a), adota-se uma

aproximação desta distribuição por uma t-Student com parâmetro de locação e parâmetro

de escala

com grau de liberdade df:

Vrf( = mBn

f 2V (1-1 var( V)

Vard7) = 71 'n var(s2 i) (77.mn1) B2

± 2 (m+1)(r-1) ri r ( )

mn m [CM S —2 ca(s„ )1

5- A convergência pode ser monitorada calculando-se o fator de redução de escala

\/CP) $— w df —2

o qual decresce para 1 quando n oo.

6- Se estiver próximo de 1, a convergência é sugerida. Caso contrário mais

simulações devem ser feitas.

Note que

n-1 m±1 (Bln W = m W

2 O Portanto, quando a distribuição de equilíbrio é atingida, W a2, n e w —) 1 quando

n, oo, logo .Vri R:: 1.

5.5 Aplicação de Métodos MCMC para Processos AR(p)

No capítulo 3, vimos na expressão (3.1.7) que a função de verossimilhança exata para

processos AR(p) é da forma:

(O, TI Zn = ) ni2 I M(P) I exp — M(P)z + E - 01;_1 - - rfipzt_p) 27r

t=p-F1

As estimativas de máxima verossimilhança podem ser obtidas, aplicando-se o

algoritmo de Metropolis-Hastings. Inicialmente, vamos reescrever a verossimilhança acima

como o produto de duas funções. Para isso denotemos:

z„, z e

2 = °•2

p px (n--PkP

Podemos então, escrever o somatório da expressão na forma

2 Ê (fii _ OpZt_p) = (Y — Xefr)'(Y — XØ)

t=p-F1

Zpt2 1

É possível mostrar que:

(Y — Xq5).(Y — Xq5) = (q5 — ;5) X IX (q5 — ;5) (Y — 1-11(Y —

= (XX )-1x'y

1-7=x-çs=x(xix)-1x7

O vetor 3 é denominado o estimador de máxima verossimilhança quando usamos a função de

verossimilhança "aproximada" - [Box, Jenlcins e Reinsel - 1994].

Assim, podemos escrever a função de verossimilhança exata como

definindo-se as funções

)(n-1)121Mp(P)1 expi — [z;MP)zp (Y — £7).(Y — f1-)1}

W2 (01 7) = (*)1/2 exP[ —

Portanto, W2(0) 7) é uma normal p-dimensional com média -; e precisão 7X X.

Seja p(0 , = 2(0,7). Temos que

p(017) N ( , (rX X)-1)

v(710) r0,.1.(0-?)xix (0-3))

Então, podemos aplicar o algoritmo de Metropolls-Hastings utilizando as densidades

acima para gerar os candidatos da amostra, sendo que a probabilidade de aceitação de cada

candidato 0(9 — p(017) é dada por

a = min I, W/(050))

0-1) 1 W 95 T) ,

e a probabilidade de aceitação de rú) p(rid)) é dada por

a = min{ I, W'(4), }

2 0-1) Wi( ÇA) )

A aplicação do algoritmo para os casos particulares do AR(1) e AR(2), são ilustrados

no próximo capítulo.

5.6 Aplicação de Métodos MCMC para Processos MA(q)

Vimos na seção 3.2 que para processos MA(q), a densidade conjunta de z. e cts, é dada

)(n+q)I2 p(z., asi6 = exp{ —=5"- [(z. — FasY (z. — Fas) + ct;ct,,,]}

que pode ser escrita na seguinte forma:

n/2 p(z., , = exp{ — [(z. — F ct..)' G'

-I G-1 (z. — Fa.1}

. exp{ — a.,}

A equação acima pode ser interpretada como

p(z., asle , = e,

onde temos:

p(zn e, = )ni2exp{ — [(z. — FasY Gr' G-1 (z„ — Fas1}

) q/2 p(C3/4,10, = (Fr eXp{ — aa.}

Supondo conhecido o valor de a., podemos estimar os parâmetros e e T usando a

função de verossimilhança exata:

L(0,7- 1 zn, a.) = p(zn las , e, p(asle,r)

ou seja,

n/2 -1 -1 L(0,7- 1z., ct.) = (-ir) exp{ — [(z. — FasY G' G (z. — Fas1} q/2

T • exP{ cts.a*}

Observemos que:

p(e T, zn) cc rnP exp{ — [(z. — Fa.,Y Gri G-1 (z„ — Fa41}

per I e , a„„z„) CC T(n")/2exp1 — S(0, ci.)}

S(09, cs.) = (z. — Fa.,.)' Gr' G- (z„ — Fas)

Então, utilizando os algoritmos de Gibbs e Metropolis-Hastings, implementanios o

seguinte algoritmo: ( (0)

1) Fazer j = 1 e dar os valores iniciais ao) s , 7 e 9

2) Gerar:

ca(,),1 p(c1.10a-» , ru-'));

Tu' p(r 16P-1) ,a.u) ,z.);

Ou' p(6) (j) ,a., z);

3) Fazer j j 1 e repetir os passos 2) e 3) até convergência.

Note que:

r•-• N (O, ')

r +1, ";,a*))

p(0 7, z, a.).

Então, podemos utilizar o amostrador de Gibbs para gerar a,,, e 7- e, no caso de O, como

não é possível identificar uma distribuição conhecida, utilizamos o algoritmo de Metropolis-

Hastings tomando como núcleo uma distribuição normal.

No próximo capítulo ilustraremos a aplicação conjunta do amostrador de Gibbs com o

algoritmo Metropolis-Hastings para o caso MA(1) e para o caso MA(2).

Capitulo 6- Aplicação

6.1 Aplicação aos Modelos AR(p)

Ilustraremos aqui a aplicação dos métodos apresentados na seção 4.1 e do algoritmo

Metropolis-Hastings para modelos AR(1) e AR(2). Para o caso AR(1), inicialmente

apresentamos em detalhes a obtenção da função de verossimilhança exata.

e Modelo AR(1):

Vamos analisar o modelo auto-regressivo estacionário de ordem 1, ou AR(I),

z, = ± a,

com ; — N(0, T-'). A condição de estacionariedade do modelo é satisfeita quando para o

parâmetro irk tivermos -1 <4) G 1.

Suponhamos que o conjunto de observações in = (z„ z2, zn) seja gerado pelo

modelo acima. Vamos primeiramente, construir a função de verossimilhaça para o processo.

Temos que a densidade de probabilidade conjunta de (a„ a„ a,2) é dada por

{ p(a, , a3, ..., anlz,, ck , r) = eiii) fr-I)12 exp — :5: Ê a: 2--4

Reescrevendo o modelo na forma

zt — Ozt-1 = at

e, fixando z = (z1, z2, z), podemos relacionar (a„ a„ an) e (z2, z„ z„) pela

seguinte transformação:

a2 = z, — Oz,

= z3 -

= zr, —

A transformação acima tem jacobiano unitário, o que implica que podemos escrever

p(z2) ••') znIZI )0)7-) — ( )(n-I)/2 exp{ — En (Z — — 27r 2 t=2

que é a função de verossimilhança aproximada (ou condicional). Podemos obter a função de

verossimilhança exata, para os dados (z„ z2, z.), através da seguinte equação:

z„..., z„10, 7-) = z„ znIzi , 0, p( 7-)

p( ;10 , (f)'12 (1 — cb2)1/2 exp{ — (1 — 02)z:}

então, segue que a verossimilhança exata é

p(z.frp, 7-) = 1,(0, zn) = r/2 — (152) 1/2 eXp [ — { (1 — ( j52) Z: En — C/5Zt_i t=2 2 }]

e a log-verossimilhança

/(0, TI z.) = 72k /n(r) + -Pn(1 — 02) — { (1 — 02)z21 + ti —)2 } t=2

A matriz D definida na seção 3.1, para o modelo AR(1) é dada por:

D = [ D11 DI2

-D12 D22

= Z: ± Z22 ±Z: Di2 = Z2 ± Z2Z3 Zn_i Zn

e, fazendo S(0) = 0:D0., onde 0: = (1, 0), obtemos

S(q5) = li11 — 2 0 D2 + D„

Substituindo este valor na expressão

/(0,71z,) = t ln(7) + In(1 — 02) —

podemos então, aplicar os métodos numéricos apresentados na seção 4 1

Nesses métodos, as estimativas para 7 são obtidas resolvendo-se- a expressão

'3= = nIS(0). Para os métodos das seções 4.1.1 e 4.1.2, as estimativas para q5 são dadas por

= D12/D2, e = (n, — 2)D „ I (n — nDn, respectivamente. Para o método da seção 4 1 3,

a estimativa de q5 é obtida resolvendo iterativamente os sistemas

f D„ = 0(D12 + 72) + nI7 = 0(1322 + 70)

70= 071 + 1/7

7, = 070

até obter pontos estacionários.

Mostramos anteriormente no capítulo 3, que a expressão da função de verossimilhança

exata para um modelo AR(1) é da forma

L(0, 71 z„) = (ir) „

— 02)2 exp [ Ç/52

)z2, (z, — q5z,_32 }]

Para a aplicação do algoritmo de Metropolis-Hastings, vimos na seção 5.5 que

devemos reescrever esta função como

1,(0, zn) = ( )"/2 — 02)1/2eXp[ — 02)Z2] .

. eXP í{(0 — )XX? (0 + — (Y-1).) ?")}]

.3 , x = Z2

(Xcx yix'y e

Agora, definindo as funções

), = ('á')("-')"cp2)1/2

V2(0,1-) = (iLir Y2 exp[— 5:(0 —) X I X (-3)]

podemos escrever

L(cb :Az.) =

Seja p(c 1-) = V2(0, r). Então, a aplicação do algoritmo pode ser feita simulando-se

valores das densidades

p(011-) N , (1- X X)-1)

perlo) — , — 7b) (0 —7b))

-1) e usando a probabilidade de aceitação para O) dado r°

{ co } `I'l(d) , •r) al = min 1 ,

para cada valor simulado 06), e a probabilidade de aceitação de 1-0

a2 = min 1, W1(0'rW)

W1(0,1" )

Como ilustração, vamos apresentar a aplicação dos resultados acima para a série de

dados reais formada pelas vazões médias mensais do reservatório de Sobradinho durante 48

anos, no período de janeiro de 1931 a dezembro de 1978. O gráfico da série é dado pela

figura a seguir.

100 200 300 400 500 600 t

fig.1 - Gráfico da série real Sobradinho com 576 observações.

As estimativas obtidas por cada um dos métodos são dados na seguinte tabela:

Tabela 1 - Valores ajustados para a série Sobradinho.

J Estimat. Mínimos Quadrados 2.53854 0.74961 Aproximação das E.M.V. 2.53853 0.74831 ARMLE 2.53853 0.74832 Metropolis-Hastings 2.52236 0.75113

Observamos que para os métodos numéricos, os resultados foram bastante próximos e

que não houve muita diferença entre os valores obtidos destes métodos com o método

A seguir, mostramos o gráfico gerado através da expressão da função de

verossimilhança exata para um modelo AR(1), calculada a partir dos dados com 7' variando

no intervalo [1.8, 3.2] e q5 no intervalo [0.55, 0.95].

Função de Verossimilhança Exata

x 10-239

Cavas S Níveis 3

2 06 0.7 ü8 0.9

fig. 2 - Gráfico da função de verossimilhança e curvas de níveis para a série real Sobradinho.

A partir da estimativa -e-k- = 0.75113 obtida por Metropolis-Hastings, calculamos

previsões de 1 passo à frente (vide apêndice) para 36 dados da série, referentes ao período de

janeiro de 1979 a dezembro de 1981. As previsões calculadas e os dados reais são mostrados

no gráfico seguinte.

fig. 3 - Previsão 1 passo à frente para 36 meses da série Sobradinho.

25 3 35 tau

o • 5

H 01) O

0.65 0.7 0.75 0.8 0.85 0 9 phi

No caso do algoritmo de Metropolis-Hastings, para cada parâmetro foram simuladas 2

cadeias com 22500 iterações cada. Para a amostra final, foi descartada 30% da parte inicial de

cada cadeia, e tomados valores espaçados de 30 iterações (devido à alta correlação entre os

valores gerados), fazendo um total de 1050 amostras para cada um dos parâmetros de

interesse.

Na tabela 2, apresentamos um resumo dos resultados obtidos pelo algoritmo.

Tabela 2 - Metropolis-Hastings para a série Sobradinho.

Média 2.52582 0.74930 Moda (EMV) 2.52236 0.75113 Mediana 2.51964 0.74966

a - (critério de converg.) 1.00319 0.99923

Usamos o critério de Gelman e Rubin para verificar a convergência e neste caso

< 1.01.

Nas próximas figuras, apresentamos os histogramas construídos com as amostras

selecionadas para cada parâmetro e, em seguida, os gráficos mostrando a convergência das

duas cadeias simuladas.

fig. 4 - Histogramas das distribuições aproximadas de T e 0.

0.5 1 1.5

iteração ( 10' )

-E 0 5 r-

O 0.5 1 1.5 2 2.5

iteração ( x 104)

fig. 5 - Gráficos com todos os valores simulados para T e 0.

0 , 0 0.2 0.4 0.6 0.8 1

phi fig. 6 - Gráfico mostrando a convergência das duas cadeias geradas, com seus repectivos pontos de partida.

• Modelo AR(2):

Vamos agora analisar o modelo auto-regressivo estacionário de ordem 2, ou AR(2),

z, = z1_1 + z1_2 + a,

onde a, N(0, r-i). Para garantir a estacionariedade, pode ser mostrado que 0, e 02 devem

satisfazer as seguintes condições: 4), + 01 < 1, 02 — < 1 e — 1 < 02 < 1. Suponhamos

que o conjunto de observações da série fy, = (z1, z2, zn) seja gerado pelo modelo acima.

No capítulo 3, vimos que a função de verossimilhança exata para este modelo é:

L(0, 7-1 zn) [ (1 ± ( 2)2 {(1 0 2)2 0:}].1

ex p [ — {(1 — z22) — (1 ± (I) 2)z iz 2}1 .

ex p[— E (z, - (b 1zt _1 — Ze_2

Temos que a matriz D, para o modelo é dada por:

11 -D12 -1313 - D = -D12

LD D22 D„

-D13 D23 D„ ._

2 2 D„ = z1 + Z2 ± ±Z

D1, = z1z2 + z2z2 + + z, Zn

= z1z3 ± Z2 Z4 + Zn_2

2 2 2 D22 = z2 + z, +

D23 = Z2Z3 ± Z3 Z4 Z 2 Z„_.,

D„ = z3 ± Z4 ... +Z2 n-2

e, fazendo S(0) = onde = (1, 0,, 02), obtemos

S(0) = D11 — 2 O, D12 2 02 D13 ± 2ç 02 D23 4" CP: D22 + D„

[ - -D1 23 ] . D [ D.:13 2 i - (D;3)2

1_ j - D.22 D.33

Substituindo este valor na expressão

1(0, riz.) = U. in(r) + /n kl + 02)2{(1 — 02)2 — —

podemos aplicar os três métodos apresentados no capítulo 4.

As estimativas para 'r são obtidas resolvendo-se a expressão -•"%r = n/ S(3). Para os

métodos das seções 4.1.1 e 4.1.2, as estimativas para 01e 02 são dadas por

I" D D -D2 [

-D -±11 _ 1 D .

22 33 23 23 13

D12 23 ] [ I

respectivamente.

Para o método da seção 4.1.3, a estimativa de 0 é obtida resolvendo-se iterativamente

os sistemas

{D11 = 01(D,, + ai'l) + 0,(D,, + 2%) + nír D21 = 0,(D22 + ey0) + 02(D„ + 2y1)

{ -Y0 = 0(Y' + 02% + lir ey, = 01% + 02-ri 12 = 0,7, + 02-Y0

até obter pontos estacionários.

Para a aplicação do algoritmo de Metropolis-Hastings, vamos reescrever a função de

verossimilhança exata L(0, Ti z„), dada no início do exemplo, como:

G+ff r2 [t

X = Z.3 Z.2

Zn_i Zn_2

Agora, definindo as funções

(0, = (-k)fr-')/2 [ o- + 02)2 {(1 - 02)2 -

exp[ — {(1 — + z22) — 201(1 +

exp[ — (Y — Shl(Y — -1-7)]

W ,(0 , 7-) = (-k)112 exp[— í(4) —3)1 X X (¢) —7))]

a função de verossimilhança fica

L(0, ri zn) =

Seja p(0, = W2(0,70. Então, simulamos amostras através das densidades

p(01 7-) N ( c 7), (rX X)-1)

P(710) r , (0 -;5)Ix 'x(Ø-))

e usamos como probabilidade de aceitação de 06)

W (0 , '1 a1 1, 0_1) W1(0

e como probabilidade de aceitação de 7-6)

a, = min{ 1, W1(Ø, r0 )

0-1) W,(0,r

Apresentamos a seguir, a aplicação dos resultados acima para uma série simulada pelo

modelo AR(2) z = — 0.7 ;_2 + a, com 150 observações e também para uma série de

dados reais formada pelas vazões médias mensais do reservatório de Fumas durante 48 anos

no período de janeiro de 1931 a dezembro de 1978. Na implementação do algoritmo de

Metropolis-Hastings, para cada parâmetro foram simuladas 2 cadeias com 20000 iterações

cada e descartados 30% de cada uma. Também, para a série simulada foram tomados valores

espaçados de 15 iterações totalizando 1868 amostras e para a série Fumas valores espaçados

de 20 iterações, totalizando uma amostra de tamanho 1400. Este critério de seleção de valores

espaçados foi baseado na correlação dos valores simulados.

Série simulada ; = 0.5; — 0.7 ;_2 + a,:

Mostramos na figura abaixo o gráfico da série simulada e, a seguir, na tabela 3 os

valores estimados para os parâmetros utilizando-se cada método.

100 510 100

fig.7 - Gráfico da série ; = — 0.7 +

Cavas de Níveis

-OS -0.8 -0.7 -0.6 -0.5

x 10-140

Tabela 3 - Valores ajustados para o modelo: ; = — 0.7 + a„

onde a ,-., N(0, 4), 7 = 0.25. 1 —

Estimat. Mínimos Quadrados 0.23736 0.48783 -0.73973 Aproximação das E.M.V. 0.23731 0.48454 -0.72974 ARMLE 0.23731 0.48467 -0.73021 Metropolis-Hastings 0.23668 0.48191 -0.73807

Analisando os resultados, concluímos que as estimativas de cada método estão muito

próximas. Apresentamos abaixo o gráfico da função de verossimilhança exata da série, gerado

com 1- = 0.237, O, variando no intervalo [0.2, 0.75] e 42 variando no intervalo [-0.95, -0.5] .

fig. 8 - Gráfico da função de verossimilhança e curvas de níveis para a série simulada z = 0.5z1-1 — 0.7 z 2 + a t-

Os resultados da aplicação do algoritmo Metropolis-Hastings são dados na tabela e

gráficos a seguir.

Tabela 4- Metropolis-Hastings para a série z, = — 0.7 z„ — ,

Média 0.23728 0.48466 -0.73485 Moda (EMV) 0.23668 0.48191 -0.73807 Mediana 0.23575 0.48364 -0.73514

a. - (crit. de conv.) 1.00434 0.99983 1.00028 '

Neste caso também verificamos que o critéiro de Gelman e Rubin sugere a

convergência com a. < 1.01.

16 8 st

1 di ,/ J

üên cia

ND CO A UI CD V C

ir •

•10.

03 04 0.5 0.6 0/ Pti

- -08 -0.6 -04 phi2

01 02 03 0.4 tau

fig. 9 - Histogramas das distribuições aproximadas de r, cfil e 02.

114*~~0~4ssoodbofflook 0

1.5 iteração ( 10 )

1.5 iteração ( 10')

:a -0.5 o_

O 0.5 1

iteração ( 10-') fig. 10 - Gráficos com todos os valores simulados para T, O, e 02.

0.6 as

O -1 -0.5 O 0.5 1

fig. 11 - Gráfico mostrando a convergência das duas cadeias geradas, com seus repectivos pontos de partida.

No gráfico da figura 11 temos no eixo horizontal O, e d), e no vertical T. Notamos

neste gráfico a convergência do algoritmo para duas condições iniciais diferentes.

Série Furnas:

Vamos mostrar aqui os resultados para a série Fumas com 576 observações. A seguir,

apresentamos o gráfico da série e os resultados de cada método aplicado.

200 300 400 500 600

fig. 12- Gráfico da série de dados reais Fumas com 576 observações.

Tabela 5 - Valores ajustados para a série Fumas

2.20994 0.59602 0.17437 Estimat. Mínimos Quadrados Aproximação das E.M.V. 2.20993 0.59499 0.17376 ARMLE 2.20993 0.59500 0.17376 Metropolis-Hastings 2.20503 0.59736 0.17588

Vemos que as estimativas dos métodos foram bastante próximas para todos os

parâmetros.

Na figura seguinte, mostramos o gráfico da função de verossimilhança exata da série,

construído com T = 2.21, Oi variando no intervalo [0.46, 0.71] e 02 variando no intervalo

[0.03, 0.291.

x 10-"6

(Ines de hívsis

0.05 0.1 0.15 0.2 Q25

0.7 0.3

0.2 0.1

fig. 13 - Gráfico da função de verossimilhança e curvas de níveis para a série real Fumas.

Com as estimativas -(7.5i = 0.59736 e -(752 = 0.17588 geradas por Metropolis-Hastings,

calculamos previsões de 1 passo à frente para 36 meses referentes ao período de janeiro de

1979 a dezembro de 1981. Abaixo mostramos o gráfico com as previsões calculadas e os

dados observados.

2.5 - )K dado observadc O previsao

110 20 30 40 50

fig. 14 - Previsão 1 passo à frente para 36 dados da série Fumas.

Um resumo dos resultados obtidos pelo algoritmo de Metropolis-Hastings são dados

na tabela abaixo:

Tabela 6 - Metropolis-Hastings para a série Fumas

2.20562 0.59322 0.17575 Média Moda (EMV) 2.20503 0.59736 0.17588 Mediana 2.19634 0.59379 0.17525

ilt - (crit. de conv.) 1.00462 1.00094 0.99986

Os histogramas construídos com as amostras selecionadas para cada um dos

parâmetros, assim como os gráficos de convergência são dados nas figuras seguintes.

o0 Cl C12 C13 C14

0 2 25 3

01.5 C14 C15 C16 C17 ClEt

fig. 15- Histogramas das distribuições aproximadas der, 411 e 02.

0.5 1 1.5 2

iteração ( x 104)

0.5 1 1.5 2

iteração ( x 10)

0.5 1 1.5 2

iteração ( x 10')

fig. 16 - Gráficos com os valores simulados para T, O, e

ca 2.5

fig. 17 - Gráfico mostrando a convergência das 2 cadeias geradas, com seus repectivos pontos de partida

0.5 -1

6.2 Aplicação aos Modelos MA(q)

Veremos aqui a aplicação para os modelos MA(1) e modelos MA(2) dos métodos

numéricos de estimação de máxima verossimilhança vistos na seção 4.2 (estimação de

máxima verossimilhança condicional e estimação de máxima verossimilhança incondicional)

e também dos métodos de simulação de Monte Cano vistos no capítulo 5. Para cada um dos

modelos é dado também um exemplo utilizando-se séries simuladas.

• Modelo MA(1):

Suponhamos que o conjunto de observações z: = (z1, z2 , z„) seja gerado pelo

modelo de médias móveis invertível de ordem 1, ou MA(1),

com ; N(0, 7.1). A invertibilidade do modelo é garantida desde que o valor de O satisfaça

à condição -1 < O < 1.

Para estimar os parâmetros T e O através do primeiro método, devemos assumir como n 2

valor inicial a.. =; = O e calcular a soma de quadrados S.(0) = Ea 1 , a, ) para i=i t

vários valores de O no intervalo (-1, 1), sendo que para cada O fixado os valores de a„ para

t = 1, , n, são obtidos iterativamente fazendo

a, = z O; 1 = z2 0a1

a„ = z + O an_,

O valor de O que minimizar S(0) será então o estimador de máxima verossimilhança

-ó. . Após obter 7) , a estimativa de T pode ser encontrada de

S.(ã) — n-2

No segundo método, a estimativa é obtida minimizando a soma de quadrados 2

incondicional S(0) = E [a] , calculada para diversos valores de O no intervalo (-1, 1). Para t=0

isso são necessários dois processos iterativos. No primeiro, assumimos [e,,] = O e sabendo

que [zi = zt, para t = 1, , n, fazemos

[en] = [zn] + O [e,1

[en_1] = [z] + O [enj

[es] = [zo] + 0 [ei]

Da última expressão, tiramos o valor de [zo], pois [e0] = O, e iniciamos então o

segundo processo iterativo fazendo

[a„] = Ezo] + 0[01_1 ]

[ar ] = [zi] + O[a]

[a] = [zn] + O [a,]

levando em consideração que [a_1] = O. Repetimos este procedimento para todos os valores

de O e calculamos então —O . A estimativa de T é calculada a partir de -è através de

Para a aplicação dos algoritmos MCMC, devemos utilizar a função de verossimilhança

exata para modelos MA(q), definida na seção 5.6:

n/2 -1 L(O, I , a,,,) = exp{ — [(Z. — Fa.„)' G' G-1 (zr, — Fa.)1}

. (7) q/2

exp{ — â-

onde, para o caso MA(1), teremos:

L(9, T Z., as) = (*)"12 exp{ — [(zr, — Fa.)' G-1 (z„ — Fas)i}

7 N. 1/2 Fr ) exp{ —

1 O O • • • O O - -e -0 1 O • • • O O O

a = a, G= O -0 1 • • • • • •

O O e F = O

0 0 ^ u • • • -.0 1 O nxn

Então, as amostras para a„ T e 9 são simuladas iterativamente a partir das densidades

— N(0,1=1)

7 2 ' 2

nze, cr:

S(0, ao) = (z„ F )1 Gr' (z. — F ao) + a: ao

2 e os parâmetros da distribuição normal p, e o-o devem ser ajustados de modo que a taxa de

aceitação dos valores simulados não seja muito baixa. Note que para simular ao e

utilizamos o amostrador de Gibbs e para 9 utilizamos o algoritmo de Metropolis-Hastings.

Vamos agora exemplificar a aplicação dos métodos em uma série gerada pelo modelo

MA(1): z = a — 0.8;_1, com ; — N(0, 1). Foram simulados 100 pontos e o gráfico da série

é apresentado na figura seguinte:

20 40 60 810 100 t

fig. 18 - Gráfico da série simulada z, = a, — 0.8a2_1, a, --, N(0, 1).

Após aplicar os três métodos para a série, obtivemos as seguintes estimativas:

Tabela 7 - Resultados das estimativas para os parâmetros da série.

Est. de Máxima Verossimilhança Condicional 0.93183 0.78670 Est. de Máxima Verossimilhança Incondicional 0.95221 0.78970 Gibbs / Metropolis-Hastings 0.96231 0.75641

Comparando-se os resultados, vemos que no caso do parâmetro T a estimativa obtida

por MCMC se apresentou um pouco mais próxima do valor real T = 1, mas para o parâmetro

O os métodos numéricos apresentaram um resultado melhor.

A seguir, mostramos o gráfico gerado através da expressão da função de

verossimilhança exata para um modelo MA(1), construída a partir dos dados da série e

variando T no intervalo [0.5, 1.5] e O no intervalo [0.49, 0.99].

tau 0.5 0.5 theta

x 10-63

aras de Níveis

0.5 0.6 0.7 0.8 0.9 1 theta

fig. 19 - Gráfico da função de verossimilhança e curvas de níveis para a série simulada = at — at — N(0, 1).

Na implementação dos dois primeiros métodos, foram dados valores para O espaçados

de 10-4 no intervalo [-0.99, 0.99]. Para o método MCMC, foram simuladas 2 cadeias com

15000 iterações cada, para cada um dos parâmetros. A seleção da amostra final foi realizada

descartando-se parte inicial de cada cadeia (correspondente a 30% de cada uma) e tomando-se

valores espaçados de 10 iterações (devido à correlação entre os valores simulados),

totalizando assim 2100 amostras para cada parâmetro. Para a geração dos candidatos de O no

caso do uso do algoritmo de Metropolis-Hastings, ajustamos como núcleo uma distribuição

normal N(0.7,0.05). Os resultados parar e O após simular Gibbs/Metropolis-Hastings, foram:

Tabela 8 - Gibbs / Metro olis-Hastin s para a série simulada. r -

Média 0.94033 0.74212 Moda (EMV) 0.96231 0.75641 Mediana 0.93664 0.75089

a_ (crit. de converg.) 1.00064 1.00110

.03 o 4

0 0.5 1

0.6 theta

15 0.4

Nas figuras seguintes, apresentamos os histogramas construidos com a amostra final

selecionada para cada parâmetro e os gráficos de convergência das duas cadeias com todos os

pontos simulados pelo algoritmo Gibbs/Metropolis-Hastings.

fig. 20 - Histogramas das amostras selecionadas geradas por MCMC para ; e O.

oo 5000

iteração

tu 0.5

o 5000 10000 15000

iteração

fig. 21 - Gráficos com os valores simulados para 7" e O.

1/4'•

0.2 -0.5

fig. 22 - Gráfico mostrando a convergência das duas cadeias geradas, com seus repectivos pontos de partida.

• Modelo MA(2):

Considere o modelo de médias móveis de ordem 2 invertivel, dado por

= a, — O, a, , — 0.

onde a, — N(0, -r- ). Para se garantir a invertibilidade, é necessário que 0, e O, satisfaçam as

seguintes condições: 07 + 0, < 1, 02 — 0, < 1 e — 1 < O. < 1. Suponha que as observações

dadas z = (z1 , z2, z,,) sejam geradas pelo modelo acima.

A estimação dos parâmetros T e O através do primeiro método é iniciada fixando

valores para 0, e 02 e calculando a„ para t = 1, n, iterativamente das expressões

a, = z, + Qac, + 02a_,

a, = z, + 91a1 + 92a0

= z + 01;_1 + 92a_2

n 2 assumindo que a. = a_, = O. Feito isso, calculamos o valor de S,(0) = t=i

onde O = 02), e repetimos o processo para diversos valores de O, e O,•o estimador de

máxima verossimilhança" será então o valor de 0 que minimizar S.(0) e a estimativa 'rt de r

será calculada de

"rt — n-3

Para utilizar o segundo método devemos assumir [e,] = [eo,] = O e, usando o fato

que [z,] =;, para t = 1, , n, calculamos para valores fixados de O, e O, as seguintes

expressões:

[eu] = [zo] +91[e +1] ± O, [eo+2]

= [zo_1] Meu] +92[e 1]

[eo] = [z.] 01[e1] + 92 [e.]

[e_,] = [z_ 1] + 0, [e.] + 02 [e,]

Nas duas últimas expressões, como [eo] = [e_i] = O, podemos tirar os valores para [zo]

z1] e iniciar o segundo processo iterativo formado pelas equações -

[a_i] = [z_i] 9da_2] ± 9, [a_3]

[ao] = [zo] +91[a 1] -I- 92 [a_.]

[a.] = [z.] + O, [a._,] +92[a_2]

usando o fato que [a_2] = [a_3] = 0. Em seguida, calculamos a soma de quadrados 2

incondicional S(9) = E [a e repetimos o processo para vários valores de 01 e 02. Feito t=-1

isto, obtemos a estimativa de máxima verossimilhança minimizando S(9) e a estimativa

da equação equação

- S(-ü)

Para a aplicação dos algoritmos MCMC, a função de verossimilhança exata para o

modelo MA(2), é:

(*)n/2 exp{ [(Z. — (zn — F as)i} L{0,7

. (±r)exp{ —

a_„ ao)',

H 0 41 1 -O, ,1

• . •

• • •

• •

• . •

• •

• • •

O 0 0 0

Iii li ii 1

Ir 1 TN 1

Vimos na seção 5.6 que as amostras para cs, r e O são simuladas iterativamente a

partir das densidades

r -, r(9--2 +1, 'r3) O-' N (i c „, o-)

S(0, a.) = (z„ — Fa.)' Gr' G-1 (z. — Fa.) -i- al.a.

e os parâmetros g, e cri, da ultima distribuição normal, devem ser ajustados de acordo com a

taxa de aceitação dos valores simulados. A simulação de a. e r é feita utilizando o

amostrador de Gibbs e para O utilizamos o algoritmo de Metropolis-Hastings.

Ilustraremos agora a aplicação de cada um dos métodos na série de 100 observações

simuladas pelo modelo z, = a, — 0.8a, -I- 0.6;_2, onde ; — N(0, 1).

40 20 40 60 80 100

t fig. 23 - Gráfico da série simulada ; = a, — 0.8a,_1 + 0.6a 2.

Função de Verossimilhança Exata amas de Ni\eis 1.1

X10-62

thetal 0'4

-0.8 -0.6 -0.4 -0.2 thata2

Para cada um dos métodos estudados, as estimativas calculadas para T , 0, e 02 são

dadas na tabela abaixo.

Tabela 9 - Resultados das estimativas para os parâmetros da série. Métodos 1 02

Est. de Máxima Verossimilhança Condicional 0.97237 0.78550 -0.64290 Est. de Máxima Verossimilhança Incondicional 1.00256 0.78630 -0.64340 Gibbs / Metropolis-Hastings 0.99749 0.71545 -0.56344

Analisando os resultados, vemos que para 7- as estimativas dos dois últimos métodos

foram bastante próximas do valor real 7= 1 e que para 01 e 02 as estimativas do método

MCMC foram mais baixas do que os métodos numéricos.

Na figura seguinte, mostramos o gráfico da função de verossimilhança exata da série,

obtido variando-se 01 no intervalo [0.3, 1.11,02 no intervalo [-0.95, -0.15] e fixando 7 = 1.

fig. 24 - Gráfico da função de verossimilhança e curvas de níveis para a série simulada z, = a, — 0.8a1 + 0.6a,_2 com a, N(0, 1).

Para os métodos numéricos, o incremento usado para 8, e 02 foi de 10-4. Na

implementação de Gibbs/Metropolis-Hastings, o número de simulações e a metodologia usada

para a seleção da amostra final foi a mesma que a utilizada para o caso MA(1). No uso do

algoritmo de Metropolis-Hastings para a geração dos candidatos de 09, ajustamos como núcleo

uma normal com média p, = (0.7, -0.5) e variância a: = 0.01. Um resumo dos resultados

obtidos pelo algoritmo são dados na tabela abaixo.

Tabela 10- Gibbs/Metropolis-Hastings para a série; = a —0.8a + 0.6;_2.

Média' 0.98540 0.71043 -0.53684 Moda (EMV) 0.99749 0.71545 -0.56344 Mediana 0.97742 0.71207 -0.53832

a - (crit. de conv.) 1.00013 1.00911 1.00431

A seguir, apresentamos os histogramas das amostras selecionadas para cada parâmetro

e, nas figuras seguintes, os gráficos de convergência das duas cadeias com todos os pontos

simulados pelo algoritmo.

freqüênci

a CO a (

1 ïtb., 1

11..”,

1 1'11

i lk‘.

freqüência

— CO a 01 O)

u ,./1 8 06 0.4 -0.2 0

theta2 015 1 1.5

tai 04 0.6 08 1-O

theta1

fig. 25 - Histogramas das amostras geradas por MCMC para T 6,1 e

1 0000 5000

o 15000

iteração

1 0000

iteração

fig. 26 - Gráficos com todos os valores simulados para 'r , 0, e 02.

0 -1 -0.5 O

1 theta

fig. 27 - Gráfico mostrando a convergência das duas cadeias geradas, com seus repectivos pontos de partida

Capítulo 7- Conclusão

Neste projeto de dissertação, estudamos os modelos para séries temporais estacionárias do

tipo AR(p) e MA(q) que são de muita utilidade em problemas de previsão de séries temporais.

Mais especificamente, estudamos métodos de estimativas de máxima verossimilhança para estes

modelos. O objetivo principal deste trabalho foi propor o uso de algoritmos de simulação de

Monte Carlo com Cadeia de Markov (MCMC) como método de obtenção das estimativas de

máxima verossimilhança.

As principais conclusões obtidas com o desenvolvimento deste trabalho foram:

• O uso de algoritmos MCMC para o cálculo das estimativas de máxima verossimilhança

em modelos AR(p) mostra-se viável quando adota-se a função de verossimilhança exata, pois tais

estimativas só podem ser calculadas fazendo-se simplificações desta função e usando-se métodos

numéricos. Com o uso de algoritmos MCMC essas simplificações não são necessárias.

• O uso de algoritmos MCMC em modelos MA(q) para o cálculo das estimativas de

máxima verossimilhança apresenta a vantagem de que além de estimar de forma precisa os

parâmetros do modelo, não necessita o uso de "bacicforecasting" como no método estimação de

máxima verossimilhança incondicional, o qual é um tanto arbitrário ao se assumir valores nulos

para [et], t = n + 1, n + 2, .... Usando MCMC este problema é contornado pois a1 , a2q, ...,

são gerados da sua distribuição de probabilidade. Além disso, o uso de MCMC evita um

algoritmo de maximização da função S(0).

• Na comparação do uso do algoritmo MCMC com os métodos numéricos, os resultados

mostraram que as estimativas obtidas via MCMC estão muito próximas das obtidas com os

outros métodos no caso dos modelos AR(p). No caso dos modelos MA(q) a diferença entre as

estimativas para o parâmetro O mostraram-se um pouco maiores, porém com resultados bastante

satisfatórios. Uma desvantagem que surge no uso de MCMC em modelos MA(q) é o tempo

computacional. Devido à necessidade de operações com matrizes de ordem n x n (grande), estes

algoritmos mostram-se mais lentos que os demais. No entanto, a vantagem dos métodos

numéricos pode diminuir muito à medida que a discretização do intervalo de variação dos

parâmetros nestes métodos aumenta. Esta discretização também afeta a precisão desses métodos.

Uma possível continuação do presente trabalho é a extensão da aplicação dos algoritmos

MCMC em modelos mais gerais como os modelos Mistos Auto-regressivos - Médias Móveis

(ARMA(p,q)), utilizando-se a expressão da função de verossimilhança exata destes modelos

apresentada em [Box, Jenlcins e Reinsel - 1994].

Bibliografia

Anderson, T.W.; Mentz, R.P.; Jarma, N.M.; Martinez, C.L (1996). Simulations of Iterative

Procedures for Maximum Likelihood Estimation in MA(1) Models, Conunun. Statist. -

Simula., 25(4), 851-865.

Box, G.E.; Cox, D.R. (1964). An Analysis of Transformations, Journal of the Royal Statistic

Society, B, Vol. 6, pp. 211-252.

Box, G.E.; Jenlcins, G.M.; Reinsel, G.C. (1994). Time Series Analysis Forecasting and

Centro 1, 3th ed., Prentice Hall, New Jersey.

Casella, G.; George, E.L (1992). Explaining the Gibbs Sampler, The American Statistician,

Vol. 46, No. 3, pp. 167-174.

Chatfield, C. (1989). The Analysis of Time Series: An Introduction, 4th ed., Chapman and

Hall, New York.

Chib, S.; Greenberg, E. (1995). Understanding the Metropolis-Hastings Algorithm, The

American Statistician, Vol. 49, No. 4, pp. 327-335.

Gelman, A.; Rubin, D.B. (1992). Inference from Iterative Simulation Using Multiple

Sequences, Statistical Science, Vol. 7, No. 4, pp. 457-511.

Geyer, C.J. (1994). On the Convergence of Monte Cano Maximum Likelihood Calculations,

Journal of Royal Statistical Society, 56, No.1, pp. 261-274.

Geyer, C.J.; Thompson, E.A. (1992). Constrained Monte Cano MaXiMUM Likelihood for

Dependent Data, Journal of Royal Statistical Society, 54, No. 3, pp. 657-699.

Miller, J.W. (1995). Exact Maximum Likelihood Estimation in Autoregressive Process,

Journal of Time Series Analysis, Vol. 16, No. 6, pp. 607-615.

Morettin, P.A.; Toloi, C.M.C. (1981). Modelos para Previsão de Séries Temporais, IMPA,

Rio de Janeiro.

Apêndice

Previsão

Um dos objetivos mais importantes dentro da análise de séries temporais é a previsão

dos valores futuros de uma série observada. Suponhamos que conhecemos as observações

z; = (zu z2, z2) e desejamos prever o valor esperado de z,+„ / > 1. Suponhamos também

que zw seja uma combinação linear de z„ Zt_1 Zi_2 , e que portanto pode ser escrito

também como combinação linear dos ruídos a„ aw, a_2.....

Agora, seja 2,(/) a previsão de zw. Suponhamos que a melhor previsão seja dada por:

= 0: ai + cit_1 ± 0:2 at-2 + •

Então, usando o fato que

= + 1 + 02a2+ _2 ± • • • (AI)

o erro quadrático médio da previsão é

2 2 00 • 2 E [zt+i 2t(l)]

2 = (1 + 021 + • • • + 01 _) Gra + E&+1 -

o/+) 5=0

Pode-se mostrar que este valor é minimizado quando = . Portanto temos

= (aw + /P1at+1-1 + • • • + 2A-1ai+1) + OPA + 2A+1a2-1 + • • •)

= (1) 2,(1)

onde ;(1) é o erro da previsão (1).

Usando a expressão (AI) e o fato que E [cte+5 1 = O para j > O, concluímos que

,(1)=Ipicte + = zj (A2)

Desse resultado, fazendo 1 = 1 podemos calcular previsões de um passo à frente para

um modelo AR(p) dado por

= 01;+1_1 + + + 0pzt+1_,, +

Denotando por 9 (1) a previsão de z de (A2) temos que:

9., (1) = E[1/4,I;]

= 0, E ki z t] + E[;_11;] + + + E [a,,,I zt]

Como E [;I;] =z para j > O e E[atid lzt] = O, segue que

Z(1) = + 02;_, + +

Para 1 > 1, podemos calcular as previsões por:

= + O3[zw_3] + + Ø[z+ _]

[;+k] = (k);., k > O

= k < O

Para previsão com modelos MA, a equação (A2) pode ser usada diretamente, fazendo

[a,] = O; k > O

[af.j= at+k; k < O

Métodos de Aproximação e Aplicação de MCMC na Estimação de ... · Métodos de Aproximação...

Documents

Transcript of Métodos de Aproximação e Aplicação de MCMC na Estimação de ... · Métodos de Aproximação...

ESTIMAÇÃO DA BIOMASSA DE RECURSOS DE ESTATÍSTICA … · Deriva ou tendência 16 12. Corregionalização 16 II.2. VARIÂNCIA DA ESTIMAÇÃO 17 1. Estimação da média aritmética

artigo - aproximação adiabática

Estatística - Estimação – VII - 1; Estimação por intervalo de confiança.

Estatística - Estimação – VIII - 1; Estimação por IC: exercício 23 a)

Aproximação de Terrenos

SILVESTRES DE ESTIMAÇÃO

Bicho de estimação.

5ª Aproximação

Métodos de Aproximação e Aplicação de MCMC na ... · 2.6 Função de Auto-correlação Parcial 19 Capitulo 3 - Função de Verossimilhança Exata 22 3.1 Função de Verossimilhança

EE-240/2009 Estimação Não-Paramétrica EE-240/2009 Estimação Não-Paramétrica.

Aula 11 estimação

DETEÇÃO E ESTIMAÇÃO Aula 20: Estimação Paramétrica Clássica.

ESTIMAÇÃO DE PARÂMETROS GENÉTICOS PARA …cienciaanimal.ufpa.br/pdfs/CA_Ciencia_Animal/CA_Alessandra... · alessandra epifanio rodrigues estimaÇÃo de parÂmetros genÉticos

Estimação de um modelo GARCH para estimação da volatilidade

Estimação da Probabilidade de Falência

ESTIMAÇÃO E ESPACIALIZAÇÃO DAS VARIÁVEIS …

Teoria de estimação

Animal de estimação virtual

Estimação em processos GARMA

Algoritmos MCMC para inferência bayesiana (Parte 1)cnaber/aula_MCMC_IB_2S_2013.pdf · Algoritmos MCMC para infer^encia bayesiana (Parte 1) Motiva˘c~ao Estat stica de Geweke (EG)