ARIMA – MODELO AUTORREGRESSIVO INTEGRADO DE MÉDIAS MÓVEIS Elisa Henning Julho/2013.

Post on 07-Apr-2016

227 views 2 download

Transcript of ARIMA – MODELO AUTORREGRESSIVO INTEGRADO DE MÉDIAS MÓVEIS Elisa Henning Julho/2013.

ARIMA – MODELO AUTORREGRESSIVO INTEGRADO DE MÉDIAS MÓVEIS

Elisa Henning

Julho/2013

2

O que veremos hoje• Introdução sobre ARIMA• Identificação, modelagem, avaliação• Arima com R

• Rstudio• Pacote Forecast• Pacote fpp

• Exercícios

3

Introdução – Séries Temporais

• As séries temporais representam um conjunto de observações ordenadas no tempo e fundamentadas na ideia de que a história dos acontecimentos, ao longo deste, pode ser usada para prever o futuro.

• A previsão de uma série temporal é o estabelecimento dos valores futuros da série, sendo uma previsão a estimativa acerca da verossimilhança de eventos futuros, baseados na informação atual e histórica.

• Pressupõe a modelagem matemática do fenômeno, obtenção de conclusões e avaliação do modelo em termos de precisão (SOUZA; CAMARGO, 2004).

4

Introdução• As previsões de demanda baseadas em séries temporais partem do

princípio de que a demanda futura será uma projeção dos valores passados, não sofrendo influência de outras variáveis.

• Métodos estatísticos de previsão de séries temporais buscam identificar um padrão de comportamento da série e utilizá-lo para prever os valores futuros.

• Estas séries, em sua grande maioria, apresentam características repetitivas que podem ser utilizadas no momento de realizar previsões.

• Um modelo clássico para séries temporais supõe que a série possa ser escrita como o agrupamento dos três seguintes componentes: tendência, ciclo e sazonalidade; e o processo de construção de valores previstos para a série é realizado por meio da reunificação de cada um desses componentes (SOUZA; SAMOHYL; MIRANDA, 2008).

5

Introdução• O modelo Autorregressivo  Integrado de Média Móvel –

Autoregressive Integrated Moving Average (ARIMA) é um procedimento popular entre os modelos estatísticos de análise de séries temporais

• Esse modelo foi proposto por Box e Jenkins na década de 70 e tem origem nos modelos autorregressivo (AR), médias móveis (MA) e da combinação dos modelos AR e MA (ARMA).

• Além de incluir modelos não estacionários (ARIMA) e sazonais (SARIMA). Cada um destes modelos pode modelar uma série isolada ou combinadamente.   

IntroduçãoClasse de modelos capazes de representar:

• Séries estacionárias• Séries não-estacionárias• Não envolve variáveis independentes na sua construção• Dados “falam por si”

Introdução• Uma variedade de séries temporais encontradas na

indústria e em negócios exibe comportamento não estacionário.

• Não variam em termos de valor fixo para a média, em geral, em virtude da presença de autocorrelação.

• Esta classe de modelos segue uma metodologia denominada “Metodologia Box-Jenkins”,

• Sugerida para aplicações às séries não-estacionárias que se tornam estacionárias após a aplicação de sucessivas diferenças

ARIMA

• MODELO AUTOREGRESSIVOAR

• INTEGRADOI• MÉDIAS MÓVEISMA

9

ARIMA• AR(p), onde a série é descrita por seus valores passados

regredidos e pelo ruído aleatório; • MA(q), que explora a estrutura de autocorrelação dos resíduos de

previsão do período atual com aqueles ocorridos em períodos anteriores e;

• ARMA(p, q) que apresentam processos mistos AR(p) e MA(q); • se apoiam na premissa que a série temporal é estacionária, ou

seja, suas propriedades estatísticas básicas, como média, variância e covariância permanecem constantes.

• Quando a série é não-estacionária, é utilizada a componente de integração I(d), resultando no modelo ARIMA(p,q,d).

• Depois de calcular a diferença entre os valores subjacentes da série d vezes, é possível torná-la estacionária, de modo que ofereça uma base válida para a previsão

10

As Fórmulas Modelo autorregressivo

11

As Fórmulas Modelo de Médias Móveis

12

As Fórmulas MODELO AUTORREGRESSIVO DE MÉDIAS MÓVEIS

13

As Fórmulas ARIMA

ARIMAA estrutura de um modelo ARIMA (p,d,q): • p = número de parâmetros auto-regressivos• d = número de diferenças• q = número de médias parâmetros de médias móveis

 Um modelo ARIMA (2,3,1) significa:

p = 2 d = 3 q = 1

METODOLOGIA

16

Identificação• Relações de autocorrelação : PACF

• Um processo AR(p) tem PACF com valores significativamente maiores de zero para lags até p.

• Um processo MA(q) tem PACF que se comporta de modo similar à ACF de um processo AR(p) - exponenciais e/ou senóides amortecidas.

EXEMPLO 2

• AR(1) ou ARIMA (1,0,0)

ts.sim.1

0 50 100 150 200

-33

5 10 15 20

-0.2

0.4

Lag

AC

F

5 10 15 20-0

.20.

4Lag

PAC

F

Exemplo 3

• MA(1) ou ARIMA (0,0,1)

ts.sim.2

0 50 100 150 200

-3

5 10 15 20

-0.2

0.4

Lag

ACF

5 10 15 20

-0.2

0.4

LagP

AC

F

EXEMPLO 4

• ARMA (1,1) ou ARIMA (1,0,1)

ts.sim.3

0 50 100 150 200

-66

5 10 15 20

-0.4

0.4

Lag

ACF

5 10 15 20

-0.4

0.4

LagP

AC

F

Identificação• Os modelos vistos até então representam séries

estacionárias.

• As séries podem ser não estacionárias quanto ao nível:• oscilam ao redor de um nível médio durante algum tempo e depois

saltam para outro nível temporário. • Para tornar este tipo de série estacionária é suficiente aplicar uma

diferença, sendo este o caso típico de séries econômicas.

 

Identificação• Podem ser não estacionárias quanto à inclinação:

• oscilando em uma direção por algum tempo e depois mudando para outra direção temporária. • Para torná-las estacionárias é necessário, em geral, uma segunda

diferença.

• Na análise do gráfico da ACF, verifica-se que esta não decresce rapidamente.

Exemplo 4 – série 1serie1

0 20 40 60 80 100

010

2030

4050

5 10 15 20

-0.2

0.0

0.2

0.4

0.6

0.8

1.0

Lag

AC

F

5 10 15 20

-0.2

0.0

0.2

0.4

0.6

0.8

1.0

Lag

PA

CF

Exemplo 4 – série 1 – cont.diff(serie1)

0 20 40 60 80 100

-3-2

-10

12

3

5 10 15 20

-0.2

0.0

0.2

0.4

0.6

Lag

AC

F

5 10 15 20

-0.2

0.0

0.2

0.4

0.6

Lag

PA

CF

Exemplo 4 – série 2serie2

0 20 40 60 80 100

-15

-10

-50

5 10 15 20

-0.2

0.2

0.4

0.6

0.8

Lag

AC

F

5 10 15 20-0

.20.

20.

40.

60.

8

Lag

PA

CF

Identificação

• Verificar se na série original existe a necessidade de transformação desta com o objetivo de estabilizar sua variância.

• Tomar diferenças nas séries tantas vezes quanto necessárias para tornar a série estacionária.

• Identificar o processo ARMA resultante através da análise das autocorrelações e autocorrelações parciais estimadas.

27

Exemplo 5

Time

a10

1995 2000 2005

510

1520

2530

Vendas anuais de remédios para diabetes na Austrália

28

Exemplo 5 – aplicar uma transformação

Time

log(

a10)

1995 2000 2005

1.0

1.5

2.0

2.5

3.0

Identificação• Há uma certa subjetividade envolvendo este

procedimento. • É possível dois ou mais modelos ajustarem os dados.

• mesmo número de parâmetros, aquele que resultar no menor erro médio padrão deve ser escolhido.

• tiverem número de parâmetros diferentes o princípio da parcimônia deve ser utilizado na seleção

• Critérios de informação de AKAIKE (AIC) ou o critério de informação Bayesiano (BIC)

AIC e BIC• Métodos baseados em uma função penalizadora. Nestes

a idéia fundamental é minimizar a estimativa da variância residual do modelo.

• Apresentam um termo na equação, denominado termo penalizador que aumenta na medida em que o número de parâmetros cresce, enquanto que a variância residual diminui.

• Assim busca-se identificar um modelo que equilibre este comportamento.

Estimação• Estimar os parâmetros cada um dos modelos Auto-

regressivas , de médias móveis , e a variância dos erros.  • Inicialmente é necessário usar um processo iterativo de

estimação não-linear de mínimos quadrados • estimativas preliminares - valores iniciais neste procedimento.

• Os programas computacionais, na maioria dos casos, incorporam estes valores iniciais

 • Esta estimação é realizada em geral através do método

de máxima verossimilhança.

Exemplo 5

Os resultados correspondem aos parâmetros dos modelos e o desvio padrão dos estimadores

33

Caso 1 – Identificação

ts.sim.4

0 50 100 150 200

-5

5 10 15 20

-0.4

0.4

Lag

AC

F

5 10 15 20

-0.4

0.4

Lag

PA

CF

34

O modelo

35

Caso 2 - Identificação

ts.sim.5

0 50 100 150 200

-20

40

5 10 15 20

-0.2

0.4

0.8

Lag

AC

F

5 10 15 20

-0.2

0.4

0.8

Lag

PAC

F

36

O modelo

Diagnóstico dos modelos • O modelo escolhido é checado junto aos dados originais

para verificar sua acurácia em descrever a série.

• O modelo ajusta bem os dados se os resíduos deste são pequenos, e de comportamento aleatório.

 • Verificar se os resíduos são autocorrelacionados.

• Os resíduos do modelo não devem apresentar autocorrelação.• Os gráficos da ACF e PACF dos resíduos do modelo devem ser

plotados e analisados. • Existem também testes estatísticos formais para tal fim, como os

testes de Box-Pierce e Ljung-Box.

Exemplo 5 – caso 2 – Análise dos resíduos tsdisplay(mod.2$residuals)

mod.2$residuals

0 50 100 150 200

-20

2

5 10 15 20

-0.2

0.0

0.2

Lag

AC

F

5 10 15 20

-0.2

0.0

0.2

Lag

PAC

F

Diagnóstico • NORMALIDADE DOS RESÍDUOS

• Para que o modelo seja adequado os resíduos também devem ter distribuição normal. • Construção de um histograma• o gráfico de probabilidade normal • teste formal para verificação da suposição de normalidade

(Shapiro-Wilk, Jarque-Bera)

40

Diagnóstico Histograma dos residuos

mod.2$residuals

Freq

uenc

y

-2 -1 0 1 2

010

2030

40

Diagnóstico• PERIODOGRAMA ACUMULADO • Uma reta teórica e limites de confiança são traçados. • Se o modelo é adequado, a estatística plotada não tem

desvios sistemáticos desta

• Demais testes

Periodograma acumuladocpgram(mod.2$residuals)

0.0 0.1 0.2 0.3 0.4 0.5

0.0

0.2

0.4

0.6

0.8

1.0

frequency

Series: mod.2$residuals

43

Outras análises – tsdiag(modelo)

Standardized Residuals

Time

0 50 100 150 200

-22

0 5 10 15 20

0.0

Lag

AC

F

ACF of Residuals

2 4 6 8 10

0.0

p values for Ljung-Box statistic

lag

p va

lue

tsdiag(mod.2)

Previsão• Neste passo é feita a previsão que decorre através da

substituição das variáveis das equações de cada modelo, apresentadas em seguida e a da indicação do número de passos a frente que se quer prever.

• Corresponde a etapa de extrapolação dos dados históricos através do modelo encontrado.

Previsão• INTERVALOS DE CONFIANÇA 

• É recomendável trabalhar com estimativas intervalares construídas a partir das pontuais

• É comum os softwares retornarem intervalos de 95% e

80% de confiança

46

Previsões

47

Gráfico das previsões

Forecasts from ARIMA(1,1,0)

0 50 100 150 200

-20

020

6010

0

48

Incluindo as prediçõespreditos<-fitted(previsao)lines(preditos,col=2,lty=2)

Forecasts from ARIMA(1,1,0)

0 50 100 150 200

-20

020

6010

0

49

Medidas dos erros de previsão

Exemplo 6 • Série temporal com 100 (cem) observações correspondente ao número de

usuários conectados à Internet em um particular servidor a cada minuto.

Exemplo 6 • Série temporal com 100 (cem) observações correspondente ao número de

usuários conectados à Internet em um particular servidor a cada minuto.

WWWusage

0 20 40 60 80 100

100

150

200

5 10 15 20

-0.4

0.0

0.2

0.4

0.6

0.8

1.0

Lag

AC

F

5 10 15 20-0

.40.

00.

20.

40.

60.

81.

0Lag

PA

CF

52

O modelo

Diagnóstico – analise resíduos

r1

0 20 40 60 80 100

-50

5

5 10 15 20

-0.3

-0.2

-0.1

0.0

0.1

0.2

0.3

Lag

AC

F

5 10 15 20

-0.3

-0.2

-0.1

0.0

0.1

0.2

0.3

Lag

PA

CF

> tsdisplay(modelo$residuals)> hist(modelo$residuals)> shapiro.test(modelo$residuals)

Análise resíduos

Jarque Bera Test p-value = 0.936Shapiro-Wilk normality test p-value = 0.7107

Histogram of r1

r1

Freq

uenc

y

-10 -5 0 5

05

1015

2025

-2 -1 0 1 2

-50

5

Normal Q-Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

Diagnóstico

• Resíduos apresentam um comportamento aleatório.• Sem a presença de autocorrelação.• Tem distribuição normal.• Conclui-se que é apropriado.

Previsões• Foram então realizadas previsões para seis períodos

adiante. • Os valores pontuais e os intervalos de 80% e 85% de

confiança estão no slide a seguir• Gráfico com a série original, os valores ajustados pelo

modelo e as previsões pontuais e intervalares

Forecasts from ARIMA(1,1,1)

0 20 40 60 80 100

100

200

> previsao<-forecast(modelo,h=6)> plot(previsao)

ARIMA para dados sazonais• Um modelo ARIMA sazonal é denominado de SARIMA de

ordem (p,d,q)(P,D,Q)12, onde:• p = termo autoregressivo regular• d = diferença regular• q = termo de médias móveis regular• P = termo autoregressivo sazonal• D = diferença sazonal• Q = termos de médias móveis sazonal

EXEMPLO 11• Neste exemplo, a série estudada corresponde à dados da

série mensal do total de vendas de garrafas de vinho (de até 1 litro) na Austrália, no período de Janeiro de 1980 a Agosto de 1994. (Fonte: http://www.robhyndman.info/TSDL/ ).

EXEMPLO 11wineind

1980 1985 1990 1995

1500

025

000

3500

0

5 10 15 20

-0.2

0.0

0.2

0.4

0.6

0.8

Lag

AC

F

5 10 15 20

-0.2

0.0

0.2

0.4

0.6

0.8

Lag

PA

CF

EXEMPLO 1115

000

2000

025

000

3000

035

000

4000

0

Seasonal plot: wineind

Month

Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec

EXEMPLO 11

• Modelo escolhido pelo R

EXEMPLO 11modelo$residuals

1980 1985 1990 1995-100

0050

00

0 5 10 20 30

-0.2

0.0

0.2

Lag

ACF

0 5 10 20 30

-0.2

0.0

0.2

Lag

PAC

F

Histogram of r5

r5

Freq

uenc

y

-10000 -5000 0 5000

010

2030

4050

60

-2 -1 0 1 2

-100

00-5

000

050

00

Normal Q-Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

EXEMPLO 11

EXEMPLO 11

0 1 2 3 4 5 6

0.0

0.2

0.4

0.6

0.8

1.0

frequency

Series: r5

66

Exercício• Vendas de carrinho de mão• Série mensal

67

head(cm)attach(cm)cm<-ts(cm,frequency=12,start=c(2005))cm

plot(cm,type="b",pch=19,main="Vendas de carrinhos de mão")tsdisplay(cm)seasonplot(cm)meu.modelo.1<-auto.arima(cm)meu.modelo.1tsdisplay(meu.modelo.1$residuals)tsdiag(meu.modelo.1)cpgram(meu.modelo.1$residuals)hist(meu.modelo.1$residuals)shapiro.test(meu.modelo.1$residuals)previsao<-forecast(meu.modelo.1,h=3)previsaoplot(previsao)preditos<-fitted(meu.modelo.1)lines(preditos,col=4)accuracy(meu.modelo.1)

EXEMPLO 12• Vamos analisar a série

correspondente ao IPI-Produção Física Industrial-Produtos Alimentares, no período compreendido entre janeiro de 1985 e julho de 2000.• adaptado de MORETTIN &

TOLOI (2004)

EXEMPLO 12ipi

1985 1990 1995 2000

8010

012

014

0

5 10 15 20

-0.2

0.0

0.2

0.4

0.6

0.8

Lag

AC

F

5 10 15 20

-0.2

0.0

0.2

0.4

0.6

0.8

Lag

PA

CF

EXEMPLO 12

8010

012

014

0Seasonal plot: ipi

Month

Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec

EXEMPLO 12

EXEMPLO 12Standardized Residuals

Time

1985 1990 1995 2000

-3-1

13

0.0 0.5 1.0 1.5

0.0

0.4

0.8

Lag

AC

F

ACF of Residuals

2 4 6 8 10

0.0

0.4

0.8

p values for Ljung-Box statistic

lag

p va

lue

Histogram of r6

r6

Freq

uenc

y

-15 -10 -5 0 5 10 15

010

2030

4050

60

-3 -2 -1 0 1 2 3

-15

-10

-50

510

15

Normal Q-Q Plot

Theoretical Quantiles

Sam

ple Qua

ntile

s

EXEMPLO 12

EXEMPLO 12

0 1 2 3 4 5 6

0.0

0.2

0.4

0.6

0.8

1.0

frequency

Series: r6

EXEMPLO 12• Assim, são feitas previsões para os meses de agosto a

dezembro de 2000. • As previsões e um gráfico com os valores observados e

calculados podem ser visualizados em seguida.

EXEMPLO 12Forecasts from ARIMA(2,1,5)(1,0,1)[12]

1985 1990 1995 2000

8010

012

014

0

ERROS DE PREVISÃO• Após a seleção do modelo é importante também calcular

e analisar as medidas correspondentes aos erros de previsão • (MAD, MAPE, etc)

• Um bom modelo, de preferência, deve ajustar-se bem aos dados, com erros pequenos.

• Uma forma de escolha, entre vários modelos para a mesma série, é optar por aquele que tem os menores valores para estas medidas.

• No R: accuracy(modelo) – dentro da amostra• accuracy (modelo, novos dados) – fora da amostra

VANTAGENS E DESVANTAGENS DOS MODELOS ARIMA • A abordagem Box-Jenkins para a análise de séries

temporais é uma poderosa ferramenta para previsões acuradas no curto prazo.

• O modelo ARIMA é flexível e pode representar inúmeras séries que ocorrem na prática.

• Testes formais para testar a adequação do modelo são facilmente encontrados.

• E, previsões e predições são obtidas diretamente do modelo.

VANTAGENS E DESVANTAGENS DOS MODELOS ARIMA

• Todavia algumas limitações merecem destaque:• É necessária uma série com relativamente um número

grande de dados• Não existem métodos simples para recalcular os

parâmetros na inclusão de novos dados, sendo necessário, algumas vezes desenvolver um novo modelo.

• A utilização desta metodologia requer experiência e algum conhecimento além do uso automático de um pacote computacional.

80

Mais exercícios? ETS?Carrinho de mão – modelo ets

meu.modelo.2<-ets(cm)meu.modelo.2accuracy(meu.modelo.2)

Série de dados - iof

REFERÊNCIAS1. ALMEIDA, S. G.; SOUZA, A. M.; MARCHEZAN, A.; SANTA CATARINA, G. M. F. Previsão dos

preços das culturas de arroz e feijão praticados no Rio Grande do Sul. Anais do XV SIMPEP – Simpósio de Engenharia de Produção. Bauru: Novembro de 2008. Disponível em: http://www.simpep.feb.unesp.br/anais_simpep.php?evento=2. Acesso em: 12/01/2009.

2. CAMARGO, M. E.; FILHO, W. P.; RUSSO, S. L. Previsão de vendas através da metodologia BOX & JENKINS: Um estudo de caso. Anais do ENEGEP 2007. Foz de Iguaçu: Outubro de 2007. Disponível em: < http://www.abepro.org.br/biblioteca/ENEGEP2007_TR620466_0405.pdf>. Acesso em: 12/01/2009.

3. FIGUEIREDO, C.; NETO, A. C. Previsão de séries temporais utilizando a metodologia Box & Jenkins e redes neurais para inicialização de planejamento e controle de produção. Anais do XV SIMPEP. Bauru: Novembro, 2008. Disponível em: http://www.simpep.feb.unesp.br/anais_simpep.php?evento=2. Acesso em: 12/01/2009.

4. HANKE, J.; WICHERN, D.; REITSCH, A. Business Forecasting. 7ª Edição. New Jersey: Prentice Hall, 2001.

5. MORETTIN, P. A.; TOLOI, C. Análise de Séries Temporais. São Paulo: Ed Edgar Blucher, 2004. 6. RODRIGUES, G. A.; PAULISTA P.H.; TURRIONI, J. B. Previsão do Preço da Energia: uma

aplicação da metodologia Box-Jenkins. Anais do ENEGEP 2008. Rio de Janeiro: Outubro de 2008. Disponível em: < http://www.abepro.org.br/biblioteca/enegep2008_TN_WIC_070_498_11575.pdf> Acesso em 26/01/2009

7. http://otexts.com/fpp/