Upload
emily-raposo
View
227
Download
2
Embed Size (px)
Citation preview
ARIMA – MODELO AUTORREGRESSIVO INTEGRADO DE MÉDIAS MÓVEIS
Elisa Henning
Julho/2013
2
O que veremos hoje• Introdução sobre ARIMA• Identificação, modelagem, avaliação• Arima com R
• Rstudio• Pacote Forecast• Pacote fpp
• Exercícios
3
Introdução – Séries Temporais
• As séries temporais representam um conjunto de observações ordenadas no tempo e fundamentadas na ideia de que a história dos acontecimentos, ao longo deste, pode ser usada para prever o futuro.
• A previsão de uma série temporal é o estabelecimento dos valores futuros da série, sendo uma previsão a estimativa acerca da verossimilhança de eventos futuros, baseados na informação atual e histórica.
• Pressupõe a modelagem matemática do fenômeno, obtenção de conclusões e avaliação do modelo em termos de precisão (SOUZA; CAMARGO, 2004).
4
Introdução• As previsões de demanda baseadas em séries temporais partem do
princípio de que a demanda futura será uma projeção dos valores passados, não sofrendo influência de outras variáveis.
• Métodos estatísticos de previsão de séries temporais buscam identificar um padrão de comportamento da série e utilizá-lo para prever os valores futuros.
• Estas séries, em sua grande maioria, apresentam características repetitivas que podem ser utilizadas no momento de realizar previsões.
• Um modelo clássico para séries temporais supõe que a série possa ser escrita como o agrupamento dos três seguintes componentes: tendência, ciclo e sazonalidade; e o processo de construção de valores previstos para a série é realizado por meio da reunificação de cada um desses componentes (SOUZA; SAMOHYL; MIRANDA, 2008).
5
Introdução• O modelo Autorregressivo Integrado de Média Móvel –
Autoregressive Integrated Moving Average (ARIMA) é um procedimento popular entre os modelos estatísticos de análise de séries temporais
• Esse modelo foi proposto por Box e Jenkins na década de 70 e tem origem nos modelos autorregressivo (AR), médias móveis (MA) e da combinação dos modelos AR e MA (ARMA).
• Além de incluir modelos não estacionários (ARIMA) e sazonais (SARIMA). Cada um destes modelos pode modelar uma série isolada ou combinadamente.
IntroduçãoClasse de modelos capazes de representar:
• Séries estacionárias• Séries não-estacionárias• Não envolve variáveis independentes na sua construção• Dados “falam por si”
Introdução• Uma variedade de séries temporais encontradas na
indústria e em negócios exibe comportamento não estacionário.
• Não variam em termos de valor fixo para a média, em geral, em virtude da presença de autocorrelação.
• Esta classe de modelos segue uma metodologia denominada “Metodologia Box-Jenkins”,
• Sugerida para aplicações às séries não-estacionárias que se tornam estacionárias após a aplicação de sucessivas diferenças
ARIMA
• MODELO AUTOREGRESSIVOAR
• INTEGRADOI• MÉDIAS MÓVEISMA
9
ARIMA• AR(p), onde a série é descrita por seus valores passados
regredidos e pelo ruído aleatório; • MA(q), que explora a estrutura de autocorrelação dos resíduos de
previsão do período atual com aqueles ocorridos em períodos anteriores e;
• ARMA(p, q) que apresentam processos mistos AR(p) e MA(q); • se apoiam na premissa que a série temporal é estacionária, ou
seja, suas propriedades estatísticas básicas, como média, variância e covariância permanecem constantes.
• Quando a série é não-estacionária, é utilizada a componente de integração I(d), resultando no modelo ARIMA(p,q,d).
• Depois de calcular a diferença entre os valores subjacentes da série d vezes, é possível torná-la estacionária, de modo que ofereça uma base válida para a previsão
10
As Fórmulas Modelo autorregressivo
11
As Fórmulas Modelo de Médias Móveis
12
As Fórmulas MODELO AUTORREGRESSIVO DE MÉDIAS MÓVEIS
13
As Fórmulas ARIMA
ARIMAA estrutura de um modelo ARIMA (p,d,q): • p = número de parâmetros auto-regressivos• d = número de diferenças• q = número de médias parâmetros de médias móveis
Um modelo ARIMA (2,3,1) significa:
p = 2 d = 3 q = 1
METODOLOGIA
16
Identificação• Relações de autocorrelação : PACF
• Um processo AR(p) tem PACF com valores significativamente maiores de zero para lags até p.
• Um processo MA(q) tem PACF que se comporta de modo similar à ACF de um processo AR(p) - exponenciais e/ou senóides amortecidas.
EXEMPLO 2
• AR(1) ou ARIMA (1,0,0)
ts.sim.1
0 50 100 150 200
-33
5 10 15 20
-0.2
0.4
Lag
AC
F
5 10 15 20-0
.20.
4Lag
PAC
F
Exemplo 3
• MA(1) ou ARIMA (0,0,1)
ts.sim.2
0 50 100 150 200
-3
5 10 15 20
-0.2
0.4
Lag
ACF
5 10 15 20
-0.2
0.4
LagP
AC
F
EXEMPLO 4
• ARMA (1,1) ou ARIMA (1,0,1)
ts.sim.3
0 50 100 150 200
-66
5 10 15 20
-0.4
0.4
Lag
ACF
5 10 15 20
-0.4
0.4
LagP
AC
F
Identificação• Os modelos vistos até então representam séries
estacionárias.
• As séries podem ser não estacionárias quanto ao nível:• oscilam ao redor de um nível médio durante algum tempo e depois
saltam para outro nível temporário. • Para tornar este tipo de série estacionária é suficiente aplicar uma
diferença, sendo este o caso típico de séries econômicas.
Identificação• Podem ser não estacionárias quanto à inclinação:
• oscilando em uma direção por algum tempo e depois mudando para outra direção temporária. • Para torná-las estacionárias é necessário, em geral, uma segunda
diferença.
• Na análise do gráfico da ACF, verifica-se que esta não decresce rapidamente.
Exemplo 4 – série 1serie1
0 20 40 60 80 100
010
2030
4050
5 10 15 20
-0.2
0.0
0.2
0.4
0.6
0.8
1.0
Lag
AC
F
5 10 15 20
-0.2
0.0
0.2
0.4
0.6
0.8
1.0
Lag
PA
CF
Exemplo 4 – série 1 – cont.diff(serie1)
0 20 40 60 80 100
-3-2
-10
12
3
5 10 15 20
-0.2
0.0
0.2
0.4
0.6
Lag
AC
F
5 10 15 20
-0.2
0.0
0.2
0.4
0.6
Lag
PA
CF
Exemplo 4 – série 2serie2
0 20 40 60 80 100
-15
-10
-50
5 10 15 20
-0.2
0.2
0.4
0.6
0.8
Lag
AC
F
5 10 15 20-0
.20.
20.
40.
60.
8
Lag
PA
CF
Identificação
• Verificar se na série original existe a necessidade de transformação desta com o objetivo de estabilizar sua variância.
• Tomar diferenças nas séries tantas vezes quanto necessárias para tornar a série estacionária.
• Identificar o processo ARMA resultante através da análise das autocorrelações e autocorrelações parciais estimadas.
27
Exemplo 5
Time
a10
1995 2000 2005
510
1520
2530
Vendas anuais de remédios para diabetes na Austrália
28
Exemplo 5 – aplicar uma transformação
Time
log(
a10)
1995 2000 2005
1.0
1.5
2.0
2.5
3.0
Identificação• Há uma certa subjetividade envolvendo este
procedimento. • É possível dois ou mais modelos ajustarem os dados.
• mesmo número de parâmetros, aquele que resultar no menor erro médio padrão deve ser escolhido.
• tiverem número de parâmetros diferentes o princípio da parcimônia deve ser utilizado na seleção
• Critérios de informação de AKAIKE (AIC) ou o critério de informação Bayesiano (BIC)
AIC e BIC• Métodos baseados em uma função penalizadora. Nestes
a idéia fundamental é minimizar a estimativa da variância residual do modelo.
• Apresentam um termo na equação, denominado termo penalizador que aumenta na medida em que o número de parâmetros cresce, enquanto que a variância residual diminui.
• Assim busca-se identificar um modelo que equilibre este comportamento.
Estimação• Estimar os parâmetros cada um dos modelos Auto-
regressivas , de médias móveis , e a variância dos erros. • Inicialmente é necessário usar um processo iterativo de
estimação não-linear de mínimos quadrados • estimativas preliminares - valores iniciais neste procedimento.
• Os programas computacionais, na maioria dos casos, incorporam estes valores iniciais
• Esta estimação é realizada em geral através do método
de máxima verossimilhança.
Exemplo 5
Os resultados correspondem aos parâmetros dos modelos e o desvio padrão dos estimadores
33
Caso 1 – Identificação
ts.sim.4
0 50 100 150 200
-5
5 10 15 20
-0.4
0.4
Lag
AC
F
5 10 15 20
-0.4
0.4
Lag
PA
CF
34
O modelo
35
Caso 2 - Identificação
ts.sim.5
0 50 100 150 200
-20
40
5 10 15 20
-0.2
0.4
0.8
Lag
AC
F
5 10 15 20
-0.2
0.4
0.8
Lag
PAC
F
36
O modelo
Diagnóstico dos modelos • O modelo escolhido é checado junto aos dados originais
para verificar sua acurácia em descrever a série.
• O modelo ajusta bem os dados se os resíduos deste são pequenos, e de comportamento aleatório.
• Verificar se os resíduos são autocorrelacionados.
• Os resíduos do modelo não devem apresentar autocorrelação.• Os gráficos da ACF e PACF dos resíduos do modelo devem ser
plotados e analisados. • Existem também testes estatísticos formais para tal fim, como os
testes de Box-Pierce e Ljung-Box.
Exemplo 5 – caso 2 – Análise dos resíduos tsdisplay(mod.2$residuals)
mod.2$residuals
0 50 100 150 200
-20
2
5 10 15 20
-0.2
0.0
0.2
Lag
AC
F
5 10 15 20
-0.2
0.0
0.2
Lag
PAC
F
Diagnóstico • NORMALIDADE DOS RESÍDUOS
• Para que o modelo seja adequado os resíduos também devem ter distribuição normal. • Construção de um histograma• o gráfico de probabilidade normal • teste formal para verificação da suposição de normalidade
(Shapiro-Wilk, Jarque-Bera)
40
Diagnóstico Histograma dos residuos
mod.2$residuals
Freq
uenc
y
-2 -1 0 1 2
010
2030
40
Diagnóstico• PERIODOGRAMA ACUMULADO • Uma reta teórica e limites de confiança são traçados. • Se o modelo é adequado, a estatística plotada não tem
desvios sistemáticos desta
• Demais testes
Periodograma acumuladocpgram(mod.2$residuals)
0.0 0.1 0.2 0.3 0.4 0.5
0.0
0.2
0.4
0.6
0.8
1.0
frequency
Series: mod.2$residuals
43
Outras análises – tsdiag(modelo)
Standardized Residuals
Time
0 50 100 150 200
-22
0 5 10 15 20
0.0
Lag
AC
F
ACF of Residuals
2 4 6 8 10
0.0
p values for Ljung-Box statistic
lag
p va
lue
tsdiag(mod.2)
Previsão• Neste passo é feita a previsão que decorre através da
substituição das variáveis das equações de cada modelo, apresentadas em seguida e a da indicação do número de passos a frente que se quer prever.
• Corresponde a etapa de extrapolação dos dados históricos através do modelo encontrado.
Previsão• INTERVALOS DE CONFIANÇA
• É recomendável trabalhar com estimativas intervalares construídas a partir das pontuais
• É comum os softwares retornarem intervalos de 95% e
80% de confiança
46
Previsões
47
Gráfico das previsões
Forecasts from ARIMA(1,1,0)
0 50 100 150 200
-20
020
6010
0
48
Incluindo as prediçõespreditos<-fitted(previsao)lines(preditos,col=2,lty=2)
Forecasts from ARIMA(1,1,0)
0 50 100 150 200
-20
020
6010
0
49
Medidas dos erros de previsão
Exemplo 6 • Série temporal com 100 (cem) observações correspondente ao número de
usuários conectados à Internet em um particular servidor a cada minuto.
Exemplo 6 • Série temporal com 100 (cem) observações correspondente ao número de
usuários conectados à Internet em um particular servidor a cada minuto.
WWWusage
0 20 40 60 80 100
100
150
200
5 10 15 20
-0.4
0.0
0.2
0.4
0.6
0.8
1.0
Lag
AC
F
5 10 15 20-0
.40.
00.
20.
40.
60.
81.
0Lag
PA
CF
52
O modelo
Diagnóstico – analise resíduos
r1
0 20 40 60 80 100
-50
5
5 10 15 20
-0.3
-0.2
-0.1
0.0
0.1
0.2
0.3
Lag
AC
F
5 10 15 20
-0.3
-0.2
-0.1
0.0
0.1
0.2
0.3
Lag
PA
CF
> tsdisplay(modelo$residuals)> hist(modelo$residuals)> shapiro.test(modelo$residuals)
Análise resíduos
Jarque Bera Test p-value = 0.936Shapiro-Wilk normality test p-value = 0.7107
Histogram of r1
r1
Freq
uenc
y
-10 -5 0 5
05
1015
2025
-2 -1 0 1 2
-50
5
Normal Q-Q Plot
Theoretical Quantiles
Sam
ple
Qua
ntile
s
Diagnóstico
• Resíduos apresentam um comportamento aleatório.• Sem a presença de autocorrelação.• Tem distribuição normal.• Conclui-se que é apropriado.
Previsões• Foram então realizadas previsões para seis períodos
adiante. • Os valores pontuais e os intervalos de 80% e 85% de
confiança estão no slide a seguir• Gráfico com a série original, os valores ajustados pelo
modelo e as previsões pontuais e intervalares
Forecasts from ARIMA(1,1,1)
0 20 40 60 80 100
100
200
> previsao<-forecast(modelo,h=6)> plot(previsao)
ARIMA para dados sazonais• Um modelo ARIMA sazonal é denominado de SARIMA de
ordem (p,d,q)(P,D,Q)12, onde:• p = termo autoregressivo regular• d = diferença regular• q = termo de médias móveis regular• P = termo autoregressivo sazonal• D = diferença sazonal• Q = termos de médias móveis sazonal
EXEMPLO 11• Neste exemplo, a série estudada corresponde à dados da
série mensal do total de vendas de garrafas de vinho (de até 1 litro) na Austrália, no período de Janeiro de 1980 a Agosto de 1994. (Fonte: http://www.robhyndman.info/TSDL/ ).
EXEMPLO 11wineind
1980 1985 1990 1995
1500
025
000
3500
0
5 10 15 20
-0.2
0.0
0.2
0.4
0.6
0.8
Lag
AC
F
5 10 15 20
-0.2
0.0
0.2
0.4
0.6
0.8
Lag
PA
CF
EXEMPLO 1115
000
2000
025
000
3000
035
000
4000
0
Seasonal plot: wineind
Month
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
EXEMPLO 11
• Modelo escolhido pelo R
EXEMPLO 11modelo$residuals
1980 1985 1990 1995-100
0050
00
0 5 10 20 30
-0.2
0.0
0.2
Lag
ACF
0 5 10 20 30
-0.2
0.0
0.2
Lag
PAC
F
Histogram of r5
r5
Freq
uenc
y
-10000 -5000 0 5000
010
2030
4050
60
-2 -1 0 1 2
-100
00-5
000
050
00
Normal Q-Q Plot
Theoretical Quantiles
Sam
ple
Qua
ntile
s
EXEMPLO 11
EXEMPLO 11
0 1 2 3 4 5 6
0.0
0.2
0.4
0.6
0.8
1.0
frequency
Series: r5
66
Exercício• Vendas de carrinho de mão• Série mensal
67
head(cm)attach(cm)cm<-ts(cm,frequency=12,start=c(2005))cm
plot(cm,type="b",pch=19,main="Vendas de carrinhos de mão")tsdisplay(cm)seasonplot(cm)meu.modelo.1<-auto.arima(cm)meu.modelo.1tsdisplay(meu.modelo.1$residuals)tsdiag(meu.modelo.1)cpgram(meu.modelo.1$residuals)hist(meu.modelo.1$residuals)shapiro.test(meu.modelo.1$residuals)previsao<-forecast(meu.modelo.1,h=3)previsaoplot(previsao)preditos<-fitted(meu.modelo.1)lines(preditos,col=4)accuracy(meu.modelo.1)
EXEMPLO 12• Vamos analisar a série
correspondente ao IPI-Produção Física Industrial-Produtos Alimentares, no período compreendido entre janeiro de 1985 e julho de 2000.• adaptado de MORETTIN &
TOLOI (2004)
EXEMPLO 12ipi
1985 1990 1995 2000
8010
012
014
0
5 10 15 20
-0.2
0.0
0.2
0.4
0.6
0.8
Lag
AC
F
5 10 15 20
-0.2
0.0
0.2
0.4
0.6
0.8
Lag
PA
CF
EXEMPLO 12
8010
012
014
0Seasonal plot: ipi
Month
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
EXEMPLO 12
EXEMPLO 12Standardized Residuals
Time
1985 1990 1995 2000
-3-1
13
0.0 0.5 1.0 1.5
0.0
0.4
0.8
Lag
AC
F
ACF of Residuals
2 4 6 8 10
0.0
0.4
0.8
p values for Ljung-Box statistic
lag
p va
lue
Histogram of r6
r6
Freq
uenc
y
-15 -10 -5 0 5 10 15
010
2030
4050
60
-3 -2 -1 0 1 2 3
-15
-10
-50
510
15
Normal Q-Q Plot
Theoretical Quantiles
Sam
ple Qua
ntile
s
EXEMPLO 12
EXEMPLO 12
0 1 2 3 4 5 6
0.0
0.2
0.4
0.6
0.8
1.0
frequency
Series: r6
EXEMPLO 12• Assim, são feitas previsões para os meses de agosto a
dezembro de 2000. • As previsões e um gráfico com os valores observados e
calculados podem ser visualizados em seguida.
EXEMPLO 12Forecasts from ARIMA(2,1,5)(1,0,1)[12]
1985 1990 1995 2000
8010
012
014
0
ERROS DE PREVISÃO• Após a seleção do modelo é importante também calcular
e analisar as medidas correspondentes aos erros de previsão • (MAD, MAPE, etc)
• Um bom modelo, de preferência, deve ajustar-se bem aos dados, com erros pequenos.
• Uma forma de escolha, entre vários modelos para a mesma série, é optar por aquele que tem os menores valores para estas medidas.
• No R: accuracy(modelo) – dentro da amostra• accuracy (modelo, novos dados) – fora da amostra
VANTAGENS E DESVANTAGENS DOS MODELOS ARIMA • A abordagem Box-Jenkins para a análise de séries
temporais é uma poderosa ferramenta para previsões acuradas no curto prazo.
• O modelo ARIMA é flexível e pode representar inúmeras séries que ocorrem na prática.
• Testes formais para testar a adequação do modelo são facilmente encontrados.
• E, previsões e predições são obtidas diretamente do modelo.
VANTAGENS E DESVANTAGENS DOS MODELOS ARIMA
• Todavia algumas limitações merecem destaque:• É necessária uma série com relativamente um número
grande de dados• Não existem métodos simples para recalcular os
parâmetros na inclusão de novos dados, sendo necessário, algumas vezes desenvolver um novo modelo.
• A utilização desta metodologia requer experiência e algum conhecimento além do uso automático de um pacote computacional.
80
Mais exercícios? ETS?Carrinho de mão – modelo ets
meu.modelo.2<-ets(cm)meu.modelo.2accuracy(meu.modelo.2)
Série de dados - iof
REFERÊNCIAS1. ALMEIDA, S. G.; SOUZA, A. M.; MARCHEZAN, A.; SANTA CATARINA, G. M. F. Previsão dos
preços das culturas de arroz e feijão praticados no Rio Grande do Sul. Anais do XV SIMPEP – Simpósio de Engenharia de Produção. Bauru: Novembro de 2008. Disponível em: http://www.simpep.feb.unesp.br/anais_simpep.php?evento=2. Acesso em: 12/01/2009.
2. CAMARGO, M. E.; FILHO, W. P.; RUSSO, S. L. Previsão de vendas através da metodologia BOX & JENKINS: Um estudo de caso. Anais do ENEGEP 2007. Foz de Iguaçu: Outubro de 2007. Disponível em: < http://www.abepro.org.br/biblioteca/ENEGEP2007_TR620466_0405.pdf>. Acesso em: 12/01/2009.
3. FIGUEIREDO, C.; NETO, A. C. Previsão de séries temporais utilizando a metodologia Box & Jenkins e redes neurais para inicialização de planejamento e controle de produção. Anais do XV SIMPEP. Bauru: Novembro, 2008. Disponível em: http://www.simpep.feb.unesp.br/anais_simpep.php?evento=2. Acesso em: 12/01/2009.
4. HANKE, J.; WICHERN, D.; REITSCH, A. Business Forecasting. 7ª Edição. New Jersey: Prentice Hall, 2001.
5. MORETTIN, P. A.; TOLOI, C. Análise de Séries Temporais. São Paulo: Ed Edgar Blucher, 2004. 6. RODRIGUES, G. A.; PAULISTA P.H.; TURRIONI, J. B. Previsão do Preço da Energia: uma
aplicação da metodologia Box-Jenkins. Anais do ENEGEP 2008. Rio de Janeiro: Outubro de 2008. Disponível em: < http://www.abepro.org.br/biblioteca/enegep2008_TN_WIC_070_498_11575.pdf> Acesso em 26/01/2009
7. http://otexts.com/fpp/