Sérgio René Pessoa Vila Nova Filho · Palavras-chave: previsão de séries temporais. particionamento de séries temporais. redes neurais. máquinas de vetores de suporte para regressão

Pós-Graduação em Ciência da Computação

“Previsão de séries temporais utilizando pools de preditores criados a partir do

particionamento da série e da divisão da tarefa de previsão”

Por

Sérgio René Pessoa Vila Nova Filho

Dissertação de Mestrado

Universidade Federal de Pernambuco [email protected]

www.cin.ufpe.br/~posgraduacao

RECIFE/2015

UNIVERSIDADE FEDERAL DE PERNAMBUCO

CENTRO DE INFORMÁTICA

PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO

Sérgio René Pessoa Vila Nova Filho

“PREVISÃO DE SÉRIES TEMPORAIS UTILIZANDO POOLS DE PREDITORES CRIADOS A PARTIR DO PARTICIONAMENTO DA

SÉRIE E DA DIVISÃO DA TAREFA DE PREVISÃO"

ESTE TRABALHO FOI APRESENTADO À PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO DO CENTRO DE INFORMÁTICA DA UNIVERSIDADE FEDERAL DE PERNAMBUCO COMO REQUISITO PARCIAL PARA OBTENÇÃO DO GRAU DE MESTRE EM CIÊNCIA DACOMPUTAÇÃO.

ORIENTADOR(A): George Darmiton da Cunha Cavalcanti CO-ORIENTADOR(A): Paulo Salgado Gomes de Mattos Neto

RECIFE, AGOSTO/2015

Catalogação na fonte Bibliotecária Jane Souto Maior, CRB4-571

V696p Vila Nova Filho, Sérgio René Pessoa Previsão de séries temporais utilizando pools de preditores

criados a partir do particionamento da série e da divisão da tarefa de previsão / Sérgio René Pessoa Vila Nova Filho – Recife: OAutor, 2015.

103 f.: il., fig., tab.

Orientador: George Darmiton da Cunha Cavalcanti. Dissertação (Mestrado) – Universidade Federal de

Pernambuco. CIn, Ciência da Computação, 2015. Inclui referências.

1. Inteligência computacional. 2. Previsão de séries temporais.3. Redes neurais. I. Cavalcanti, George Darmiton da Cunha(orientador). II. Título.

006.3 CDD (23. ed.) UFPE- MEI 2015-181

Dissertação de Mestrado apresentada por Sérgio René Pessoa Vila Nova Filho à Pós

Graduação em Ciência da Computação do Centro de Informática da Universidade Federal

de Pernambuco, sob o título “Previsão de Séries Temporais Utilizando Pools de

Preditores Criados a partir do Particionamento da Série e da Divisão da Tarefa de

Previsão” orientada pelo Prof. George Darmiton da Cunha Cavalcanti e aprovada pela

Banca Examinadora formada pelos professores:

______________________________________________ Prof. Adriano Lore Inacio de Oliveira

Centro de Informática/UFPE

______________________________________________ Prof. Paulo Renato Alves Firmino

Centro de Ciências e Tecnologia / UFCA

_______________________________________________ Prof. George Dartmiton da Cunha Cavalcanti Centro de Informática / UFPE

Visto e permitida a impressão. Recife, 28 de agosto de 2015.

___________________________________________________ Profa. Edna Natividade da Silva Barros Coordenadora da Pós-Graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco.

Dedico este trabalho aos meus pais, minha irmã, meus avós

e à minha namorada.

Agradecimentos

Primeiramente, agradeço a Deus por ter me dado saúde e força para chegar até essemomento.

Agradeço aos meus pais, Maria Theresa Gomes Pessoa e Sérgio René Pessoa Vila Nova,à minha irmã Larissa Pessoa Vila Nova e à minha avó Maria Pompéia Gomes Pessoa, por todo oapoio e incentivo durante o mestrado, e pela base educacional proporcionada, que possibilitoudar mais esse passo na vida acadêmica e profissional.

Agradeço à minha namorada, Nathalia Vieitez Rodrigues Moreira por ter me incentivadoe ajudado durante o desenvolvimento deste trabalho e por todo o amor, carinho, companheirismoe compreensão.

Agradeço ao meu orientador, Prof. George Darmiton da Cunha Cavalcanti e ao meuco-orientador Prof. Paulo Salgado Gomes de Mattos Neto, por toda a disponibilidade, apoio,orientação e compreensão durante todo o período do mestrado.

Por fim, agradeço aos professores do curso de Pós-graduação em Ciência da Computaçãodo Centro de Informática da UFPE, pela boa formação e orientação que recebi.

A distinção entre passado, presente e futuro é apenas uma ilusão

teimosamente persistente.

—ALBERT EINSTEIN

Resumo

A análise de séries temporais é uma importante área de estudo em diversos domínios.Grande parte das pesquisas em análise de séries temporais objetivam encontrar um modelo deprevisão que utiliza dados passados da série para prever o seu valor no futuro, e então utiliza-opara a tomada de decisões. Algumas séries temporais apresentam padrões de comportamentoque se repetem ao longo dela, tais padrões possuem tamanhos variados e podem ser utilizadospara auxiliar a previsão. Esta dissertação propõe um sistema para previsão de séries temporaisbaseado em dois métodos principais: o primeiro consiste em particionar a série a fim de separarseus padrões de comportamento, o segundo divide a tarefa de previsão nas subtarefas de estimaro sentido da série no futuro e na de estimar o próximo valor a partir da previsão do sentidoe do comportamento anterior da série. Para cada uma dessas divisões, é treinado um preditorespecialista na tarefa de predição e no padrão de comportamento contido na partição. Pararealizar um estudo comparativo, foram utilizadas quatro séries temporais, sendo duas financeirase duas bastante utilizadas em estudos recentes. Quatro métricas foram usadas para avaliar omodelo proposto, e seus resultados foram comparados às performances dos modelos de RedeNeural Multilayer Perceptron (MLP) e Máquina de Vetor de Suporte para Regressão (SVR),além de modelos de estudos recentes. Também foram analisados os impactos da variação de cadaparâmetro do sistema proposto com relação ao desempenho da previsão. O modelo propostoapresentou desempenho superior aos outros modelos avaliados, nas quatro séries.

Palavras-chave: previsão de séries temporais. particionamento de séries temporais. redesneurais. máquinas de vetores de suporte para regressão. seleção de características. dynamic timewarping. múltiplos preditores.

Abstract

Time series analysis is an important area of study in many expertise fields. Great part ofthe researches in time series analysis aims to find a prediction model, which analyzes the pastdata to predict the series future value, and then use it to make decisions. Some series exhibitbehaviors patterns that repeat along it, such patterns have different sizes and could be used tohelp the forecast. This dissertation proposes a system to predict the future values of a timeseries, using two main methods: the first consist on partitioning the series, to segregate behaviourpatterns, the second divides the prediction task in the subtasks of estimating the series futuredirection and the subtask of estimating the series future value from the direction forecast and thepast values of the series. For each one of these divisions, a predictor is trained and becomes aspecialist on the prediction subtask and in the behaviour pattern of the partition. To perform acomparative study, four time series were used, two are financial time series and two are used inmany recent researches. Four performance metrics were used to evaluate, and the results werecompared to the results of the Neural Network model (MLP) and the Support Vector Machine forRegression model (SVR), as well as other published studies models. The impacts of the variationof the models parameters on the prediction performance were analyzed as well. The proposedmodel presented better performance than the compared models on the four series evaluated.

Keywords: time series prediction, time series partitioning, neural networks, support vectormachines for regression, characteristics selection, dynamic time warping, multiple predictors.

Lista de Figuras

2.1 Série mensal do número de passageiros de voos internacionais nos EstadosUnidos de 1949 à 1960 pela companhia aérea Pan Am . . . . . . . . . . . . . . 21

2.2 Séries estacionárias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.3 Série de ruído branco e seu autocorrelograma . . . . . . . . . . . . . . . . . . 252.4 Autocorrelograma da série de passageiros . . . . . . . . . . . . . . . . . . . . 262.5 Autocorrelograma parcial x Autocorrelograma da série de preço de fechamento

ajustado das ações da Goldman Sachs . . . . . . . . . . . . . . . . . . . . . . 262.6 Fechamento mensal do IBOVESPA de Jan/1997 a Dez/2011 . . . . . . . . . . 292.7 Fechamento mensal do IBOVESPA de Mai/1998 a Abr/1999 e de Nov/2007 a

Mar/2010 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292.8 Modelo de neurônio artificial . . . . . . . . . . . . . . . . . . . . . . . . . . . 352.9 Rede neural Multilayer Perceptron . . . . . . . . . . . . . . . . . . . . . . . . 362.10 Support Vector Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382.11 Séries A, B e X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422.12 Mapeamento entre as séries A e X realizado pelo DTW . . . . . . . . . . . . . 44

3.1 Arquitetura de treinamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463.2 Arquitetura de testes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463.3 Arquitetura de treinamento de um pool de preditores . . . . . . . . . . . . . . 493.4 Série particionada com k = 200 e pint = 25% . . . . . . . . . . . . . . . . . . . 503.5 Autocorrelação de uma série temporal . . . . . . . . . . . . . . . . . . . . . . 513.6 Seleção do melhor preditor . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4.1 Série do preço de fechamento ajustado das ações da Goldman Sachs . . . . . . 574.2 Série do preço de fechamento ajustado das ações da Microsoft . . . . . . . . . 584.3 Série Mackey-Glass . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 584.4 Série Laser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 594.5 Variação da quantidade de janelas por série avaliada . . . . . . . . . . . . . . . 624.6 Processo de escolha do melhor preditor . . . . . . . . . . . . . . . . . . . . . 63

5.1 Percentual de utilização dos lags pelas abordagens sem particionamento e comparticionamento (k = 150, lmax = 30 e pint = 90%) . . . . . . . . . . . . . . 70

5.2 MAPEs da previsão do próximo valor da série de preço de fechamento ajustadoda ação da Goldman Sachs utilizando MLP . . . . . . . . . . . . . . . . . . . 71

5.3 MAPEs da previsão do próximo valor da série de preço de fechamento ajustadoda ação da Goldman Sachs utilizando SVR . . . . . . . . . . . . . . . . . . . 73

5.4 Previsão da abordagem SVRPART que obteve o melhor score na série GS . . . 745.5 Percentual de utilização dos lags pelas abordagens sem particionamento e com

particionamento (k = 350, lmax = 30 e pint = 50%) . . . . . . . . . . . . . . 765.6 MAPEs da previsão do próximo valor da série de preço de fechamento ajustado

da ação da Microsoft utilizando MLP . . . . . . . . . . . . . . . . . . . . . . 775.7 MAPEs da previsão do próximo valor da série de preço de fechamento ajustado

da ação da Microsoft utilizando SVR . . . . . . . . . . . . . . . . . . . . . . . 795.8 Previsão da abordagem MLPPART que obteve o melhor score na série MSFT . 805.9 MAPEs da previsão do próximo valor da série Mackey-Glass utilizando MLP . 835.10 MAPEs da previsão do próximo valor da série Mackey-Glass utilizando SVR . 845.11 Previsão da abordagem SVRPART que obteve o melhor score na série Mackey-

Glass . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 865.12 Percentual de utilização dos lags pelas abordagens sem particionamento e com

particionamento (k = 450, lmax = 30 e pint = 50%) . . . . . . . . . . . . . . 895.13 MAPEs da previsão do próximo valor da série Laser utilizando MLP . . . . . . 905.14 MAPEs da previsão do próximo valor da série Laser utilizando SVR . . . . . . 915.15 Previsão da abordagem SVRPART que obteve o melhor score na série Laser . . 925.16 Análise das métricas de desempenho da abordagem MLPMS pela variação da

taxa de acerto na série GS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 965.17 Análise das métricas de desempenho da abordagem MLPMS pela variação da

taxa de acerto na série MSFT . . . . . . . . . . . . . . . . . . . . . . . . . . . 975.18 Previsão da abordagem MLPPART que obteve o melhor score na série MSFT

com taxa de acerto do módulo de mudança de sentido igual a 80% . . . . . . . 97

Lista de Tabelas

2.1 Exemplo de entradas para o modelo de previsão . . . . . . . . . . . . . . . . . 392.2 Matriz W do DTW entre as séries A e X. Melhor caminho em destaque . . . . 432.3 Matriz W do DTW entre as séries B e X. Melhor caminho em destaque . . . . . 43

3.1 Exemplo da função CMS sobre uma série temporal . . . . . . . . . . . . . . . 47

4.1 Séries utilizadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 564.2 Estatísticas das séries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 574.3 Configurações dos testes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 614.4 Configurações das MLPs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644.5 Configurações das SVRs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

5.1 Janelas selecionadas durante os testes na série GS com a abordagem com partici-onamento (k = 150, pint = 90% e lmax = 30) . . . . . . . . . . . . . . . . . . 69

5.2 Resultados das abordagens para a série GS . . . . . . . . . . . . . . . . . . . . 745.3 Testes estatísticos para as abordagens na série GS . . . . . . . . . . . . . . . . 755.4 Janelas selecionadas durante os testes na série MSFT com a abordagem com

particionamento (k = 350, pint = 50%, lmax = 30) . . . . . . . . . . . . . . . 755.5 Resultados das abordagens para a série MSFT . . . . . . . . . . . . . . . . . . 805.6 Testes estatísticos para as abordagens na série MSFT . . . . . . . . . . . . . . 815.7 Janelas selecionadas durante os testes na série Mackey-Glass com a abordagem

com particionamento (k = 450, pint = 50%, lmax = 30) . . . . . . . . . . . . 815.8 Resultados das abordagens para a série Mackey-Glass . . . . . . . . . . . . . . 855.9 Comparação da melhor abordagem proposta com estudos recentes para a série

Mackey-Glass . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 855.10 Testes estatísticos para as abordagens na série Mackey-Glass . . . . . . . . . . 865.11 Janelas selecionadas durante os testes na série Laser com a abordagem com

particionamento (k = 450, pint = 50%, lmax = 30) . . . . . . . . . . . . . . . 885.12 Janelas selecionadas durante os testes na série Laser com a abordagem com

particionamento (k = 450, pint = 50%, lmax = 30) . . . . . . . . . . . . . . . 885.13 Resultados das abordagens para a série Laser . . . . . . . . . . . . . . . . . . 925.14 Comparação da melhor abordagem proposta com estudos recentes para a série

Laser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 925.15 Testes estatísticos para as abordagens na série Laser . . . . . . . . . . . . . . . 935.16 Abordagens e configurações dos melhores resultados por série . . . . . . . . . 94

Lista de Acrônimos

k Tamanho da janela do pool de preditores

kms Tamanho da janela do pool de preditores de mudança de sentido

kpv Tamanho da janela do pool de preditores do próximo valor

pint Percentual de interseção entre janelas adjacentes

pintms Percentual de interseção entre janelas adjacentes do pool de preditores de mudançade sentido

pintpv Percentual de interseção entre janelas adjacentes do pool de preditores do próximovalor

lmax Lag máximo

lmaxms Lag máximo do pool de preditores de mudança de sentido

lmaxpv Lag máximo do pool de preditores do próximo valor

Sms Série das mudanças de sentido da série original

Spms Série das previsões de mudança de sentido

MS Pool de preditores de mudança de sentido

PV Pool de preditores do próximo valor

PMS Série de previsões de mudança de sentido

Ppred Parâmetros de treinamento do preditor

CMSn O n-ésimo valor da série de mudança de sentido

q j Quantidade de janelas

J Partições

L Lags selecionados de cada partição

V Conjuntos de validação de cada partição

F Conjunto de preditores treinados com seus respectivos lags selecionados

f ′ Preditor mais apto segundo o algoritmo DTW

Ω Base de dados de treinamento

Λ Base de dados de testes

Sumário

1 Introdução 161.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161.2 Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181.3 Estrutura da dissertação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2 Conceitos e técnicas 202.1 Séries temporais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.2 Função de Autocorrelação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.3 Estacionariedade em Séries Temporais . . . . . . . . . . . . . . . . . . . . . . 272.4 Mudanças nas séries temporais . . . . . . . . . . . . . . . . . . . . . . . . . . 282.5 Modelos para previsão de séries temporais . . . . . . . . . . . . . . . . . . . . 30

2.5.1 Modelos estatísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . 312.5.2 Rede Neural Artificial Multilayer Perceptron . . . . . . . . . . . . . . 332.5.3 Máquinas de vetor de suporte para regressão (SVR) . . . . . . . . . . . 37

2.6 Seleção de características . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392.7 Dynamic Time Warping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3 Método proposto 453.1 Módulo de mudança de sentido (MS) . . . . . . . . . . . . . . . . . . . . . . . 47

3.1.1 Criação da série de mudança de sentido . . . . . . . . . . . . . . . . . 473.1.2 Treinamento do pool de preditores . . . . . . . . . . . . . . . . . . . . 48

3.1.2.1 Particionamento . . . . . . . . . . . . . . . . . . . . . . . . 483.1.2.2 Seleção de lags . . . . . . . . . . . . . . . . . . . . . . . . 513.1.2.3 Seleção dos dados de validação . . . . . . . . . . . . . . . . 52

3.2 Módulo de previsão do próximo valor . . . . . . . . . . . . . . . . . . . . . . 523.3 Testes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

3.3.1 Previsão de mudança de sentido . . . . . . . . . . . . . . . . . . . . . 533.3.2 Seleção do melhor preditor . . . . . . . . . . . . . . . . . . . . . . . . 543.3.3 Previsão do próximo valor . . . . . . . . . . . . . . . . . . . . . . . . 55

4 Metodologia dos experimentos 564.1 Bases de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 564.2 Medidas de desempenho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 574.3 Metodologia de avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 604.4 Testes Estatísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

4.4.1 Teste de Shapiro-Wilk . . . . . . . . . . . . . . . . . . . . . . . . . . 66

4.4.2 Teste F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 664.4.3 Teste t-Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 664.4.4 Teste de Wilcoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

5 Análise e resultados 685.1 Goldman Sachs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

5.1.1 Lags Selecionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 685.1.2 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

5.2 Microsoft . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 755.2.1 Lags Selecionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 755.2.2 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.3 Mackey-Glass . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 815.3.1 Lags Selecionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 815.3.2 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

5.4 Laser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 875.4.1 Lags Selecionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 875.4.2 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

5.5 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 935.5.1 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 945.5.2 Simulação mudança de sentido . . . . . . . . . . . . . . . . . . . . . . 95

6 Conclusão 986.1 Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 986.2 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

Referências 100

161616

1Introdução

Este capítulo introdutório está dividido em três seções. A primeira (Seção 1.1) apresentao problema da análise e previsão de séries temporais, assim como a motivação desta dissertação.Na segunda (Seção 1.2) são apresentados os objetivos deste trabalho. Por fim, na terceira(Seção 1.3), a estrutura da dissertação é apresentada.

1.1 Motivação

A análise de séries temporais é uma tarefa bastante relevante (DONATE et al., 2013), e éaplicada em diversos domínios (COWPERTWAIT; METCALFE, 2009; ADEBIYI; ADEWUMI;AYO, 2014). Dentre os quais podem ser citados o mercado financeiro (ATSALAKIS; VALA-VANIS, 2009), hidrologia (DI; YANG; WANG, 2014; ALMEIDA, 2014), análise de poluentes(MATTOS NETO et al., 2014), entre outros domínios (DONATE et al., 2013; ISMAIL; SHABRI;SAMSUDIN, 2011; EBADZADEH; SALIMI-BADR, 2015). Grande parte das pesquisas emanálise de séries temporais tem como objetivo desenvolver um modelo de previsão que utilizedados passados para prever valores futuros. Diversos modelos foram desenvolvidos e analisados(HSU, 2011; ISMAIL; SHABRI; SAMSUDIN, 2011; EBADZADEH; SALIMI-BADR, 2015;MATTOS NETO et al., 2014; JUANG; HSIEH, 2012; MIRANIAN; ABDOLLAHZADE, 2013;SMITH; JIN, 2014), contudo ainda existe a necessidade de desenvolver modelos mais acurados.

Dentre os modelos de previsão de séries temporais, existem os modelos estatísticosclássicos, como os modelos auto-regressivos, os que utilizam a média móvel e os que analisama heteroscedasticidade condicional (BOX; JENKINS, 1994; BOLLERSLEV, 1986; ENDERS,2003; COWPERTWAIT; METCALFE, 2009; SHUMWAY; STOFFER, 2011). Os modelosestatísticos como o ARIMA e o GARCH são parcimoniosos, e seus parâmetros são geralmentecalculados por métodos determinísticos. Além destes, os modelos da Inteligência Computacional,como as Redes Neurais Artificiais (RNA) e Máquinas de Vetores de Suporte (SVM), temposição de destaque na literatura (LAHMIRI, 2011; ADEBIYI; ADEWUMI; AYO, 2014;HSU, 2011; TICKNOR, 2013; DI; YANG; WANG, 2014; HSU et al., 2009; MIRANIAN;ABDOLLAHZADE, 2013). Tais modelos se adaptam bem à tarefa de previsão de séries

1.1. MOTIVAÇÃO 17

temporais, pois conseguem criar um modelo a partir de dados já observados, e que pode seraplicado a outros dados do problema que não se encontravam no conjunto observado (ADEBIYI;ADEWUMI; AYO, 2014). Por fim, para séries não-lineares, não é necessária a definição deuma função não-linear a priori para a aproximação da série, o que é necessário nos modelos daestatísticos (ADEBIYI; ADEWUMI; AYO, 2014; COWPERTWAIT; METCALFE, 2009).

Estudos sugerem que alguns tipos de séries temporais, como as séries financeiras ehidrológicas, possuem padrões de comportamento que se repetem ao longo do tempo na série(NI; YIN, 2009; DABLEMONT et al., 2003). Esta repetição de padrões pode ser utilizadapara melhorar a acurácia das previsões, pois, segundo estes estudos, séries dessa naturezageralmente apresentam repetição de padrões de comportamento. HSU (2011) utiliza um modelode RNA para criar grupos de conjuntos de dados semelhantes, e treina preditores para cadagrupo. Este modelo de previsão com modelos locais também é utilizado em ISMAIL; SHABRI;SAMSUDIN (2011). Em MIRANIAN; ABDOLLAHZADE (2013), os autores criam váriospreditores baseados em características diferentes da série. Nestes estudos citados, os autoresalcançam resultados melhores com as abordagens propostas do que com os outros modelos queavaliaram.

Já outros estudos dividem a previsão de séries temporais em tarefas menores, realizandoa previsão em etapas que focam em resolver apenas um problema. Em DI; YANG; WANG(2014), é utilizada uma abordagem de previsão em quatro passos, que são: suavização de ruído,decomposição, componentes de previsão e combinação de previsões, para prever séries referentesàs vazões de rios chineses, chegando a conclusão de que a suavização do ruído e a decomposiçãoda série melhoram significativamente o resultado da previsão, pois eles deixam a série com umavariação de valores mais uniforme. Já em MATTOS NETO et al. (2014), os autores utilizam umaestratégia de previsão para séries de partículas de poluentes da cidade de Helsinki em dois passos:no primeiro é realizada uma previsão preliminar da série (fase de otimização de parâmetros) eo seu resultado é acrescentado à série como o valor mais atual. Esta série modificada é entãoapresentada ao segundo passo, que realiza um ajuste de fase da previsão do passo anterior.

Outra finalidade da análise de séries temporais, é a de realizar comparações entre duasou mais séries, obtendo como resultado o nível de semelhança entre elas, que pode auxiliar osprocessos de agrupamento e de classificação de séries. O algoritmo Dynamic Time Warping

(DTW) (SAKOE; CHIBA, 1978) foi criado com este propósito. O DTW calcula a distânciaentre as duas séries amenizando o efeito negativo do deslocamento temporal em uma das séries.Em JEONG; JEONG; OMITAOMU (2011), os autores adaptam o algoritmo DTW para queaplique penalidades nesta comparação de distâncias entre séries, com a finalidade de diminuira influência de outliers no cálculo da distância. Em RODRIGUEZ; KUNCHEVA (2007) osautores utilizam o DTW a fim de calcular a distância entre uma série que desejam classificar ealgumas séries pré-determinadas, obtendo um resultado bastante satisfatório.

A partir dos estudos citados nos parágrafos anteriores, é possível perceber que a iden-tificação de padrões de comportamento e sua posterior utilização na previsão pode melhorar

1.2. OBJETIVO 18

o resultado da previsão (NI; YIN, 2009; DABLEMONT et al., 2003; HSU, 2011; ISMAIL;SHABRI; SAMSUDIN, 2011; MIRANIAN; ABDOLLAHZADE, 2013). Foi visto tambémque a estratégia de dividir o problema de previsão em problemas menores, também melhora osresultados (DI; YANG; WANG, 2014; MATTOS NETO et al., 2014). Esta estratégia é muitoutilizada na computação sendo comumente chamada de dividir para conquistar (CAO, 2003;ISMAIL; SHABRI; SAMSUDIN, 2011; NI; YIN, 2009). Por fim, foi constatado que o DTWé um bom algoritmo para analisar a semelhança entre duas séries temporais (RODRIGUEZ;KUNCHEVA, 2007).

Além das conclusões do parágrafo anterior, nos estudos analisados (TICKNOR, 2013;HSU, 2011; NI; YIN, 2009), na maioria das vezes em que a série muda de sentido (isto é, osseus valores estavam aumentando de valor com o passar do tempo e então passam a diminuir,ou quando o contrário ocorre, os valores estão diminuindo e então passam a aumentar), osmodelos de previsão erram a previsão, pois costumam realizar a previsão sem alterar o sentidoda série. Uma possível solução para isto, consiste em tratar o problema da previsão do sentidoseparadamente, para então utilizá-la como mais uma informação para a previsão do próximovalor da série.

1.2 Objetivo

O objetivo principal desta dissertação é propor uma arquitetura para a análise e previsãode séries temporais com os seguintes conceitos:

1. Preditores especializados em padrões de comportamento específicos de amostras dasérie temporal, buscando uma melhor acurácia na previsão

2. Módulo especializado na predição do sentido futuro da série e outro especializado napredição do próximo valor da série, buscando uma melhor acurácia na previsão

Este trabalho propõe um sistema para previsão de séries temporais, que utiliza os concei-tos de particionamento da série para a identificação de padrões de comportamento, e também aabordagem de dividir a tarefa de previsão em subtarefas menores. O sistema possui dois passosde previsão, no primeiro é tratado o problema de predizer o sentido da série no próximo instante,enquanto o segundo realiza a previsão do próximo valor. Nos dois passos a série é divididaem janelas, e cada uma possui um preditor associado, de modo que ele se torna especialistana previsão de um padrão de comportamento da série. Além disso, a arquitetura trata dosproblemas que ocorrem quando não existem muitos dados para realizar o treinamento, através deum algoritmo proposto para a seleção de dados para a validação do treinamento. O algoritmoDynamic Time Warping (DTW) auxilia na escolha do melhor preditor para realizar a previsão,uma vez que a arquitetura possui diversos preditores, é necessário realizar esta seleção. Estealgoritmo também é utilizado no algoritmo de seleção de dados para a validação.

1.3. ESTRUTURA DA DISSERTAÇÃO 19

A arquitetura proposta define uma metodologia para o treinamento e execução da previsãocom diversos módulos, cada um com seu objetivo. Tais módulos podem ser modificados eotimizados posteriormente, sem prejuízos para o funcionamento do sistema, desde que o objetivocontinue o mesmo. Para a avaliação do sistema proposto foram utilizadas algumas métricasmuito utilizadas na literatura.

1.3 Estrutura da dissertação

Esta dissertação está organizada em seis capítulos. No Capítulo 2 são abordados conceitosbásicos e técnicas utilizadas na área de análise e previsão de séries temporais, além de apresentartrabalhos recentes na área. No Capítulo 3, a arquitetura proposta é descrita, sendo detalhadastodas as suas etapas. O Capítulo 4 apresenta as bases de dados e as medidas de desempenhoutilizadas para a avaliação do sistema proposto, e também detalha a metodologia de avaliação.O Capítulo 5 apresenta a análise dos parâmetros do sistema proposto e os resultados obtidos,além de realizar a comparação com outros sistemas da literatura. Por fim, o Capítulo 6 apresentaas conclusões acerca do estudo realizado, e apresenta proposições de trabalhos futuras a partirdeste estudo.

202020

2Conceitos e técnicas

Este capítulo aborda conceitos e técnicas utilizados na construção do sistema proposto eque são tradicionais na área de análise e previsão de séries temporais. A Seção 2.1 apresentao conceito de série temporal e algumas características comumente encontradas, a Seção 2.2apresenta a definição de autocorrelação e como ela é usada na análise das séries temporais.A Seção 2.3 define o conceito de estacionariedade, sua importância e o procedimento paratornar uma série estacionária. Na Seção 2.4 é apresentado o conceito de variações nos padrõesde comportamento de uma série temporal, o qual estuda como as características da série secomportam ao longo do tempo e como essa análise pode ajudar na sua previsão. A Seção 2.5descreve os modelos estatísticos e da Inteligência Computacional para a previsão de sériestemporais. A Seção 2.6 descreve como são construídos os conjuntos de entrada para os modelosde previsão que utilizam Inteligência Computacional, e por fim, a Seção 2.7 apresenta o algoritmoDynamic Time Warping (DTW) que possui grande importância na seleção de característicastemporais do modelo proposto.

2.1 Séries temporais

Cowpertwait e Metcalfe definem série temporal como sendo observações de uma variávelque são coletadas periodicamente durante um intervalo de tempo (período amostral) (COW-PERTWAIT; METCALFE, 2009). Shumway e Stoffer a definem como uma coleção de variáveisaleatórias ordenadas no tempo (SHUMWAY; STOFFER, 2011) . Uma série temporal podeser representada como Xt = x1,x2, . . . ,xn, com n sendo o número de medições realizadas davariável x. Como exemplos de séries temporais temos:

Índice de inflação mensal no Brasil;

Valor diário do preço de fechamento da ação da Petrobras;

Temperatura média global mensal;

Temperatura média global anual;

2.1. SÉRIES TEMPORAIS 21

Taxa de desemprego mensal;

Índice pluviométrico mensal de uma região;

Características de uma série temporal

A Figura 2.1 apresenta um exemplo de série temporal que representa o número mensalde passageiros de voos internacionais nos Estados Unidos no período de 1949 à 1960 pelacompanhia aérea Pan Am (COWPERTWAIT; METCALFE, 2009). Na série é possível identificaralgumas características que uma série temporal pode possuir, como tendência, sazonalidade,correlação entre os valores e ruído.

0

100.000

200.000

300.000

400.000

500.000

600.000

700.000

1949 1950 1951 1952 1953 1954 1955 1956 1957 1958 1959 1960

Qu

anti

dad

e d

e p

assa

geir

os

Tempo

Quantidade mensal de passageiros internacionais pela companhia aérea Pan Am

Figura 2.1: Série mensal do número de passageiros de voos internacionais nos EstadosUnidos de 1949 à 1960 pela companhia aérea Pan Am

A primeira que pode ser identificada é a tendência, que é caracterizada na figura peloaumento no número de passageiros a cada ano. A tendência é definida como uma mudançasistemática nos valores da série e que não aparenta ser periódica (COWPERTWAIT; METCALFE,2009). Essa mudança é caracterizada pela existência de uma sequência de valores na série, queaumentam ou diminuem consistentemente por um longo período de tempo, ocasionando umaumento ou diminuição da média dos valores da série ao logo do tempo.

Outra característica encontrada nesta série é a sazonalidade. A sazonalidade podeser definida como padrões que se repetem periodicamente dentro de um intervalo de tempo(COWPERTWAIT; METCALFE, 2009), que no caso da Figura 2.1 é de um ano. Na Figura 2.1pode ser visto um comportamento sazonal que se repete em todos os anos. Nos meses de Julhoe Agosto ocorre um aumento no número de passageiros, ocasionando picos no meio do ano, eentão o número de passageiros diminui, esse movimento sazonal ocorre em todos os anos dasérie.

2.1. SÉRIES TEMPORAIS 22

Uma característica muito importante a ser observada é a estacionariedade. Para umasérie ser estacionária em sua média, a média não pode estar em função do tempo, isto é, a médiada série não deve alterar com o passar do tempo. A Figura 2.2(a) apresenta uma série que éestacionária em sua média, mostrando que os valores variam sempre em torno do valor zero, edesta forma, não apresentam a característica de tendência.

-45

-35

-25

-15

-5

5

15

25

35

45

1 251 501 751 1.001 1.251 1.501 1.751 2.001 2.251 2.501 2.751 3.001

Val

or

Tempo

(a) Série estacionária em sua média

-10

-8

-6

-4

-2

0

2

4

6

1 251 501 751 1.001 1.251 1.501 1.751 2.001 2.251 2.501 2.751 3.001

Val

or

Tempo

(b) Série estacionária em sua variância

Figura 2.2: Séries estacionárias

Apesar da Figura 2.2(a) ser estacionária em sua média, ela não é estacionária em suavariância, pois a variância no final da série é maior que no início. A Figura 2.2(b) apresenta umasérie que é estacionária também em relação à sua variância. A análise da estacionariedade dasérie é importante, pois se a série é estacionária, suas propriedades estatísticas (média e variância)

2.2. FUNÇÃO DE AUTOCORRELAÇÃO 23

são estáticas, isto é, não mudam com o passar do tempo. Isto ajuda ao realizar a previsão da sérietemporal, pois pode-se considerar que o valor previsto deve ser proveniente de uma distribuiçãona qual a média e a variância é conhecida.

2.2 Função de Autocorrelação

Séries temporais como a temperatura global mensal, vazão mensal de um determinado rio,taxa de natalidade de determinado país, quantidade mensal de passageiros de avião, entre outrasséries temporais, possuem uma tendência natural a apresentar correlação entre observaçõespróximas no tempo (COWPERTWAIT; METCALFE, 2009). A correlação é uma medidasem dimensão que objetiva medir a relação linear entre duas variáveis (COWPERTWAIT;METCALFE, 2009). Em se tratando da dependência linear, ela pode ser derivada da covariância(γ) que é definida pela Equação

2.1 .

γ (x,y) = E [(x−µx)(y−µy)] 2.1

A correlação linear (ρ), a covariância amostral e a correlação linear amostral (Cor) sãodefinidas pelas Equações

2.2 , 2.3 e

2.4 , respectivamente.

ρ (x,y) =γ (x,y)σxσy

2.2

Cov(x,y) =

n∑

i=1(xi− x)(yi− y)

n−1

2.3

Cor (x,y) =Cov(x,y)

sxsy

2.4

A autocorrelação na análise de séries temporais mede a correlação entre o valor noinstante xt e o valor no instante xt+k, em que k é um valor inteiro denominado lag (retardotemporal), que representa a quantidade de passos de tempo entre dois pontos de uma sérietemporal (COWPERTWAIT; METCALFE, 2009). Para calcular a autocorrelação linear do lag k

(ρk) e a autocorrelação amostral (rk) são utilizadas as Equações 2.5 ,

2.6 , 2.7 e

2.8 .

γk = E [(xt−µ)(xt+k−µ)] 2.5

ρk =γk

σ2

2.6

rk =ck

c0

2.7


ck =1n

n−k

∑t=1

(xt− x)(xt+k− x) 2.8

No cálculo da autocovariância (Equação 2.5 ), não há um limite superior ou inferior dos

valores, já na autocorrelação (Equação 2.6 ), os valores ficam entre -1 e 1 (COWPERTWAIT;

METCALFE, 2009). Um valor de autocorrelação zero significa que não há autocorrelaçãolinear para o lag analisado, já um valor menor que zero ou maior que zero, significa que háautocorrelação negativa ou positiva, respectivamente (COWPERTWAIT; METCALFE, 2009).

Na previsão de séries temporais, o erro da previsão geralmente é calculado como adiferença ou razão entre o valor previsto pelo modelo e o valor real da série. Desta forma, épossível criar uma série que representa o erro da previsão, também chamada de série residual,e é dada pela Equação

2.9 para o caso da diferença, na qual xi é o i-ésimo valor desejadoda previsão e modeloi é o i-ésimo valor previsto pelo modelo. Uma previsão com uma ótimaacurácia, geralmente produz uma série residual semelhante à série da Figura 2.3(a), a qualapresenta uma série característica no estudo de séries temporais e da engenharia, denominadaruído branco. Ela é formada por valores aleatórios, identicamente distribuídos com média zero evariância finita σ2

w (COWPERTWAIT; METCALFE, 2009; SHUMWAY; STOFFER, 2011). Asprincipais características desta série são a estacionariedade e a ausência de correlação entre osvalores da série. Por não existir correlação e ser formada por valores aleatórios, é muito difícilrealizar a previsão de seus valores.

resi = xi−modeloi 2.9

A partir dos valores de autocorrelação (ck ou ρk) com k entre 1 e n é possível desenharum gráfico chamado de autocorrelograma, o qual exibe quais são os lags que possuem alto graude correlação temporal. A Figura 2.3(b) que exibe o autocorrelograma para o ruído brancomostrado na série da Figura 2.3(a), apresenta linhas tracejadas que delimitam o intervalo deconfiança para o valor de autocorrelação zero, de modo que só existe correlação estatisticamentesignificante (nível de confiança de 95%) se o valor estiver acima ou abaixo destas linhas. Nocaso do ruído branco, não existem lags com tais valores de autocorrelação, provando que asérie possui apenas valores aleatórios identicamente distribuídos e independentes. (FIRMINO;MATTOS NETO; FERREIRA, 2014, 2015)

Ao contrário da Figura 2.3(b), na Figura 2.4, é possível observar a alta correlação queexiste na série de passageiros da Figura 2.1. Isto ocorre porque a série possui as característicasde tendência ascendente, que indica que o próximo valor da série é o valor anterior acrescido deum valor constante, e sazonalidade que se repete anualmente, o que indica uma correlação altapara o lag de 12 meses (1 ano).

Apesar da autocorrelação prover indícios de quais retardos temporais (lag) influenciamno valor atual da série, podem haver interferências entre os próprios retardos. Nesse caso o ideal


-3,5

-3,0

-2,5

-2,0

-1,5

-1,0

-0,5

0,0

0,5

1,0

1,5

2,0

2,5

3,0

3,5

1 26 51 76 101 126 151 176 201 226 251 276 301 326 351 376 401 426 451 476

Val

or

Tempo

Ruído branco

(a) Série de ruído branco

-0,2

0,0

0,2

0,4

0,6

0,8

1,0

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Au

toco

rre

laçã

o

Lag

(b) Autocorrelograma da série de ruído branco

Figura 2.3: Série de ruído branco e seu autocorrelograma

é que essa interferência seja anulada. A autocorrelação parcial representa a correlação de umdeterminado lag k depois da remoção dos efeitos de qualquer correlação dos lags anteriores à k,ou seja, menores que k (COWPERTWAIT; METCALFE, 2009). A correlação parcial do lag k éo valor do k-ésimo coeficiente de um modelo AR(k) ajustado à série (o modelo AR é descritona Seção 2.5.1).

Para melhor visualizar a diferença entre o autocorrelograma parcial e autocorrelograma,a Figura 2.5 apresenta no mesmo gráfico a autocorrelação e a autocorrelação parcial da sériede preço de fechamento ajustado das ações da Goldman Sachs. Esta série foi escolhida porapresentar tendência e ter seus valores correlacionados. A correlação é uma característicapresente na maioria das séries de preços de ações, uma vez que, no processo de decisão de


-0,2

0,0

0,2

0,4

0,6

0,8

1,0

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Au

toco

rre

laçã

o

Lag

Figura 2.4: Autocorrelograma da série de passageiros

-0,2

-0,1

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Au

toco

rre

laçã

o

Lag

Autocorrelação parcial Autocorrelação

Figura 2.5: Autocorrelograma parcial x Autocorrelograma da série de preço defechamento ajustado das ações da Goldman Sachs

2.3. ESTACIONARIEDADE EM SÉRIES TEMPORAIS 27

compra de uma ação, geralmente o investidor leva em consideração o histórico de preços até omomento da compra. Para calcular os valores do gráfico não foi realizado nenhum tratamentona série, ou seja, não houve nenhum tratamento de remoção de tendência, sazonalidade, nemnormalização. É possível notar que pelo valor de autocorrelação, todos os lags podem serconsiderados significantes (acima da linha tracejada), enquanto na autocorrelação parcial, apenasos lags 1, 2 e 11 são considerados significantes. No entanto, após realizar tratamento descritona Seção 2.3 a fim de remover a tendência e sazonalidade desta série, a diferença entre os valorescalculados de autocorrelação e autocorrelação parcial na série tratada foi pequena, não ocorrendodiferença na significância dos lags.

2.3 Estacionariedade em Séries Temporais

O processo de previsão de uma série temporal não estacionária (Seção 2.2) é mais difícilde ser realizado quando comparado ao processo em uma série estacionária. Isso acontece porqueo preditor também deverá ser modelo para capturar a tendência e a sazonalidade da série temporal,ao invés de focar na modelagem dos resíduos da série. A série de resíduos neste caso, é a sérieresultante da subtração da tendência e sazonalidade da série original, nela geralmente existepouca tendência e sazonalidade, os quais não são perceptíveis (COWPERTWAIT; METCALFE,2009; ZHANG, 2007). Com o objetivo de remover a tendência e sazonalidade da série, de formaque o preditor necessite apenas realizar a análise e previsão do valor sem estes componentes,foram criadas técnicas para tornar uma série estacionária em sua média. A diferenciação é aprincipal delas (COWPERTWAIT; METCALFE, 2009).

Para verificar se há a necessidade da diferenciação é realizado um teste estatístico queverifica se a média da série temporal muda ao longo do tempo. Uma maneira de fazer isso éaplicar o teste t-Student (GHEYAS; SMITH, 2011) com a hipótese nula (H0) sendo X incio = X f im,na qual X incio corresponde à média amostral da metade inicial da série e X f im à média amostral dametade final da série, sendo a média amostral definida pela Equação

2.11 . Se H0 for rejeitada,a diferenciação deve ser aplicada n vezes até que H0 seja aceita. A diferenciação consiste naaplicação da Equação

2.10 em toda a série temporal, isso irá originar um novo conjunto dedados que pode ainda não ser estacionária em sua média, nesse caso o procedimento deve serrepetido sobre a nova série.

ValorNovot =Valort−Valort−1. 2.10

X =1n

n

∑i=1

xi 2.11

Ao criar um modelo de previsão com a série diferenciada (resultante da aplicação daEquação

2.10 ), a previsão dada pelo modelo em ValorNovot consiste apenas na diferençaentre Valort e Valort−1, não representando então o valor no domínio original da série. Para

2.4. MUDANÇAS NAS SÉRIES TEMPORAIS 28

obter o valor no domínio original da série, é necessário realizar o procedimento inverso ao dadiferenciação, chamado de integração, descrita pela Equação

2.12 .

Valort =ValorNovot +Valort−1. 2.12

2.4 Mudanças nas séries temporais

Como vimos nas seções anteriores, algumas séries temporais possuem comportamentosque se repetem ao longo da série, tais como tendência e sazonalidade. Estas característicaspodem mudar com o passar do tempo. Por exemplo, uma tendência descendente pode não existira partir de um determinado ponto da série, ou essa tendência descendente pode virar ascendente.Comportamentos sazonais podem também sofrer modificações com o tempo.

A abordagem proposta nesta dissertação usa como base estas variações de comportamen-tos, muito comuns em séries financeiras (NI; YIN, 2009). Nessas séries, eventos e notícias queimpactam o mundo financeiro ocorrem constantemente, trazendo mudanças nas perspectivasfuturas das empresas e do mercado em que estão inseridas, sendo refletidas no preço de suasações. DABLEMONT et al. (2003) afirmam que os participantes do mercado financeiro jáobservavam que uma série financeira pode seguir diferentes comportamentos com o passardo tempo, como: ter uma reação exagerada, retornar a média histórica, entre outros. A partirdisso eles justificam que as séries financeiras não devem ser modeladas por um processo único,como fazem os modelos ARIMA-GARCH clássicos (Seção 2.5.1), e sim por uma sucessão devários processos, onde cada um está vigente durante um determinado espaço de tempo, e quegeralmente se repete.

Esta também é a visão de HSU et al. (2009), eles afirmam que no universo de sériesfinanceiras, muitas vezes ocorrem mudanças estruturais ocasionadas por eventos políticos,momentos econômicos, mudanças nas expectativas de quem opera no mercado financeiro, entreoutros fatores. Sendo assim, é muito difícil para um único modelo conseguir capturar todas essasvariações. Nesse estudo, eles propõem uma arquitetura em dois estágios, com o primeiro estágioagrupando comportamentos semelhantes das séries utilizando o Self-Organizing Maps (SOM), eno segundo estágio, as previsões são realizadas por meio de Support Vector Regressions (SVRs),que são treinadas sobre cada cluster formado pelo primeiro estágio.

A utilização do SOM para a formação de clusters a fim de posteriormente aplicar ummodelo de previsão sobre eles também é utilizado por ISMAIL; SHABRI; SAMSUDIN (2011).Nesse estudo, os autores também demonstram que o método proposto consegue ser melhor queo modelo com apenas um preditor. NI; YIN (2009) utiliza uma versão modificada do SOM, oRecurrent SOM (RSOM) em conjunto com SVRs e também conseguem resultados satisfatórios.

A suposição de que as séries temporais dos mercados financeiros devem ser modeladaspor vários processos recorrentes pode ser observada no gráfico da Figura 2.6, que apresentaos valores de fechamento mensal do Índice da Bolsa de Valores de São Paulo (IBOVESPA)

2.4. MUDANÇAS NAS SÉRIES TEMPORAIS 29

no período de Jan/1997 a Dez/2011. Nele é possível visualizar um padrão que se repete duasvezes. O padrão inicia com os valores aumentando para então ocorrer uma queda brusca dequase 40% do valor em 1998 e de quase 50% em 2008. Após esta queda a série passa por umcurto período de estabilidade e inicia uma subida moderada, até retornar a valores próximos aoperíodo pré-queda.

10,707

6,472

72,593

37,257

0

10

20

30

40

50

60

70

80

jan/1997 set/1998 mai/2000 jan/2002 set/2003 mai/2005 jan/2007 set/2008 mai/2010

Val

or

(em

milh

are

s)

Mês

Figura 2.6: Fechamento mensal do IBOVESPA de Jan/1997 a Dez/2011

1

3

5

7

9

11

13

mai/1998 ago/1998 nov/1998 fev/1999

Val

or

(em

milh

are

s)

Mês

-

10

20

30

40

50

60

70

80

nov/2007 ago/2008 mai/2009 fev/2010

Val

or

(em

milh

are

s)

Mês

Figura 2.7: Fechamento mensal do IBOVESPA de Mai/1998 a Abr/1999 e de Nov/2007a Mar/2010

A Figura 2.7 apresenta os dois movimentos de forma mais clara. No período deMaio/1998 a Abril/1999 o movimento foi mais rápido, durando apenas 12 meses, enquantono período de Novembro/2007 a Março/2010 o movimento durou 29 meses e por isso há umapequena diferença nos gráficos. Estes dois períodos de tempo em que o padrão foi observado,foram marcados por crises financeiras que afetaram a economia brasileira.

2.5. MODELOS PARA PREVISÃO DE SÉRIES TEMPORAIS 30

Em seu estudo, CAO (2003) também concorda com a utilização de vários modelos paramodelar uma série temporal complexa como as séries financeiras. Ele afirma que a modelagemde séries temporais possui 2 grandes problemas: o ruído e a não estacionariedade. O ruídoé referente a não disponibilidade de todos os comportamentos passados da série a fim de secapturar toda a dependência entre o passado e o futuro. Já a não-estacionariedade implica que asérie muda sua dinâmica com o passar do tempo, o que guiará mudanças na dependência entreos dados de entrada e as saídas. Desta forma, Cao sugere que é difícil criar um único modelopara uma série temporal que consiga capturar toda essa dinâmica da relação de entrada e saída etambém dos ruídos, já que regiões diferentes das séries podem possuir ruídos diferentes. EmFIRMINO; MATTOS NETO; FERREIRA (2014), os autores afirmam que a maioria dos estudosassumem que existe um modelo para a série temporal e que ele é conhecido, restando apenaso trabalho de estimar os seus parâmetros. Contudo, estes estudos negligenciam a questão daincerteza de modelos (NEUMAN, 2003), que sugere ser muito difícil encontrar um único modelopara uma série e que adotar apenas um modelo pode levar a solução a possuir um viés estatísticoou uma subestimação da incerteza.

Em um problema de classificação de séries temporais, RODRIGUEZ; KUNCHEVA(2007) também concordam com o conceito de que uma série muda de padrão de comportamentoao longo do tempo. Eles utilizam como entradas valores estatísticos das séries, como valormáximo, valor mínimo e o desvio-padrão em momentos distintos da série. Para isto, os autoresderivam, da série original, todas as subséries possíveis de tamanho 2x, com 1≤ x≤ log2(z), ez sendo o tamanho da série. Contudo em séries maiores eles precisam diminuir a quantidadede subséries por questões de desempenho. Com isto, eles conseguem utilizar a variação deindicadores estatísticos em diversos horizontes (curto, médio e longo prazo de acordo com otamanho da série) como entradas para os classificadores, e assim, conseguem resultados bastantesatisfatórios.

A partir desses estudos e experimentos (DABLEMONT et al., 2003; RODRIGUEZ;KUNCHEVA, 2007; NI; YIN, 2009; HSU et al., 2009; ISMAIL; SHABRI; SAMSUDIN, 2011),conclui-se que para realizar boas previsões de séries temporais (principalmente as financeiras,contudo esta dinâmica não é exclusividade delas), uma boa estratégia consiste na criação devários modelos locais de previsão, seguindo a abordagem dividir para conquistar. Neste trabalho,a criação dos modelos locais se dá a partir do particionamento da série em janelas, cada uma comum padrão de comportamento. A partir das janelas, os modelos locais de previsão são criados,cada um sendo especialista no padrão de comportamento de apenas uma janela.

2.5 Modelos para previsão de séries temporais

A previsão de séries temporais tem como objetivo estimar os valores futuros de uma sérietemporal dado seus valores passados e, em alguns casos, informações exógenas, que não estãocontidas na série. Esta tarefa tem grande importância, pois auxilia na tomada de decisões. Como


exemplo temos a previsão do índice pluviométrico mensal de uma determinada região, o valorprevisto, caso seja muito baixo, pode indicar que haverá necessidade de racionamento de águapor parte da população, ou então, caso ele seja muito alto, pode levar o governo da região a tomaralgumas medidas para evitar transtornos como alagamentos. A partir desta mesma previsão,uma indústria eletrointensiva pode decidir estimular seus funcionários a entrarem de férias nosmeses em que a previsão de chuvas é menor, que tem como consequência no Brasil, tornar aenergia mais cara. Desta forma, a indústria produziria menos e venderia o excedente que possuide energia por um preço mais alto do que comprou.

Além dos dados utilizados para prever a série temporal, também é preciso de um modelode previsão. Diversos modelos de previsão são encontrados na literatura, entre eles podemser destacados os modelos estatísticos como o ARIMA (BOX; JENKINS, 1994) e GARCH(BOLLERSLEV, 1986) e os modelos da Inteligência Computacional, como Multilayer Per-

ceptron (MLP) (RUMELHART; MCCLELLAND; PDP RESEARCH GROUP, 1986), Support

Vector Regression (SVR) (BOSER; GUYON; VAPNIK, 1992; CORTES; VAPNIK, 1995), Self-Organization Maps (HSU, 2011), Redes Recorrentes de Jordan e Elman (DESELL et al., 2014),Reservoir Computing (ALMEIDA, 2014), Redes Neurais Fuzzy (EBADZADEH; SALIMI-BADR, 2015; JUANG; HSIEH, 2012; MIRANIAN; ABDOLLAHZADE, 2013).

2.5.1 Modelos estatísticos

Dentre os modelos estatísticos, um modelo muito citado na literatura é o ARIMA(ADEBIYI; ADEWUMI; AYO, 2014; ATSALAKIS; VALAVANIS, 2009; KAO et al., 2013;BOX; JENKINS, 1994; COWPERTWAIT; METCALFE, 2009; SHUMWAY; STOFFER, 2011).O ARIMA representa a junção de dois modelos, o Autoregressive (AR) e o Moving Average

(MA), além da técnica de diferenciação da série, que obriga a série a ser agregada ou integrada(I) de volta ao seu estado original. O modelo AR possui um parâmetro que indica a ordem doprocesso. Uma série Xt = x1,x2, . . . ,xn é um modelo AR de ordem p, ou AR(p), se seguir aEquação

2.13 .

xt = α1xt−1 +α2xt−2 + ...+αpxt−p +wt 2.13

Na Equação 2.13 wt representa um ruído branco com média zero e variância σ2, αi

representa parâmetros do modelo que caracterizam a série, com αp 6= 0 para um processo AR(p)(COWPERTWAIT; METCALFE, 2009). Ou seja, o modelo AR de ordem p, modela uma sérieque consiste na soma ponderada dos últimos p valores da série temporal acrescidos de um valorretirado de uma série de ruído branco. Portanto, o termo wt representa um valor aleatório, quenão é possível prever, porém a sua variância amostral pode ser estimada a partir dos dados dasérie.

Para usar o modelo AR na previsão de séries temporais, primeiro são utilizados oautocorrelograma e autocorrelograma parcial (Seção 2.2) para determinar a ordem do processo


AR da série. O próximo passo é estimar os parâmetros αi, geralmente é utilizado o método dosmínimos quadrados generalizado ou método da máxima verossimilhança (COWPERTWAIT;METCALFE, 2009; SHUMWAY; STOFFER, 2011). Posteriormente, os parâmetros da série deruído branco é estimado da seguinte forma: a série original é subtraída da série do modelo (sem aparcela que se refere ao ruído) conforme a Equação

2.9 , com objetivo de obter a série de ruído,e então é estimada a distribuição de probabilidade desta série. Com os parâmetros definidos, aprevisão do próximo valor da série é a saída da fórmula do modelo AR.

O modelo MA, assim como o AR, possui um parâmetro (q) que indica a ordem doprocesso. Um modelo MA(q) define uma série que é uma combinação linear dos q maisrecentes termos de uma série de ruído branco adicionados do termo corrente (COWPERTWAIT;METCALFE, 2009), ou seja, o modelo MA(q) é definido pela Equação

2.14 .

xt = wt +β1wt−1 + ...+βqwt−q 2.14

Na Equação 2.14 , wi representa o i-ésimo termo de uma série de ruído branco de média

zero e variância σ2 e βi são parâmetros que caracterizam a série. No modelo MA, a ordem doprocesso também é estimada através do autocorrelograma, porém os valores dos parâmetrosβi do MA, geralmente são estimados pelo método da máxima verossimilhança. A previsão dopróximo valor da série, é a saída da fórmula do modelo MA.

Como dito anteriormente, o ARIMA integra os modelos de autoregressão, da médiamóvel e também o método da diferenciação. Ele possui três parâmetros, p (ordem do AR),d (quantidade de diferenciações) e q (ordem do MA). No ARIMA, o AR tem como principalfunção, realizar a estimativa do quanto os valores passados da própria série temporal influenciamno valor atual, a diferenciação tem como objetivo tornar uma série não estacionária em uma sérieestacionária em relação a média, e por fim, o MA visa modelar o ruído (“choques aleatórios”)que a série possui e que influenciam em seu comportamento futuro.

O primeiro passo para realizar a previsão de uma série temporal utilizando o modeloARIMA, é verificar se a série é estacionária. Caso não seja, a diferenciação deve ser aplicada e oteste de estacionariedade deve ser realizado novamente. Caso ela continue não-estacionária, adiferenciação é aplicada novamente, quantas vezes for necessário. A quantidade de diferenciaçõesdefine o parâmetro d do ARIMA.

O próximo passo consiste em tentar encontrar a ordem p do modelo AR que melhor seajusta a série já diferenciada, caso tenha sido necessário. Após encontrar a ordem do AR, érealizado o processo de encontrar a ordem q do modelo MA. Com o parâmetro d definido, érealizada uma busca para encontrar o melhor modelo ARIMA que se ajusta à série. A busca érealizada analisando todas as combinações de modelos ARIMA com os parâmetros variando daseguinte forma: 0≤ p≤ pmax e 0≤ q≤ qmax, com pmax e qmax sendo escolhidos de forma alimitar o tempo de processamento do modelo. O modelo que melhor se ajustar, ou seja, que tivera melhor medida de verossimilhança é escolhido (COWPERTWAIT; METCALFE, 2009).


Apesar do modelo ARIMA obter resultados satisfatórios, com ele não é possível fazeruma boa modelagem em uma série temporal não-linear, pois é necessário definir a priori aestrutura da função que melhor modela a série. Além disso o ARIMA também não modela bemuma série que não seja estacionária com relação a variância, o que é comum em séries financeiras.Para o caso da série não ser estacionária em sua variância, foi criado o modelo ARCH e posteri-ormente o GARCH (Generalised Autoregressive Conditional Heteroskedasticity). De acordocom COWPERTWAIT; METCALFE (2009), quando a variância de uma série muda conformeo passar do tempo, de uma maneira regular, a série é chamada de heteroscedástica, e quando asérie exibe uma variância correlacionada no tempo, ela é chamada de série condicionalmente he-teroscedástica. O modelo GARCH visa obter melhores resultados nessas séries. Para detectar seuma série temporal deve ser modelada com o GARCH, é realizada a análise do autocorrelogramada variância da série, para isso é criada uma nova série a partir da Equação

2.15 .

σ2t = (xt−µx)

2 2.15

A partir da série X , é criada a série σ2 através do quadrado da diferença entre o termoatual da série X (xt) e a média da série X (µx). No autocorrelograma desta nova série, se existiremlags com valores significantes, há uma indicação para o uso do modelo GARCH. O modeloGARCH possui dois parâmetros o q e o p, uma série pode ser descrita pelo modelo GARCH(q,p) se a série formada por sua variância (Equação

2.15 ) seguir a Equação 2.17.

εt = w− t√

ht 2.16

ht = α0 +p

∑i=1

αiε2t−1 +

q

∑j=1

β jht− j 2.17

O GARCH(1, 1) na maioria dos casos, oferece uma solução adequada (COWPERTWAIT;METCALFE, 2009). De acordo com ENDERS (2003), para assegurar a estabilidade do modeloGARCH(1, 1), a condição α1 +β1 < 1 deve ser respeitada. Para a estimação dos parâmetros α eβ são utilizados os mesmos métodos de estimação do AR e MA.

2.5.2 Rede Neural Artificial Multilayer Perceptron

A rede neural artificial (RNA) é uma técnica de aprendizagem de máquina inspirada nofuncionamento do cérebro humano. De acordo com HAYKIN (1998), uma RNA é uma máquinaprojetada para modelar a maneira como o cérebro realiza uma tarefa particular ou função deinteresse. A RNA é constituída de unidades de processamento simples e é maciçamente parale-lamente distribuída, se assemelhando ao cérebro humano na forma de adquirir conhecimento,através de um processo de aprendizagem, e também na forma de armazenar o conhecimento,através dos pesos sinápticos.

Apesar dos modelos estatísticos ARIMA e GARCH terem sido muito utilizados para


prever séries temporais e conseguirem resultados com boa acurácia, eles não conseguem umaacurácia tão boa quando aplicados às séries financeiras, devido ao alto nível de ruído presente ea natureza não-linear destas séries (LAHMIRI, 2011).

As RNAs possuem a capacidade de aprender a resolver problemas a partir de um conjuntolimitado de exemplos e, a partir deles, generalizar a solução para novos exemplos. As RNAs sãoutilizadas nos mais diversos problemas e geralmente conseguem resultados muito satisfatórios(ADEBIYI; ADEWUMI; AYO, 2014). As principais características das RNAs são:

Não-linearidadeUma RNA tem a capacidade de resolver problemas não-lineares, além disso a não-linearidade ocorre de uma forma diferenciada nas RNAs, pois pode ser distribuída pelarede, em cada neurônio (HAYKIN, 1998). A não-linearidade é uma característica im-portante para a previsão de séries temporais, pois muitas delas tem um comportamentonão-linear.

Mapeamento entrada-saídaAs RNAs podem aprender de forma não-supervisionada e supervisionada. As redes MLPaprendem de forma supervisionada, nela a rede recebe amostras de treinamento contendoos dados de entrada e a saída desejada. Através destas entradas a MLP ajusta seus pesossinápticos a fim de minimizar o erro entre a resposta da rede e a saída desejada, através doalgoritmo de retropropagação do erro. Desta forma, a rede aprende a realizar o mapeamentoentre as entradas e saídas para o problema em questão. Este mapeamento é realizado deforma não-paramétrica, ou seja, o usuário não precisa informar mais parâmetros para arede, basta que ela receba os dados de entrada e as saídas desejadas.

GeneralizaçãoAs RNAs possuem a capacidade de generalizar, isto é, dado um conjunto de exemplosde treinamento, a RNA encontra uma solução para estes exemplos e também consegueapresentar respostas para exemplos em que não foi treinada, com uma boa taxa de acerto.

AdaptabilidadeRNAs são adaptáveis, pois podem atualizar os valores de seus pesos sinápticos seguindoas mudanças do ambiente do problema. Elas podem ser facilmente retreinadas para lidarcom essas modificações, e também, podem operar no modo online, o que significa que arede fica constantemente corrigindo seus pesos sinápticos conforme recebe entradas pararealizar a classificação ou previsão.

ParalelismoComo dito anteriormente, a RNA possui natureza maciçamente paralela, o que a tornapotencialmente rápida.


wk1

wk2

wkn

.

.

.

.

.

.

Σ

x1

x2

xn

bias

ϕ(.) yk

vk

Sinais de entrada

Pesos sinápticos

Função aditivaFunção

ativaçãoSaída do neurônio

Figura 2.8: Modelo de neurônio artificial

As redes neurais artificiais, são compostas por neurônios artificiais. A Figura 2.8 exibe omodelo de neurônio artificial, nela é possível visualizar um conjunto de conexões de sinapses,caracterizadas pelos pesos sinápticos. O cálculo do estímulo de uma sinapse em um neurônioé realizado da seguinte forma: a entrada x j na entrada j do neurônio k é multiplicado pelopeso sináptico wk j. O sinal bias especifica um limiar de ativação do neurônio, ou seja, caso osestímulos sejam inferiores ao limiar, o neurônio não é ativado. As sinapses e o bias seguem parao componente responsável por somá-los e sobre o resultado, é aplicada uma função de ativaçãoque visa restringir a amplitude da saída do neurônio, tipicamente no intervalo [0, 1] ou [-1, 1](HAYKIN, 1998).

Os pesos sinápticos dos neurônios são chamados de parâmetros livres das RNAs, são osparâmetros que são ajustados durante o treinamento e representam o conhecimento que a redepossui sobre o problema. Um dos métodos para ajustar os pesos sinápticos, é a aprendizagemsupervisionada por correção de erro. Neste método os exemplos de treinamento são apresentadosà rede, que por sua vez produz respostas a tais estímulos. Posteriormente, é calculado o erroda rede, que aciona um mecanismo de controle para corrigir os pesos sinápticos, a fim de quemelhorem suas respostas para os exemplos apresentados, porém sem perder a capacidade degeneralizar. O treinamento é realizado até o sistema atingir um estado estável, isto é, os pesossinápticos não são mais alterados de forma significativa durante o treinamento.

Redes neurais do tipo Multilayer Perceptron (MLP), possuem uma arquitetura comdiversas camadas, as quais possuem os neurônios. Uma rede neural MLP possui uma camadade entrada, onde os sinais do exemplo a ser computado entram na rede e são apenas repassadospara as camadas posteriores denominadas de camadas intermediárias. A MLP pode possuiruma ou mais camadas intermediárias e é onde estão a maior parte dos neurônios da rede.Eles processam os dados recebidos pela camada anterior, capturando a relação não-linear dasvariáveis (LAHMIRI, 2011), e em seguida, passam sua resposta para a camada de saída. Por fim,


é realizado mais um processamento pelos neurônios da camada de saída e a resposta da rede éretornada. Este processo de passagem do sinal para as camadas posteriores caracterizam umarede neural do tipo feedforward.

.

.

.

.

.

.

x1

x2

xn

Camada de entrada

1ª camada intermediária

2ª camada intermediária

Camada de saída

Saídas da rede

.

.

.

Figura 2.9: Rede neural Multilayer Perceptron

A Figura 2.9 ilustra uma rede neural MLP com duas camadas intermediárias e com doisneurônios na camada de saída, o que significa que a saída da rede é composta por dois valores.ATSALAKIS; VALAVANIS (2009) mostrou que a maioria dos treinamentos de redes neuraisde múltiplas camadas para previsão de ações no mercado financeiro é realizado pelo algoritmode retropropagação do erro (backpropagation), que consiste em propagar a correção do erro daúltima camada até a primeira (HAYKIN, 1998). Ou seja, após a rede neural emitir uma respostapara determinado exemplo de treinamento, o erro é calculado e os pesos sinápticos da camada desaída são ajustados. Após isso, os pesos da camada anterior à camada de saída são ajustados eassim sucessivamente até chegar na camada de entrada, resultando em um ajuste em todos ospesos sinápticos da rede.

Existem várias contribuições a fim de melhorar o backpropagation, tais contribuiçõespodem ser agrupadas em duas categorias. A primeira consiste de técnicas heurísticas queobjetivam acelerar o processo do algoritmo gradiente descendente que compõe o backpropagation.A segunda utiliza técnicas de otimização numérica (LAHMIRI, 2011). Na primeira categoriaestão os métodos de gradiente descendente com taxa de treinamento adaptativa, gradientedescendente com termo de momento, gradiente descendente com taxa de treinamento adaptativae termo de momento e também o algoritmo resiliente. Ou seja, nesta categoria as propostasde melhoria atacam principalmente a grande quantidade de iterações do algoritmo gradientedescendente. Na segunda categoria estão incluídas os algoritmos de gradiente conjugado, BFGS-Quasi Newton e Levenberg-Marquardt. Na segunda categoria o foco consiste em reduzir onúmero de cálculos de derivadas e matrizes, utilizando aproximações, como no caso do BFGS-


Quasi Newton, que não precisa calcular a segunda derivada e utiliza uma matriz Hessianaaproximada (LAHMIRI, 2011).

O teorema da aproximação universal afirma que uma rede neural MLP com apenas umacamada intermediária, pode realizar a aproximação de qualquer função contínua com suporte emum hipercubo unitário. Contudo, o teorema não diz que apenas uma camada produz resultadosótimos do ponto de vista de tempo de aprendizagem, facilidade de implementação ou ainda decapacidade de generalização (HAYKIN, 1998).

Neste trabalho foi utilizada a rede MLP com apenas uma camada intermediária e algo-ritmo de treinamento BFGS-Quasi Newton. Os parâmetros para o treinamento da MLP forama taxa de aprendizagem (η), que informa o quão grande pode ser a modificação dos pesossinápticos durante o treinamento, e o número de neurônios na camada escondida, que define onível de complexidade da rede. Estes parâmetros foram variados durante os experimentos.

2.5.3 Máquinas de vetor de suporte para regressão (SVR)

Uma máquina de vetor de suporte ou Support Vector Machine (SVM) é uma máquinalinear que tem como objetivo construir um hiperplano para separar duas classes de padrões,maximizando a margem de separação entre as classes (HAYKIN, 1998). Ela é fundamentada nateoria de aprendizagem estatística, sendo a implementação do método de minimização estruturalde risco, que visa escolher um classificador com bom desempenho nos conjuntos de treinamentoe teste. Isto é, ele é capaz de classificar os exemplos de treinamento da forma mais corretapossível, porém sem dar atenção especial para qualquer exemplo individual, a fim de manter acapacidade de generalização do classificador (HAYKIN, 1998; VAPNIK, 1995).

Uma máquina de vetor de suporte para regressão ou Support Vector Regression (SVR) éuma adaptação da SVM, que resolve problemas de classificação, para o problema de regressãonão-linear. As SVRs, assim como as MLPs, são bastante utilizadas em problemas de previsão deséries temporais e em muitos casos obtém resultados ainda melhores que as MLPs.

O funcionamento de uma SVR aplicada a uma série temporal, visa encontrar uma funçãof (x) que pode ter um desvio menor ou igual a ε . Isto é, o erro máximo entre a respostaobtida pela SVR e a resposta desejada, sobre os exemplos de treinamento, é ε (SMOLA; SCH;SCHöLKOPF, 2004). Além de ter a limitação do erro máximo, o SVR também tem como objetivoencontrar a função mais plana possível. Nas SVMs e SVRs alguns exemplos de treinamento sãocriteriosamente escolhidos (se encontram na região de fronteira entre duas classes) para serem oschamados vetores de suporte. O hiperplano de separação é construído com o objetivo de separaros vetores de suporte de maneira ótima, e uma separação ótima deles equivale a uma separaçãoótima de todos os dados (VAPNIK; GOLOWICH; SMOLA, 1996).

A versão da SVR com margens suaves foi criada porque há a possibilidade de não existiruma função que limite os erros em ε no conjunto de treinamento. Para resolver esse problema,foram incluídas as variáveis de folga ξ− e ξ+, que medem o custo dos erros de previsão para


menos e para mais. Sendo assim, o objetivo da SVR é encontrar um vetor de pesos w e um limiarb que minimize a função descrita na Equação

2.18 .

12‖w‖2 +C

l

∑i=1

ξ−i +ξ

+i

2.18

Com as restrições impostas pelas Equações 2.19 ,

2.20 e 2.21

y1−〈w,xi〉−b≤ ε +ξ−i

2.19

〈w,xi〉+b− yi ≤ ε +ξ+i

2.20

ξ−i ,ξ+

i ≥ 0 2.21

Nas Equações 2.19 e

2.20 , 〈., .〉 representam o produto interno no espaço do vetor depesos w. A constante C > 0 determina a troca entre a complexidade da função (quanto maiscomplexa, menos plana) e a quantidade de desvios maiores que ε que são tolerados (SMOLA;SCH; SCHöLKOPF, 2004). Quanto maior for o valor de C, mais complexa é a função, quantomenor for o valor de C mais suave é a função. A Figura 2.10 ilustra o modelo de SVR apresentado.

+ε

0

-ε

ξ

ξ*

y

t

Figura 2.10: Support Vector Regression

Com o objetivo de melhorar a classificação ou regressão, as SVMs e SVRs transformamos dados de entrada que estão no espaço de entrada para uma dimensão maior, chamado de espaçode características. Eles fazem isso pois, de acordo com o teorema de Cover, um padrão não-linearmente separável tem uma alta probabilidade de ser linearmente separável em uma dimensãomaior, desde que a transformação para o novo espaço seja não-linear e que a dimensionalidadedele seja suficientemente grande (HAYKIN, 1998).

Para realizar esta transformação do espaço de entrada para um espaço de característicascom maior dimensionalidade, é utilizado o chamado truque do kernel, que permite o cálculo dosdados em dimensões maiores sem precisar calcular suas coordenadas nessa dimensão. Para isso,

2.6. SELEÇÃO DE CARACTERÍSTICAS 39

o truque consiste em apenas computar o produto interno entre as imagens dos pares de dadosno espaço de características, utilizando uma função de kernel, que deverá seguir as restriçõesimpostas pelo teorema de Mercer para que seja uma função válida (VAPNIK; GOLOWICH;SMOLA, 1996; HAYKIN, 1998). A utilização destas funções nas SVMs e SVRs consiste emtrocar os produtos internos das equações descritas acima pela função de kernel desejada. Assim,o hiperplano ótimo de separação linear para o espaço de característica é construído sem precisarconsiderar o próprio espaço de características (HAYKIN, 1998). Ou seja, não é preciso realizaro cálculo do hiperplano em um espaço com dimensionalidade maior que a dimensionalidadeoriginal do problema.

Neste trabalho foi utilizada a função de kernel função de base radial (RBF), definida pelaEquação

2.22 .

exp(− 1

2σ2 |x− xi|2) 2.22

O parâmetro σ é especificado pelo usuário, e define a largura dos núcleos das funçõesde base radial. Esta função foi escolhida pois consegue ser flexível o bastante para capturar asvariações que ocorrem nas séries temporais avaliadas.

2.6 Seleção de características

No treinamento de modelos com aprendizagem supervisionada para a previsão de sériestemporais univariadas, são fornecidos os retardos temporais relevantes para a previsão, tambémconhecidos como lags relevantes, e a saída esperada. A Tabela 2.1 mostra um exemplo deentradas e saídas criadas a partir da série Xt = 5,2,3,4,5,4,3,2 para um modelo de previsão,que utiliza os 3 últimos valores da série (lags 1, 2 e 3).

Número Entrada Saída1 5,2,3 42 2,3,4 53 3,4,5 44 4,5,4 35 5,4,3 2

Tabela 2.1: Exemplo de entradas para o modelo de previsão

Na Tabela 2.1, a linha com número 1 apresenta a entrada e a saída desejada para aprevisão do 4º valor da série. Como é necessário dispor dos 3 valores que antecedem o valora ser previsto, não é possível criar as entradas para as previsões do 1º, 2º e 3º valor da série,pois não há dados suficientes. A entrada da 1ª linha é formada pelos valores 5, 2 e 3 que são osvalores dos lags 3, 2 e 1, respectivamente, e a saída desejada é o valor 4.

Com esses dados de entrada e saída, o preditor deve então aplicar o algoritmo deaprendizagem supervisionada a fim de estimar os seus parâmetros. Após isto, ele estará apto

2.7. DYNAMIC TIME WARPING 40

a estimar o próximo valor da série a partir dos valores dos lags passados a ele como entrada.Conclui-se então que a seleção dos retardos temporais relevantes (lags relevantes) é um passo degrande importância para o sucesso da predição, pois é a partir delas que o preditor irá extrairinformação para realizar a previsão.

Existem várias técnicas para realizar a seleção dos lags que são apresentados ao preditorde uma série temporal. Dentre eles se destacam os que utilizam técnicas de otimização deparâmetros como algoritmos genéticos e Particle Swarm Optimization (PSO) (RIBEIRO et al.,2011) e os que se baseiam nos valores de autocorrelação (AMORIM NETO et al., 2010).

2.7 Dynamic Time Warping

Na área de análise e reconhecimento de palavras faladas, a fala é representada por umsinal e este sinal é uma série temporal. Um grande problema desta área é o de saber o graude semelhança entre duas séries temporais (a fala convertida em um sinal) com a finalidade dereconhecer uma palavra falada. A velocidade com que uma pessoa fala determinada palavrapode causar flutuações na onda sonora sobre seu eixo temporal, e para que o reconhecimentotenha boa performance, tal variação deve ser amenizada (SAKOE; CHIBA, 1978).

Por causa dessas variações no eixo temporal, a distância euclidiana não consegue obterum alto grau de acurácia na comparação entre duas séries temporais. Isto ocorre porque se umadas séries estiver um pouco atrasada, o grau de semelhança é muito prejudicado, pois a distânciaeuclidiana é uma simples subtração e não trata esse problema.

As primeiras tentativas para retirar tal diferença temporal entre os sinais de falas, foramvoltadas para as técnicas de normalização linear sobre o eixo temporal, contudo, não eramsuficientes para se atingir uma boa performance. Alguns cientistas então utilizaram de técnicasde programação dinâmica para realizar transformações não-lineares no eixo temporal e obtiveramresultados satisfatórios (SAKOE; CHIBA, 1978).

O Dynamic Time Warping (DTW) é uma técnica de programação dinâmica que objetivaencontrar distância entre duas séries temporais (SAKOE; CHIBA, 1978) e que deu origem avárias outras técnicas, como o FastDTW (SALVADOR; CHAN, 2004) e o Weighted DTW(JEONG; JEONG; OMITAOMU, 2011). A Programação Dinâmica (PD) é uma metodologia deconstrução de algoritmos que tem como alvo principal a resolução de problemas de otimização(LEW; MAUCH, 2006). A PD tem como base o Princípio de Otimalidade de Bellman que diz(LEW; MAUCH, 2006):

"Uma política ótima tem a propriedade de que, qualquer que seja o estado inicial e

a decisão inicial, as decisões restantes devem constituir uma política ótima no que

diz respeito ao estado resultante da primeira decisão"

Segundo LEW; MAUCH (2006), a essência deste princípio é:


"Políticas ótimas possuem subpolíticas ótimas"

Sendo assim, a PD procura resolver os problemas a partir de uma sequência de decisõesótimas que terá como consequência uma solução também ótima. A PD procura também sereficiente e para isso, comumente há um reuso de soluções de subproblemas nas soluções deoutros subproblemas.

O DTW, como um algoritmo de PD, realiza um mapeamento não-linear e encontra umcaminho ótimo que minimiza a distância entre duas séries (JEONG; JEONG; OMITAOMU,2011). Com este mapeamento não-linear, o DTW consegue medir a similaridade entre duasséries desprezando as flutuações temporais entre elas. No entanto, a sua principal limitação éa sua complexidade computacional quadrática de O(n2). Para realizar a comparação de séries,o DTW necessita realizar mais operações do que o algoritmo que apenas aplica a distânciaeuclidiana. Como sua complexidade é O(n2), uma série temporal com 500 valores requer250.000 operações, enquanto que a distância euclidiana necessita de 500 operações (500 vezesmais rápido) por ter uma complexidade O(n). No entanto, existem variações que atacam esteproblema de performance como o algoritmo FastDTW (SALVADOR; CHAN, 2004).

A partir de duas séries temporais X e Y de tamanhos m e p, respectivamente, é criadauma matriz Hmxp, com seus elementos hi, j representando a distância entre os elementos xi e y j

(d(xi,y j)). Para esse cálculo de distância, geralmente é utilizada a distância euclidiana quadrática(que é semelhante a distância euclidiana), definida na Equação

2.23 .

d(xi,y j) =(xi− y j

)2 2.23

Com a matriz de distâncias H calculada, o DTW procura então um caminho W coma menor distância acumulada possível, o qual possui um conjunto de pontos, definidos pelaEquação

2.24 .

W = w1,w2, ...,wz 2.24

max(m, p)≤ z≤ m+ p−1 2.25

Esta matriz pode ser entendida como uma matriz de custo, e o objetivo do DTW éencontrar um caminho que tenha o menor custo acumulado (menor distância) (ALBRECHTet al., 2009). A escolha do caminho W possui 3 restrições (JEONG; JEONG; OMITAOMU,2011):

LimiteEssa restrição impõe que o primeiro elemento do caminho tem que ser o ponto (x1,y1)

e o último elemento o ponto (xm,yp) para que o caminho seja válido

Monotonicidade


Define que o caminho não pode voltar em direção a origem, o caminho deve sempreir em direção ao ponto (xm,yp).

ContinuidadeDefine que o caminho só pode avançar um ponto a cada vez. Ou seja, se o algoritmoestá no ponto wk = (xi,y j) o próximo ponto deverá ser wk+1 = (xi+1,y j) ou wk+1 =

(xi,y j+1) ou wk+1 = (xi+1,y j+1)

A escolha do melhor caminho ocorre de forma recursiva, avaliando a expressão definidana Equação

2.26 (RATANAMAHATANA; KEOGH, 2004).

γ (i, j) = d(xi,y j

)+minγ (i−1, j−1) ,γ (i, j−1) ,γ (i−1, j)

2.26

O custo total do caminho (γ), é calculado de forma que ele é mínimo, uma vez que γ éuma função que vai acumulando custos, e escolhe como custo anterior o menor possível. Atravésdas escolhas dos custos um caminho é formado.

Como exemplo, considere o seguinte problema: Entre as séries A= 2,4,4,4,6,4,2,0,1,2,3e B= 3,2,4,3,5,4,5,4,5,3,4, qual a que mais se assemelha à série X = 1,2,3,4,4,4,5,6,4,2,0?

0

1

2

3

4

5

6

7

1 2 3 4 5 6 7 8 9 10 11

Val

or

Tempo

A B X

Figura 2.11: Séries A, B e X

A Figura 2.11 apresenta as três séries em questão. Através dela é possível observar quea série B oscila bastante entre os valores 3, 4 e 5 e que apesar de estar próxima à série X, nãoapresenta um comportamento parecido. Já na série A, existe um comportamento parecido se aatrasarmos em dois pontos, note que os pontos 2, 3 e 4 da série A, correspondem aos pontos 4, 5e 6 da série X e os pontos 5, 6, 7 e 8 da série A correspondem aos pontos 8, 9, 10 e 11 da série X,ou seja, o comportamento das séries com esse deslocamento é bem semelhante.

A distância quadrática entre as séries A e X é de 73, enquanto entre as séries B e X éde 29, conclui-se que pela distância quadrática a série B é a série mais semelhante à série X.Contudo a análise anterior mostrou que a série B apresenta comportamento diferente da série X.


A/X 1 2 3 4 4 4 5 6 4 2 02 69 38 20 15 15 15 20 27 12 8 124 68 38 19 11 11 11 11 14 8 12 284 59 34 18 11 11 11 10 13 8 12 284 50 30 17 11 11 11 9 12 8 12 286 41 26 16 11 11 11 8 8 12 28 524 16 10 7 7 7 7 8 12 12 16 322 7 6 7 11 15 19 28 44 48 27 270 6 9 14 24 30 34 44 63 50 27 231 5 5 8 14 18 19 27 42 34 23 232 5 4 5 9 10 11 17 28 25 22 263 4 5 5 6 7 8 12 21 22 23 32

Tabela 2.2: Matriz W do DTW entre as séries A e X. Melhor caminho em destaque

B/X 1 2 3 4 4 4 5 6 4 2 03 97 51 26 19 19 19 22 31 19 15 232 93 50 26 18 18 18 23 31 18 14 184 92 50 25 14 14 14 15 19 14 18 303 83 46 24 14 14 14 16 21 14 14 235 79 45 24 13 13 13 12 13 13 21 414 63 36 20 12 12 12 12 15 12 16 325 54 32 19 12 12 12 11 12 13 22 434 38 23 15 11 11 11 12 16 14 18 345 29 19 14 11 12 13 13 14 15 24 453 13 10 10 11 12 13 17 24 20 20 294 9 13 14 14 14 14 15 19 19 23 39

Tabela 2.3: Matriz W do DTW entre as séries B e X. Melhor caminho em destaque

As Tabelas 2.2 e 2.3 apresentam a matriz de distância acumulada do algoritmo DTWaplicado sobre as séries, a qual apresenta a distância acumulada entre pontos das séries compara-das. Nelas é possível visualizar o melhor caminho encontrado pelo algoritmo (células com fundoamarelo) e as distâncias resultantes em negrito: 12 para as séries A e X e 23 para as séries B e X.

Na Tabela 2.2 a primeira linha apresenta os valores da série X e a primeira coluna osvalores da série A, as demais células representam a distância acumulada entre 1 ponto da série Ae 1 ponto da série X, conforme as Equações

2.23 e 2.26 . Por exemplo, o valor 14 na célula

referente a linha com valor 0 na série A e a coluna com valor 3 na série X é o resultado dadistância quadrática entre 0 e 3 que é igual a 9 (Equação

2.23 ), somado ao menor valor entre9, 5 e 8 que são as células adjacentes consideradas na Equação

2.26 , resultando então em9+5 = 14. O mesmo processo ocorre na Tabela 2.3. Com esse exemplo foi possível visualizarcomo o cálculo das distâncias pela distância quadrática e pelo DTW se diferenciam, e tambémpodemos observar vantagens para o DTW, uma vez que ele consegue levar em consideração oscomportamentos das séries no valor da distância.


A X

Figura 2.12: Mapeamento entre as séries A e X realizado pelo DTW

A Figura 2.12 mostra como ficou o mapeamento entre as séries A e X que o algoritmoDTW realizou. Nela existem pontos de uma série mapeados com mais de um ponto da outrasérie, como o 1º ponto da série X, que é mapeado com os 4 primeiros pontos da série A. Istosignifica que o DTW realizou um deslocamento de tamanho 3 na série A a fim de deixar asséries mais semelhantes, minimizando a consequência deste atraso no resultado da distância. Nocaminho escolhido na matriz da Tabela 2.2, esses deslocamentos são representados por retasverticais ou horizontais. Ou seja, se o caminho for uma linha diagonal, não ocorre deslocamentosno cálculo do DTW e o seu resultado é igual ao da distância quadrática.

Em um problema de classificação de séries temporais, RODRIGUEZ; KUNCHEVA(2007) utilizam como uma das características da série, a dissimilaridade dela com outras sériespré-definidas, e esta medição foi realizada através do DTW. Desta forma, os autores possuemséries que são utilizadas como séries base para a classificação de outras séries, com o DTW osauxiliando como uma forma de medição da similaridade entre a série testada e as séries base.

454545

3Método proposto

Dada uma base de dados de uma série temporal, a saída da arquitetura proposta consisteem dois pools de preditores treinados, que em conjunto, realizam a predição do próximo valorda série utilizando os valores passados da mesma. Antes de iniciar o processo de treinamento,a série é pré-processada. O primeiro passo consiste em normalizar seus valores para que elesestejam dentro do intervalo [-1,1], e posteriormente, o algoritmo torna a série estacionária emsua média no caso dela não ser, através da diferenciação (definida na Seção 2.3).

A Figura 3.1 apresenta a arquitetura na etapa de treinamento e nela é possível visualizara base de dados de treinamento (Ω). A Figura 3.2 exibe a arquitetura na etapa de testes, comsuas respectivas etapas, entradas, saídas e a base de dados de testes (Λ).

A primeira etapa da arquitetura consiste no treinamento do pool de preditores do módulode mudança de sentido. Estes preditores realizam a previsão da inversão do sentido da série napróxima observação, isto é, se o valor atual da série é maior que o valor anterior e o módulo demudança de sentido previu que o sentido não irá inverter, então o próximo valor deve ser maiorque o valor atual, mantendo o sentido ascendente da série. Para realizar essa previsão, é criadauma nova série que apresenta as mudanças de sentido da série original e então os preditores sãotreinados usando esta nova série.

A segunda etapa utiliza as previsões do pool de preditores do módulo de mudança desentido como entradas para o treinamento do novo pool de preditores, que tem como objetivoprever o próximo valor da série original. Para tal, uma série com as previsões do pool de mudançade sentido é criada e o treinamento do novo pool é realizado com esta série e a série original.

Como foi visto anteriormente, a arquitetura é composta de dois módulos, o de mudançade sentido (Seção 3.1) e de previsão do próximo valor (Seção 3.2). No módulo de mudançade sentido as etapas consistem na criação da série de mudança de sentido (Seção 3.1.1) e notreinamento do pool de preditores (Seção 3.1.2). O treinamento desse pool é subdividido nasetapas de particionamento (Seção 3.1.2.1), seleção de lags (Seção 3.1.2.2) e na seleção dos dadosde validação (Seção 3.1.2.3). O módulo de previsão do próximo valor (Seção 3.2) possui asetapas de criação da série dos resultados do módulo de mudança de sentido e do treinamentode preditores (Seção 3.1.2). A Seção 3.3 descreve a arquitetura de testes que é subdividida em

46

Criação da série

de mudança de

sentido

Treinamento

pool de

preditores

Ω

Sms

Criação da série

de previsões de

MS

Treinamento

pool de

preditores

MS, Spms

MS

PV, MS Conjuntos

de

preditores

kMS, pintMS, lmaxMS

kPV, pintPV, lmaxPV

Figura 3.1: Arquitetura de treinamento

Seleção do

melhor

preditor

Predição

PMS

f’, SMS

MS

Λ

Criação da

série de

mudança de

sentido

Λ, MS, SMS

Seleção do

melhor

preditor

Predição

valor

f’, PMS

PV

Figura 3.2: Arquitetura de testes

3.1. MÓDULO DE MUDANÇA DE SENTIDO (MS) 47

previsão da mudança de sentido (Seção 3.3.1) e previsão do próximo valor (Seção 3.3.3), ambospossuem a etapa de seleção do melhor preditor (Seção 3.3.2).

3.1 Módulo de mudança de sentido (MS)

O módulo de mudança de sentido (Figura 3.1), tem como objetivo treinar um pool declassificadores para prever se a série irá mudar de sentido na próxima observação. A mudança desentido ocorre quando o sinal (positivo ou negativo) da operação xt−1− xt é diferente do sinalda operação xt − xt+1, sendo X a série analisada e xt ∈ X o valor da série no instante t. Estemódulo recebe o conjunto de treinamento da série analisada (Ω) e retorna o pool de preditoresde mudança de sentido (MS) que será utilizado pelo módulo de previsão do próximo valor.

A primeira etapa do módulo consiste na criação da série de mudança de sentido que é aentrada para a etapa de treinamento do pool de preditores que é descrita na Seção 3.1.2.

3.1.1 Criação da série de mudança de sentido

A série de mudança de sentido é uma série que possui o valor 1 se a série inverteu osentido na próxima observação e 0 caso contrário. A série é criada a partir da Equação

3.1 , naqual CMSn representa o n-ésimo valor da série de mudança de sentido e serien o n-ésimo valorda série analisada.

CMSn =

1 se, Cn < 00 caso contrário

3.1

Cn = (serien−1− serien)× (serien− serien+1) 3.2

A Tabela 3.1 ilustra o resultado dessa função sobre um exemplo de série temporal. Ospreditores do pool de mudança de sentido devem realizar a predição desta nova série com oauxílio de seus valores passados e dos valores passados da série original. A tabela exibe osvalores de n, da série analisada no instante n (serien) e a nova série de mudança de sentido noinstante n (CMSn), a partir dela é possível visualizar melhor o algoritmo. Os valores para CMS1 eCMS10 não podem ser calculados porque faltam os valores para serie0 e serie11, respectivamente.O valor de CMS2 é igual a 1 pois a série tinha aumentado de valor no instante 2 (serie1 < serie2

e passou a diminuir de valor (serie2 > serie3), já o valor de CMS5 é igual a zero porque a sérietinha diminuído de valor (serie4 > serie5) e seu valor continuou diminuindo (serie5 > serie6).

n 1 2 3 4 5 6 7 8 9 10serien 165,0 168,0 166,2 169,4 166,2 163,6 160,0 161,2 160,7 157,5CMSn 1 1 1 0 0 1 1 0

Tabela 3.1: Exemplo da função CMS sobre uma série temporal


3.1.2 Treinamento do pool de preditores

Conforme a Figura 3.1, a próxima etapa do módulo de mudança de sentido é o treina-mento do pool de preditores, que é detalhado pela Figura 3.3, a qual mostra os passos que sãorealizados durante o treinamento do pool. O objetivo desta etapa é retornar um pool de preditoresda série recebida pelo módulo, de acordo com os parâmetros do sistema.

O primeiro passo é o particionamento (Seção 3.1.2.1) que divide a série em partições (J)de acordo com os parâmetros de tamanho da janela (k) e do percentual de interseção entre duasjanelas adjacentes (pint). A fase seguinte é a de seleção de lags (Seção 3.1.2.2), responsávelpela escolha das características da série (L) que são utilizadas como entradas para o treinamentodo preditor de cada partição, o parâmetro lmax define o maior lag que pode ser selecionado.Posteriormente, na etapa de seleção dos dados de validação (Seção 3.1.2.3), para cada janela, éselecionado um conjunto de validação diferente (vi ∈V ). Como cada janela visa modelar umsubconjunto específico da série, a etapa de validação do preditor deve validar se este subconjuntofoi modelado corretamente. Ou seja, esta etapa não deve verificar se todos os padrões decomportamento que aparecem na série foram modelados corretamente, ela deve validar apenas opadrão do subconjunto em que o preditor foi treinado.

Por fim, na etapa de treinamento dos preditores, cada partição tem um preditor treinado( fi ∈ F), o qual utiliza os lags (que definem as entradas do preditor, como visto na Seção 2.6) e oconjunto de validação da partição que foram escolhidos nas etapas anteriores, os parâmetros detreinamento do preditor (Ppred) e o conjunto de treinamento que é a série da partição.

3.1.2.1 Particionamento

A primeira etapa do treinamento do pool de preditores é a etapa de particionamento(Figura 3.3). Durante esta etapa, a série temporal é particionada em janelas, podendo haverinterseções entre as janelas adjacentes. O objetivo com esta operação é gerar séries menoresque representem um padrão de comportamento específico da série para então treinar preditoresespecialistas nessas regiões. O resultado esperado é uma melhora na previsão, pois ela serárealizada por um especialista em um único padrão de comportamento e não por um preditor quetenta se especializar em toda a série. Esta etapa recebe a série (Ω), o tamanho da janela (k) eo percentual de interseção entre janelas adjacentes (pint), retornando as janelas calculadas (J).Os parâmetros k e pint podem possuir valores diferentes para cada pool, com os parâmetros dopool de mudança de sentido sendo referenciados como kMS e pintMS e os do pool de previsão dopróximo valor como kPV e pintPV .

As janelas possuem o mesmo tamanho k, com exceção da última, que pode ter umtamanho menor devido ao tamanho da série. Caso pint seja maior que zero, uma janela iniciaantes da janela anterior terminar, logo as 2 janelas têm pontos em comum. Sendo assim, aquantidade de janelas (qj) criadas depende dessas duas variáveis (k e pint) e do tamanho da série(n), conforme a Equação

3.3 .


Particionamento

(J)

Seleção de Lags

(L)

Seleção dos dados

de validação (V)

Treinamento dos

preditores (F)

J = j1, j2, ...., jqj

J

L = l1, l2, ...., lqj

J, L

V = v1, v2, ...., vqj

k, pint

lmax

F = f1, f2, ...., fqj

Ω

Ppred

...

...

...

Figura 3.3: Arquitetura de treinamento de um pool de preditores


q j =⌈

n− (k× pint)k× (1− pint)

⌉ 3.3

A Figura 3.4 apresenta o resultado do particionamento de uma série com 754 valoresusando os parâmetros: k = 200 e pint = 25%. Nela, as partições são delimitadas pelos retângulostracejados e na parte inferior do retângulo, um número indica qual a posição da janela. Nesteexemplo, 5 janelas foram criadas, com a última possuindo 154 valores ao invés de 200 como asoutras janelas devido à falta de dados. Pela imagem é possível perceber também como ocorre ocompartilhamento de dados entre as janelas adjacentes, como no caso dos dados entre t150 e t200

que são utilizados pelas janelas j1 e j2.

80

90

100

110

120

130

140

150

160

170

180

1 51 101 151 201 251 301 351 401 451 501 551 601 651 701 751

Val

or

Tempo

j2 j3 j4 j5 j1

Figura 3.4: Série particionada com k = 200 e pint = 25%

O tamanho da janela é um ponto importante, pois caso seja grande, poucas partições sãocriadas, e portanto, poucos preditores são treinados. Tais preditores serão treinados sobre umajanela com uma maior probabilidade de compreender mais de um padrão de comportamento.Sendo assim, o preditor tem uma chance menor de se tornar especialista em um único padrão decomportamento. Além desse problema, poucos preditores são treinados, e assim a probabilidadede existir um preditor especialista no padrão da série que antecede a previsão é menor.

Por outro lado, caso a partição seja pequena, o seu preditor não é bem treinado. Istoporque a partição não possui dados suficientes para que, durante o treinamento, o preditorconsiga ajustar os seus parâmetros. Desta forma, o preditor não consegue generalizar de maneirasatisfatória, isto é, ele passa a decorar os dados do conjunto de treinamento e não conseguerealizar boas previsões a partir de entradas que não estão neste conjunto, caracterizando osobretreinamento (overfitting). A interseção entre as partições tem como objetivo ajudar aresolver estes problemas, pois o tamanho da janela poderá ser grande o suficiente para evitar ooverfitting e ainda assim existir uma quantidade significativa de janelas, aumentando as chancesde existir um preditor treinado com uma janela que compreende o padrão de comportamento da


série a ser prevista.

3.1.2.2 Seleção de lags

Após o particionamento, temos a etapa de seleção de lags (Figura 3.3). Esta etapa temcomo objetivo selecionar as características que irão compor as entradas para os preditores. Elarecebe as partições (J) criadas na etapa anterior e o parâmetro que determina o maior lag quepode ser analisado (lmax), como saída temos os lags (L) que devem ser utilizados pelos preditoresde cada partição. O parâmetro lmax, assim como os parâmetros da etapa de particionamento,pode possuir valores diferentes para cada pool, com o parâmetro do pool de mudança de sentidosendo referenciado por lmaxMS e o do pool de previsão do próximo valor como lmaxPV .

Para cada janela ji ∈ J, as características selecionadas são os lags que possuem valor deautocorrelação significante. Eles são os lags em que o valor da autocorrelação não está dentro dointervalo de confiança de 95% do valor de autocorrelação zero (BOX; JENKINS, 1994). Sãoanalisados os lags no intervalo de 1 a lmax. É importante destacar que cada janela possui seuconjunto de lags selecionados (li ∈ L) e que eles são escolhidos analisando apenas os dadosda janela. Esta seleção olhando apenas os dados da janela tem como justificativa o objetivodo sistema proposto, que é obter janelas com padrões de comportamentos diferentes, portanto,podem possuir também lags relevantes diferentes.

-0,2

0,0

0,2

0,4

0,6

0,8

1,0

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Au

toco

rre

laçã

o

Lag

Figura 3.5: Autocorrelação de uma série temporal

A Figura 3.5 mostra um gráfico com os valores de autocorrelação de uma série supondolmax = 15. As linhas horizontais próximas a 0,1 e -0,1 delimitam o intervalo de confiança citadono parágrafo anterior, e é possível perceber que os lags 1, 4 e 10 possuem valores significantes,ou seja, valores fora dos limites definidos pelo intervalo de confiança, menores que o limiteinferior ou maiores que o limite superior desse intervalo.

3.2. MÓDULO DE PREVISÃO DO PRÓXIMO VALOR 52

3.1.2.3 Seleção dos dados de validação

Após a etapa de seleção dos lags tem-se a etapa de seleção dos dados de validação(Figura 3.3), que tem como objetivo selecionar os dados de validação de cada janela do sistema.Esta etapa recebe as janelas (J) e retorna os conjuntos de validação (vi ∈V ) de cada janela.

Geralmente, no treinamento de preditores, além do conjunto de treinamento é necessárioum conjunto de validação, que objetiva assegurar a capacidade de generalização do preditorevitando o overfitting. A estratégia apresentada até então visa obter preditores especialistas emum determinado padrão de comportamento da série, portanto estes preditores não precisam ter acapacidade de generalizar para qualquer padrão de comportamento, e sim apenas para o padrãode comportamento da janela ao qual ele pertence. Por isso, nesta etapa a abordagem procura nasérie, as entradas que possuem comportamento mais semelhante ao da janela e essas entradassão utilizadas como o conjunto de validação do preditor.

O conjunto de validação consiste nos dados da janela mais semelhante (janela validadora)à janela de treinamento, e o grau de semelhança é medido como sendo o inverso da distânciaentre as séries da janela candidata à janela validadora e da janela avaliada. A distância entre elasé calculada pelo algoritmo Dynamic Time Warping (DTW). A busca é realizada analisando adistância da janela avaliada com todas as outras janelas que não a intersectam. No caso de nãoexistirem tais janelas (que não a intersectam), a restrição é atenuada, sendo selecionáveis todasque sejam diferentes da janela avaliada, no entanto, apenas a parte da janela validadora que nãointersecta com a janela avaliada é utilizada, isto garante que os dados de validação não foramutilizados no treinamento do preditor da janela avaliada.

3.2 Módulo de previsão do próximo valor

O módulo de previsão do próximo valor (Figura 3.1) tem como objetivo a criação de umpool de preditores que realiza a previsão do próximo valor da série original. O módulo recebecomo entrada o conjunto de treinamento (Ω), o pool de preditores do módulo de mudança desentido (MS) e retorna o pool de preditores de próximo valor (PV ) da série temporal.

O primeiro passo do módulo consiste na criação de uma nova série temporal com asprevisões de mudança de sentido (Spms). Para cada valor do conjunto de treinamento, é realizadaa previsão de mudança de sentido através do pool de preditores de mudança de sentido e essasprevisões formam a nova série Spms. É importante destacar que os lmaxMS primeiros valores dasérie Spms não podem ser previstos pelos preditores por conta da falta de dados para servirem deentrada para os preditores de mudança de sentido. Sendo assim, os lmaxMS primeiros valores(exceto o primeiro valor) são definidos a partir da Equação

3.1 .A próxima etapa consiste no treinamento de um pool de preditores que utiliza as séries

Spms e Ω simultaneamente para realizar a previsão do próximo valor da série. O processo detreinamento do pool está descrito na Seção 3.1.2, porém este pool é um pouco diferente do de

3.3. TESTES 53

mudança de sentido pois é treinado usando duas séries. As etapas de treinamento do pool sãorealizadas sobre o conjunto de treinamento (Ω) e na última etapa de treinamento do preditor, aentrada do preditor consiste nos valores dos lags selecionados tanto de Ω quanto de Spms. Porexemplo, se os lags selecionados são o 1º e o 5º, as entradas do preditor correspondem aosvalores dos lags 1 e 5 de Ω e dos lags 1 e 5 de Spms.

Após esta etapa, a saída da arquitetura consiste em dois pools de preditores (PV e MS),que serão utilizados para realizar a previsão do próximo valor da série temporal. Cada pool depreditor possui q j preditores, conforme definido na Equação

3.3 , que define a quantidade dejanelas. Os pools de preditores podem ter tamanhos diferentes, para isso ocorrer, deve haverdiferença nos valores dos parâmetros kMS e kPV ou pintMS e pintPV , os quais são os parâmetrospara a criação das partições de cada pool, como mostra a Figura 3.1.

3.3 Testes

A Figura 3.2 mostra a arquitetura para a realização de predições com o modelo treinado.Nela é possível visualizar que, dada uma série temporal com dados que antecedem o valor a serpredito (Λ), a arquitetura tem como saída a previsão do próximo valor da série.

A arquitetura define que, em um primeiro momento, deve ser realizada a previsão demudança de sentido da série, operação descrita na Seção 3.3.1. Posteriormente, uma série com asprevisões de mudança de sentido é fornecida ao pool de previsão do próximo valor, em conjuntocom a série que antecede o valor a ser testado, e assim o pool de previsão do próximo valorrealiza a previsão final. Este processo está descrito na Seção 3.3.3. Para cada previsão a serrealizada nos dois pools, ocorre a escolha do preditor mais apto ( f ′), o qual é selecionado dentreos preditores do pool (F), pela operação descrita na Seção 3.3.2.

3.3.1 Previsão de mudança de sentido

Na primeira etapa da arquitetura de testes, é realizada a previsão de mudança de sentidoda série em sua próxima observação utilizando o pool de mudança de sentido. O pool recebeos valores que antecedem o valor a ser predito (Λ) e retorna a previsão de mudança de sentidoadicionada a série de mudança de sentido que antecede o valor previsto (PMS).

Para que o pool de mudança de sentido possa realizar a previsão, é criada uma série demudança de sentido com lmaxMS valores que antecedem o valor a ser predito (SMS). Para isso, éutilizada a Equação

3.1 .Com SMS criada, a predição da mudança de sentido da série na próxima observação

é realizada pelo preditor mais apto ( f ′ ∈ F) do pool. O processo de escolha deste preditor édetalhada na Seção 3.3.2. Por fim, f ′ recebe a série temporal com os dados que antecedem ovalor a ser testado e realiza a previsão da mudança de sentido. Esta previsão é então concatenadaa SMS, formando a série PMS que é passado para a próxima etapa.

3.3. TESTES 54

3.3.2 Seleção do melhor preditor

A partir da série que antecede o valor a ser predito, esta etapa tem como objetivo encontrara partição de treinamento que mais se assemelha à esta série. Esta etapa recebe a série queantecede o valor a ser predito e retorna a janela com a série que mais se assemelha a ela.

A busca ocorre de forma semelhante a descrita na Seção 3.1.2.3. São calculadas asdistâncias entre a série que antecede o valor a ser predito e as séries das janelas utilizando oalgoritmo Dynamic Time Warping (DTW). A janela mais semelhante é a que apresentar a menordistância em relação à série de teste, como ilustra a Figura 3.6. No lado esquerdo da figura épossível visualizar o pool de preditores com suas janelas e a série a ser prevista. Elas passampelo processo de cálculo de distância usando o DTW e, por fim, é escolhida a partição commenor distância com relação a série a ser prevista. Com a janela mais semelhante selecionada, éobtido também o melhor preditor ( f ′) para o teste e os lags necessários para construir a entradapara f ′.

Calcula as distâncias entre as séries

do pool e a série a ser prevista

usando DTW e escolhe a mais

semelhante

Previsão

...

...

j1 jqj

f1 fqj

j’

Série a ser

prevista

Partição

com menor

distância

Figura 3.6: Seleção do melhor preditor

O DTW foi escolhido para realizar o cálculo da distância pois, como foi descrito na Se-ção 2.7, consegue realizar comparações sem precisar que o eixo temporal das duas séries estejamalinhados. Por exemplo, caso uma série Xt seja idêntica a outra Zt , porém esteja deslocada, naforma: Xt = Zt+d , com d sendo o deslocamento temporal entre elas, o DTW consegue compará-las de maneira melhor que a distância euclidiana, de forma que o deslocamento tem poucainfluência no resultado. Esse deslocamento é muito comum em séries temporais, sendo uma dasmotivações para a criação do DTW, que surgiu da necessidade de comparar séries desconside-rando as variações no eixo temporal de cada uma. Dessa forma, ele consegue comparar padrõesde comportamento de séries temporais de maneira mais precisa.

3.3. TESTES 55

3.3.3 Previsão do próximo valor

Esta etapa tem como objetivo realizar a previsão do próximo valor da série. Ela recebe asérie de mudança de sentido PMS com a previsão de mudança de sentido da série para a próximaobservação, o pool de preditores do próximo valor (PV ) e a série que antecede o valor a sertestado (Λ), retornando a previsão do próximo valor da série.

A série que antecede o valor a ser testado (Λ) é utilizada para encontrar o preditor maisapto a prever o próximo valor da série ( f ′) utilizando o processo descrito na Seção 3.3.2.

Com f ′ selecionado, a entrada para o preditor é montada a partir da escolha dos valoresque correspondem aos lags que o preditor necessita (selecionados na Seção 3.1.2.2), os valoressão retirados tanto de Λ quanto de PMS. Por exemplo, se f ′ necessita apenas do valor do lag 1, aentrada será composta pelos valores mais recentes das séries Λ e PMS. Com a entrada do preditordefinida, f ′ realiza a predição do valor e o sistema tem a sua previsão final.

565656

4Metodologia dos experimentos

Este capítulo tem como objetivo descrever as bases de dados, as medidas de desempenhoutilizadas, além de explicar como foi realizado o treinamento, avaliação e comparação dospreditores utilizados na comparação dos resultados.

4.1 Bases de dados

O sistema foi avaliado analisando os resultados de previsão de quatro séries temporaisdiferentes. Duas delas foram adquiridas através do site Yahoo Finance1 e são as séries defechamento ajustado das ações Goldman Sachs (GS) e Microsoft (MSFT). As outras duassão as séries Mackey-Glass e Laser (GERSHENFELD; WEIGEND, 1994) que são utilizadasem diversos trabalhos na literatura (LANDASSURI-MORENO; BULLINARIA, 2009; WANG;HAN, 2014; DONATE et al., 2013; SOTO; MELIN; CASTILLO, 2013; EBADZADEH; SALIMI-BADR, 2015; RIBEIRO; GOLDSCHMIDT; CHOREN, 2009). A Tabela 4.1 exibe detalhes dotamanho das séries e a Tabela 4.2 exibe suas estatísticas.

Série Período TamanhoGS 04/01/2010 - 31/12/2012 754

MSFT 04/01/2010 - 31/12/2012 754Mackey-Glass - 700

Laser - 1000Tabela 4.1: Séries utilizadas

As séries foram escolhidas de forma que o sistema seja utilizado em séries com com-portamentos diferentes. As séries GS e a MSFT são séries financeiras que possuem comocaracterísticas ter a variância correlacionada com o tempo, isto é, a variância da série muda como passar do tempo, e também apresentam alta volatilidade (COWPERTWAIT; METCALFE,2009) com o valor da ação da GS variando em média 1,47% por dia de negociação das açõesenquanto o valor da ação da MSFT variou em média 1,04% por dia, no período analisado. As

1http://finance.yahoo.com

http://finance.yahoo.com

4.2. MEDIDAS DE DESEMPENHO 57

Série Mínimo Máximo Média Desvio PadrãoGS 85,29 176,78 127,983 23,979

MSFT 21,08 31,45 25,984 2,473Mackey-Glass 0,2020 1,369 0,863 0,318

Laser 2 255 59,894 46,875Tabela 4.2: Estatísticas das séries

séries Mackey-Glass e Laser apresentam uma variação média ainda maior, porém é possívelobservar um comportamento periódico nestas séries. As séries estudadas podem ser visualizadasnas Figuras 4.1, 4.2, 4.3 e 4.4.

80

90

100

110

120

130

140

150

160

170

180

jan/2010 mai/2010 set/2010 jan/2011 mai/2011 set/2011 jan/2012 mai/2012 set/2012

Val

or

Mês

Preço de fechamento ajustado das ações da Goldman Sachs

Figura 4.1: Série do preço de fechamento ajustado das ações da Goldman Sachs

4.2 Medidas de desempenho

A avaliação de desempenho consiste em comparar as métricas de desempenho obtidaspelo sistema com os resultados da literatura. As seguintes métricas foram utilizadas: Mean Abso-

lute Percentage Error (MAPE), Theil, Prediction of Change in Direction (POCID), Normalized

Root Mean Squared Error (NRMSE), Normalized Mean Squared Error (NMSE), Root Mean

Squared Error (RMSE) e o percentual de acerto no caso do módulo de mudança de sentido(NETO, 2008; LIMA JUNIOR et al., 2010; MIRIKITANI; NIKOLAEV, 2010; MIRANIAN;ABDOLLAHZADE, 2013). O NMSE e o RMSE foram utilizados apenas para as comparaçõescom outros estudos nas séries Mackey-Glass e Laser.

No cálculo das fórmulas que serão exibidas abaixo, a variável D = D1,D2, . . . ,Dn repre-senta o conjunto de valores desejados para a previsão, P = P1,P2, . . . ,Pn é o conjunto de valoresprevistos pelo sistema e n é a quantidade de previsões realizadas.


20

21

22

23

24

25

26

27

28

29

30

31

32

33

jan/2010 mai/2010 set/2010 jan/2011 mai/2011 set/2011 jan/2012 mai/2012 set/2012

Val

or

Mês

Preço de fechamento ajustado das ações da Microsoft

Figura 4.2: Série do preço de fechamento ajustado das ações da Microsoft

0,15

0,30

0,45

0,60

0,75

0,90

1,05

1,20

1,35

1 51 101 151 201 251 301 351 401 451 501 551 601 651

Val

or

Tempo

Mackey-Glass

Figura 4.3: Série Mackey-Glass


0

30

60

90

120

150

180

210

240

270

1 51 101 151 201 251 301 351 401 451 501 551 601 651 701 751 801 851 901 951

Val

or

Tempo

Laser

Figura 4.4: Série Laser

O MAPE é uma medida de desempenho que informa o percentual de erro médio daprevisão. É de grande utilidade para a avaliação de previsões de séries temporais financeirasporque independe de escala e indica qual a margem de erro da previsão em percentual. Nacomparação de resultados, a previsão de melhor MAPE é a que obtém o menor valor dessamétrica. O MAPE é calculado pela Equação

4.1 .

MAPE =100n

n

∑t=1

∣∣∣∣Dt−Pt

Dt

∣∣∣∣ 4.1

O Theil compara o sistema de previsão com o passeio aleatório (random walk), na quala previsão do próximo valor é o valor anterior acrescido de um valor aleatório. Um valor deTheil igual a 1 indica que a previsão dada pelo sistema tem a mesma performance do passeioaleatório e menor que isso indica que a previsão do sistema é melhor. Portanto, na comparaçãode resultados, a previsão de melhor Theil é a que obtém o menor valor dessa métrica. Seu cálculoé dado pela Equação

4.2 .

T heil =

n∑

t=1(Dt−Pt)

2

n∑

t=1(Dt−Dt−1)

2

4.2

O POCID é uma medida de desempenho também bastante utilizada, ela informa afrequência com que o sistema acertou a direção do próximo valor da série. Ou seja, se o sistemaindica que o próximo valor é um valor maior ou menor que o atual e acerta, o POCID é maior,se erra ele é menor. Um valor de POCID igual a 50% indica que o sistema se comportou iguala uma decisão baseada em cara ou coroa. Na comparação de resultados, a previsão de melhorPOCID é a que obtém o maior valor dessa métrica. O POCID é definido pela Equação

4.3

4.3. METODOLOGIA DE AVALIAÇÃO 60

POCID =100n

n

∑t=1

Xt 4.3

Xt é igual a 1 se o sistema acertou a direção, e 0 se errou.O NRMSE é uma medida de desempenho que mede o desvio-padrão do erro médio entre

a previsão e o valor real da série. Na comparação de resultados, a previsão de melhor NRMSE éa que obtém o menor valor dessa métrica. Seu cálculo é dado pela Equação

4.4 .

NRMSE =

√√√√√√√n∑

t=1(Pt−Dt)

2

n∑

t=1(Dt− D)

2

4.4

O NMSE é uma medida de desempenho que calcula o erro médio da previsão ajustadopelo desvio-padrão da série. Na comparação de resultados, a previsão de melhor NMSE é a queobtém o menor valor dessa métrica. Seu cálculo é dado pela Equação

4.5 .

NMSE =1

n×σ2

n

∑t=1

(Pt−Dt)2

4.5

σ2 representa o desvio-padrão amostral dos dados de treinamento da série.O RMSE é uma medida de desempenho que mede a raiz quadrada do erro médio entre a

previsão e o valor real da série. Na comparação de resultados, a previsão de melhor RMSE é aque obtém o menor valor dessa métrica. Seu cálculo é dado pela Equação

4.6 .

RMSE =

√1n

n

∑t=1

(Pt−Dt)2

4.6

O percentual de acerto é uma medida de desempenho que informa a quantidade devezes em que determinado classificador classificou os padrões corretamente dentre todas asclassificações que realizou. Na comparação de resultados, a previsão de melhor percentualde acerto é a que obtém o maior valor dessa métrica. O percentual de acerto é definido pelaEquação

4.7 .

PctAcerto =1n

n

∑t=1

0|Pt−Dt | 4.7

4.3 Metodologia de avaliação

A metodologia de avaliação dos preditores consiste em aplicar o sistema proposto eoutros sistemas da literatura, com diversas configurações nas séries selecionadas, a fim de realizara previsão do próximo valor da série (t+1). Em um primeiro momento, as bases de dados passampor um pré-processamento dos dados, o qual transforma os valores da série para o intervalo


[-1, 1], além de tornar a série estacionária com relação à sua média através da diferenciação(ver Seção 2.3). Posteriormente, elas são divididas em 2 conjuntos, um deles consiste nosprimeiros 75% valores da série e é denominado conjunto de treinamento, os outros 25% irãocompor o conjunto de testes. No conjunto de treinamento, estão os dados em que os preditoressão treinados e também os dados para a validação do treinamento.

Nos sistemas da literatura, foram utilizados 33% dos dados do conjunto de treinamentopara a validação, ficando então uma divisão global de 50% de treinamento, 25% de validaçãoe 25% de testes. Já nas abordagens propostas, todo o conjunto de treinamento é utilizado paratreinar os preditores e para validação, todo o conjunto de treinamento está disponível, porém suautilização por completo depende do resultado do DTW e dos parâmetros que definem as janelasdo sistema, na maioria dos casos, apenas uma parte do conjunto de treinamento acaba sendoutilizada como validação.

Com os conjuntos definidos e tratados, a fase de treinamento é iniciada. Para o sistemaproposto, diversas configurações foram testadas variando os parâmetros do sistema conformea Tabela 4.3. Os valores do parâmetro k foram escolhidos com o objetivo de avaliar o sistema comjanelas grandes (450 e 350), com tamanho próximo ao de uma estratégia sem particionamento etambém com janelas pequenas (150 e 250), porém com uma quantidade mínima de dados paraque o preditor consiga ajustar seus parâmetros. Os valores do parâmetro pint foi escolhido como objetivo de criar muitas janelas, criando uma diversidade maior de preditores. Por fim, osvalores do parâmetro lmax foram escolhidos com base em experimentos realizados nas sériesanalisadas, os quais mostraram que lags maiores que 30 geralmente não apresentam um valor deautocorrelação significante.

Parâmetro ValoresTamanho da janela (k) 150; 250; 350; 450

Percentual de interseção (pint) 0,9; 0,5Lag máximo utilizado (lmax) 20; 30

Tabela 4.3: Configurações dos testes

A Figura 4.5 apresenta a variação da quantidade de janelas para cada série avaliada. Paragerar o gráfico foi calculada a quantidade de janelas de cada série para cada combinação de k epint segundo a Equação

3.3 . A maior quantidade de janelas ocorre na série Laser, com k = 150e pint = 90%, resultando em 41 janelas.

Foram testadas todas as 16 combinações de parâmetros com os valores da Tabela 4.3, ouseja foram realizados testes com as configurações:

1. k = 150; pint = 0,5; lmax = 20

2. k = 150; pint = 0,5; lmax = 30

3. k = 150; pint = 0,9; lmax = 20


Goldman Sachs Microsoft Laser0

5

10

15

20

25

30

35

40

Mackey−GlassSérie

Qua

ntid

ade

de ja

nela

s

Figura 4.5: Variação da quantidade de janelas por série avaliada

4. k = 150; pint = 0,9; lmax = 30

5. k = 250; pint = 0,5; lmax = 20

6. ...

Para cada combinação de parâmetros acima, vários preditores são treinados, pois váriasjanelas são criadas e cada uma contém um preditor diferente. Para a escolha do preditor dajanela, vários preditores com configurações diferentes são treinados (com os dados da janela) eavaliados, sendo escolhido o preditor que obteve o menor valor da medida de desempenho criadacom a finalidade de escolher o melhor preditor da janela, o score.

Para o pool de previsão do próximo valor, o score é definido conforme a Equação 4.8 ,

sendo ntreino e nvalidacao o tamanho dos conjuntos de treinamento e validação, respectivamente. OscoreParcialPV (subcon junto) utiliza os valores calculados do MAPE, NRMSE e POCID sobreo subconjunto especificado, no scorePV são utilizados os conjuntos de treino e validação dopreditor. A equação foi criada com o objetivo de escolher preditores que otimizem tais medidasde desempenho em conjunto e não apenas uma delas.

scorePV = scoreParcialPV (treino)+(

scoreParcialPV (validacao)× ntreino

nvalidacao

) 4.8


scoreParcialPV (subcon junto) =

(MAPEsubcon junto×NRMSEsubcon junto)

POCIDsubcon junto

4.9

Para o pool de mudança de sentido a definição do score é dada pela Equação 4.10 ,

sendo ntreino e nvalidacao o tamanho dos conjuntos de treino e validação, respectivamente. OscoreParcialMS (subcon junto) utiliza os valores calculados do NRMSE e da taxa de acertosobre o subconjunto especificado, no scoreMS são utilizados os conjuntos de treino e validaçãodo preditor. Assim como no score do pool de próximo valor, a equação do score do pool demudança de sentido foi criada com o objetivo de escolher preditores que otimizem as medidasde desempenho escolhidas em conjunto.

scoreMS = scoreParcialMS (treino)+(

scoreParcialMS (validacao)× ntreino

nvalidacao

) 4.10

scoreParcialMS (subcon junto) =NRMSEsubcon junto

PctAcertosubcon junto

4.11

Para cada configuração possível de preditor (Tabelas 4.4 e 4.5), w preditores são treinados,sendo o preditor escolhido para a janela, o que alcançar o menor score. A Figura 4.6 ilustra oprocesso de treinamento e escolha do melhor preditor.

Treina w

preditores

Guarda preditores

treinados com

seus scores

Seleciona uma

configuração de

preditor

Ainda tem

configurações

possíveis?

Seleciona preditor

de menor score

Preditores

treinados

configpreditores

Configurações

Sim Não

preditor

2

13

4 5

Figura 4.6: Processo de escolha do melhor preditor

Na Figura 4.6 é possível visualizar 2 repositórios, o primeiro é o repositório de confi-gurações que contém todas as combinações de parâmetros listados na Tabela 4.4 nos sistemas


com MLP e Tabela 4.5 para os sistemas com SVR. O segundo repositório contém os preditorestreinados com os seus respectivos scores.

O passo 1 seleciona uma configuração ainda não utilizada do repositório de configuraçõese envia-o para o próximo passo. No passo 2, w preditores são treinados e cada um tem o seuscore calculado. O valor de w para sistemas com MLP foi igual a 10, e para sistemas com SVRfoi igual a 1. Isto porque, os sistemas com MLP apresentaram um desvio-padrão grande noscore, enquanto que os sistemas com SVR apresentaram desvio-padrão muito próximos a zero,então não há diferença significativa no melhor score quando w é igual a 1 ou quando é igual a10 nos sistemas com SVR. O passo 3 guarda os preditores treinados no repositório, para seremutilizados posteriormente. O passo 4 verifica se ainda existem configurações não utilizadas. Sesim, o algoritmo retorna para o passo 1, senão, o algoritmo passa para o quinto e último passo. Opasso 5, extrai do repositório de preditores treinados, aquele que obteve o menor score e este é oretorno do algoritmo.

Nos casos em que o preditor é uma rede neural Multilayer Perceptron (MLP), o al-goritmo de aprendizagem utilizado foi o Broyden-Fletcher-Goldfarb-Shanno Quasi-Newton(BFGS Quasi-Newton) (FLETCHER, 1987; GILL; MURRAY; WRIGHT, 1981). Em LAHMIRI(2011), diversos algoritmos de aprendizagem tiveram suas performances de previsão avaliadase comparadas sobre várias séries temporais, o BFGS-Quasi Newton foi o algoritmo que tevea melhor performance nesses testes em conjunto com o algoritmo Levenberg-Marquadt. Asvariações realizadas nos parâmetros da rede neural MLP estão decritas na Tabela 4.4 e foramselecionados com base em experimentos preliminares. Todas as combinações dos parâmetroslistados foram avaliadas.

Parâmetro ValoresNeurônios 5; 10; 25

Taxas de aprend. (η) 0,001; 0,003; 0,005; 0,01Tabela 4.4: Configurações das MLPs

Nos casos em que o preditor escolhido foi o Support Vector Regression (SVR), foiutilizada a função de kernel Radial Basis Function (RBF) (BOSER; GUYON; VAPNIK, 1992;CORTES; VAPNIK, 1995) com as configurações exibidas na Tabela 4.5, assim como com opreditor MLP, todas as combinações de parâmetros do SVR foram avaliadas e os valores foramselecionados com base em experimentos preliminares.

Para comparação dos resultados, seis estratégias diferentes foram testadas, dentre as quais,quatro são estratégias propostas neste trabalho (MLPPART, SVRPART, MLPMS e SVRMS). Asestratégias avaliadas são:

MLP Simples (MLP)Uma RNA MLP é treinada com o algoritmo de aprendizagem BFGS-Quasi Newton paraprever o próximo valor da série.

4.4. TESTES ESTATÍSTICOS 65

Parâmetro Valores

Complexidade (C)0,4; 4; 40; 400;

4000; 40000

Variável de folga ε0,01; 0,001; 0,0001;0,00001; 0,000001

Diâmetro RBF (2α2)0,1; 10;

1000; 100000Tabela 4.5: Configurações das SVRs

SVR Simples (SVR)Uma SVR com o kernel RBF é treinada para prever o próximo valor da série.

MLP com particionamento (MLPPART)Utiliza várias MLPs com configurações distintas, uma para cada partição da série (pool depreditores do próximo valor). Ela escolhe o MLP da partição mais semelhante ao momentoatual da série e utiliza apenas os valores passados dela para prever o próximo valor.

SVR com particionamento (SVRPART)Utiliza várias SVRs com configurações distintas, uma para cada partição da série (pool depreditores do próximo valor). Ela escolhe a SVR da partição mais semelhante ao momentoatual da série e utiliza apenas os valores passados dela para prever o próximo valor.

MLP com particionamento e mudança de sentido na próxima observação (MLPMS)Utiliza dois pools de preditores, formados por MLPs, o primeiro indica a possibilidadeda série inverter o sentido na próxima observação, com base nas informações do passadorecente da série, e repassa a sua previsão para o pool de preditores do próximo valor dasérie, que por sua vez, realiza o mesmo procedimento da estratégia MLPPART.

SVR com particionamento e mudança de sentido na próxima observação (SVRMS)Essa estratégia é igual a estratégia MLPMS com exceção do tipo de preditor, que nessecaso são SVRs.

4.4 Testes Estatísticos

Para avaliar qual abordagem obteve o melhor desempenho na previsão das séries tem-porais, foram realizados testes estatísticos, que avaliaram se o score e o MAPE das abordagenstestadas são diferentes. Foram utilizados os testes t-Student (GHEYAS; SMITH, 2011) e deWilcoxon (KAO et al., 2013). Para poder aplicar o teste t-Student em amostras pequenas (tamanhomenor que 30), primeiro é necessário garantir que as amostras analisadas foram retiradas de umadistribuição normal. Para realizar essa avaliação, foi utilizado o teste Shapiro-Wilk (ALMEIDA,2014). No caso do teste Shapiro-Wilk afirmar que as amostras vieram de uma população normal,


é avaliado se elas foram retiradas de uma distribuição com mesma variância, para essa avaliaçãofoi utilizado o teste F (ALMEIDA, 2014).

No caso das amostras pertencerem à uma distribuição normal de mesma variância, o testet-Student para dados não emparelhados é aplicado, a fim de avaliar se as médias das amostrassão diferentes. Caso contrário, o teste da soma dos postos de Wilcoxon é aplicado e avalia se asamostras foram retiradas de populações com medianas diferentes.

4.4.1 Teste de Shapiro-Wilk

No teste de Shapiro-Wilk, é avaliada a hipótese nula de que a amostra provém de umapopulação normal, desta forma temos as hipóteses:

H0: A amostra provém de uma população Normal

H1: A amostra não provém de uma população Normal

O nível de significância do teste (α) utilizado foi de 0,05, que representa um nível deconfiança de 95%.

4.4.2 Teste F

No teste F, é avaliada a hipótese nula de que as amostras possuem a mesma variância,desta forma temos as hipóteses:

H0: As amostras possuem mesma variância

H1: As amostras não possuem mesma variância


4.4.3 Teste t-Student

O teste t-Student é um teste paramétrico, na qual é avaliada a hipótese nula de que asmédias das amostras são iguais, desta forma temos as hipóteses:

H0: µ1 = µ2 - As amostras possuem mesma média

H1: µ1 6= µ2 - As amostras não possuem mesma média



4.4.4 Teste de Wilcoxon

O teste de Wilcoxon é um teste não-paramétrico, no qual não é necessário conhecer adistribuição previamente (KAO et al., 2013). O teste avalia a hipótese nula de que duas amostrasindependentes possuem medianas iguais. Desta forma, temos as hipóteses

H0: ∆ = 0 - A diferença das medianas das amostras é nula

H1: ∆ 6= 0 - Existe diferença entre as medianas das amostras


686868

5Análise e resultados

Este capítulo contém, para cada base de dados avaliada, uma análise dos parâmetros daabordagem proposta e a comparação dos resultados da nova abordagem proposta com resultadosencontrados na literatura.

Foram avaliados os lags selecionados em cada partição, a quantidade de vezes quecada preditor foi selecionado como mais apto a realizar a previsão, e também a variação damedida de desempenho MAPE de acordo com a variação dos parâmetros: tamanho da janela (k),percentual de interseção (pint) e lag máximo (lmax). Os valores das métricas de desempenhoMAPE, POCID, NRMSE e score são mostrados em cada uma das seis abordagens listadasna Seção 4.3 (MLP, SVR, MLPPART, SVRPART, MLPMS, SVRMS) e também em outrasabordagens encontradas na literatura. Os valores das métricas de desempenho exibidas nestecapítulo correspondem às médias e desvios-padrão de 5 execuções.

A abordagem proposta foi implementada no Matlab R2012b1 e os testes foram executadosem diversas máquinas, sendo uma delas equipada com processador Intel Core i7 4790k com 12GB de memória RAM e sistema operacional Windows. As outras máquinas que executaram asanálises são do serviço Amazon Elastic Compute Cloud2 (EC2) com sistema operacional Linuxe com diversas configurações.

5.1 Goldman Sachs

Esta seção contém a análise dos parâmetros e a comparação dos resultados na série dopreço de fechamento ajustado das ações da Goldman Sachs.

5.1.1 Lags Selecionados

Na abordagem proposta, os lags selecionados variam de janela para janela. Isto ocorreporque, como visto anteriormente, cada janela representa um período distinto da série e cada umpossui os seus lags relevantes. Os parâmetros de tamanho da janela (k) e percentual de interseção

1http://www.mathworks.com/products/matlab2http://aws.amazon.com/ec2

http://www.mathworks.com/products/matlab

http://aws.amazon.com/ec2

5.1. GOLDMAN SACHS 69

(pint) impactam diretamente na formação das janelas, e por consequência, impactam na escolhados lags que os preditores irão utilizar. O parâmetro de lag máximo (lmax) limita a quantidadede lags que o preditor pode utilizar, e assim, também impacta na escolha das características queo preditor utiliza.

Para identificar os retardos temporais utilizados pelos preditores na abordagem propostade melhor MAPE, primeiro é necessário identificar quais janelas são utilizadas durante a fase detestes nesta abordagem. A Tabela 5.1 exibe as janelas que são utilizadas nos testes da configuraçãoSVRPART com k = 150, pint = 90% e lmax = 30, esta configuração foi selecionada para aanálise porque alcança o melhor MAPE dentre as configurações SVRPART. A tabela mostra quea 17ª janela é a mais utilizada durante a fase de testes, sendo selecionada 62,03% das vezes comoa janela mais semelhante à série que antecede o valor a ser previsto. Em seguida aparecem asjanelas 16, 14, 15 e 13 com 22,46%, 9,63%, 4,28% e 1,60%, respectivamente. A tabela tambémmostra os lags que cada janela seleciona durante a fase de treinamento e que são utilizados comoentradas para o preditor realizar a previsão, além do início e fim de cada janela.

Nº da janela Frequência (%) Lags selecionados Início Fim17 62,03 1, 3, 21, 24 241 39016 22,46 1, 21, 25 226 37514 9,63 1, 3, 21 196 34515 4,28 1, 3, 25 211 36013 1,60 1, 3, 21, 25 181 330

Tabela 5.1: Janelas selecionadas durante os testes na série GS com a abordagem comparticionamento (k = 150, pint = 90% e lmax = 30)

A partir dos dados da Tabela 5.1 e da Equação 3.3 , é possível visualizar que de um

universo de 29 janelas, apenas 5 ou 17,24% das janelas são utilizadas na fase de testes e que210 entradas das 566 disponíveis no treinamento influenciam nos resultados da fase de teste,representando 37,10% das entradas disponíveis para treinamento. Também através dos dadosda Tabela 5.1, foi gerado o gráfico da Figura 5.1, que exibe o percentual de importância de cadalag nos resultados dos testes. Para montar o gráfico, para cada lag, as janelas que o consideramrelevantes foram identificadas e os percentuais de utilização destas janelas foi somado, gerandoo valor percentual de utilização do lag nos testes. Os lags com percentual de utilização igual azero foram excluídos do gráfico.

A Figura 5.1 compara a importância dos retardos temporais na abordagem SVR e naabordagem SVRPART. É possível visualizar que todas as janelas da SVRPART selecionadascomo melhor preditoras utilizam o 1º lag, assim como a abordagem SVR, este lag é o único lag

utilizado nas duas abordagens. É possível observar também que a abordagem SVR selecionalags próximos ao valor a ser previsto (1, 2 e 5), um lag um pouco afastado (11) e um muitoafastado (26) enquanto a abordagem SVRPART considera relevante apenas os lags próximos (1e 3) e lags muito afastados (21, 24 e 25).

No caso da abordagem SVRPART, existem lags que são selecionados por mais de 1


0,00

10,00

20,00

30,00

40,00

50,00

60,00

70,00

80,00

90,00

100,00

1 2 3 5 11 21 24 25 26

Uti

lizaç

ão n

os

test

es

(%)

Lag

Com particionamento Sem particionamento

Figura 5.1: Percentual de utilização dos lags pelas abordagens sem particionamento ecom particionamento (k = 150, lmax = 30 e pint = 90%)

janela como os lags 1, 3, 21 e 25. Isto é explicado pelo parâmetro pint que é de 90%, com essevalor as janelas adjacentes compartilham muitos dados, e como as janelas escolhidas como maisaptas a realizar a previsão formam uma sequência (janelas 13 a 17), os lags utilizados acabamsendo semelhantes com uma pequena variação. Como exemplo temos a janela 14, que difere dajanela 13 neste quesito apenas por não selecionar o lag 25. Nas janelas mais utilizadas (16 e 17)a alteração observada consistiu na exclusão dos retardos 3 e 24 e a inclusão do retardo 25. Estapequena variação nos lags selecionados mostra que cada janela identifica um comportamentoligeiramente diferente da série com o passar do tempo, alguns lags que eram relevantes, deixamde ser e novos lags passam a influenciar mais no próximo valor da série.

Na abordagem SVR, a seleção do lag 26 é o que causa a diferença entre a performanceda abordagem SVR com lmax = 30, MAPE de 1,311% da abordagem com lmax = 20, MAPEde 1,320%.

5.1.2 Resultados

Na série do preço de fechamento ajustado das ações da Goldman Sachs, a Figura 5.2(a)exibe a influência da variação dos parâmetros de tamanho da janela (k) e lag máximo (lmax) nodesempenho da previsão com as abordagens MLPPART, MLPMS e MLP e a Figura 5.2(b) ainfluência da variação dos parâmetros de percentual de interseção (pint) e de tamanho de janela.Na Figura 5.2(a), a série 20−PART representa a abordagem MLPPART com lmax igual a 20para um tamanho de janela (k) igual a 150, 250, 350 e 450, o tamanho sem particionamentorepresenta a abordagem MLP com lmax igual a 20, o mesmo acontece para a série 30−PART ,sendo que nela o valor de lmax é igual a 30. A série 20−MS representa a abordagem MLPMScom lmax igual a 20 para todos os tamanhos de janela, o mesmo acontece para a série 30−MS

sendo que nela o lmax é igual a 30. Já na Figura 5.2(b) o número no nome da série identifica


o valor do parâmetro pint, outra diferença é que na abordagem sem particionamento, não hádiferença entre as configurações com pint igual a 50% e 90%, uma vez que existe apenas umajanela.

As figuras exibem o MAPE médio obtido pela melhor configuração, no conjunto detestes. Por exemplo, a barra com k = 150 da série 20 - PART possui 2 configurações, a compint = 50% e com pint = 90%, foi escolhido o melhor resultado dentre essas 2 configurações, omesmo ocorre com as outras barras.

Através desses gráficos é possível observar que, o melhor resultado ocorre ao utilizar aabordagem MLPMS com um tamanho de janela (k) igual a 450 observações, sendo consideradoaté o 20º lag (lmax) e com pint igual a 50%.

1,26

1,28

1,30

1,32

1,34

1,36

1,38

150 250 350 450 Semparticionamento

MA

PE

(%)

Tamanho da janela

20 - PART 30 - PART 20 - MS 30 - MS

(a) Análise do MAPE variando o parâmetro lmax utilizando MLP

1,26

1,28

1,30

1,32

1,34

1,36

1,38


MA

PE

(%)

Tamanho da janela

50 - PART 90 - PART 50 - MS 90 - MS

(b) Análise do MAPE variando o parâmetro pint utilizando MLP

Figura 5.2: MAPEs da previsão do próximo valor da série de preço de fechamentoajustado da ação da Goldman Sachs utilizando MLP

Na abordagem MLPMS, o parâmetro lmax com valor igual a 30 sempre obtém um


resultado pior que com lmax igual a 20 e em alguns casos o resultado é muito pior como comk = 450, que obtém o melhor (lmax = 20) e o pior (lmax = 30) valor de MAPE da Figura 5.2(a).Já na Figura 5.2(b), as configurações com pint = 50% alcançam melhores resultados que ascom pint = 90%, no entanto a diferença nos resultados diminui com o aumento do tamanho dajanela. Ao comparar os resultados da abordagem MLPMS com os resultados da abordagemMLPPART com mesmo valor de lmax e k, apenas a configuração do MLPMS com k = 450 elmax = 20 obtém resultado melhor que a MLPPART. Já na comparação pela variação do pint

e k, a abordagem MLPMS tem vantagem nas configurações com k = 450 e na configuraçãocom k = 350 e pint = 50%. Apesar da MLPPART ter resultados melhores na maior parte dasconfigurações, a MLPMS obtém o melhor resultado.

Sobre a abordagem MLPPART, também pode ser visto uma influência do parâmetro lmax

nos resultados, o MAPE sempre é melhor quando o valor de lmax é igual a 20 na comparaçãocom lmax igual a 30. Já na análise da influência do pint sobre esses resultados, é possívelperceber que, quando k é pequeno (150 e 250), os resultados com pint = 50% são melhoresque com pint = 90%, já quando o k é maior (350 e 450), as configurações com pint = 90%se saem melhores. Essa análise leva a conclusão de que com k grande, ter uma quantidademaior de janelas ajuda na previsão, já para k pequenos, uma quantidade maior piora o resultado.Na comparação entre as abordagens MLPPART e MLP, a abordagem MLPPART obtém omelhor resultado na configuração com k = 250 e lmax = 20, e também é melhor com outrasconfigurações. Pela análise do pint, a MLPPART só é pior quando k é igual a 450 e quando k éigual a 250 e pint igual a 90%.

Na abordagem MLP, a influência do parâmetro lmax, é o inverso da influência percebidanas outras abordagens, pois o melhor resultado é obtido com lmax = 30, no entanto, a diferençaentre os resultados é pequena (MAPE de 1,3211% para lmax = 20 e 1,3169% para lmax = 30).

Com o preditor SVR, a análise dos parâmetros k, pint e lmax podem ser visualizadosnas Figuras 5.3(a) e 5.3(b). Assim como nas abordagens com MLP, o melhor resultado é obtidopela abordagem que considera o particionamento e a mudança de sentido (SVRMS), porém comum tamanho de janela igual a 150.

Na abordagem SVRMS, com exceção de quando o tamanho da janela é igual a 250 ousem particionamento, os resultados com lmax igual a 20 são melhores que quando lmax é igual a30. Já na análise do pint, com exceção de quando k é igual a 250, os resultados com pint = 50%são melhores que com pint = 90%. Nessa abordagem, se forem excluídas as configuraçõescom tamanho 250, o MAPE aumenta conforme o tamanho da janela aumenta. Comparandoa abordagem SVRMS com a SVRPART, a SVRPART é melhor apenas quando o tamanho dajanela é de 250 ou quando lmax é igual a 30. Sem o particionamento, a abordagem SVRMS semostra melhor que a abordagem SVR, contudo também consegue um MAPE maior quando olmax é igual a 20 lags.

Na abordagem SVRPART, os resultados com lmax igual a 20 são melhores que os comlmax igual a 30 quando o tamanho da janela é 250 ou 350, e o melhor resultado é obtido com


1,26

1,28

1,30

1,32

1,34

1,36

1,38

1,40


MA

PE

(%)

Tamanho da janela

20 - PART 30 - PART 20 - MS 30 - MS

(a) Análise do MAPE variando o parâmetro lmax utilizando SVR

1,26

1,28

1,30

1,32

1,34

1,36

1,38


MA

PE

(%)

Tamanho da janela

50 - PART 90 - PART 50 - MS 90 - MS

(b) Análise do MAPE variando o parâmetro pintutilizando SVR

Figura 5.3: MAPEs da previsão do próximo valor da série de preço de fechamentoajustado da ação da Goldman Sachs utilizando SVR

lmax igual a 20. O mesmo comportamento é visualizado na análise do pint, os resultados compint igual a 50% são melhores que os com pint igual a 90% quando k é igual a 250 ou 350. Épossível visualizar que quando o tamanho da janela aumenta o resultado piora, até que o valor dek chega em 450 o resultado melhora um pouco. Ao comparar a abordagem SVRPART com aSVR, com exceção da configuração com k igual a 350 e pint igual a 90%, todas as configuraçõesdo SVRPART são melhores que a abordagem SVR.

Na abordagem SVR, o melhor resultado é obtido com um valor de lmax igual a 30.Assim como é percebido na abordagem SVRPART, para tamanhos de janela grande, lmax iguala 30 apresenta um resultado melhor que quando lmax é igual a 20.

A Tabela 5.2 apresenta os melhores resultados de cada abordagem testada. A abordagemSVRMS obteve o menor valor de MAPE, seguido pela abordagem SVRPART. O melhor POCID


Método MAPE (x(s)) Theil POCID NRMSE SCORE (x(s))MLP 1,3169 (7,73E-3) 1,0220 46,6667 0,1653 0,00467 (3,95E-4)SVR 1,3182 (1,9E-18) 1,0294 47,3118 0,1659 0,00462 (1,2E-19)

MLPPART 1,3026 (1,38E-2) 1,0128 55,2688 0,1646 0,00388 (1,15E-4)SVRPART 1,2896 (1,7E-18) 1,0118 54,8387 0,1645 0,00387 (1,1E-19)

MLPMS 1,2977 (1,05E-2) 1,0054 51,9355 0,1640 0,00410 (2,86E-4)SVRMS 1,2860 (1,6E-18) 1,0029 50,5376 0,1638 0,00417 (1,0E-19)

TICKNOR (2013) 1,3923 (1,9E-18) 1,1514 52,1505 0,1755 0,00468 (1,5E-19)Tabela 5.2: Resultados das abordagens para a série GS

foi obtido pela MLPPART seguido pela abordagem SVRPART. Os melhores NRMSEs foramos das abordagens SVRMS e MLPMS. Por fim, apesar de não ter sido o melhor em nenhumadas métricas individuais, a abordagem que obteve melhor score foi a SVRPART, seguido daMLPPART. Na comparação com os resultados obtidos pela previsão desta mesma série emuma rede neural MLP com aprendizagem bayesiana, que utiliza indicadores técnicos comocaracterísticas da série, apresentada em TICKNOR (2013), os resultados de todas as abordagenspropostas alcançam um melhor resultado nas métricas avaliadas.

As abordagens com mudança de sentido obtiveram um POCID pior do que as abordagensapenas com particionamento e com isso, seus scores foram prejudicados. Isto ocorreu porque,o módulo de mudança de sentido obteve uma taxa de acerto de apenas 57,21% no conjuntode testes apesar de ter obtido 68,18% no conjunto de treinamento. Na Figura 5.4 é possívelvisualizar o resultado da previsão com a abordagem SVRPART.

88

90

92

94

96

98

100

102

104

106

108

110

112

114

116

118

120

122

124

126

128

130

1 8 15 22 29 36 43 50 57 64 71 78 85 92 99 106 113 120 127 134 141 148 155 162 169 176 183

Val

or

Tempo Real Previsto

Figura 5.4: Previsão da abordagem SVRPART que obteve o melhor score na série GS

A Tabela 5.3 apresenta o resultado dos testes estatísticos com a hipótese nula sendo aigualdade dos resultados das duas abordagens comparadas. Apenas na comparação do MAPEdas abordagens MLPPART e MLPMS a hipótese não foi rejeitada, ou seja, apenas os MAPEs

5.2. MICROSOFT 75

Comparação H0 MAPE H0 SCOREMLP x MLPPART Rejeita H0 Rejeita H0

MLP x MLPMS Rejeita H0 Rejeita H0MLPPART x MLPMS Não rejeita H0 Rejeita H0

SVR x SVRPART Rejeita H0 Rejeita H0SVR x SVRMS Rejeita H0 Rejeita H0

SVRPART x SVRMS Rejeita H0 Rejeita H0Tabela 5.3: Testes estatísticos para as abordagens na série GS

das abordagens MLPPART e MLPMS são considerados estatisticamente iguais. O MAPE daabordagem SVR não foi considerado como sendo retirado de uma população com distribuiçãonormal e por isso em suas comparações foi utilizado o teste de Wilcoxon. Na comparaçãodo score das abordagens MLP e MLPPART, o teste F rejeitou a hipótese nula de que as duasamostras vieram de distribuições com mesma variância. O resultado da Tabela 5.3 reforça a tesede que, as abordagens propostas nesta dissertação foram melhores que as abordagens MLP eSVR para a previsão da série GS e das abordagens encontradas na literatura.

5.2 Microsoft

Esta seção contém a análise dos parâmetros e a comparação dos resultados na série dopreço de fechamento ajustado das ações da Microsoft.


A Tabela 5.4 apresenta as janelas que são utilizadas pelas configurações das abordagenspropostas com tamanho de janela igual a 350, percentual de interseção entre janelas adjacentesde 50% e lag máximo igual a 30. Esta configuração de janelas alcança o melhor MAPE nostestes realizados, sendo 1,0013% na MLPPART e 1,0123% na SVRMS. Através da Tabela 5.4, épossível observar que é utilizada apenas a primeira janela em todos os testes realizados na série.Além disso, a janela considera apenas o primeiro retardo temporal como relevante. Desta forma,de um universo de 3 janelas, apenas 1 ou 33,33% das janelas disponíveis são utilizadas na etapade teste. Esta janela utiliza 350 entradas das 566 disponíveis durante a etapa de treinamento, oque representa 61,8% dos dados disponíveis para o treinamento.

Número da janela Frequência (%) Lags selecionados Início Fim1 100 1 1 350

Tabela 5.4: Janelas selecionadas durante os testes na série MSFT com a abordagem comparticionamento (k = 350, pint = 50%, lmax = 30)

A partir dos dados da Tabela 5.4 foi gerado o gráfico da Figura 5.5, que exibe o percentualde importância de cada lag nos resultados dos testes. A metodologia de geração desse gráfico é a

5.2. MICROSOFT 76

mesma utilizada na Figura 5.1.

0,00

10,00

20,00

30,00

40,00

50,00

60,00

70,00

80,00

90,00

100,00

1

Uti

lizaç

ão n

os

test

es

(%)

Lag



A Figura 5.5 mostra que os retardos temporais selecionados pelas abordagens semparticionamento e pela abordagem com particionamento na janela selecionada foram idênticos,apenas o primeiro lag foi selecionado.

A partir desta análise dos lags selecionados, é possível concluir que as diferenças notreinamento entre a abordagem MLPPART (com k = 350, pint = 50% e lmax = 30) e a MLPsão os dados utilizados para o treinamento e validação. Enquanto a abordagem MLP utiliza os378 primeiros valores da série para treinar, a abordagem MLPPART utiliza os 350 primeirospara o treinamento. Nesta série, diferentemente da série GS, não houve mudanças na escolhados retardos temporais relevantes.

5.2.2 Resultados

Na série do preço de fechamento ajustado das ações da Microsoft, a Figura 5.6(a)apresenta a influência da variação dos parâmetros de tamanho da janela (k) e lag máximo (lmax)no desempenho da previsão com as abordagens MLPPART, MLPMS e MLP. A Figura 5.6(b)apresenta a influência da variação dos parâmetros de percentual de interseção (pint) e de tamanhoda janela (k). As séries destes gráficos possuem a mesma semântica dos gráficos das Figuras 5.2(a)e 5.2(b).

Através desses gráficos é possível observar que, o melhor resultado ocorre ao utilizar aabordagem MLPPART com os parâmetros: k = 350, pint = 50% e lmax = 30. Esta configuraçãoobtém um MAPE de 1,0013%.

A Figura 5.6(a) mostra que na abordagem MLPMS, os resultados de quando o parâmetrolmax é igual a 30 sempre são piores que os resultados com lmax igual a 20, assim como ocorrena série GS. Esta figura também mostra que o desempenho do MLPMS melhora conforme o

5.2. MICROSOFT 77

0,991,001,011,021,031,041,051,061,071,081,091,10


MA

PE

(%)

Tamanho da janela

20 - PART 30 - PART 20 - MS 30 - MS


0,991,001,011,021,031,041,051,061,071,081,091,10


MA

PE

(%)

Tamanho da janela

50 - PART 90 - PART 50 - MS 90 - MS


Figura 5.6: MAPEs da previsão do próximo valor da série de preço de fechamentoajustado da ação da Microsoft utilizando MLP

valor de k aumenta, até que no modelo sem particionamento, o desempenho é um pouco pior.Já a Figura 5.6(b) mostra que as configurações com pint igual a 50%, são melhores que asconfigurações com pint = 90% quando a janela não é tão pequena e nem tão grande (k = 250e k = 350). No teste do MLPMS com a janela pequena (k = 150) e com pint = 50% ocorre opior resultado das abordagens com o preditor MLP. Ao comparar os resultados da abordagemMLPMS com os resultados da abordagem MLPPART com mesmo valor de lmax e k, apenas naconfiguração com k = 250 e lmax = 30 o MLPMS obteve um resultado melhor. Na comparaçãopela variação do pint e k, a abordagem MLPMS foi melhor apenas na configuração com k = 450e pint = 90%. Ao comparar com a abordagem MLP, a abordagem MLPMS foi pior em todas asconfigurações.

Sobre a abordagem MLPPART, o parâmetro lmax também teve uma influência relevante

5.2. MICROSOFT 78

nos resultados. Com exceção da configuração com k = 350, os testes com lmax igual a 20,são melhores que os testes com lmax igual a 30. No entanto, a configuração que é exceçãoà essa regra alcança o melhor MAPE da abordagem MLPPART. Assim como na abordagemMLPMS, os resultados melhoram conforme o tamanho da janela aumenta, porém quando k passade 350 para 450, o resultado piora e então se mantém sem grande alteração na configuração semparticionamento. O parâmetro pint também tem uma influência relevante nos resultados. Todosos resultados com pint = 90% são piores que os resultados com pint = 50% nesta abordagem.Na comparação entre as abordagens MLPPART e MLP, a abordagem MLPPART obtém o melhorresultado, com um MAPE de 1,0013% contra um MAPE de 1,0208% do melhor resultado daabordagem MLP. Apesar disso, a abordagem MLP é melhor que a maioria das configuraçõesMLPPART.

Na abordagem MLP, o resultado com lmax igual a 30 é melhor que o resultado com lmax

igual a 20, assim como ocorre na série GS.Com o preditor SVR, a análise dos parâmetros k, pint e lmax podem ser visualizados

nas Figuras 5.7(a) e 5.7(b). Diferente das abordagens com MLP, o melhor resultado é obtidopela abordagem com particionamento e mudança de sentido. A abordagem SVRMS obtém umMAPE de 1,0123% nas configurações com k = 350, pint = 50% e lmax = 20 ou 30.

Na abordagem SVRMS, com exceção de quando o valor de k é 350, os resultadosdo método SVRMS, com lmax = 20 são melhores do que com lmax = 30. Com k = 250, aabordagem SVRMS com lmax = 30 obtém o pior resultado para este tipo de preditor (SVR).Com k = 350, é obtido o melhor resultado para o preditor SVR e o resultado para lmax = 20 éigual ao do obtido com lmax = 30. Já na análise da influência do parâmetro pint, com exceçãode quando k é igual a 350, os resultados com pint = 90% é melhor do que com pint = 50%.Contudo, com k = 350, o resultado com pint = 50% é o melhor obtido com o preditor SVR.Foi possível perceber que o tamanho de janela influencia no desempenho da previsão e que umvalor igual a 350 é o ideal para a série Microsoft, contudo não é percebido um padrão para estainfluência. Na comparação com a abordagem SVRPART, a SVRMS é melhor quando o tamanhoda janela é de 350, e a SVRPART é melhor com k = 450, e com k = 150 ou 250 a SVRMS émelhor nas configurações com lmax = 20 ou com pint = 90%. O melhor resultado é obtido pelaSVRMS. Sem o particionamento, a abordagem SVRMS é pior que a abordagem SVR, porémcom o particionamento a abordagem SVRMS obtém o melhor resultado.

Na abordagem SVRPART, os resultados com lmax igual a 20 são melhores que comlmax igual a 30 quando k é igual a 250 e 450, com o melhor resultado sendo obtido com lmax

igual a 30. Analisando o parâmetro pint, com exceção de quando k é igual a 250, os resultadoscom pint igual a 90% são melhores que com pint igual a 50%. Assim como na abordagemSVRMS, o melhor valor para o tamanho da janela é de 350, porém não é observado um padrãopara a influência do parâmetro k nos resultados. Na comparação com a abordagem SVR, aSVRPART é pior em todas as configurações, contudo a abordagem configurada com k = 350,pint = 90% e lmax = 30 obteve um desempenho próximo do obtido pela abordagem SVR.

5.2. MICROSOFT 79

1,00

1,01

1,02

1,03

1,04

1,05

1,06

1,07

1,08

1,09

1,10


MA

PE

(%)

Tamanho da janela

20 - PART 30 - PART 20 - MS 30 - MS


1,00

1,01

1,02

1,03

1,04

1,05

1,06

1,07

1,08

1,09

1,10


MA

PE

(%)

Tamanho da janela

50 - PART 90 - PART 50 - MS 90 - MS

(b) Análise do MAPE variando o parâmetro pint utilizando SVR

Figura 5.7: MAPEs da previsão do próximo valor da série de preço de fechamentoajustado da ação da Microsoft utilizando SVR

Na abordagem SVR, o resultado com lmax igual a 20 é igual ao com lmax igual a 30.Isto porque, apenas o primeiro lag é selecionado como relevante, não existindo portanto umadiferença no treinamento destas duas configurações.

A Tabela 5.5 apresenta os melhores resultados de cada abordagem testada na série MSFT.A abordagem MLPPART obteve o melhor desempenho em todas as métricas. A abordagemSVRPART obteve o mesmo NRMSE que a abordagem SVR porém o MAPE, e POCID foramligeiramente piores e por isso, obteve um score pior do que o da abordagem SVR. A abordagemSVRMS obteve um MAPE melhor que a abordagem SVR e SVRPART, porém o seu POCID foipróximo à 50%, resultando em um score pior do que os das abordagens SVR e SVRPART. Nestasérie, com exceção do resultados da MLPMS e MLPPART, os resultados foram bem próximos.Isto porque, nesta série apenas o primeiro lag foi utilizado para a previsão na etapa de testes em

5.2. MICROSOFT 80

Método MAPE (x(s)) Theil POCID NRMSE SCORE (x(s))MLP 1,0208 (9,02E-3) 1,0178 54,0860 0,2886 0,00545 (1,32E-4)SVR 1,0153 (4,5E-18) 1,0014 56,4516 0,2863 0,00515 (2,9E-19)

MLPPART 1,0013 (1,37E-2) 0,9973 57,4194 0,2857 0,00498 (2,20E-4)SVRPART 1,0165 (5,7E-18) 1,0011 55,9140 0,2863 0,00520 (4,0E-19)

MLPMS 1,0289 (1,29E-2) 1,0380 52,2581 0,2915 0,00574 (2,39E-4)SVRMS 1,0123 (4,1E-18) 1,0034 53,7634 0,2866 0,00540 (2,4E-19)

TICKNOR (2013) 1,0360 (5,2E-18) 1,0074 53,7634 0,2872 0,00553 (3,6E-19)Tabela 5.5: Resultados das abordagens para a série MSFT

25,5

26,0

26,5

27,0

27,5

28,0

28,5

29,0

29,5

30,0

30,5

31,0

31,5

1 8 15 22 29 36 43 50 57 64 71 78 85 92 99 106 113 120 127 134 141 148 155 162 169 176 183

Val

or

Tempo Real Previsto

Figura 5.8: Previsão da abordagem MLPPART que obteve o melhor score na série MSFT

todas as abordagens. Um outro ponto é que não houve variação no padrão de comportamentoda série, uma vez que apenas a primeira janela foi selecionada para a previsão nas abordagensMLPPART, SVRPART e SVRMS. Na abordagem MLPMS apenas a primeira e segunda janelaforam selecionadas, porém, como ela estava configurada com pint = 90% e as janelas eramadjacentes, a variação no padrão de comportamento foi pequena. Como o módulo de mudançade sentido obteve uma taxa de acerto baixa nesta série (54,74% no conjunto de treinamento e57,75% no conjunto de testes), a abordagem MLPMS obteve um resultado abaixo do esperadoquando comparado com a abordagem MLPPART. Já a abordagem SVRMS conseguiu um MAPEmelhor do que a abordagem SVRPART, porém o seu score foi pior por causa de seu POCID. Nacomparação com os resultados da previsão desta mesma série com a abordagem apresentadaem (TICKNOR, 2013), os resultados das abordagens propostas são superiores. Na Figura 5.8 épossível visualizar o resultado da previsão com a abordagem MLPPART.

A Tabela 5.6 apresenta o resultado dos testes estatísticos com a hipótese nula sendo aigualdade dos resultados das duas abordagens comparadas. Apenas na comparação do MAPEdas abordagens MLP e MLPMS a hipótese não foi rejeitada, ou seja, apenas os MAPEs das

5.3. MACKEY-GLASS 81


MLP x MLPMS Não rejeita H0 Rejeita H0MLPPART x MLPMS Rejeita H0 Rejeita H0


SVRPART x SVRMS Rejeita H0 Rejeita H0Tabela 5.6: Testes estatísticos para as abordagens na série MSFT

abordagens MLP e MLPMS são considerados estatisticamente iguais. Nesta série, em todasas amostras não foi rejeitada a hipótese de normalidade das amostras, como também não foirejeitada a hipótese de que as amostras vieram de distribuições com variâncias iguais.

Os resultados da Tabela 5.6 mostram que, as abordagens SVRMS e MLPPART sãomelhores que as abordagens SVR e MLP, respectivamente. A abordagem MLPMS obteve umresultado equivalente ao da abordagem MLP, e a abordagem SVRPART é pior que a abordagemSVR para esta série.

5.3 Mackey-Glass

Esta seção contém a análise dos parâmetros e a comparação dos resultados na sérieMackey-Glass.


A Tabela 5.7 apresenta as janelas que são utilizadas pelas configurações das abordagenspropostas com tamanho de janela igual a 450, percentual de interseção entre janelas adjacentesde 50% e lag máximo igual a 30. Esta configuração de janelas alcança o melhor MAPE nos testesrealizados, sendo 0,1704% na abordagem SVRPART. Através da Tabela 5.7 é possível observarque as duas janelas disponíveis são utilizadas, o que representa uma utilização de 100% dasjanelas e 100% dos dados de treinamento disponíveis. Apesar disso, a maior parte das previsõesna etapa de testes é realizado pela primeira janela (87,36%).

Número da janela Frequência (%) Lags selecionados Início Fim

1 87,361, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 1314, 15, 16, 17, 18, 19, 24, 25, 26, 27

28, 29, 301 450

2 12,641, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 1314, 15, 16, 17, 18, 19, 24, 25, 26, 27

28, 29, 30226 525

Tabela 5.7: Janelas selecionadas durante os testes na série Mackey-Glass com aabordagem com particionamento (k = 450, pint = 50%, lmax = 30)


A seleção dos lags relevantes nas duas janelas é idêntica, e correspondeu à 26 dos 30 lags

que poderiam ser escolhidos. Na abordagem sem particionamento, são escolhidos os mesmoslags que as janelas da Tabela 5.7 escolhem. Essa não variação nos lags selecionados, é explicadopelo fato da série possuir um movimento aparentemente periódico, com pequenas variações (comtamanho de aproximadamente 100 observações, a partir da 100ª observação), como pôde serobservado na Figura 4.3. Caso o módulo de seleção de lags utilizasse a autocorrelação parcialpara selecionar os lags relevantes, apenas 9 dos 30 lags teriam sido selecionados, o que leva àconclusão de que, a informação de 15 dos 26 lags selecionados, estão contidos nestes 9 lags

selecionados pela autocorrelação parcial, conforme explicado na Seção 2.2.A partir desta análise, é possível concluir que as diferenças de treinamento entre as

abordagens SVRPART (com k = 450, pint = 50% e lmax = 30) e SVR são os dados utilizadospara o treinamento e validação do preditor, além da possibilidade de escolha do preditor maisapto. Enquanto a abordagem SVR utiliza os primeiros 350 valores para o treinamento e os 175finais para validação, na abordagem SVRPART, a primeira janela utiliza os 450 primeiros valorespara o treinamento e os outros 175 para validá-lo, já a segunda janela utiliza os 300 últimosvalores para o treinamento e os outros 225 para a validação do treinamento. Isto resulta em umadiminuição de 64,55% no MAPE (ao comparar o MAPE da abordagem SVR com a SVRPARTcom mesmo lmax).

5.3.2 Resultados

Na série Mackey-Glass, a Figura 5.9(a) apresenta a influência da variação dos parâmetrosde tamanho da janela (k) e lag máximo (lmax) no desempenho da previsão com as abordagensMLPPART, MLPMS e MLP. A Figura 5.9(b) apresenta a influência da variação dos parâmetrosde percentual de interseção entre janelas adjacentes (pint) e de tamanho da janela (k). As sériesdestes gráficos possuem a mesma semântica dos gráficos das Figuras 5.2(a) e 5.2(b).

Através destes gráficos é possível observar que, o melhor resultado ocorre ao utilizar aabordagem MLPPART com os parâmetros: k = 350, pint = 90% e lmax = 30. Esta configuraçãoalcança um MAPE de 0,2128%.

A Figura 5.9(a) mostra que na abordagem MLPMS, os resultados com o parâmetrolmax = 20 são melhores do que com lmax = 30 quando o tamanho da janela é pequeno (150 e250). Quando o tamanho da janela é maior, os resultados com lmax = 30 são melhores, com omelhor resultado sendo obtido com lmax = 30. Esta figura também mostra que o desempenho daprevisão com a abordagem MLPMS, melhora conforme o tamanho da janela aumenta, obtendoo melhor resultado com tamanho de janela igual a 450. Já a Figura 5.9(b) mostra que asconfigurações com pint = 50% obtém resultados melhores que com pint = 90% quando otamanho da janela é de 250 e 450, sendo pior para os tamanhos 150 e 350. Ao comparar osresultados da abordagem MLPMS com os da abordagem MLPPART com mesmo valor de lmax

e k, nas configurações com k = 450, pint = 90% ou 50% e lmax = 30 e na configuração com


0,100,200,300,400,500,600,700,800,901,001,101,201,30


MA

PE

(%)

Tamanho da janela

20 - PART 30 - PART 20 - MS 30 - MS


0,100,200,300,400,500,600,700,800,901,001,101,201,30


MA

PE

(%)

Tamanho da janela

50 - PART 90 - PART 50 - MS 90 - MS


Figura 5.9: MAPEs da previsão do próximo valor da série Mackey-Glass utilizando MLP

k = 450, pint = 90% e lmax = 20 a abordagem MLPMS foi melhor. A abordagem MLPPARTobtém o melhor resultado por uma diferença pequena, obtendo um MAPE de 0,2128% contra0,2225% da MLPMS. Na comparação com a abordagem MLP, a abordagem MLPMS consegueum resultado melhor em algumas configurações com k = 350, 450 e sem particionamento.

Sobre a abordagem MLPPART, os resultados com lmax = 30 são melhores do que oscom lmax = 20 quando o tamanho da janela é de 250 e 350, com o melhor resultado sendoobtido com lmax = 30. As performances melhoram conforme o tamanho da janela aumenta,chegando ao melhor resultado quando k = 350 e voltando a piorar para janelas maiores. Assimcomo na abordagem MLPMS, os resultados das configurações com pint = 50% são melhoresque as com pint = 90% para valores de k iguais a 250 e 450, sendo pior para outros valoresde k. O melhor resultado ocorre com pint = 90%. Na comparação com a abordagem MLP, aabordagem MLPPART obteve melhor resultado nas configurações com k = 250 e 350.


Na abordagem MLP, o melhor resultado ocorre com lmax = 30, assim como é observadonas abordagens MLPPART e MLPMS. Este comportamento também ocorre nas séries GS eMSFT.

0,100,200,300,400,500,600,700,800,901,001,101,201,30


MA

PE

(%)

Tamanho da janela

20 - PART 30 - PART 20 - MS 30 - MS


0,100,200,300,400,500,600,700,800,901,001,101,201,30


MA

PE

(%)

Tamanho da janela

50 - PART 90 - PART 50 - MS 90 - MS

(b) Análise do MAPE variando o parâmetro pint utilizando SVR

Figura 5.10: MAPEs da previsão do próximo valor da série Mackey-Glass utilizandoSVR

Com o preditor SVR, a análise dos parâmetros k, pint e lmax podem ser visualizados nasFiguras 5.10(a) e 5.10(b). Assim como nas abordagens com MLP, o melhor resultado é obtidopela abordagem com particionamento e sem mudança de sentido (SVRPART). A abordagemSVRPART obtém um MAPE de 0,1704% na configuração com k = 450, pint = 50% e lmax= 30.

Na abordagem SVRMS, pela Figura 5.10(a) é possível notar que a performance é afetadapela variação no parâmetro lmax, o qual mostra um melhor resultado quando é igual a 30 ecom tamanho de janela igual a 350, obtendo um MAPE de 0,6623%. Contudo a escolha domelhor lmax depende da escolha do parâmetro k, pois com k = 250 ou 350, o melhor resultado


ocorre com lmax = 30, para outros valores de k o melhor resultado ocorre com lmax = 20.Já na análise da influência do parâmetro pint, quando k = 150 existe uma grande diferençanos desempenhos da previsão com pint = 50% e 90%, com outros valores de k a diferençaé pequena e a melhor escolha do pint, também depende da escolha do valor de k. O melhorresultado ocorre com pint = 50% e k = 350. O tamanho da janela exerce uma grande influênciana performance da previsão, na abordagem SVRMS, o resultado para k pequeno (150 e 250)é não satisfatório, porém melhora conforme o valor de k aumenta até chegar em 350, e entãoa performance se mantém estável. Na comparação com a abordagem SVRPART, a SVRMSalcança o maior MAPE em todas as configurações. Na comparação com a abordagem SVR, aabordagem SVRMS também alcança o maior MAPE em todas as configurações.

Na abordagem SVRPART, os resultados com lmax= 20 são melhores que com lmax= 30quando o valor de k é pequeno (150 e 250), para valores maiores de k (350 e 450) o desempenhocom lmax = 30 é melhor, com o melhor resultado ocorrendo quando k = 450 e lmax = 30.Analisando o parâmetro pint, com exceção de quando k = 150, os resultados com pint = 50%são melhores do que com pint = 90%, com o melhor resultado ocorrendo com pint = 50%.Quando k é igual a 150, os resultados com pint = 50% e 90% são iguais. O tamanho dajanela influencia no desempenho da predição da abordagem SVRPART, o desempenho melhoraconforme o valor de k aumenta, ocorrendo o melhor resultado quando k = 450 com um MAPEde 0,1704%. Na comparação com a abordagem SVR, a SVRPART obtém melhores resultadosquando k ≥ 350.

Na abordagem SVR, o resultado com lmax igual a 20 é melhor do que com lmax igual a30. O qual diverge dos resultados da abordagem SVRPART, que obtém melhor resultado comlmax = 30, mesmo com um tamanho de janela próximo ao da abordagem SVR (450 contra 525).

Método MAPE (x(s)) Theil POCID NRMSE SCORE (x(s))MLP 0,2868 (4,76E-2) 0,0092 97,1098 0,0097 2,865E-5 (1,02E-3)SVR 0,3314 (3,1E-19) 0,0113 96,5318 0,0109 3,754E-5 (1,8E-20)

MLPPART 0,2128 (3,68E-2) 0,0052 98,0347 0,0072 1,565E-5 (7,47E-4)SVRPART 0,1704 (2,5E-19) 0,0036 98,8439 0,0062 1,066E-5 (1,6E-20)

MLPMS 0,2225 (2,49E-2) 0,0047 98,0347 0,0070 1,586E-5 (4,04E-6)SVRMS 0,6623 (5,3E-19) 0,0605 94,7977 0,0253 1,767E-4 (4,2E-20)

Tabela 5.8: Resultados das abordagens para a série Mackey-Glass

Método RMSESVRPART 0,00187

SMITH; JIN (2014) 0,00753DONATE et al. (2013) 0,012

JUANG; HSIEH (2012) 0,013Tabela 5.9: Comparação da melhor abordagem proposta com estudos recentes para a

série Mackey-Glass


0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

1,1

1,2

1,3

1,4

1,5

1 8 15 22 29 36 43 50 57 64 71 78 85 92 99 106 113 120 127 134 141 148 155 162 169

Val

or

Tempo Real Previsto

Figura 5.11: Previsão da abordagem SVRPART que obteve o melhor score na sérieMackey-Glass

Comparação H0 MAPE H0 SCOREMLP x MLPPART Rejeita H0 Não rejeita H0

MLP x MLPMS Não rejeita H0 Não rejeita H0MLPPART x MLPMS Não rejeita H0 Não rejeita H0


SVRPART x SVRMS Rejeita H0 Rejeita H0Tabela 5.10: Testes estatísticos para as abordagens na série Mackey-Glass

A Tabela 5.8 apresenta os melhores resultados de cada abordagem testada na sérieMackey-Glass. A abordagem SVRPART obteve o melhor desempenho em todas as métricas,a abordagem MLPPART obteve o segundo melhor resultado nas métricas MAPE e SCORE,ficando empatada na métrica POCID com a abordagem MLPMS, a qual obteve o segundo melhorresultado também nas métricas Theil e NRMSE. Isto leva a conclusão que o particionamentoda série melhora bastante o resultado na série Mackey-Glass. A abordagem SVRMS obteve opior resultado em todas as métricas avaliadas. Como o módulo de mudança de sentido obteveuma taxa de acerto menor que o POCID das abordagens com e sem particionamento nesta série(94,25% no conjunto de testes), as abordagem com mudança de sentido foram prejudicadas.Contudo a abordagem MLPMS ainda conseguiu um resultado melhor que as abordagens MLP eSVR, além de ficar muito próxima ao resultado da abordagem MLPPART.

Na Tabela 5.9, é possível visualizar o RMSE da abordagem SVRPART e de três outrosestudos. O RMSE da abordagem SVRPART foi o melhor entre os avaliados. No entanto, os dadose a quantidade de dados utilizados em cada estudo é diferente dos utilizados nesta dissertação.Em JUANG; HSIEH (2012), foram utilizadas 200 observações para treinamento e 300 para

5.4. LASER 87

testes, enquanto em SMITH; JIN (2014) foram utilizadas 500 observações para treinamento, 500para validação e 200 para testes. Já em DONATE et al. (2013), os autores não explicitaram aquantidade de observações utilizadas. Além disso, as observações são geradas por uma fórmulamatemática que contém um componente aleatório, o que ocasiona dados diferentes entre osestudos.

Na Figura 5.11 é possível visualizar o resultado da previsão com a abordagem SVRPART.Nela, os dados previstos coincidem com os dados desejados na maior parte das observações.

A Tabela 5.10 apresenta o resultado dos testes estatísticos com a hipótese nula sendo aigualdade dos resultados das duas abordagens comparadas. Nas abordagens com MLP, apenasna comparação do MAPE entre as abordagens MLP e MLPPART, o resultado foi diferente.Nas abordagens com SVR, as hipóteses de igualdade foram rejeitadas. A amostra do score daabordagem MLPPART não foi considerada como proveniente de uma população com distribuiçãonormal, assim como as amostras do MAPE das abordagens MLPMS, MLPPART e SVR.

Os resultados da Tabela 5.10 mostram que, a abordagem SVRPART obteve resultadosuperior ao das abordagens SVR e SVRMS, e também que a abordagem MLPPART obteve umMAPE melhor que a abordagem MLP.

5.4 Laser

Esta seção contém a análise dos parâmetros e a comparação dos resultados na série Laser.


A Tabela 5.11 apresenta as janelas que são utilizadas pelas configurações das abordagenspropostas com tamanho de janela igual a 450, percentual de interseção entre janelas adjacentesde 50% e lag máximo igual a 30. Esta configuração de janelas obtém o melhor MAPE nos testesrealizados, com um MAPE de 2,0808% na abordagem SVRPART. Através da Tabela 5.11, épossível observar que são utilizadas 2 das 3 janelas disponíveis no pool de previsão do próximovalor ou 66,67% das janelas disponíveis. Apesar da segunda janela não ter sido consideradanos testes, todos os 750 dados de treinamento são utilizados pelas janelas selecionadas, pois aprimeira janela utiliza as primeiras 450 observações e a terceira janela as outras 300. A primeirae terceira janelas selecionam 27 e 25 dos 30 lags disponíveis, respectivamente. Contudo elasdivergem na escolha de 7 lags.

Nesta série, os resultados da abordagem SVRPART configurada com k = 450, lmax = 30e pint = 50% ou 90% obtiveram o mesmo resultado, e coincidentemente, a seleção dos lags

nestas duas configurações são as mesmas, como pode ser visto ao comparar as Tabelas 5.11e 5.12. A única diferença nos treinamentos e seleção das janelas mais aptas nestas configuraçõesé encontrada ao comparar o início da oitava janela (316) com o início da terceira janela (451).

A partir dos dados da Tabela 5.11, foi gerado o gráfico da Figura 5.12, que exibe

5.4. LASER 88


1 97,991, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 1315, 16, 17, 18, 19, 20, 21, 22, 23, 24

26, 27, 28, 301 450

3 2,011, 2, 3, 4, 5, 6, 8, 9, 10, 11, 12, 13, 1415, 16, 17, 19, 20, 21, 23, 24, 25, 27

28, 29451 750

Tabela 5.11: Janelas selecionadas durante os testes na série Laser com a abordagem comparticionamento (k = 450, pint = 50%, lmax = 30)


1 97,991, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 1315, 16, 17, 18, 19, 20, 21, 22, 23, 24

26, 27, 28, 301 450

8 2,011, 2, 3, 4, 5, 6, 8, 9, 10, 11, 12, 13, 1415, 16, 17, 19, 20, 21, 23, 24, 25, 27

28, 29316 750

Tabela 5.12: Janelas selecionadas durante os testes na série Laser com a abordagem comparticionamento (k = 450, pint = 50%, lmax = 30)

o percentual de importância de cada lag nos resultados dos testes e também apresenta umacomparação dos lags selecionados pelas abordagens com particionamento e sem particionamento.A metodologia para a geração do gráfico é a mesma utilizada na Figura 5.1. No gráfico é possívelnotar que, a abordagem sem particionamento não considera os lags 7, 18 e 22, e além disso,a abordagem com particionamento considera os lags 14, 25 e 29 em apenas 2,01% dos casos(apenas quando a segunda janela é considerada mais apta) enquanto a sem particionamento osconsidera em 100% dos testes. Esta diferença na seleção dos lags e nos dados utilizados notreinamento são alguns dos motivos para uma diminuição de 46,08% no MAPE (ao comparar oMAPE da abordagem SVR com o da abordagem SVRPART com mesmo lmax).

5.4.2 Resultados

Na série Laser, a Figura 5.13(a) apresenta a influência da variação dos parâmetros detamanho da janela (k) e lag máximo (lmax) no desempenho da previsão com as abordagensMLPPART, MLPMS e MLP. A Figura 5.13(b) apresenta a influência da variação dos parâmetrosde percentual de interseção entre janelas adjacentes (pint) e de tamanho da janela (k). As sériesdestes gráficos possuem a mesma semântica dos gráficos das Figuras 5.2(a) e 5.2(b).

Através destes gráficos é possível observar que, o melhor resultado ocorre ao utilizar aabordagem MLPPART com os parâmetros: k = 350, pint = 50% e lmax = 20. Esta configuraçãoobtém um MAPE de 2,4019%.

A Figura 5.13(a) mostra que na abordagem MLPMS, os resultados com o parâmetrolmax = 20 são melhores do que com lmax = 30 quando o tamanho da janela é ≤ 350. Contudo,

5.4. LASER 89

0,00

10,00

20,00

30,00

40,00

50,00

60,00

70,00

80,00

90,00

100,00

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

Uti

lizaç

ão n

os

test

es

(%)

Lag



o melhor resultado ocorre com lmax = 30. Esta figura também mostra que o desempenho daprevisão com a abordagem MLPMS, melhora conforme o tamanho da janela aumenta, obtendo omelhor resultado com k = 450. Já a Figura 5.13(b) mostra que as configurações com pint = 50%obtém resultados melhores que com pint = 90% quando o tamanho da janela é ≥ 350, obtendoo melhor resultado com k = 450. Ao comparar os resultados da abordagem MLPMS com os daabordagem MLPPART com mesmo valor de lmax e k, em todas as configurações a abordagemMLPMS alcança um MAPE maior. Na comparação com a abordagem MLP, a abordagemMLPMS também alcança um MAPE maior.

Sobre a abordagem MLPPART, os resultados com lmax = 30 foram melhores do que oscom lmax = 20 quando o tamanho da janela é de 150 e 450, com o melhor resultado sendo obtidocom lmax = 20, divergindo da abordagem MLPMS. As performances melhoram conformeo tamanho da janela aumenta, chegando ao melhor resultado quando k = 350 e voltando apiorar para janelas maiores, em um comportamento semelhante ao da abordagem MLPMS. Osresultados das configurações com pint = 50% são melhores que as com pint = 90% para valoresde k iguais a 250 e 350, sendo pior para valores de k muito pequeno ou muito grande (150 e450). O melhor resultado ocorre com pint = 50%. Na comparação com a abordagem MLP, aabordagem MLPPART obtém melhor resultado nas configurações com k = 250, 350 e 450.

Na abordagem MLP, o melhor resultado ocorre com lmax = 20, assim como é observadona abordagem MLPPART. Este comportamento diverge dos resultados das séries GS, MSFT eMackey-Glass.

Com o preditor SVR, a análise dos parâmetros k, pint e lmax podem ser visualizados nasFiguras 5.14(a) e 5.14(b). Assim como nas abordagens com MLP, o melhor resultado é obtidopela abordagem com particionamento e sem mudança de sentido (SVRPART). A abordagemSVRPART obtém um MAPE de 2,0808% nas configurações com k = 450, pint = 50% ou 90%

5.4. LASER 90

1,002,504,005,507,008,5010,0011,5013,0014,5016,0017,5019,00


MA

PE

(%)

Tamanho da janela

20 - PART 30 - PART 20 - MS 30 - MS


1,002,504,005,507,008,5010,0011,5013,0014,5016,0017,5019,00


MA

PE

(%)

Tamanho da janela

50 - PART 90 - PART 50 - MS 90 - MS


Figura 5.13: MAPEs da previsão do próximo valor da série Laser utilizando MLP

e lmax = 30.Na abordagem SVRMS, a performance é afetada pela variação no parâmetro lmax, o qual

mostra um melhor resultado quando é igual a 30 e com tamanho de janela igual a 450, obtendoum MAPE de 9,5362%. Contudo a escolha do melhor lmax depende da escolha do parâmetro k,pois com k = 250 ou 350, o melhor resultado ocorre com lmax = 20, para outros valores de k

o melhor resultado ocorre com lmax = 30. Analisando a influência do parâmetro pint, quandok = 150 ou k = 250 a previsão com pint = 90% obtém um melhor desempenho do que compint = 50%. Para k = 450, a performance com pint = 50% é igual à com pint = 90%, e apenasquando k é igual a 350 que o resultado com pint = 50% é melhor. O melhor resultado ocorrecom pint = 90%. O tamanho da janela também influencia a performance da previsão, o resultadopara k muito pequeno (150) é ruim, mas melhora bastante com k = 250, piora um pouco parak = 350 e obtém o melhor resultado com k = 450. Na comparação com a abordagem SVRPART,

5.4. LASER 91

1,002,504,005,507,008,5010,0011,5013,0014,5016,0017,5019,00


MA

PE

(%)

Tamanho da janela

20 - PART 30 - PART 20 - MS 30 - MS


1,002,504,005,507,008,5010,0011,5013,0014,5016,0017,5019,00


MA

PE

(%)

Tamanho da janela

50 - PART 90 - PART 50 - MS 90 - MS

(b) Análise do MAPE variando o parâmetro pintutilizando SVR

Figura 5.14: MAPEs da previsão do próximo valor da série Laser utilizando SVR

a SVRMS alcança um maior MAPE em todas as configurações. Sem o particionamento, aabordagem SVRMS também alcança um maior MAPE que a abordagem SVR.

Na abordagem SVRPART, os resultados com lmax= 20 são melhores que com lmax= 30apenas quando o valor de k é igual a 250, com o melhor resultado ocorrendo quando k = 450 elmax = 30. Analisando o parâmetro pint, com exceção de quando k = 450, os resultados compint = 90% são melhores do que com pint = 50%. O resultado com k = 450 e pint = 50%é igual ao com pint = 90% e é o melhor resultado para a abordagem SVRPART. Analisandoo parâmetro de tamanho da janela no desempenho da predição da abordagem SVRPART, odesempenho melhora conforme o valor de k aumenta, ocorrendo o melhor resultado quandok = 450 com um MAPE de 2,0808%. Na comparação com a abordagem SVR, a SVRPARTobtém melhores resultados quando k ≥ 350, assim como ocorre na série Mackey-Glass.

Na abordagem SVR, o resultado com lmax igual a 30 é melhor do que com lmax igual a

5.4. LASER 92

20, o qual é o mesmo comportamento observado na abordagem SVRPART.

Método MAPE (x(s)) Theil POCID NRMSE SCORE (x(s))MLP 4,6565 (1,248) 0,0051 95,3226 0,0658 3,215E-3 (1,69E-3)SVR 3,8589 (7,5E-18) 0,0050 96,7742 0,0666 2,656E-3 (4,3E-19)

MLPPART 2,4019 (0,451) 0,0011 97,6613 0,0308 7,588E-4 (2,83E-4)SVRPART 2,0808 (5,3E-18) 0,0009 97,5806 0,0280 5,974E-4 (3,0E-19)

MLPMS 13,1457 (1,647) 0,0755 90,7258 0,2580 3,738E-2 (8,93E-3)SVRMS 9,5362 (3,1E-17) 0,0263 93,5484 0,1530 1,560E-2 (2,2E-18)

Tabela 5.13: Resultados das abordagens para a série Laser

Método RMSE NMSESVRPART 1,1634 0,00012

JUANG; HSIEH (2012) 1,6688 -MIRANIAN; ABDOLLAHZADE (2013) - 0,00053

MIRIKITANI; NIKOLAEV (2010) - 0,00060Tabela 5.14: Comparação da melhor abordagem proposta com estudos recentes para a

série Laser

5,0

15,0

25,0

35,0

45,0

55,0

65,0

75,0

85,0

95,0

105,0

115,0

125,0

135,0

145,0

155,0

165,0

175,0

1 11 21 31 41 51 61 71 81 91 101 111 121 131 141 151 161 171 181 191 201 211 221 231 241

Val

or

Tempo Real Previsto

Figura 5.15: Previsão da abordagem SVRPART que obteve o melhor score na série Laser

A Tabela 5.13 apresenta os melhores resultados de cada abordagem testada na série Laser.Semelhante ao que ocorreu com a série Mackey-Glass, a abordagem SVRPART obteve o melhordesempenho em quase todas as métricas, e a abordagem MLPPART obteve o melhor POCID eo segundo melhor resultado nas outras métricas. Isto leva a conclusão que o particionamentoda série também melhora bastante o resultado na série Laser. A abordagem MLPMS obteve opior resultado em todas as métricas avaliadas. Como o módulo de mudança de sentido obteve

5.5. CONSIDERAÇÕES FINAIS 93

uma taxa de acerto menor que o POCID das abordagens com e sem particionamento nestasérie (91,97% no conjunto de testes), as abordagens com mudança de sentido foram bastanteprejudicadas. Além disso, esta série tem como característica realizar movimentos de subida edescida com uma amplitude grande e muito rapidamente, com isso, um erro na direção futura dasérie pode ocasionar um MAPE muito grande, mesmo obtendo um POCID maior que 90%.

Na Tabela 5.14, é possível comparar a performance com três estudos diferentes atravésdas métricas RMSE e NMSE. Apesar dos resultados melhores obtidos pela abordagem SVRPART,nos três estudos comparados, o treinamento foi realizado considerando todos os 1000 valoresdisponibilizados em GERSHENFELD; WEIGEND (1994) e os 100 próximos valores nos testes(disponibilizados em um outro arquivo em GERSHENFELD; WEIGEND (1994)). Desta forma,existe uma diferença nos dados utilizados tanto para treinamento (250 dados a menos para aSVRPART) quanto nos valores a serem previstos, sendo 250 valores testados na SVRPART e100 nos outros estudos.

Na Figura 5.15 é possível visualizar o resultado da previsão com a abordagem SVRPART.Nela, os dados previstos coincidem com os dados desejados na maior parte das observações.


MLP x MLPMS Rejeita H0 Rejeita H0MLPPART x MLPMS Rejeita H0 Rejeita H0


SVRPART x SVRMS Rejeita H0 Rejeita H0Tabela 5.15: Testes estatísticos para as abordagens na série Laser

A Tabela 5.15 apresenta o resultado dos testes estatísticos com a hipótese nula sendoa igualdade dos resultados das duas abordagens comparadas. Em todas as comparações ahipótese nula de igualdade foi rejeitada. Nas comparações dos scores entre as abordagens MLP,MLPPART e MLPMS, o teste F rejeitou a hipótese de que as amostras eram provenientes dedistribuições com mesma variância. Esta hipótese também foi rejeitada na comparação do MAPEentre as abordagens MLPPART e MLPMS.

Os resultados da Tabela 5.15 mostram que, a abordagem SVRPART alcança resultadosuperior ao das abordagens SVR e SVRMS e MLP, MLPMS, respectivamente.

5.5 Considerações Finais

Nesta seção, serão apresentadas as considerações finais acerca dos resultados dos ex-perimentos realizados nas seções anteriores deste capítulo. Além disso, será apresentada umasimulação de como as métricas de desempenho se comportam na abordagem MLPMS, comdiferentes taxas de acerto no módulo de mudança de sentido.


5.5.1 Resultados

Os resultados das abordagens com particionamento (MLPPART e SVRPART) nas quatroséries avaliadas, mostram que o particionamento obtém um resultado melhor que as abordagenssem particionamento (MLP e SVR). Como pode ser visualizado na Tabela 5.16, em todas asséries, a abordagem que obteve o melhor score foi uma das abordagens com particionamento.Nessa tabela também é possível perceber que em todas as séries, o melhor resultado ocorreucom o valor do parâmetro lag máximo igual a 30. O tamanho da janela variou de 450 nas sériesMackey-Glass e Laser e 150 e 350 nas séries financeiras.

Série Abordagem k pint lmaxGS SVRPART 150 90 30

MSFT MLPPART 350 50 30Mackey-Glass SVRPART 450 50 30

Laser SVRPART 450 50 e 90 30Tabela 5.16: Abordagens e configurações dos melhores resultados por série

Na série GS, a abordagem utilizou cinco janelas próximas que compreendem 37,10% dosdados de treinamento, cada uma com uma seleção de lags diferente e treinadas sobre um conjuntode dados ligeiramente diferente, o que foi determinante para um melhor desempenho sobre asabordagens sem particionamento. Já na série MSFT, as abordagens com particionamento utilizamapenas uma janela na etapa de testes com apenas um lag selecionado, apesar de existirem duasjanelas disponíveis na configuração selecionada. A diferença entre elas e as abordagens MLPe SVR se deu pelo fato de utilizar um conjunto de treinamento reduzido na janela selecionadapelo algoritmo DTW. Nesta série a abordagem MLPPART conseguiu o melhor resultado, e aabordagem SVRPART não conseguiu um desempenho melhor que o SVR.

Na série Mackey-Glass, os resultados das abordagens com particionamento alcançamresultado melhor do que as abordagens MLP e SVR, com a SVRPART obtendo o melhor resultadoe com um MAPE quase 50% melhor que o da abordagem SVR. Nesta série, duas janelas sãoutilizadas na etapa de testes, compreendendo 100% dos dados de treinamento disponíveis. Nestasérie não houve diferença entre os conjuntos de lags selecionados pelas abordagens sem e comparticionamento. Desta forma, a melhoria na performance ocorre pelo fato de existirem janelascom dados de treinamento diferentes nas abordagens com particionamento, e também pelaeficiência do algoritmo DTW em escolher a janela mais apta. Na série Laser, assim como naMackey-Glass, a abordagem SVRPART consegue um MAPE menor do que a abordagem SVR.Nesta série duas janelas são utilizadas na etapa de testes, compreendendo 100% dos dados detreinamento e com variação nos lags selecionados.

Já os resultados das abordagens com mudança de sentido, com exceção das série finan-ceiras, não foram bons. Nas série GS a abordagem SVRMS obteve o melhor MAPE, Theil eNRMSE, porém o POCID foi ruim e por isso não conseguiu o melhor score. O mesmo ocorrena série MSFT, quando a abordagem SVRMS é comparada com as abordagens SVRPART e


SVR. Grande parte desse desempenho nas séries financeiras é justificado pela baixa taxa deacerto do módulo de mudança de sentido, sendo muito próximas ao POCID das abordagens comparticionamento.

Nas séries Mackey-Glass e Laser, com exceção da abordagem MLPMS na série Mackey-Glass, os resultados das abordagens com mudança de sentido são os piores. Isto porque, nestasséries o POCID das outras abordagens já é muito alto e o módulo de mudança de sentido obtémuma taxa de acerto menor do que o POCID das outras abordagens. Outro fato importante é que asérie Laser possui um padrão de movimentação muito brusco, isto é, seu valor sobe ou descemuito rapidamente, o que ocasiona um MAPE muito alto caso ocorra um erro na previsão damudança de sentido.

5.5.2 Simulação mudança de sentido

A abordagem de mudança de sentido não obtém um desempenho melhor que a abordagemapenas com particionamento nas séries avaliadas. Contudo, a simulação descrita nesta seçãomostra que caso a taxa de acerto do módulo de mudança de sentido fosse melhor, o resultado daabordagem com mudança de sentido seria melhor que as abordagens sem mudança de sentido.

A Figura 5.16 mostra a média do desempenho de cinco execuções, da melhor configu-ração da abordagem MLPMS com pint = 50%, na série do preço de fechamento ajustado dasações da Goldman Sachs, para taxas de acertos diferentes no módulo de mudança de sentido.

Pelos gráficos é possível perceber que com uma taxa de acerto em torno de 70% oresultado já é significativamente melhor que os obtidos na Seção 5.1, com um MAPE muitopróximo à 1,20% e Theil abaixo de 1,00. No gráfico ocorre uma grande melhora nos resultadosquando a taxa de acerto aumenta para 90%.

A Figura 5.17 mostra a mesma análise da Figura 5.16 na série do preço de fechamentoajustado das ações da Microsoft. Nesta série é possível observar um Theil abaixo de 1,00 comuma taxa de acerto de 70%, além de um MAPE melhor do que o obtido nos testes da Seção 5.2. Oresultado ainda melhora bastante quando a taxa de acerto passa de 70% para 80%. A Figura 5.18apresenta o resultado da previsão da série MSFT com uma taxa de acerto de 80% no módulode mudança de sentido. Nela é possível perceber que em diversos momentos a previsão daabordagem MLPPART é muito próxima ao valor real da série. Estas figuras mostram que omódulo de mudança de sentido pode melhorar bastante o resultado da previsão das séries GS eMSFT, caso consiga uma taxa de acerto maior que 60%.

0,700,750,800,850,900,951,001,051,101,151,201,251,301,35

60% 70% 80% 90% 100%

MA

PE

(%)

Taxa de Acerto

(a) Análise do MAPE

4550556065707580859095100

60% 70% 80% 90% 100%

PO

CID

(%

)

Taxa de Acerto

(b) Análise do POCID

0,400,450,500,550,600,650,700,750,800,850,900,951,001,05

60% 70% 80% 90% 100%

The

il

Taxa de Acerto

(c) Análise do Theil

0,1050,1100,1150,1200,1250,1300,1350,1400,1450,1500,1550,1600,1650,170

60% 70% 80% 90% 100%

NR

MSE

Taxa de Acerto

(d) Análise do NRMSE

Figura 5.16: Análise das métricas de desempenho da abordagem MLPMS pela variaçãoda taxa de acerto na série GS


0,500,550,600,650,700,750,800,850,900,951,001,05

60% 70% 80% 90% 100%

MA

PE

(%)

Taxa de Acerto

(a) Análise do MAPE

50

55

60

65

70

75

80

85

90

95

100

60% 70% 80% 90% 100%

PO

CID

(%

)

Taxa de Acerto

(b) Análise do POCID

0,400,450,500,550,600,650,700,750,800,850,900,951,001,05

60% 70% 80% 90% 100%

The

il

Taxa de Acerto

(c) Análise do Theil

0,180,190,200,210,220,230,240,250,260,270,280,290,30

60% 70% 80% 90% 100%

NR

MSE

Taxa de Acerto

(d) Análise do NRMSE

Figura 5.17: Análise das métricas de desempenho da abordagem MLPMS pela variaçãoda taxa de acerto na série MSFT

25,5

26,0

26,5

27,0

27,5

28,0

28,5

29,0

29,5

30,0

30,5

31,0

31,5

1 8 15 22 29 36 43 50 57 64 71 78 85 92 99 106 113 120 127 134 141 148 155 162 169 176 183

Val

or

Tempo Real Previsto

Figura 5.18: Previsão da abordagem MLPPART que obteve o melhor score na sérieMSFT com taxa de acerto do módulo de mudança de sentido igual a 80%


989898

6Conclusão

Este capítulo apresenta a conclusão da dissertação com base nos estudos e experimentosrealizados para a previsão de séries temporais utilizando o sistema proposto. Na Seção 6.1 sãoapresentadas as principais contribuições deste trabalho e na Seção 6.2 são sugeridos trabalhosfuturos para aprimorar a previsão do sistema apresentado.

6.1 Contribuições

Esta dissertação apresentou uma nova abordagem para a previsão de séries temporais quefaz uso dos métodos de particionamento e da divisão da tarefa de previsão em duas sub-tarefas. Oparticionamento visa identificar padrões de comportamento da série e treinar múltiplos preditoresespecialistas nestes padrões temporais. As subtarefas consistem em realizar a previsão do sentidoda série e a previsão do próximo valor. Para o cálculo da similaridade entre duas séries temporais,foi utilizado o algoritmo Dynamic Time Warping. Este cálculo é importante para realizar aescolha dos preditores mais aptos a realizarem a previsão da série e para a escolha dos dados devalidação do treinamento.

O sistema proposto foi aplicado em quatro séries com comportamentos diferentes, sendoduas séries financeiras que possuem um comportamento em que não é percebido um movimentoperiódico (GS e MSFT) e outras duas séries comumente utilizadas em estudos recentes e queapresentam uma variação de valores periódica (Mackey-Glass e Laser). A performance foiavaliada por quatro métricas bastante utilizadas na literatura, e os resultados foram comparadoscom os modelos: Rede Neural Multilayer Perceptron (MLP), Máquinas de Vetor de Suportepara Regressão (SVR), além de modelos recentemente propostos na literatura. A comparaçãomostrou que a previsão do sistema proposto, sem a divisão das tarefas de previsão (sem omódulo de mudança de sentido, ou seja, as abordagens MLPPART e SVRPART), alcança umdesempenho superior do que as previsões dos outros modelos testados em todas as séries (nasmétricas analisadas). Os modelos com a divisão de tarefas conseguem um MAPE melhor que asoutras abordagens na série GS e alcançam o melhor MAPE entre as abordagens que utilizaramSVR na série MSFT.

6.2. TRABALHOS FUTUROS 99

Apesar da abordagem com mudança de sentido ter obtido um score maior do que o daabordagem apenas com particionamento, as simulações apresentadas na Seção 5.5.2 constataramque, caso a taxa de acerto do módulo que prevê o sentido futuro da série fosse maior que 60%, oresultado desta abordagem teria sido significativamente melhor do que as outras abordagens.

6.2 Trabalhos Futuros

Como a arquitetura proposta é composta de vários módulos com objetivos bem definidos,a implementação destes módulos de maneira diferente ou customizada para determinado modelode série temporal pode melhorar a performance da previsão. Abaixo estão listadas as principaismodificações no sistema que podem ser realizadas para melhorar a acurácia da previsão:

Utilizar outros tipos de preditores para realizar a previsão de mudança de sentido eoutros tipos de preditores para a previsão do próximo valor.

Utilizar um método de otimização para a escolha dos retardos temporais relevantespara os preditores como em MATTOS NETO et al. (2014).

Investigar novas formas de realizar o particionamento da série, criando partições detamanhos variados como em RODRIGUEZ; KUNCHEVA (2007).

Investigar formas de combinar parte dos preditores do pool, aplicando um peso maiorpara o preditor mais similar à série. (FIRMINO; MATTOS NETO; FERREIRA,2014)

Melhorar o treinamento dos preditores, utilizando técnicas de otimização e melho-rando a métrica de score a fim de obter melhores preditores no pool.

Analisar e avaliar novas formas de selecionar dados de validação do treinamento dopreditor

Avaliar o sistema proposto em outros tipos de séries temporais, como as sérieshidrológicas e de partículas de poluentes.

100100100

Referências

ADEBIYI, A. A.; ADEWUMI, A. O.; AYO, C. K. Comparison of ARIMA and Artificial NeuralNetworks Models for Stock Price Prediction. Journal of Applied Mathematics, [S.l.], v.2014,2014.

ALBRECHT, T. et al. Dynamic Time Warping (DTW). In: LI, S. Z.; JAIN, A. (Ed.).Encyclopedia of Biometrics. [S.l.]: Springer, 2009. p.231–246.

ALMEIDA, E. W. M. d. Utilização de Reservoir Computing e Busca Harmônica paraprevisão de Vazões Médias Diárias. 2014. Dissertação (Mestrado em Ciência da Computação)— Universidade de Pernambuco, Recife.

AMORIM NETO, M. et al. Improving financial time series prediction using exogenous seriesand neural networks committees. In: INTERNATIONAL JOINT CONFERENCE ON NEURALNETWORKS, Barcelona, Spain. Proceedings. . . IEEE, 2010. p.1–8.

ATSALAKIS, G. S.; VALAVANIS, K. P. Surveying stock market forecasting techniques Part II:soft computing methods. Expert Systems with Applications, [S.l.], v.36, n.3, Part 2,p.5932–5941, Apr. 2009.

BOLLERSLEV, T. Generalized autoregressive conditional heteroskedasticity. Journal ofEconometrics, [S.l.], v.31, n.3, p.307–327, Apr. 1986.

BOSER, B. E.; GUYON, I. M.; VAPNIK, V. N. A Training Algorithm for Optimal MarginClassifiers. In: ANNUAL WORKSHOP ON COMPUTATIONAL LEARNING THEORY, NewYork, NY, USA. Proceedings. . . ACM Press, 1992. n.5, p.144–152.

BOX, G. E. P.; JENKINS, G. M. Time Series Analysis: forecasting and control. 3rd.ed.Englewood Cliffs, NJ, USA: Prentice Hall, 1994.

CAO, L. Support vector machines experts for time series forecasting. Neurocomputing, [S.l.],v.51, n.0, p.321–339, Apr. 2003.

CORTES, C.; VAPNIK, V. Support-Vector Networks. Machine Learning, Hingham, MA,USA, v.20, n.3, p.273–297, Sept. 1995.

COWPERTWAIT, P. S. P.; METCALFE, A. V. Introductory Time Series with R. 1st.ed. NewYork, NY, USA: Springer-Verlag, 2009.

DABLEMONT, S. et al. Time series forecasting with SOM and local non-linear models -Application to the DAX30 index prediction. In: WORKSHOP ON SELF-ORGANIZINGMAPS, Kitakyushu, Japan. Proceedings. . . [S.l.: s.n.], 2003. p.340–345.

DESELL, T. et al. Evolving Neural Network Weights for Time-Series Prediction of GeneralAviation Flight Data. In: BARTZ-BEIELSTEIN, T. et al. (Ed.). Parallel Problem Solving fromNature. XIII.ed. [S.l.]: Springer International Publishing, 2014. p.771–781. (Lecture Notes inComputer Science, v.8672).

DI, C.; YANG, X.; WANG, X. A Four-Stage Hybrid Model for Hydrological Time SeriesForecasting. PLoS ONE, [S.l.], v.9, n.8, Aug. 2014.

REFERÊNCIAS 101

DONATE, J. et al. Time series forecasting by evolving artificial neural networks with geneticalgorithms, differential evolution and estimation of distribution algorithm. Neural Computingand Applications, [S.l.], v.22, n.1, p.11–20, Jan. 2013.

EBADZADEH, M. M.; SALIMI-BADR, A. CFNN: Correlated fuzzy neural network.Neurocomputing, [S.l.], v.148, n.0, p.430–444, Jan. 2015.

ENDERS, W. Applied econometric time series. 2nd.ed. Hoboken, NJ, USA: John Wiley &Sons, 2003. (Wiley series in probability and statistics).

FIRMINO, P. R. A.; MATTOS NETO, P. S. de; FERREIRA, T. A. Correcting and combiningtime series forecasters. Neural Networks, [S.l.], v.50, p.1–11, Feb. 2014.

FIRMINO, P. R. A.; MATTOS NETO, P. S. de; FERREIRA, T. A. Error modeling approach toimprove time series forecasters. Neurocomputing, [S.l.], v.153, p.242–254, Apr. 2015.

FLETCHER, R. Practical Methods of Optimization. 2nd.ed. New York, NY, USA:Wiley-Interscience, 1987.

GERSHENFELD, N.; WEIGEND, A. The Santa Fe Time Series Competition Data. (1994).Disponível em: <http://www-psych.stanford.edu/?andreas/Time-Series/SantaFe.html>. Acessoem: 01 de jun. 2015.

GHEYAS, I. A.; SMITH, L. S. A novel neural network ensemble architecture for time seriesforecasting. Neurocomputing, [S.l.], v.74, n.18, p.3855–3864, Nov. 2011.

GILL, P.; MURRAY, W.; WRIGHT, M. Practical optimization. London, UK: Academic Press,1981.

HAYKIN, S. Neural Networks: a comprehensive foundation. 2nd.ed. [S.l.]: Prentice Hall PTR,1998.

HSU, C.-M. A hybrid procedure for stock price prediction by integrating self-organizing mapand genetic programming. Expert Systems with Applications, [S.l.], v.38, n.11,p.14026–14036, Oct. 2011.

HSU, S.-H. et al. A two-stage architecture for stock price forecasting by integratingself-organizing map and support vector regression. Expert Systems with Applications, [S.l.],v.36, n.4, p.7947–7951, May 2009.

ISMAIL, S.; SHABRI, A.; SAMSUDIN, R. A hybrid model of self-organizing maps (SOM) andleast square support vector machine (LSSVM) for time-series forecasting. Expert Systems withApplications, [S.l.], v.38, n.8, p.10574–10578, Aug. 2011.

JEONG, Y.-S.; JEONG, M. K.; OMITAOMU, O. A. Weighted dynamic time warping for timeseries classification. Pattern Recognition, [S.l.], v.44, n.9, p.2231–2240, Sept. 2011.

JUANG, C. F.; HSIEH, C. D. A fuzzy system constructed by rule generation and iterative linearSVR for antecedent and consequent parameter optimization. IEEE Transactions on FuzzySystems, [S.l.], v.20, n.2, p.372–384, Apr. 2012.

KAO, L. J. et al. A hybrid approach by integrating wavelet-based feature extraction with MARSand SVR for stock index forecasting. Decision Support Systems, [S.l.], v.54, n.3, p.1228–1244,Feb. 2013.

REFERÊNCIAS 102

LAHMIRI, S. A comparative study of backpropagation algorithms in financial prediction.International Journal of Computer Science, Engineering and Applications (IJCSEA),Montreal, QC, Canada, v.1, n.4, p.15–21, Aug. 2011.

LANDASSURI-MORENO, V. M.; BULLINARIA, J. A. Neural Network Ensembles for TimeSeries Forecasting. In: ANNUAL CONFERENCE ON GENETIC AND EVOLUTIONARYCOMPUTATION, Montreal, QC, Canada. Proceedings. . . ACM, 2009. n.11, p.1235–1242.

LEW, A.; MAUCH, H. Dynamic programming: a computational tool. [S.l.]: Springer, 2006.(Studies in Computational Intelligence).

LIMA JUNIOR, A. R. et al. An Experimental Study of Fitness Function and Time SeriesForecasting Using Artificial Neural Networks. In: ANNUAL CONFERENCE COMPANIONON GENETIC AND EVOLUTIONARY COMPUTATION, New York, NY, USA.Proceedings. . . ACM, 2010. n.12, p.2015–2018.

MATTOS NETO, P. S. de et al. Hybrid intelligent system for air quality forecasting using phaseadjustment. Engineering Applications of Artificial Intelligence, [S.l.], v.32, n.0, p.185–191,June 2014.

MIRANIAN, A.; ABDOLLAHZADE, M. Developing a local least-squares support vectormachines-based neuro-fuzzy model for nonlinear and chaotic time series prediction. IEEEtransactions on neural networks and learning systems, [S.l.], v.24, n.2, p.207–218,Feb. 2013.

MIRIKITANI, D. T.; NIKOLAEV, N. Recursive Bayesian Recurrent Neural Networks forTime-Series Modeling. IEEE Transactions on Neural Networks, [S.l.], v.21, n.2, p.262–274,Feb. 2010.

NETO, M. C. d. A. Previsão de séries temporais usando séries exógenas e combinação deredes neurais aplicada ao mercado financeiro. 2008. Dissertação (Mestrado em Ciência daComputação) — Universidade Federal de Pernambuco, Recife.

NEUMAN, S. P. Maximum likelihood Bayesian averaging of uncertain model predictions.Stochastic Environmental Research and Risk Assessment, [S.l.], v.17, n.5, p.291–305,Nov. 2003.

NI, H.; YIN, H. Exchange rate prediction using hybrid neural networks and trading indicators.Neurocomputing, [S.l.], v.72, n.1315, p.2815–2823, Aug. 2009.

RATANAMAHATANA, C. A.; KEOGH, E. Everything you know about dynamic time warpingis wrong. In: WORKSHOP ON MINING TEMPORAL AND SEQUENTIAL DATA, Seattle,WA, USA. Proceedings. . . [S.l.: s.n.], 2004. n.3.

RIBEIRO, C. V.; GOLDSCHMIDT, R. R.; CHOREN, R. Métodos para Previsão de SériesTemporais e suas Tendências de Desenvolvimento. In: JUSTEL, C. M. (Ed.). Monografias emSistemas e Computação. Rio de Janeiro: Instituto Militar de Engenharia, 2009. n.3, p.1–26.

RIBEIRO, G. et al. Lag selection for time series forecasting using Particle Swarm Optimization.In: INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS, San Jose,California, USA. Proceedings. . . IEEE, 2011. p.2437–2444.

REFERÊNCIAS 103

RODRIGUEZ, J.; KUNCHEVA, L. Time series classification: Decision forests and SVM oninterval and DTW features. In: WORKSHOP ON TIME SERIES CLASSIFICATION, San Jose,CA, USA. Proceedings. . . [S.l.: s.n.], 2007. n.13.

RUMELHART, D. E.; MCCLELLAND, J. L.; PDP RESEARCH GROUP, C. (Ed.). ParallelDistributed Processing: explorations in the microstructure of cognition. Cambridge, UK: MITPress, 1986. v.1.

SAKOE, H.; CHIBA, S. Dynamic programming algorithm optimization for spoken wordrecognition. IEEE Transactions on Acoustics, Speech, and Signal Processing, [S.l.], v.26,n.1, p.43–49, Feb. 1978.

SALVADOR, S.; CHAN, P. FastDTW: Toward accurate dynamic time warping in linear timeand space. In: KDD WORKSHOP ON MINING TEMPORAL AND SEQUENTIAL DATA,Seattle, WA, USA. Proceedings. . . [S.l.: s.n.], 2004. n.3, p.70–80.

SHUMWAY, R. H.; STOFFER, D. S. Time Series Analysis and Its Applications - with RExamples. 3rd.ed. New York, NY, USA: Springer-Verlag, 2011.

SMITH, C.; JIN, Y. Evolutionary multi-objective generation of recurrent neural networkensembles for time series prediction. Neurocomputing, [S.l.], v.143, p.302–311, Nov. 2014.

SMOLA, A. J.; SCH, B.; SCHöLKOPF, B. A Tutorial on Support Vector Regression. Statisticsand Computing, [S.l.], v.14, n.3, p.199–222, Aug. 2004.

SOTO, J.; MELIN, P.; CASTILLO, O. Optimization of Interval Type-2 and Type-1 FuzzyIntegrators in Ensembles of ANFIS Models with Genetic Algorithms. In: MEXICANINTERNATIONAL CONFERENCE ON COMPUTER SCIENCE (ENC), Morelia, Mexico.Proceedings. . . IEEE, 2013. p.99–104.

TICKNOR, J. L. A Bayesian regularized artificial neural network for stock market forecasting.Expert Systems with Applications, [S.l.], v.40, n.14, p.5501–5506, Oct. 2013.

VAPNIK, V.; GOLOWICH, S. E.; SMOLA, A. Support vector method for functionapproximation, regression estimation, and signal processing. In: ADVANCES IN NEURALINFORMATION PROCESSING SYSTEMS. Proceedings. . . MIT Press, 1996. n.9, p.281–287.

VAPNIK, V. N. The Nature of Statistical Learning Theory. New York, NY, USA:Springer-Verlag New York, Inc., 1995.

WANG, X.; HAN, M. Online sequential extreme learning machine with kernels fornonstationary time series prediction. Neurocomputing, [S.l.], v.145, p.90–97, Dec. 2014.

ZHANG, G. Avoiding Pitfalls in Neural Network Research. IEEE Transactions on Systems,Man, and Cybernetics, Part C: Applications and Reviews, [S.l.], v.37, n.1, p.3–16,Jan. 2007.

Documents

Sérgio René Pessoa Vila Nova Filho · Palavras-chave: previsão de séries temporais. particionamento de séries temporais. redes neurais. máquinas de vetores de suporte para regressão