Aplicação de um modelo híbrido utilizando Redes Neurais Artificiais e ARIMA para Predição de Séries Temporais

Embed Size (px)

DESCRIPTION

Ante projeto TCC

Citation preview

  • universidade estadual do oeste do paranunioeste - campus de foz do iguau

    centro de engenharias e cincias exatascurso de cincia da computao

    tcc - trabalho de concluso de curso

    Proposta de Trabalho de Concluso de CursoAplicao de um modelo hbrido utilizando Redes NeuraisArtificiais e ARIMA para Predio de Sries Temporais

    Gabriel Custdio MartinsOrientadora: Teresinha Arnauts HachisucaCo-orientadora: Eliete Nascimento Pereira

    Foz do Iguau, 23 de julho de 2015

  • 1 Identificao1.1 rea e Linha de PesquisaGrande rea: Cincia da ComputaoCdigo: 1.03.00.00-7

    Linha de Pesquisa: Matemtica da ComputaoCdigo: 1.03.02.00-0

    Especialidade: Modelos Analticos e de SimulaoCdigo: 1.03.02.02-6

    1.2 Palavras-chave1. Redes Neurais Artificiais

    2. Modelagem ARIMA

    3. Sries Temporais

    4. Modelo Hbrido

    2 Introduo e JustificativaA rea de estudo responsvel pela predio de dados de srie temporais encontra-se em uma fase de grande desenvolvimento, isto devido a necessidade de se obtermodelos confiveis e com grande preciso. Muitos estudos e pesquisas vm sendorealizados na rea de Redes Neurais Artificiais, visando a criao de novas tcnicas,mtodos e produtos que proporcionem praticidade e agilidade na previso das sriestemporais (ZHANG, 2003).

    De acordo com Babu e Reddy (2014) a predio de dados de sries temporais atualmente uma importante rea de pesquisa, sendo utilizada para previso emvrias aplicaes. A predio de trfego na rede Internet auxilia aos provedoresna melhora da disponibilizao de seus servios. Predio de mudanas climticasauxiliam no setor de agricultura. Predio de desastres ajudam na tomada dasprecaues necessrias. A previso de dados financeiros ajudam os investidores arealizar investimentos mais seguros e rentveis no mercado. Contudo, os dados desries temporais nem sempre possuem as mesmas caractersticas. Por exemplo, osdados podem ser sazonais como no caso de variaes climticas repetidas de acordo

    2

  • com a estao do ano, ou no sazonais como em dados financeiros e da bolsa devalores. Alguns sries so altamente volteis, como velocidade do vento, e outrasmenos volteis, como temperatura global e chuvas anuais. Alguns dados so quasenaturalmente lineares, como o crescimento anual de um animal ou planta, porm,muitos outros conjuntos de dados so naturalmente no lineares. Para isso soutilizados modelos distintos que melhor se adequam as caractersticas da srie.

    Segundo Zhang (2003), a predio de sries temporais consiste da coleta eanlise de observao passadas de uma mesma varivel, ao longo do tempo, ondeos padres encontrados so utilizados para gerar um modelo que descrever o seurelacionamento subjacente.

    O modelo chamado de Autoregressive Integrated Moving Average (ARIMA), tam-bm conhecido como modelo de Box-Jenkins, amplamente considerado como atcnica mais efetiva de predio na cincia social e extensivamente utilizada parasries temporais. O uso do modelo ARIMA para predio de sries temporais essen-cialmente incerto, uma vez que este no assume conhecimento prvio sobre modeloou relacionamentos como em outros mtodos. Este modelo confia essencialmentenos valores passados da srie, assim como nos erros, para predio. Contudo re-lativamente mais robusto e eficiente que modelos estruturalmente mais complexosem relao a previses de curto prazo (ADEBIYI; ADEWUMI; AYO, 2014).

    Embora seja bastante flexvel na representao de diversos tipos de sries tem-porais, i.e., puramente Autoregressive (AR), puramente Moving Average (MA) e ARe MA combinadas (ARMA), sua maior limitao a hiptese de que a srie tempo-ral possui dependncia linear alm da necessidade de estacionariedade(ZHANG,2003).

    Redes Neurais Artificiais (RNA) uma das tcnicas de soft computing maisprecisas e amplamente utilizadas para predio de sries temporais em diferentesreas, incluindo problemas sociais, de engenharia, economia, negcios, finanas,cotaes, e aes (ADEBIYI; ADEWUMI; AYO, 2014). Para Zhang (2003), amaior vantagem do uso de Redes Neurais Artificiais na predio de sries temporaisest relacionada a sua flexibilidade na modelagem de sries no lineares. Umadas principais caractersticas das RNAs a de que o modelo adaptativamenteformado baseando-se nas caractersticas apresentadas pelos dados, desta forma adequado para conjuntos de dados empricos, onde nenhuma orientao tericaest disponvel para sugerir um processo apropriado de gerao de dados (ZHANG,2003).

    Na prtica, difcil determinar se a srie sob estudo gerada por um processolinear ou no linear ou se um mtodo particular mais efetivo que outro numapredio de dados fora da amostra. Tipicamente inmeros modelos so testados e oque obtiver um resultado mais preciso selecionado. Contudo o modelo selecionadono necessariamente o melhor para futuras predies, devido a muitos fatores que

    3

  • podem influenciar, como: variao da amostra, incerteza do modelo e mudanana estrutura (ZHANG, 2003). Sries temporais, no mundo real, raramente sopuramente lineares ou no lineares, neste caso, nem ARIMA ou RNA podem seradequadas para modelagem e predio, uma vez que o modelo ARIMA no podelidar com relacionamentos no lineares, enquanto RNA sozinho no capaz demanusear ambas adequadamente.

    Uma abordagem mais abrangente, que visa aumentar a preciso dos modelos depredio, vem sendo sugerida. Segundo Clemen (1989), modelos tem sido desen-volvidos para encontrar a combinao tima para predio. Os resultados tmsido praticamente unnimes: combinar diferentes modelos de predio conduzemao aumento da preciso.

    Conforme mostra Silva (2012), uma ideia interessante seria tentar unir as van-tagens que cada tcnica possui, RNA e ARIMA, de forma a obter um modelo maisrobusto que proporcione previses mais precisas, sendo conhecido como modelohbrido.

    Um modelo hbrido bastante sugerido na literatura, e que ser utilizado duranteo desenvolvimento deste projeto, consiste da combinao do modelo ARIMA e RNA,assim como sugerido por Silva (2012), onde a srie temporal utilizada como dadode entrada para o modelo ARIMA, o qual ser responsvel pela retirada dos padreslineares da srie. O resduo gerado nesta etapa ser aplicado a Rede Neural, umavez que o resduo gerado na etapa anterior no linear, para a captao dospadres no lineares da srie. Desta forma, deve-se realizar uma combinao entreos valores gerados pelo modelo ARIMA e a RNA. O modelo sugerido tambm podeser visto nos trabalhos apresentados por Zhang (2003), Valenzuela et al. (2008) eBabu e Reddy (2014), entre outros.

    A proposta deste trabalho utilizar o modelo gerado pela combinao dosmodelos ARIMA e RNA em sries temporais e comparar os resultados obtidos como resultado de modelos convencionais de predio de dados, afim de atestar asuperioridade do modelo.

    3 Objetivos3.1 Objetivo GeralRealizar um estudo comparativo de qualidade e desempenho entre um modelode predio de sries temporais hbrido, mais robusto e preciso, obtido atravs daunio das caractersticas estatsticas do modelo ARIMA e computacionais das RedesNeurais Artificiais, com relao aos modelos convencionais.

    4

  • 3.2 Objetivos EspecficosDentre os principais objetivos especficos destacam-se:

    Realizar a combinao dos modelos ARIMA e Redes Neurais Artificiais; Realizar a comparao do modelo hibrido contra modelos convencionais. Adquirir conhecimento do modelo estatstico ARIMA; Adquirir conhecimento do modelo computacional de Redes Neurais; Comparao entre os dados previstos e reais;

    4 Plano de Trabalho e Cronograma de Execuo1. Estudo das propriedades de sries de dados temporais: estudar a definio

    e as caracterstica das sries de dados temporais, mtodos de decomposio,modelos de suavizao e modelos de predio existentes.

    2. Estudos do modelo ARIMA: estudo das propriedades estatstica do modeloautorregressivos integrados de mdias mveis, assim como modelos AR, MA eARMA, seu funcionamento, implementao e aplicao.

    3. Estudo das Redes Neurais Artificiais: estudo terico sobre as RNAs, sua mo-tivao, implementao e algoritmos utilizados.

    4. Estudo dos trabalhos j realizados: pesquisas a serem realizadas na litera-tura com intuito de levantar informaes a respeito do contedo cientifico jexistente para o tema que ser abordado.

    5. Pesquisa de ferramentas de auxilio: estudar ferramentas que so utilizadasno estado atual da arte, tanto para aplicao do modelo ARIMA quanto paraconstruo da Rede Neural, e selecionar as quais sero utilizadas no projeto.

    6. Levantamento de requisitos: levantar os requisitos necessrio para a elabo-rao do modelo de previso, descrevendo como o modelo deve funcionar.

    7. Comparao dos mtodos: realizar uma comparao de carter estatstica,entre o modelo hbrido com modelos de predio de dados que utilizam pura-mente o mtodo ARIMA ou RNAs, levando em considerao, para apresentaode qualidade, a preciso do modelo gerado e a confiabilidade.

    5

  • 8. Desenvolver e submeter artigo: elaborar e submeter um artigo sobre o temado projeto.

    9. Elaborar monografia: realizar uma monografia sobre o projeto.

    10. Reunio com orientadora e co-orientadora: realizar reunies peridicas coma orientado e co-orientado do projeto, afim de sanar dvidas, apresentarresultados e discutir solues para problemas encontrados.

    11. Apresentar TCC: apresentar para a banca de professores os resultado obtidosdurante o perodo de produo do projeto, juntamente com todo contedogerado.

    Na Tabela 1 apresentado o cronograma das atividades descritas.

    PerodoAtividades Jul Ago Set Out Nov Dez Jan Fev1 - Estudo de sries temporais 2 - Estudo do modelo ARIMA 3 - Estudo das Redes Neurais Artificiais 4 - Estudo dos trabalhos j realizados 5 - Pesquisa de ferramentas de auxilio 6 - Levantamento de requisitos 7 - Comparao dos mtodos abordados 8 - Desenvolver e submeter artigo 9 - Elaborar Monografia 10 - Reunies com a orientadora e co-orientadora 11 - Apresentar TCC

    Tabela 1: Cronograma das Atividades

    6

  • 5 Material e Mtodo5.1 MateriaisDe modo a auxiliar no desenvolvimento do projeto, tanto prtico como terico, se-ro utilizados livros, artigos, teste e trabalhos de concluso de curso. Os materiaisesto disponveis para a consulta atravs da biblioteca da Unioeste, da FundaoPTI, Unila e repositrios virtuais.

    A srie temporal a ser utilizada, de maneira a aferir a qualidade do m-todo gerado, pode ser encontrada atravs do endereo e corresponde a dados de observaes de manchas solares. A srie demanchas solares de Wolf considerada no linear e no Gaussiana, utilizada paraa verificao de modelos no lineares mas estudada tanto em modelagens linearese no lineares. Ela composta de 315 observaes do nmero de manchas solaresanuais de 1700 2014 (SILSO World Data Center, 1750-2014). O conjunto utili-zado neste projeto ser composto do dados correspondentes ao intervalo do ano de1700 1987. O conjunto de testes, 221 observaes (1700 1920), ser utilizadopara formular o modelo para ento a amostra de teste, ltimas 67 observaes(1921 1987), ser aplicada para avaliar a performance do modelo estabelecido.

    Para a gerao do modelo de predio, assim como das representaes visu-ais dos dados e dos modelos obtidos, sero utilizadas linguagens de programaoamplamente utilizadas para a analise de dados, como R, Python e MATLAB. Asferramentas citadas possuem, de forma integrada ou por meio de pacotes de ter-ceiros, algoritmos estatsticos e computacionais para predio de sries temporaise provm modos de visualizar dados atravs da gerao de grficos.

    5.2 MtodosA reviso bibliogrfica ser utilizada para obteno de todo o conhecimento tericonecessrio para a realizao do Trabalho de Concluso de Curso. O contedo aser estudado deve abranger todo o conhecimento necessrio sobre as tecnologias,algoritmos e mtodos que podero ser utilizados no desenvolvimento do trabalho.

    Aps a concluso da reviso bibliogrfica ter inicio o desenvolvimento prticodo projeto, e envolve a seleo dos dados a serem processados, a separao dosdados em treinamento e teste, aplicao dos dados de treinamento ao mtodoARIMA e o uso do resduo gerado no mtodo anterior para treinamento da RedeNeural, definido o modelo pelo treinamento, aplica-se o conjunto de teste. No finaldo processo, o modelo obtido pela ARIMA e pela Rede Neural devem ser combinados.

    Todo o desenvolvimento do projeto ser acompanhado pela orientadora e pelacoorientadora.

    7

  • 6 Critrios de AvaliaoDe modo a realizar o teste de validao de performance do modelo hbrido comrelao aos outros modelos individuais, dois indicadores de performance sero apli-cados, sendo estes SSE (Sum Squared Error), que consiste da soma dos quadradosdos erros de cada observao da srie em seu tempo t, e MSE (Mean Squared Error),obtido atravs da mdia do quadrado dos erros, ou seja, o valor da resultante de(2) dividido pela quantidade total de observaes.

    Se a observao atual para um perodo de tempo e a predio parao mesmo perodo, ento o erro definido por:

    = (1)

    A soma do erro quadrtico ou SSE pode ser calculada da seguinte forma:

    =1

    2 (2)

    O erro quadrtico mdio ou MSE:

    1

    =1

    2 (3)

    Onde quantidade total de observaes da srie.Afim de avaliar o ajuste do modelo gerado com relao aos dados da srie sero

    utilizadas tcnicas chamadas dependente de escala e independente de escala oude porcentagem. A primeira tcnica a ser utilizada chamada de RMSE (RootMean Squared Error) e dita dependente de escala, ou seja, o erro est na mesmaescala dos dados ( = ) e no pode ser utilizada para comparar sries queesto em escalas diferentes. A segunda tcnica chamada MAPE (Mean AbsolutePercentage Error) e considerada independente de escala, utilizada frequentementepara comparar a performance entre diferentes conjuntos de dados.

    A Raiz do Erro Quadrtico Mdio ou RMSE obtido atravs da formula:

    RSME =

    =1 2

    (4)

    8

  • O Erro Percentual Mdio Absoluto ou MAPE resultante da equao:

    1

    =1

    * 100 (5)

    9

  • 7 RefernciasADEBIYI, A. A.; ADEWUMI, A. O.; AYO, C. K. Comparison of arima andartificial neural networks models for stock price prediction. Journal of AppliedMathematics, Hindawi Publishing Corporation, v. 2014, 2014. Citado na pgina3.

    BABU, C. N.; REDDY, B. E. A moving-average filter based hybrid arimaannmodel for forecasting time series data. Applied Soft Computing, Elsevier, v. 23, p.2738, 2014. Citado 2 vezes nas pginas 2 e 4.

    CLEMEN, R. T. Combining forecasts: A review and annotated bibliography.International journal of forecasting, Elsevier, v. 5, n. 4, p. 559583, 1989. Citadona pgina 4.

    SILSO World Data Center. The international sunspot number. InternationalSunspot Number Monthly Bulletin and online catalogue, Royal Observatory ofBelgium, avenue Circulaire 3, 1180 Brussels, Belgium, 17502014. Citado napgina 7.

    SILVA, T. A. d. A. Previso de cargas eltricas atravs de um modelo hbridode regresso com redes neurais. Universidade Estadual Paulista (UNESP), 2012.Citado na pgina 4.

    VALENZUELA, O. et al. Hybridization of intelligent techniques and arimamodels for time series prediction. Fuzzy Sets and Systems, Elsevier, v. 159, n. 7,p. 821845, 2008. Citado na pgina 4.

    ZHANG, G. P. Time series forecasting using a hybrid arima and neural networkmodel. Neurocomputing, Elsevier, v. 50, p. 159175, 2003. Citado 3 vezes naspginas 2, 3 e 4.

    8 Sntese Bibliogrfica

    ABREU, T. et al. Metodologia hbrida utilizando os modelos arima e redes neuraisartificiais para previso de cargas eltricas. In: ANAIS DO XIX CONGRESSOBRASILEIRO DE AUTOMTICA. [S.l.], 2012. Nenhuma citao no texto.

    ADEBIYI, A. A.; ADEWUMI, A. O.; AYO, C. K. Comparison of arima andartificial neural networks models for stock price prediction. Journal of AppliedMathematics, Hindawi Publishing Corporation, v. 2014, 2014. Citado na pgina3.

    10

  • BABU, C. N.; REDDY, B. E. A moving-average filter based hybrid arimaannmodel for forecasting time series data. Applied Soft Computing, Elsevier, v. 23, p.2738, 2014. Citado 2 vezes nas pginas 2 e 4.

    BEZERRA, M. I. S. Apostila de anlise de sries temporais. Curso de Estatstica,available in http://people. ufpr. br/lucambio/CE017/1S2010/5515941-Apostila-Series-Temporais. pdf, 2006. Nenhuma citao no texto.

    CADENAS, E.; RIVERA, W. Wind speed forecasting in three different regionsof mexico, using a hybrid arimaann model. Renewable Energy, Elsevier, v. 35,n. 12, p. 27322738, 2010. Nenhuma citao no texto.

    CHATFIELD, C. Time-series forecasting. [S.l.]: CRC Press, 2000. Nenhumacitao no texto.

    CLEMEN, R. T. Combining forecasts: A review and annotated bibliography.International journal of forecasting, Elsevier, v. 5, n. 4, p. 559583, 1989. Citadona pgina 4.

    DU, J.-X. et al. A novel full structure optimization algorithm for radial basisprobabilistic neural networks. Neurocomputing, Elsevier, v. 70, n. 1, p. 592596,2006. Nenhuma citao no texto.

    EHLERS, R. S. Anlise de sries temporais. Laboratrio de Estatstica eGeoinformao. Universidade Federal do Paran, 2007. Nenhuma citao notexto.

    ERDAL, H. I.; EKINCI, A. A comparison of various artificial intelligence methodsin the prediction of bank failures. Computational Economics, Springer, v. 42,n. 2, p. 199215, 2013. Nenhuma citao no texto.

    GAN, M.; PENG, H.; DONG, X.-p. A hybrid algorithm to optimize rbfnetwork architecture and parameters for nonlinear time series prediction. AppliedMathematical Modelling, Elsevier, v. 36, n. 7, p. 29112919, 2012. Nenhumacitao no texto.

    HAYKIN, S. Redes Neurais - 2ed. [S.l.]: BOOKMAN COMPANHIA ED, 2001.ISBN 9788573077186. Nenhuma citao no texto.

    HE, J.; SI, B. The application of arima-rbf model in urban rail traffic volumeforecast. In: ATLANTIS PRESS. Proceedings of the 2nd International Conferenceon Computer Science and Electronics Engineering. [S.l.], 2013. Nenhuma citaono texto.

    11

  • KHASHEI, M.; BIJARI, M. A novel hybridization of artificial neural networksand arima models for time series forecasting. Applied Soft Computing, Elsevier,v. 11, n. 2, p. 26642675, 2011. Nenhuma citao no texto.

    KIA, A. N.; FATHIAN, M.; GHOLAMIAN, M. Using mlp and rbf neuralnetworks to improve the prediction of exchange rate time series with arima.International Journal of Information and Electronics Engineering, v. 2, n. 4, p.543546, 2012. Nenhuma citao no texto.

    LALLAHEM, S. et al. On the use of neural networks to evaluate groundwaterlevels in fractured media. Journal of hydrology, Elsevier, v. 307, n. 1, p. 92111,2005. Nenhuma citao no texto.

    MORETTIN, P.; TOLOI, C. de C. Anlise de sries temporais. Edgard Blucher,2006. ISBN 9788521203896. Disponvel em: . Nenhuma citao no texto.

    PALM, F. C.; ZELLNER, A. To combine or not to combine? issues of combiningforecasts. Journal of Forecasting, Wiley Online Library, v. 11, n. 8, p. 687701,1992. Nenhuma citao no texto.

    SILSO World Data Center. The international sunspot number. InternationalSunspot Number Monthly Bulletin and online catalogue, Royal Observatory ofBelgium, avenue Circulaire 3, 1180 Brussels, Belgium, 17502014. Citado napgina 7.

    SILVA, T. A. d. A. Previso de cargas eltricas atravs de um modelo hbridode regresso com redes neurais. Universidade Estadual Paulista (UNESP), 2012.Citado na pgina 4.

    VALENZUELA, O. et al. Hybridization of intelligent techniques and arimamodels for time series prediction. Fuzzy Sets and Systems, Elsevier, v. 159, n. 7,p. 821845, 2008. Citado na pgina 4.

    ZHANG, G. P. Time series forecasting using a hybrid arima and neural networkmodel. Neurocomputing, Elsevier, v. 50, p. 159175, 2003. Citado 3 vezes naspginas 2, 3 e 4.

    12

    Identificaorea e Linha de PesquisaPalavras-chave

    Introduo e JustificativaObjetivosObjetivo GeralObjetivos Especficos

    Plano de Trabalho e Cronograma de ExecuoMaterial e MtodoMateriaisMtodos

    Critrios de AvaliaoRefernciasSntese Bibliogrfica