Mineração de dados no Mercado Financeiro

  • View
    510

  • Download
    2

Embed Size (px)

Text of Mineração de dados no Mercado Financeiro

USO DE DATA MINING NO MERCADO FINANCEIRO

Fernando Rafael StahnkeOrientador: Juliano Varella de Carvalho

Novo Hamburgo, novembro de 2008.

Roteiro Contextualizao Bolsas de Valores Como Participar do Mercado de Aes Anlise Tcnica Descoberta de Conhecimento (KDD) Classificao Redes Neurais Artificiais (RNA) Algoritmo de Retropropagao de Erro rvores de Deciso Redes Neurais Artificiais Estudo de Caso na Bovespa Validao de Modelos Exemplo Prtico Concluso

05/03/11

Trabalho de Concluso em Cincia da Computao

2 de 28

Motivao

Contextualizao

Informaes confiveis. A crescente complexidade dos instrumentos de negociao do mercado financeiro, assim como o acesso a novas tecnologias de processamento da informao, estimula o desenvolvimento de novos sistemas de anlise e operao; inclusive com o uso de Inteligncia Artificial (Matsura , 2007). Uso desde 1986 nos Estados Unidos: Sistemas especialistas > Anlise estatstica > Redes neurais artificiais. (Carvalho, 2005). BERGENSON e WUNSCH (Apud ZANETI; ALMEIDA, 1998) utilizaram redes neurais hbridas e obtiveram um retorno de 660% em 25 meses com uma aplicao de US$ 10.000 (1989-1991).

Objetivo geralAplicar tcnicas de Data Mining em uma base de dados histricos obtidos na Bolsa de Valores de So Paulo (BOVESPA) a fim de identificar padres de comportamento e tendncias nas oscilaes do mercado vista.

Objetivos especficos Descrever conceitos de Minerao de Dados Definir e modelar a estrutura da base de dados (Pr-processamento); Estudar uma ferramenta que ser utilizada para a minerao de dados; Interpretar o conhecimento descoberto; Determinar a tendncia dos preos de aes do Mercado Acionrio, indicando sua Trabalho de Concluso em Cincia da Computao 05/03/11 3 de 28 probabilidade.

Bolsa de Valores Local prprio para realizao de transaes de compra e venda de ttulos e valores mobilirios, em mercado livre, aberto e fiscalizado. So negociados, por exemplo, ttulos como debntures, commercial papers, opes de compra e venda de aes, quotas de fundos, fundos de subscries, ttulos pblicos e certificados de aes. Aes: So ttulos emitidos por Sociedades Annimas que representam a menor frao do capital social da empresa, normalmente negociado em lotes.

BM&FBOVESPA S.A 3a maior bolsa de valores do mundo em valor e a 2a da Amrica; Existem os mercados vista, a termo e de opes, disponveis para negociao. O mercado vista representa operaes de compra e venda de ttulos em lotes padres ou em fraes com a entrega dos ttulos negociados no 2 dia aps a negociao e a liquidao financeira no 3 dia posterior a negociao. Em 2007, o mercado vista movimentou R$ 103,4 bilhes (88,7% das negociaes da Bovespa).

05/03/11

Trabalho de Concluso em Cincia da Computao

4 de 28

Como Participar do Mercado de AesInvestidor Soc. Corretora BM&FBOVESPA

Anlise Fundamentalista: Baseada em fatores econmicos e fundamentais das empresas, perspectivas de mercado e imagem.

Anlise Tcnica: Baseada na anlise dos grficos dos preos das aes. Conforme seus princpios , nestes grficos todos fatores que influenciam no preo da ao j esto descontados (MATSURA,2007). O objetivo nesta anlise a identificao da tendncia do preo futuro da ao a curto prazo com uso de grficos e padres de formas (aparente simplicidade).

05/03/11

Trabalho de Concluso em Cincia da Computao

5 de 28

Anlise Tcnica Ralph Nelson Elliot Teoria das ondas e anlise com uso da srie de Fibonacci. Dow Jones Teoria das fases (acumulao, mark up, distribuio e liquidao).

Desafio: Em que momento da onda o mercado est?05/03/11Trabalho de Concluso em Cincia da Computao

6 de 28

Descoberta de Conhecimento (KDD) Descoberta de conhecimento til em grandes bases de dados; Tarefa no trivial mesmo para especialistas da rea; um processo Interativo e Iterativo; Tarefas preditivas e descritivas; Fases do KDD:

Fonte: AURLIO, VELLASCO; LOPES, 1999, p.21.

05/03/11

Trabalho de Concluso em Cincia da Computao

7 de 28

ClassificaoIdentificao de padres ou grupos j identificados; EX: identificao de fraudes em seguros, padres de consumidores,etc; Tcnicas utilizadas nesta tarefa: C4.5 ( rvores de deciso), K-NN, redes neurais, algoritmos genticos, estatsticas e classificadores Bayesianos. Neste estudo, so utilizadas as Redes Neurais Artificiais e rvores de deciso. Existem diferentes tipos de redes neurais artificiais, sendo o modelo de retropropagao do erro (LAWRENCE (1997), apud MELLO, 2004), o modelo mais estudado e aplicado para anlises de mercado de aes. Segundo Bressan (2004) o uso redes neurais uma tcnica de reconhecimento de padres constantemente abordada na explorao de capitais.

05/03/11

Trabalho de Concluso em Cincia da Computao

8 de 28

Redes Neurais Artificiais (RNA)Figura 3.1: O Neurnio humano. Fonte: Adaptado de Carvalho, 2005, p. 94. Figura 3.2: Estrutura do neurnio artificial. Fonte: AURLIO, VELLASCO e LOPES, 1999.

Caractersticas de RNA: Neurnio artificial, Estado de Ativao, Funo de Sada Padro de Interconexo, Regra de Propagao,Regra de Ativao Regra de Aprendizado e Ambiente.

05/03/11

Trabalho de Concluso em Cincia da Computao

9 de 28

Algoritmo de Retropropagao do Erro Valores aleatrios aos pesos sinpticos e bias. Apresentados exemplos rede em ciclos e nmero de iteraes definidas. Propagao do sinal at a camada de sada; Aps so calculados os erros de cada neurnio e o erro global. Os erros so retropropagados at a camada de entrada, com o clculo dos gradientes locais e assim, ajustando os pesos da rede. Nova iterao de forma aleatria, at o nmero mximo de iteraes ou o atendimento do limite do erro global da rede.

05/03/11

Trabalho de Concluso em Cincia da Computao

10 de 28

rvores de Deciso Treinamento supervisionado. Fcil visualizao, representadas por ns e ramos. Algoritmos ID3 e C4.5 ( J48) (Evoluo do ID3, aceitando valores contnuos). Conhecimento freqentemente representado por regras Se/Ento. Entropia: Medida da relao de informaes do sistema. Quanto maior, menor a quantidade de informaes do sistema. Ganho: Mede a eficcia de um atributo nos dados de treinamento.Aparncia Sol Sol Encoberto Chuvoso Chuvoso Chuvoso Encoberto Sol Sol Chuvoso Sol Encoberto Encoberto Chuvoso Temperatura Quente Quente Quente Agradvel Frio Frio Frio Agradvel Frio Agradvel Agradvel Agradvel Quente Agradvel Vento No Sim No No No Sim Sim No No No Sim Sim No Sim Escalar? Sim Sim No No No No No Sim Sim No Sim Sim No No

05/03/11

Trabalho de Concluso em Cincia da Computao

11 de 28

Estudo de Caso na BovespaOrigem: Site da Bovespa (Alterao de layout )sites pblicos, programas proprietrios e empresas privadas.

A utilizao de um software proprietrio para a obteno dos dados se tornou a principal opo pela indicao de usurios, possibilidade de download de dados a cada 15 minutos e dirios dos dados selecionados e o acesso facilitado ao software. Alm disso, disponibiliza tambm o download de outros atributos estudados, como ndice e volume Dow Jones e Bovespa e cotao do dlar.05/03/11Trabalho de Concluso em Cincia da Computao

12 de 28

Estudo de Caso na BovespaAtivo de destaque no ndice Bovespa : Petrobrs (PETR4).CD. PETR4 TNLP4 VALE5 USIM5 CSNA3 CMET4 BBDC4 GGBR4 BRKM5 ITAU4 VALE3 PETR3 Ano => AOPETROBRAS TELEMAR VALE R DOCE USIMINAS SID NACIONAL CAEMI BRADESCO GERDAU BRASKEM ITAUBANCO VALE R DOCE PETROBRS

Jan. - Abr Pos % 9,227 1 8,117 2 8,095 3 5,593 4 4,23 5 4,128 6 3,777 7 3,512 8 2,914 9 2,77 10 -

2006 Mai. - Ago. Pos % 11,278 1 6,567 3 8,401 2 5,215 4 3,66 6 3,617 7 4,258 5 3,161 8 2,935 9 2,83 10 -

Set. - Dez Pos % 13,086 1 4,724 4 11,058 2 4,49 5 2,985 7 4,815 3 2,883 8 2,417 10 3,455 6 2,517 9 -

Jan. - Abr Pos % 13,798 1 3,581 5 9,955 2 4,121 4 2,523 8 4,537 3 2,653 7 3,312 6 2,447 10 2,473 9

2007 Mai. - Ago. Pos % 13,85 1 3,037 6 9,787 2 3,999 4 2,339 10 4,138 3 2,632 8 3,158 5 2,647 7 2,436 9

Set. - Dez. Pos % 13,689 1 2,289 9 10,426 2 3,412 4 2,285 10 3,929 3 2,544 7 2,859 5 2,72 6 2,461 8

Perodo amostrado de 1/04/2003 at 3/7/2008. Atributos dirios utilizados na anlise tcnica de ativo. Sendo eles o preo (cotao) de abertura e fechamento do ativo, volume de negociaes e o IFR, dlar comercial (indicador utilizado por investidores e matria prima), ndice Dow Jones e seu volume de negociaes (Aes da Petrobrs tambm negociadas na bolsa de valores norte-americana).05/03/11Trabalho de Concluso em Cincia da Computao

13 de 28

Estudo de Caso na Bovespa Limpeza dos Dados;

Unificao de atributos estudados e nova limpeza;

Tratamento de dados ausentes: excluso dos presentes em outros ativos; Ficaram 1277 registros;05/03/11Trabalho de Concluso em Cincia da Computao

14 de 28

Estudo de Caso na Bovespa Diferena diria em percentuais, visando relacionar dados de 2003 e 2008. Um exemplo o preo da ao de R$ 4,61 do dia 1/04/2003 com o preo da mesma ao no dia 01/07/2008 de R$ 45,50. Variao de Hoje = (Valor de hoje / Valor de ontem)-1. O objetivo de trabalhar com diversas faixas de classificao ( criadas com estudo de disperso) identificar a faixa mais adequada ao contexto aplicado. Faixas criadas com variaes percentuais (valores negativos e positivos), amenizando grande variao de valores dos atributos estudados. Criados novos atributos ( REZENDE, 2005) de variao de fechamento e fechamento entre perodos.

05/03/11

Trabalho de Concluso em Cincia da Computao

15 de 28

Estudo de Caso na BovespaBase de variaes

Base de tendncias Criao dos arquivos Arff.

05/03/11

Trabalho de Concluso em Cincia da Computao

16 de 28

Estudo de Caso na BovespaArquivo J48 supplied test Correto