View
3
Download
0
Category
Preview:
Citation preview
1
INSTITUTO MILITAR DE ENGENHARIA
GIOVANNI MELO CARVALHO VIGLIONI
METODOLOGIA PARA PREVISÃO DE DEMANDA FERROVIÁRIA
UTILIZANDO DATA MINING
Dissertação de Mestrado apresentada ao Curso de Mestrado em Engenharia de Transportes do Instituto Militar de Engenharia, como requisito parcial para a obtenção do título de Mestre em Ciências em Engenharia de Transportes.
Orientadores: Prof. Marcus Vinicius Quintella Cury. D. Sc. Prof. Paulo Afonso Lopes da Silva. Ph. D.
Rio de Janeiro
2007
2
c2007
INSTITUTO MILITAR DE ENGENHARIA Praça General Tibúrcio, 80 – Praia Vermelha Rio de Janeiro – RJ CEP: 22.290-270
Este exemplar é de propriedade do Instituto Militar de Engenharia, que poderá incluí-lo em base de dados, armazenar em computador, microfilmar ou adotar qualquer forma de arquivamento.
É permitida a menção, reprodução parcial ou integral e a transmissão entre bibliotecas deste trabalho, sem modificação de seu texto, em qualquer meio que esteja ou venha a ser fixado, para pesquisa acadêmica, comentários e citações, desde que sem finalidade comercial e que seja feita a referência bibliográfica completa.
Os conceitos expresso neste trabalho são de responsabilidade do autor e dos orientadores.
V672 Viglioni, Giovanni Melo Carvalho
Metodologia para previsão de demanda ferroviária utilizando data mining / Giovanni Melo Carvalho Viglioni – Rio de Janeiro: Instituto Militar de Engenharia, 2007.
241 p. : il., graf., tab.
Dissertação (mestrado) – Instituto Militar de Engenharia – 2007
1. Transporte Ferroviário. 2. Data mining. 3. Metodologia. I Título. II. Instituto Militar de Engenharia.
CDD 625.1
3
INSTITUTO MILITAR DE ENGENHARIA
GIOVANNI MELO CARVALHO VIGLIONI
METODOLOGIA PARA PREVISÃO DE DEMANDA FERROVIÁRIA UTILIZANDO DATA MINING
Dissertação de Mestrado apresentada ao Curso de Mestrado em Engenharia de Transportes do Instituto Militar de Engenharia, como requisito parcial para a obtenção do título de Mestre em Ciências em Engenharia de Transportes.
Orientadores: Prof. Marcus Vinícius Quintella Cury – D. Sc. Prof. Paulo Afonso Lopes da Silva – Ph. D.
Aprovada em 7 de fevereiro de 2007 pela seguinte Banca Examinadora:
___________________________________________________________________________ Prof. Marcus Vinícius Quintella Cury – D. Sc. do IME - Presidente
___________________________________________________________________________ Prof. Paulo Afonso Lopes da Silva – Ph. D. do IME
___________________________________________________________________________ Profª. Marley Maria Bernardes Rebuzzi Vellasco – Ph. D. da PUC-Rio
Rio de Janeiro 2007
4
Às pessoas mais importantes da minha vida, que me deram oportunidade de crescer física e intelectualmente, que nortearam meu caminho, que me deram amor e carinho, que são os meus exemplos maiores; em suma, aqueles que são responsáveis pelo que sou: meus pais, meus irmãos, meus avós e minha esposa, os amores da minha vida.
5
AGRADECIMENTOS
A Deus, perfeito, por ter me proporcionado a chance de crescer como profissional e como ser
humano, iluminando sempre meus caminhos durante toda a minha vida.
A meus pais Dalton e Maria Marli por tudo, desde o primeiro minuto da minha existência; por
terem me tornado a pessoa que sou hoje, pelos meus estudos, pela minha educação, pela
paciência, pela tolerância perante a minha personalidade, enfim, por todo o amor. Esta vitória
é para os dois.
A meus irmãos Anderson e Dalton Júnior, pelo companheirismo em todos os momentos da
minha vida e pela incansável torcida.
A minha esposa Flavine (meu eterno amor, minha amiga e companheira), pela paciência e
também pela falta dela, durante os dois anos de curso, quando ficamos longe um do outro.
A meus avós José Viglioni, Amélia, Antônio e Maria Villela, todos in memorian, sempre no
meu pensamento. Obrigado por fazerem parte da minha história.
Ao William, Tatiana e Léo, os primeiros e grandes incentivadores deste mestrado, pelo apoio
e abrigo neste período.
A meu sogro Silas, sogra Mareny, avô Mario, e avó Eny, que muito torceram e rezaram por
mim nestes dois anos.
As minhas sobrinhas Fernanda, Fabiana, Paula e Julia, pelo apoio.
A meus cunhados Alexandre e Moises e cunhadas Márcia, Paula e Deise, pelo apoio e
confiança.
A minha cunhada Denise, por ser paciente e dedicada nas correções da dissertação.
6
Aos familiares, pela força e carinho depositados.
Aos meus orientadores, professores Quintella e Lopes, pelos conhecimentos transmitidos e
paciência no esclarecimento de todas as dúvidas, pela dedicação e confiança depositados e por
todo o trabalho de orientação envolvendo ética, dedicação, qualidade e amizade.
À professora Marley, pelos ensinamentos e por ter aceitado participar da banca examinadora.
Aos companheiros do IME, que compartilharam os momentos de luta. Em especial, aos
amigos Olivio e Guerson, pela amizade e ajudas prestadas nos momentos necessários.
Ao Marcelo Neder, pela inestimável colaboração e apoio no que foi preciso para a realização
desta pesquisa.
Ao Alysson Barros Paolinelli, José Geraldo Ferreira e demais colaboradores da MRS, pela
cooperação e incentivo.
À SAS Brasil, pela disponibilização de seus softwares, em especial à Andrea Szyfer, pela sua
atenção e dedicação.
Ao Exército Brasileiro, pela oportunidade de realizar este curso.
Por fim, a todos os professores, alunos e funcionários do Departamento de Engenharia de
Transportes do IME, que de algum modo contribuíram para a realização deste trabalho.
7
A PEDRA
O distraído nela tropeçou... O bruto a usou como projétil. O empreendedor, usando-a, construiu. O camponês, cansado da lida, dela fez assento. Para meninos, foi brinquedo. Drummond a poetizou. Já, Davi matou Golias, e Michelangelo extraiu-lhe a mais bela escultura...
E em todos esses casos, a diferença não esteve na pedra, mas no homem! Não existe “pedra” no seu caminho que você não possa aproveitá-la para o seu próprio crescimento.
8
SUMÁRIO
LISTA DE ILUSTRAÇÕES.....................................................................................................12
LISTA DE TABELAS..............................................................................................................15
LISTA DE SIGLAS..................................................................................................................17
1 INTRODUÇÃO .......................................................................................................21
1.1 Conhecimento do Problema.......................................................................................21
1.2 Objetivo .....................................................................................................................24
1.3 Justificativa................................................................................................................25
1.4 Composição da Dissertação.......................................................................................25
2 PANORAMA SOBRE A DEMADA FERROVIÁRIA ........................................27
2.1 Demanda por Bens e Serviços ...................................................................................27
2.2 Demanda Ferroviária .................................................................................................30
2.2.1 Ferrovia Tereza Cristina (FTC) .................................................................................36
2.2.2 Estrada de Ferro Carajás (EFC).................................................................................37
2.2.3 Estrada de Ferro Vitória-Minas (EFVM) ..................................................................39
2.2.4 Ferronorte ..................................................................................................................41
2.2.5 Ferrovia Norte-Sul.....................................................................................................43
2.2.6 Ferrovia Transnordestina...........................................................................................45
2.2.7 Estrada de Ferro Jari (EFJ) ........................................................................................47
2.2.8 Estrada de Ferro do Amapá (EFA) ............................................................................48
2.2.9 Estrada de Ferro Trombetas (EFT)............................................................................51
2.2.10 Ferrovia do Aço .........................................................................................................54
2.3 Reestruturação Ferroviária no Brasil .........................................................................58
3 PREVISÃO DE DEMANDA ..................................................................................66
3.1 Técnicas de Previsão .................................................................................................66
3.1.1 Técnicas Qualitativas de Previsão .............................................................................66
3.1.2 Técnicas Quantitativas de Previsão ...........................................................................68
3.1.3 Técnicas Causais........................................................................................................77
9
3.1.4 Modelos de Regressão ...............................................................................................77
3.1.5 Modelos Econométricos ............................................................................................83
3.1.6 Rede Neural Artificial (RNA) ...................................................................................84
3.1.7 Lógica Fuzzy .............................................................................................................84
3.1.8 Neuro-Fuzzy ..............................................................................................................85
3.2 Métodos de Previsão Aplicados ao Transporte Ferroviário ......................................85
3.2.1 Previsão com Data Mining ........................................................................................86
4 DATA MINING .......................................................................................................89
4.1 Histórico ....................................................................................................................93
4.2 Etapas do Processo de KDD......................................................................................94
4.2.1 Pré-Processamento.....................................................................................................95
4.2.2 Mineração de Dados ................................................................................................104
4.2.3 Pós-Processamento ..................................................................................................109
4.3 Tarefas de KDD.......................................................................................................112
4.3.1 Descoberta de Associações......................................................................................113
4.3.2 Descoberta de Seqüências .......................................................................................115
4.3.3 Classificação............................................................................................................118
4.3.4 Sumarização.............................................................................................................122
4.3.5 Clusterização ...........................................................................................................123
4.3.6 Previsão de Séries Temporais..................................................................................124
4.3.7 Detecção de Desvios................................................................................................125
5 METODOLOGIA PROPOSTA ...........................................................................127
5.1 CRISP-DM ..............................................................................................................129
5.1.1 Entendimento do Negócio .......................................................................................130
5.1.2 Entendimento dos Dados .........................................................................................131
5.1.3 Preparação de Dados ...............................................................................................131
5.1.4 Modelagem ..............................................................................................................132
5.1.5 Avaliação .................................................................................................................132
5.1.6 Utilização.................................................................................................................133
5.2 Metodologia de Fayyad ...........................................................................................133
5.2.1 Seleção.....................................................................................................................137
5.2.2 Pré-Processamento...................................................................................................137
10
5.2.3 Transformação .........................................................................................................137
5.2.4 Mineração de Dados (Data Mining) ........................................................................138
5.2.5 Interpretação e Avaliação ........................................................................................138
5.3 SEMMA...................................................................................................................138
5.4 Metodologia Proposta para Previsão de Demanda Ferroviária (MPDF-DM).........141
5.4.1 O Modelo Geral Proposto........................................................................................141
5.4.2 Análise do Sistema ..................................................................................................144
5.4.3 Pré-processamento...................................................................................................148
5.4.4 Mineração de Dados ................................................................................................158
5.4.5 Pós-processamento ..................................................................................................160
5.4.6 Observação ..............................................................................................................162
5.5 Considerações Finais ...............................................................................................163
6 ESTUDO DE CASO ..............................................................................................164
6.1 MRS Logística.........................................................................................................164
6.2 Softwares Utilizados................................................................................................165
6.2.1 SAS Enterprise Miner..............................................................................................165
6.2.2 SAS Enterprise Guide..............................................................................................166
6.2.3 Microsoft Excel .......................................................................................................167
6.2.4 Matlab......................................................................................................................168
6.2.5 Fuzzy Rules 2001 ....................................................................................................169
6.3 Aplicação da Metodologia.......................................................................................170
7 CONCLUSÕES E RECOMENDAÇÕES ...........................................................189
7.1 Conclusões...............................................................................................................189
7.2 Recomendações .......................................................................................................190
8 BIBLIOGRAFIA ...................................................................................................192
9 ANEXOS.................................................................................................................205
9.1 Data Warehouse (DW) ............................................................................................206
9.2 Redes Neurais ..........................................................................................................209
9.2.1 Histórico ..................................................................................................................210
9.2.2 Características Gerais ..............................................................................................210
9.2.3 Processos de Aprendizado .......................................................................................212
11
9.2.4 Tipos de Redes Neurais ...........................................................................................213
9.2.5 Aplicações para Redes Neurais ...............................................................................216
9.3 Lógica Fuzzy ...........................................................................................................217
9.3.1 Histórico ..................................................................................................................218
9.3.2 Conjuntos “FUZZY” ...............................................................................................218
9.3.3 Conceitos Importantes .............................................................................................219
9.3.4 Operações entre Conjuntos “FUZZY” ....................................................................220
9.4 Outros Algoritmos ...................................................................................................222
9.4.1 Apriori .....................................................................................................................222
9.4.2 C 4.5.........................................................................................................................223
9.5 Documentos das Atividades da Metodologia MPDF-DM ......................................223
9.5.1 Análise do Sistema ..................................................................................................224
9.5.2 Pré-processamento - Técnica...................................................................................225
9.5.3 Pré-processamento - Seleção ...................................................................................226
9.5.4 Pré-processamento - Limpeza .................................................................................227
9.5.5 Pré-processamento - Codificação ............................................................................228
9.5.6 Pré-processamento - Normalização .........................................................................229
9.5.7 Pré-processamento - Enriquecimento......................................................................230
9.5.8 Mineração de Dados ................................................................................................231
9.5.9 Pós-processamento ..................................................................................................232
9.5.10 Observação ..............................................................................................................233
9.6 Produtos de Data Mining.........................................................................................234
12
LISTA DE ILUSTRAÇÕES
FIG. 1.1 Matriz de Transportes no Brasil – 2005...................................................................22
FIG. 1.2 Planejamento Hierárquico em Transporte Ferroviário.............................................23
FIG. 2.1 Densidade das ferrovia no Brasil na década de 1870...............................................31
FIG. 2.2 Ferrovias Brasileiras na década de 1930..................................................................35
FIG. 2.3 Ferrovia Tereza Cristina...........................................................................................37
FIG. 2.4 Estrada de Ferro Carajás ..........................................................................................38
FIG. 2.5 Estrada de Ferro Vitória-Minas................................................................................40
FIG. 2.6 ALL..........................................................................................................................43
FIG. 2.7 Ferrovia Norte-Sul ...................................................................................................44
FIG. 2.8 Ferrovia Transnordestina .........................................................................................46
FIG. 2.9 Estrada de Ferro Jari.................................................................................................47
FIG. 2.10 Estrada de Ferro do Amapá......................................................................................49
FIG. 2.11 Operação da MRN....................................................................................................52
FIG. 2.12 Estrada de Ferro Trombetas .....................................................................................53
FIG. 2.13 Ferrovia do Aço e Linha do Centro..........................................................................58
FIG. 4.1 Assuntos envolvidos com mineração de dados........................................................92
FIG. 4.2 Taxonomia de Atividades na Área de KDD ............................................................92
FIG. 4.3 Etapas Operacionais do Processo de KDD ..............................................................95
FIG. 4.4 Mineração de Dados no contexto da inteligência de negócios ..............................107
FIG. 4.5 Associação entre registros de dados e classes........................................................119
FIG. 5.1 Fases da metodologia CRISP-DM .........................................................................130
FIG. 5.2 Processo KDD Fayyad ...........................................................................................135
FIG. 5.3 Processo de KDD – Klemettinen ...........................................................................136
13
FIG. 5.4 Processo de KDD – Feldens...................................................................................136
FIG. 5.5 Níveis da Metodologia MPDF-DM .......................................................................142
FIG. 5.6 Metodologia MPDF-DM........................................................................................143
FIG. 5.7 Cabeçalho do documento .......................................................................................144
FIG. 5.8 Rodapé do documento............................................................................................144
FIG. 5.9 Atividades da Etapa Análise do Sistema................................................................145
FIG. 5.10 Documento – Análise do Sistema ..........................................................................146
FIG. 5.11 Atividades da etapa Pré-processamento.................................................................149
FIG. 5.12 Documento – Pré-processamento para escolha da técnica.....................................151
FIG. 5.13 Documento pré-processamento de seleção ............................................................152
FIG. 5.14 Documento pré-processamento de limpeza ...........................................................154
FIG. 5.15 Documento pré-processamento de codificação......................................................155
FIG. 5.16 Documento pré-processamento de normalização...................................................156
FIG. 5.17 Documento pré-processamento de enriquecimento ...............................................157
FIG. 5.18 Atividades da etapa de Mineração de Dados .........................................................158
FIG. 5.19 Documento de mineração de dados........................................................................159
FIG. 5.20 Atividades da etapa de Pós-processamento............................................................160
FIG. 5.21 Documento de pós-processamento.........................................................................161
FIG. 5.22 Documento de observação .....................................................................................162
FIG. 6.1 SAS Enterprise Miner versão 5.2 – Janela de projeto............................................166
FIG. 6.2 SAS Enterprise Guide – versão 4...........................................................................167
FIG. 6.3 Regressão no Excel ................................................................................................168
FIG. 6.4 Matlab ANFIS........................................................................................................169
FIG. 6.5 Fuzzy Rules 2001...................................................................................................170
FIG. 6.6 Análise do Sistema.................................................................................................172
14
FIG. 6.7 TU Solicitada Diária ..............................................................................................174
FIG. 6.8: Atividade de limpeza dos dados..............................................................................175
FIG. 6.9 Atividade de observação ........................................................................................176
FIG. 6.10 Atividade de escolha do método ............................................................................177
FIG. 6.11 Atividade de mineração de dados ..........................................................................178
FIG. 6.12 Atividade de normalização.....................................................................................180
FIG. 6.13 Atividade de enriquecimento .................................................................................181
FIG. 6.14 Atividade de normalização.....................................................................................182
FIG. 6.15 Atividade de codificação........................................................................................183
FIG. 6.16 Etapa de pós-processamento ..................................................................................187
FIG. 9.1 Modelo dimensional de banco de dados utilizando esquema Estrela e Snowflake 209
FIG. 9.2 Esquema de unidade McCullock – Pitts.................................................................211
FIG. 9.3 Organização em camadas da RNA.........................................................................212
FIG. 9.4 Formulário – Análise do Sistema...........................................................................224
FIG. 9.5 Formulário – Pré-processamento - Técnica ...........................................................225
FIG. 9.6 Formulário – Pré-processamento – Seleção...........................................................226
FIG. 9.7 Formulário – Pré-processamento – Limpeza .........................................................227
FIG. 9.8 Formulário – Pré-processamento – Codificação ....................................................228
FIG. 9.9 Formulário – Pré-processamento – Normalização.................................................229
FIG. 9.10 Formulário – Pré-processamento – Enriquecimento..............................................230
FIG. 9.11 Formulário – Mineração de Dados.........................................................................231
FIG. 9.12 Formulário – Pós-processamento...........................................................................232
FIG. 9.13 Formulário – Observação.......................................................................................233
15
LISTA DE TABELAS
TAB. 1.1 Matriz de Transporte de Cargas (%) – 2004...........................................................22
TAB. 2.1 Malha ferroviária Brasileira em Km.......................................................................34
TAB. 2.2 Transporte por Mercadoria - 2005..........................................................................37
TAB. 2.3 Transporte por Mercadoria – 2005 .........................................................................39
TAB. 2.4 Transporte por Mercadoria – 2005 .........................................................................40
TAB. 2.5 Transporte por Mercadoria – 2005 .........................................................................42
TAB. 2.6 Transporte 1996 – 2001 - FNS ...............................................................................45
TAB. 2.7 Transporte 1997 – 2000 - EFJ ................................................................................48
TAB. 2.8 Transporte 1997 – 2000 - EFA...............................................................................50
TAB. 2.9 Produção EFT.........................................................................................................52
TAB. 2.10 Malhas Regionais ...................................................................................................60
TAB. 2.11 Comparação Malha com Transporte das Operadoras Ferroviárias do Brasil em
2005 .....................................................................................................................60
TAB. 2.12 PIB e TKU Brasileiros............................................................................................61
TAB. 2.13 Mercadorias Transportadas em TU ........................................................................63
TAB. 2.14 Investimentos em ferrovia no Brasil (em milhões de reais). ..................................63
TAB. 2.15 Demanda Estimada na Bahia ..................................................................................64
TAB. 4.1 Codificação binária padrão...................................................................................100
TAB. 4.2 Codificação binária 1-de-N ..................................................................................100
TAB. 4.3 Codificação binária por temperatura ....................................................................100
TAB. 4.4 Despesas de Clientes ............................................................................................103
TAB. 4.5 Relação de transportes efetuados em um período ................................................114
TAB. 4.6 Relação das compras realizadas por cada cliente .................................................117
16
TAB. 4.7 Seqüências descobertas.........................................................................................118
TAB. 4.8 Clientes e suas compras em um tipo de literatura ................................................122
TAB. 5.1 Metodologias usadas em KDD.............................................................................128
TAB. 5.2 Relação técnica de previsão e horizonte...............................................................150
TAB. 6.1 Estrutura dos dados da MRS Logística.................................................................171
TAB. 6.2 Informações utilizadas na previsão.......................................................................173
TAB. 6.3 Comparação dos Métodos de Previsão.................................................................187
TAB. 9.1 Comparativo entre idade e grau de pertinência ....................................................220
17
LISTA DE SIGLAS
AHP Analytic Hierarchy Process
ALL América Latina Logística
ANTT Agência Nacional de Transporte Terrestre
apud Em
BA Bahia
BNDES Banco Nacional de Desenvolvimento Econômico e Social
CFN Companhia Ferroviária do Nordeste
COSIPA Companhia Siderúrgica Paulista
CRISP-DM Cross Industry Standard Process for Data Mining
CSN Companhia Siderúrgica Nacional
CVRD Companhia Vale do Rio Doce
DW Data Warehouse
EFA Estrada de Ferro do Amapá
EFC Estrada de Ferro Carajás
EFJ Estrada de Ferro Jarí
EFT Estrada de Ferro Trombetas
EFVM Estrada de Ferro Vitória-Minas
ENGEFER Engenharia Ferroviária – Sociedade Anônima
EQ. Equação
et al. E outros
EUA Estados Unidos da América
FCA Ferrovia Centro Atlântica
FEPASA Ferrovia Paulista – Sociedade Anônima
Ferroban Ferrovias Bandeirantes
Ferroeste Estrada de Ferro Paraná Oeste – Sociedade Anônima
Ferronorte Ferrovias Norte Brasil
FIG. Figura
FTC Ferrovia Tereza Cristina
ICOMI Indústria e Comércio de Minério
KDD Knowledge Discovery in Database
18
Km Quilometro
MPDF-DM Metodologia para Previsão de Demanda Ferroviária – Data Mining
MRN Mineração Rio do Norte
MRS MRS Logística S.A.
MS Mato Grosso do Sul
MSE Erro Quadrado Médio
MT Mato Grosso
PE Pernambuco
PND Programa Nacional de Desestatização
QTDE Quantidade
RFFSA Rede Ferroviária Federal – Sociedade Anônima
SEMMA Sample, Explore, Modify, Model, Assess
SGBD Sistema Gerenciador de Banco de Dados
SP São Paulo
SQL Structure Query Language
SR Superintendência Regional
TAB. Tabela
TKU Tonelada Útil por Quilometro
TU Tonelada Útil
19
RESUMO
Após a organização conseguir sanar seus problemas operacionais, surge a necessidade de sistemas para o suporte à tomada de decisão. A área de pesquisa de mineração de dados cresce rapidamente para atender a essas novas necessidades. No entanto, a utilização de técnicas de mineração de dados torna-se difícil pela falta de uma metodologia completa e sistemática para o desenvolvimento de sistemas de descoberta de conhecimento. Esta dissertação apresenta um modelo de formalização do processo de desenvolvimento de sistemas de descoberta de conhecimento em banco de dados para a previsão de demanda ferroviária, que inclui uma metodologia sistemática e rigorosa, a qual integra as metodologias: CRISP-DM, SEMMA, FAYYAD, e um ambiente interativo para a implementação desses sistemas. A metodologia proposta foi aplicada em uma base de dados de solicitação de transporte dos clientes da MRS Logística, no período de 1º de dezembro de 2003 até 31 de outubro de 2006; com o principal objetivo de validar a metodologia proposta, segundo critérios da própria empresa. As conclusões do estudo de casos permitiram mostrar a relevância da metodologia MPDF-DM na previsão de demanda ferroviária.
Palavras-chave: Data Mining – Mineração de Dados, metodologia, previsão de demanda, transporte ferroviário.
20
ABSTRACT
After the organization to resolve its operational problems, comes the necessity for systems to support decision making. The research area data mining grows quickly to take care of these new necessities. However, the use of data mining techniques becomes difficult due to the lack of a complete and systematic methodology for the knowledge discovery in database. This dissertation presents a model of the formal process of development of systems of discovery of knowledge in database for the prediction of railroad demand, that includes a systematic and rigorous methodology, which integrates the methodologies: CRISP-DM, SEMMA, FAYYAD, and an interactive environment for the implementation of these systems. The methodology proposal integrates the cited methodologies and was applied in a customer transport request database of MRS Logística, during the period of Dec, 1st of 2003 until Oct, 31st of 2006. This application is main objective was to validate the methodology proposal according to the criteria of the respective company. The conclusions of the case studies allowed us to show the relevance of the MPDF-DM methodology in the forecast of railroad demand.
Key-word: Data Mining, demand forecasting, methodology, railroad.
21
1 INTRODUÇÃO
1.1 CONHECIMENTO DO PROBLEMA
A gestão eficiente de qualquer empresa requer planejamento, seja ela do setor público ou
privado, industrial, varejista ou de serviços. E para que este seja efetivo é necessário que se
tenha uma expectativa precisa das condições futuras em que a empresa irá operar e de como
se relacionam os elementos condicionantes dessa expectativa.
O gestor de uma ferrovia, para tomar as deliberações corretas, deve saber qual a
expectativa de crescimento de transporte a fim de alocar os equipamentos e a mão-de-obra
necessários, e também quais são os principais fatores que afetam essa demanda e a capacidade
de oferta dos terminais de embarque / desembarque.
Tanto as decisões estratégicas como as operacionais de uma empresa requerem a
exploração do relacionamento presente entre os elementos que compõem a realidade em que a
empresa está inserida. Para apoiar decisões corporativas, como as citadas, as empresas
procuram criar sistemas e procedimentos, a fim de explorar cenários, com base em
informações quantitativas e/ou qualitativas.
Em todo o mundo, as linhas ferroviárias constituem um importante meio de transporte
tanto de passageiros quanto de carga. O transporte ferroviário caracteriza-se, especialmente,
por sua capacidade de transportar grandes volumes, com elevada eficiência energética,
principalmente em casos de deslocamentos a médias e grandes distâncias. Apresenta ainda
maior segurança em relação ao transporte rodoviário, com menor índice de acidentes e menor
incidência de furtos e roubos. A FIG. 1.1 apresenta a distribuição do transporte de cargas no
Brasil, onde uma parcela de 24% corresponde ao transporte ferroviário, segundo a ANTT
(2006a).
22
Matriz de Transportes
60%24%
14% 2%
Rodoviário
Ferroviário
Aquaviário
Dutoviário e Aéreo
FIG. 1.1 Matriz de Transportes no Brasil – 2005
Fonte: ANTT (2006a)
Os países ainda em desenvolvimento, como o Brasil, precisam melhorar os índices sócio-
econômicos da população, havendo a necessidade de um maior intercâmbio de mercadorias
com outros países. Há consenso de que os transportes ferroviário e aquaviário são os melhores
modos de transporte, visto que o trem transporta a mercadoria até o porto, e o navio completa
o trajeto até o destino final. Conforme a TAB. 1.1, no Brasil há uma margem de crescimento
não explorada pelas ferrovias.
TAB. 1.1 Matriz de Transporte de Cargas (%) – 2004
Modo
País Aquaviário Ferroviário Rodoviário
Austrália 4 43 53
Brasil 14 24 62
Canadá 11 46 43
China 13 37 50
EUA 25 43 32
Rússia 11 81 8 Fonte: MELO e MEZZONATO (2005).
A FIG. 1.2 mostra a distinção entre os níveis de planejamento envolvidos na
administração de uma linha ferroviária, a qual envolve um sistema complexo de planejamento
e tomada de decisões. Devido ao custo fixo elevado e à escassez de recursos para
23
investimento em infra-estrutura (construção de novas linhas), é necessário aproveitar ao
máximo os recursos e a capacidade disponíveis de uma ferrovia, ou seja, priorizar o nível
operacional. Portanto, o planejamento de circulação de trens constitui um dos principais
ingredientes para incrementar a produtividade de uma ferrovia, conforme MOTA FILHO
(2005), e a análise da demanda é uma destas etapas.
FIG. 1.2 Planejamento Hierárquico em Transporte Ferroviário.
Fonte: MOTA FILHO (2005).
Com o avanço da tecnologia e da capacidade de armazenagem e processamento dos
sistemas computacionais, diversos modelos e técnicas quantitativas de previsão têm sido
pesquisados, complementando e aprimorando as análises qualitativas em uma série de fatores,
incluindo maior precisão.
Os modelos de previsão quantitativos utilizam dados históricos para detectar padrões de
comportamento e fazer previsão. Tais modelos empregam ferramental matemático-estatístico
com o objetivo de representar a realidade para a qual foram criados. Diversas técnicas
24
estatísticas têm sido usadas na criação dos modelos, baseadas em diferentes pressupostos
assumidos.
Este trabalho visa explorar o uso de técnicas novas para criação de modelos voltados à
detecção de padrões e previsão de demanda / oferta. Entre essas técnicas avançadas, serão
exploradas as comumente chamadas de data mining (DM) - mineração de dados, que incluem
métodos de inteligência artificial (sistemas especialistas, lógica fuzzy, entre outros); árvores
de decisão; métodos de indução de regras; redes neurais; entre outras (GARGANO e
RAGGAD, 1999 apud PASSARI, 2003). As técnicas de árvores de decisão e métodos de
indução de regras não são técnicas de previsão de demanda. Desse modo, a mineração de
dados é uma atividade interdisciplinar pela diversidade de tecnologias que podem estar
envolvidas.
O transporte ferroviário é adequado para o transporte de mercadorias de baixo valor
agregado e grandes quantidades, tais como: produtos agrícolas, derivados de petróleo,
minérios de ferro, produtos siderúrgicos, fertilizantes, entre outros. Esse modal não é tão ágil
como o rodoviário no acesso às cargas, uma vez que estas têm que ser levadas aos terminais
ferroviários para embarque, segundo DESENVOLVIMENTO (2006). As vantagens desse
modo de transporte são: adequação para longas distâncias e grandes quantidades de carga;
baixo custo do transporte e de infra-estrutura. E suas desvantagens são: diferença na largura
das bitolas; menor flexibilidade no trajeto; necessidade maior de transbordo; tempo de viagem
demorado e irregular e, por último, alta exposição a furtos.
1.2 OBJETIVO
O objetivo geral deste trabalho é desenvolver uma metodologia capaz de identificar
padrões de relacionamentos úteis nas previsões de demanda, para subsidiar o
dimensionamento do transporte ferroviário. Essas previsões devem abordar grande parte das
deliberações de curto prazo enfrentadas no cotidiano do gestor ferroviário, em um nível
aprofundado (detalhado quanto a produtos) e dar importante subsídio para as tomadas de
decisão de investimentos em capacidade de tráfego, de transporte e de terminais, em longo
prazo.
25
1.3 JUSTIFICATIVA
As ferrovias podem ser um dos mais importantes modos de transporte terrestre se lhes
forem permitidas suas próprias metas e o exercício de suas funções específicas, ou seja, sem a
interferência do poder concedente, pois continuam a ser o meio mais eficiente de realizar
movimentos densos de mercadorias e de pessoas. Dependendo do vulto, localização e
recursos de uma região, elas podem ser essenciais para deslocar grandes volumes de
mercadorias básicas ou para movimentar contêineres em uma cadeia logística internacional; já
que as tendências econômicas e técnicas recentes, como elevados preços de energia, avanços
técnicos no manuseio e nas operações em terminais e fluxos de carga a granel, desviam na
margem as vantagens econômicas a favor das ferrovias, segundo MARQUES (1996).
As empresas de transporte ferroviário têm problemas quanto à alocação de recursos, tanto
humano quanto de equipamentos por serem limitados já que dependem do modo como o
cliente faz seu pedido. O processo de solicitação de transporte inicia-se com o pedido do
cliente, que informa a quantidade de mercadoria a ser transportada; caso a empresa
transportadora aceite esse pedido, o mesmo entrará na carteira de transporte para o período.
Por exemplo, é feita uma solicitação de transportar 106 kg em um determinado mês. A
empresa se prepara para isso, dividindo as 106 kg pelos dias úteis do mês. Porém se esse
cliente trabalha de outra maneira, deixando todo o transporte para o último dia do mês, ele
trará transtornos para a empresa e para si mesmo, porque haverá atraso na devolução dos
vagões vazios para novos carregamentos e o terminal ficará congestionado durante o final do
mês, já que não está preparado para receber uma quantidade tão grande de material. Com isso,
a empresa perderá recursos financeiros devido à alocação desnecessária de pessoal e
equipamentos durante parte do mês e atrasará sua programação de produção no final deste
mês, em função da demora na carga ou descarga dos trens. Esse problema pode ocorrer em
qualquer tipo de terminal, sendo mais propenso nos de carga geral, conforme informações da
MRS Logística S.A. (2006).
1.4 COMPOSIÇÃO DA DISSERTAÇÃO
A presente dissertação está estruturada em mais seis capítulos que tratam dos seguintes
assuntos:
26
capítulo 2 – Panorama da evolução da demanda por transporte ferroviário no Brasil;
capítulo 3 – Explana sobre algumas técnicas de previsão de demanda e seus conceitos;
capítulo 4 – Enfatiza os conceitos, técnicas e aplicações de Data Mining;
capítulo 5 – Explica o funcionamento de algumas metodologias e desenvolvimento da
proposta;
capítulo 6 – Aborda a empresa onde foi aplicado o estudo de caso, softwares utilizados e
a aplicação da metodologia proposta;
capítulo 7 - Consiste de conclusões sobre o presente estudo e propostas de trabalhos que
dêem continuidade a este.
27
2 PANORAMA SOBRE A DEMADA FERROVIÁRIA
2.1 DEMANDA POR BENS E SERVIÇOS
As empresas procuram bens e serviços para satisfazerem suas necessidades. A demanda
de mercado de um serviço informa a quantidade que os consumidores participantes daquele
mercado desejam comprar a cada preço unitário que tenham de pagar, num determinado
período de tempo, dado um cenário. Além do preço que amplia ou reduz a própria demanda,
esse cenário é representado por diversas outras variáveis, como o número dos consumidores;
suas rendas e grau de distribuição; seus gostos e preferências; o marketing; a sazonalidade,
conforme as épocas do ano e datas específicas; os preços dos demais serviços substitutos ou
complementares; entre outras. Assim, o preço do serviço estabelece a quantidade demandada,
e as demais variáveis determinam o nível da demanda em si, aumentando-a ou diminuindo-a,
segundo JORGE e MOREIRA (1995).
Para a quase totalidade dos serviços, a quantidade demandada aumenta à medida que os
preços diminuem e vice-versa. Essa relação inversa entre preço e quantidade se explica pelas
seguintes razões, segundo SILVA e STEFANELO (2002):
com a queda dos preços, o poder de compra ou a renda real aumenta, mesmo que a
renda mensal das pessoas permaneça inalterada (efeito renda);
existe uma tendência dos consumidores substituírem os bens ou serviços mais caros,
cujos preços aumentaram, por outros mais baratos e que satisfaçam as mesmas necessidades
(efeito substituição);
a preços menores, novos consumidores passam a ter condições de adquirir o serviço,
e novos usos podem ser encontrados (efeito novos compradores e novos usos).
À medida que as pessoas vão adquirindo maiores quantidades de uma mercadoria, os
acréscimos de satisfação tendem a ser cada vez menores, induzindo ao pagamento de preços
também menores (efeito utilidade marginal decrescente).
28
Para WESSELS (2002), o preço de mercado depende, basicamente, de quatro condições:
da posição e forma da demanda, do custo de produção e da interação entre as empresas que
atuam no mercado.
posição da demanda: se a demanda aumenta (se desloca para a direita), a empresa
tem condições de aumentar o preço de venda do produto. Se a demanda fica menor, a empresa
mantém o preço ou o reduz;
forma da demanda: quanto mais elástica o preço (menos inclinada) for a demanda
com que a empresa se defronta, menor será o seu poder sobre o preço de mercado; e, quanto
menos elástica (mais inelástica), maior será o poder de mercado da empresa;
custo de produção: quando ocorre aumento no custo de produção, as empresas
tendem a repassá-lo para os preços de venda dos produtos. O poder de repasse depende do
grau de liderança da empresa no mercado, da concorrência com as demais e da posição e
forma da demanda com que a mesma se defronta. Se a empresa consegue uma redução no
custo de produção, ela tem duas possibilidades: ou mantém o preço de venda e amplia sua
margem de lucro; ou reduz o preço para buscar um aumento de sua participação no mercado
(market share);
interação com as demais empresas: as empresas tendem a evitar a competição aberta,
via preços, ou as guerras de preços, porque sabem como começam, mas não sabem como
terminam; além de reduzirem a lucratividade. Ao contrário, buscam praticar uma política de
estabilidade de preços e até podem chegar a acordos informais ou formais sobre preços e
produção, que reduzem a competição e ampliam a lucratividade. Se uma empresa eleva seu
preço, e as demais não a acompanham na alta, ela perde uma parcela de sua procura. Se baixar
seu preço para ganhar consumidores, as demais são obrigadas a acompanhá-la na baixa para
não perderem mercado, fato que pode gerar perda de lucratividade para todas. Assim, as
empresas tendem a praticar uma política estável de preços, implicitamente aceita por todas, e
competir em outros aspectos do marketing, pela diferenciação de produtos e serviços e pela
diversificação.
Para MENDES (2004), além do preço que afeta a quantidade demandada, muitos outros
fatores ampliam ou reduzem a demanda, como anteriormente citados. Agora, esses fatores
serão discutidos mais detalhadamente.
29
A demografia estuda a população, onde ela vive e como vive. Os 186,77 milhões de
brasileiros, segundo estimativa do IBGE (2006), apresentam uma taxa de crescimento de
1,3% ao ano e igual expansão média da demanda. A urbanização cresce continuamente,
atingindo 81,5% do total da população e ampliando também a demanda por bens e serviços. O
aumento do nível de educação amplia as necessidades e conseqüentemente a procura por
maior variedade de bens e serviços de melhor qualidade e por produtos com maior valor
agregado. Do mesmo modo, as pessoas de meia idade consomem mais, em média, do que as
crianças e idosos, com exceções, como leite e remédios;
a abertura da economia brasileira às importações e a globalização da produção, do
comércio e das finanças, ocorridas a partir dos anos de 1990, aumentaram o grau de
competitividade interna e a disponibilidade de bens e serviços substitutos, diminuindo o poder
de mercado das empresas sobre os preços ou tornando a demanda mais elástica a preços.
Muitas empresas que não se ajustaram a essa situação, diminuindo seus preços,
experimentaram uma redução da demanda interna;
o marketing de sucesso provoca dois efeitos sobre a demanda. Primeiro, traz maior
número de consumidores para o produto e amplia suas quantidades demandadas, deslocando a
demanda para a direita, ou seja, aos mesmos preços, os consumidores passam a consumir
mais. Segundo, torna o consumidor mais fiel àquela marca, tornando a demanda mais
inelástica e conferindo à empresa maior poder sobre os preços;
a exportação amplia a demanda internacional sobre os produtos das empresas e pode
se constituir em alternativa de uma redução da demanda interna, provocada por mudanças na
política econômica ou nas variáveis aqui descritas;
a sazonalidade implica maior demanda em determinadas épocas do ano e menor em
outras, obrigando as empresas a adotarem processos adequados de logística, de estocagem e
de distribuição dos produtos;
outros fatores influenciam a demanda, como mudanças nos gostos e preferências; a
disponibilidade da mercadoria, sua qualidade e variedade, os prazos de entrega; a expectativa
de variação dos preços no futuro; a moda; a região geográfica do consumidor e o clima; o
sexo; a idade; a ocupação; a religião; a origem étnica e a política macroeconômica. Estar
atento a todas essas situações e ter rápida capacidade de adequação e resposta evidenciam a
dificuldade em se atender à soberania do consumidor e encantá-lo.
BALLOU (2006) classifica a demanda em:
30
espacial: o especialista precisa saber onde a demanda irá manifestar-se;
temporal: necessidade de saber quando a demanda ocorrerá;
irregular: quando a demanda de determinados itens é intermitente, em função do
baixo volume geral e da incerteza de quanto e quando a demanda ocorrerá;
regular: sua representação típica é a de uma série de dados que pode ter um dos
seguintes componentes – tendência, sazonalidade e aleatoriedade;
dependente: quando a demanda é gerada a partir de poucos clientes;
independente: quando a demanda é gerada a partir de muitos clientes;
A demanda é importante em qualquer setor da economia. No tópico seguinte é estudada a
demanda no setor ferroviário, sua origem, evolução e ferrovias que foram criadas para
atenderem a demandas específicas.
2.2 DEMANDA FERROVIÁRIA
Segundo SILVEIRA (2003), no início do século XVII, os transportes, no Brasil, faziam o
trajeto, primeiramente, interior - litoral e vice-versa, por caminhos primitivos, ou seja, aqueles
que não utilizam a tração mecânica, mas sim a força humana, a força animal, a corrente
aquática, a força da gravidade e a força do vento. Nos transportes terrestres, os produtos eram
carregados nas costas, por arrastamento e em veículos com rodas ou trenós com esquis. Com a
chegada das ferrovias, fruto da expansão da revolução dos transportes, esse meio de
locomoção passou a atender a agroexportação monocultora do café, cultivada nos grandes
latifúndios do Sudeste. Portanto, as ferrovias fortaleceram a agroexportação.
A aristocracia cafeeira foi a grande beneficiada com as construções ferroviárias na
América do Sul (Brasil, Venezuela, Colômbia) e América Central, mas também se
contemplou com o transporte mais eficiente os produtores de cobre e trigo (Chile); de lã (Rio
da Prata) e do açúcar (México e Antilhas), todos situados dentro da lógica da exportação,
como bem demonstra a direção dos traçados (interior - litoral, ou seja, longitudinais),
conforme SILVEIRA (2003) e observado na FIG. 2.1.
31
FIG. 2.1 Densidade das ferrovia no Brasil na década de 1870
Fonte: SILVEIRA (2003).
O estado do Acre está em amarelo, na FIG. 2.1, devido ao mesmo ter sido anexado ao
Brasil somente em 1903, quando a posse foi assegurada por meio do Tratado de Petrópolis, no
qual o nosso país troca áreas de Mato Grosso, paga dois milhões de libras esterlinas e
compromete-se a construir a ferrovia Madeira-Mamoré, conforme site do governo do estado
do ACRE (2006).
Para NUNES (1993), a produção brasileira de café atingiu um ritmo sem precedentes a
partir da metade do século XIX. Enquanto isso, a produção açucareira, ao contrário, tornava-
se cada vez menos promissora frente à concorrência da produção das Antilhas e E.U.A., além
da diminuição da demanda européia devido à produção do açúcar a partir da beterraba. O
café, por outro lado, apesar de introduzido no Brasil desde os começos do século XVII e
32
cultivado por toda a parte para fins de consumo local, assumiu importância comercial quando
ocorreu a alta do preço causada principalmente pela desorganização da produção do Haiti.
Contido na expansão comercial iniciada com a Revolução Industrial e atendendo às
necessidades das metrópoles européias, o café transformou-se em produto de exportação.
Salta, assim, de terceiro produto da pauta de exportação brasileira na década de 1830, com
18% das exportações, atrás do açúcar e do algodão, para primeiro lugar na década de 1840,
representando nesse momento mais de 40% do valor das exportações. Para FURTADO
(1989), essa primeira fase da expansão cafeeira se concentrou na região montanhosa próxima
à cidade de São Paulo, beneficiando-se de recursos semi-ociosos desde a decadência da
mineração. Assim, a mão-de-obra e transporte (mula), relativamente abundante naquele
momento, e do preço da terra, permitiu a expansão da produção a ponto de quintuplicar a
quantidade exportada entre 1821 e 1850, apesar dos preços apresentarem declínio entre os
anos 30 e 40, chegando a desvalorizar-se em média 40% durante esse período, conforme
IANNI (1989).
A produção cafeeira, segundo FURTADO (1989), passou a ser responsável pela
formação de uma nova classe empresarial. Diferentemente dos produtores de açúcar do
nordeste, que limitavam-se ao pólo da produção, deixando as atividades comerciais aos
monopólios holandês ou português, os produtores de café desde muito cedo entrelaçaram os
interesses da produção e do comércio. Essa nova classe dirigente estruturou-se com a
aquisição de terras, recrutamento de mão-de-obra, organização e direção da produção,
transportes, comercialização nos portos e interferência na política econômica e financeira.
Outrossim, percebeu a importância do governo como instrumento de ação econômica e, por
essa consciência clara de seus próprios interesses, diferenciou-se de outros grupos dominantes
anteriores ou contemporâneos, segundo JACOB (1982).
Alguns “obstáculos” porém, estavam presentes na expansão da produção cafeeira.
Coincidentemente, durante a expansão do plantio na década de 1830, o governo imperial
brasileiro instituiu, em novembro de 1831, a lei que proibia o tráfico internacional de negros,
e com isso as elites cafeeiras passaram a ter dois problemas: mão-de-obra e uso da terra diante
das necessidades da expansão da produção.
33
A ferrovia representava, então, nova oportunidade de investimento para o capital
cafeeiro, ao mesmo tempo em que provocava uma redução apreciável nos custos do transporte
do café, que antes era feito em “lombos de mula”. Surgindo como parte do complexo cafeeiro,
contribuindo para a realização do sistema de produção agroexportador. Assim, apesar de a
ferrovia ser construída e implantada por concessão estatal, atende basicamente às
necessidades dessa elite empresarial que se torna hegemônica no aparelho de Estado, até
1930. Portanto, toda a construção ferroviária de São Paulo acontece durante o período em que
esses interesses agroexportador dominam o aparelho do Estado, nas suas mais variadas
instâncias, segundo NUNES (1993).
A partir da segunda metade do século XIX, com a chegada do capital inglês e o
financiamento interno (público e privado), foram construídas várias estradas de ferro para
escoar a produção de café do Sudeste e substituir os transportes primitivos. No mesmo
período, no Nordeste, as ferrovias (Recife ao São Francisco, Baturité, São Francisco, Central
da Bahia e Ramais, Central de Pernambuco, etc.) emergiram para transportar, em especial,
açúcar, algodão e cacau, segundo CAMPOS e DOLHNIKOFF (1994).
Para SILVEIRA (2003), a maior parte das construções ferroviárias foi implantada de
1854 a 1879 nas regiões agroexportadoras, compostas pelos complexos cafeeiros, como pode
ser observado na TAB. 2.1, quando essas regiões possuíam 82,7% de toda a quilometragem
ferroviária do país. Nesse período, o direcionamento das estradas de ferro era para o interior
do país, o que propiciou também a ampliação da região cafeeira, porque somente um
transporte eficiente poderia oferecer condições econômicas mais favoráveis para o aumento
da distância entre a área produtora e o porto. A expansão das ferrovias causou prejuízos às
manufaturas situadas no interior, pois o fato de elas se localizarem afastadas dos grandes
centros tornou-se obstáculo ao transporte dos produtos estrangeiros nas suas áreas de
abrangência. Com as ferrovias indo até o interior, ampliaram-se as regiões servidas pelos
produtos estrangeiros, que passaram, então, a fazer concorrência com a produção local.
34
TAB. 2.1 Malha ferroviária Brasileira em Km
Anos
Região Cafeira Brasil %
1854
14,5
14,5
100,0
1859
77,9
109,4
71,2
1864
163,2
411,3
39,7
1869
450,4
713,1
63,2
1874
1.053,1
1.357,3
77,6 1879
2.395,9
2.895,7
82,7 1884
3.838,1
6.324,6
60,7 1889
5.590,3
9.076,1
61,6 1894
7.676,6
12.474,3
61,5 1899
8.713,9
13.980,6
62,3 1904
10.212,0
16.023,9
63,7 1906
11.281,3
17.340,4
65,1 1910
... 21.466,6
... 1915
... 26.646,6
... 1920
... 28.556,2
... 1925
... 32.000,3
... 1929
18.326,1
32.000,3
57,3 Fonte: SILVEIRA (2003)
Entre 1879 e 1894, já se percebia uma certa mudança com a região cafeicultora
concentrando menos quilometragem (61,5% de toda a quilometragem existente no Brasil). A
região cafeeira, nesse período, já não tinha o mesmo vigor da fase anterior, e o Sul passou a
receber construções férreas, diminuindo a porcentagem das ferrovias na região cafeeira,
conforme BORGES (1990). Mesmo com a baixa da lavoura (café, açúcar e algodão), no
último quarto do século XIX, o café ainda permaneceria por meio século como principal
produto brasileiro. Nesse período, o café entrou em crise e agravou a instabilidade econômica
do Brasil (especialmente de 1880 a 1886), o que acarretou manifestações nacionalistas e
tendências favoráveis à implantação do protecionismo e ao intervencionismo, servindo
também de argumento para os industrialistas, conforme SILVEIRA (2003).
Enfraquecendo a cafeicultura, a preocupação, primeiramente, foi com relação ao
barateamento dos custos de transportes para atender à monocultura e, secundariamente, com a
diminuição dos arquipélagos geoeconômicos. Essa preocupação expressou-se no Decreto 524,
de 26 de junho de 1890, que previa a necessidade de realização de um plano geral de viação
para o território brasileiro, o qual deveria levar em consideração a ampliação territorial de
produtos da monocultura, defesa do território e aumento da comunicação entre os estados e a
35
capital da República, conforme SILVEIRA (2003). Delegava, também, responsabilidades aos
Estados Federativos para fazerem as ligações entre os centros populosos e as regiões
produtivas às linhas de viação nacional e aos portos, ficando o Brasil com a seguinte malha
ferroviária em 1930, conforme FIG. 2.2.
FIG. 2.2 Ferrovias Brasileiras na década de 1930
Fonte: SILVEIRA (2003)
36
A seguir são apresentadas ferrovias que foram criadas para atender a uma demanda
específica.
2.2.1 FERROVIA TEREZA CRISTINA (FTC)
Com a descoberta do carvão, por volta de 1830, na cabeceira do rio Tubarão e com a
demanda pelo mesmo na Europa, havia a necessidade de transportá-lo. Somente em 1874, o
Império autorizou a construção da ferrovia, dando o nome em homenagem à esposa do
imperador, e tomou a seu cargo o transporte do carvão de Santa Catarina aos portos de
embarque de Imbituba e de Laguna. O término da construção ocorreu em 1880 e totalizou
125.152 metros de ferrovia, conforme FIG. 2.3. Durante os anos seguintes, foram construídos
os ramais, todos por causa da descoberta do carvão no local, esquivando-se de dar condições
para o transporte de mercadorias e outras cargas. Segundo ANTT (2006), a empresa possui
164 km de linhas férreas. A demanda por transporte na FTC é dividida em marcos assim
definidos, conforme site da ferrovia Tereza Cristina (2006):
primeiro: em 1945, com a instalação do lavador de Capivari e o início do suprimento
de carvão à Companhia Siderúrgica Nacional (CSN) e, posteriormente, à toda a siderurgia
brasileira integrada ao carvão mineral;
segundo: em 1978, com o estabelecimento da Indústria Carboquímica Catarinense
(ICC), em Imbituba, e o objetivo de aproveitar os rejeitos perigosos do carvão como fonte de
enxofre, com a conseqüente demanda de seu transporte;
terceiro: na segunda crise do petróleo, que despertou maior interesse pelo uso do
carvão Nacional;
A conjunção dos três primeiros fatores levou ao período áureo da ferrovia, entre 1983 e
1986, quando o transporte se situou no nível de sete milhões de toneladas / ano.
Com a superação da crise do petróleo, com o fim da obrigação em 1990 das siderúrgicas
utilizarem o mínimo de 20% do carvão nacional e com a paralisação da ICC, em 1992, a
demanda de transporte reduziu-se às necessidades de suprimento da Usina Termelétrica Jorge
Lacerda, situada no município de Capivari de Baixo, cuja primeira unidade iniciou a operação
em 1965.
37
quarto: em 1997, a ferrovia é transferida para a iniciativa privada. A inauguração da
etapa quatro da usina Jorge Lacerda, a escassez de energia no país e o aumento do consumo
de energia pela Eletrosul fazem aumentar a demanda por transporte na ferrovia.
FIG. 2.3 Ferrovia Tereza Cristina
Fonte: ANTT (2006c).
Segundo a ANTT (2006c), as mercadorias transportadas pela FTC estão representadas na
TAB. 2.2.
TAB. 2.2 Transporte por Mercadoria - 2005
TU (103) TKU (106) Mercadoria
Qtde % Qtde %
Carvão mineral 2.370,60
98,76 165,40 98,04 Revest. Cerâmicos 29,80 1,24 3,30 1,96
Total 2.400,40
100,00 168,70 100,00 Fonte: ANTT (2006c).
2.2.2 ESTRADA DE FERRO CARAJÁS (EFC)
No dia 28 de fevereiro de 1985, era inaugurada a EFC, pertencente e diretamente operada
pela Companhia Vale do Rio Doce (CVRD), na região Norte do país, ligando o interior ao
principal porto da região, em São Luís.
38
Com seus 892 quilômetros de linha singela, conforme FIG. 2.4, 73% de sua extensão em
linha reta e 27% em curva de excelentes condições técnicas, a EFC é uma das ferrovias com
melhores índices de produtividade do mundo. Foi construída para o escoamento do minério de
ferro da Serra de Carajás, no Pará, para o porto de Ponta da Madeira, no Maranhão, que em
1994 representava 95% do volume transportado (37,5 mil milhões de toneladas / km (TKU) )
pela EFC, segundo a CVRD (2006), e, em 2005, transportou 69,7 mil milhões de TKU, com
92,45% de minério de ferro, conforme a ANTT (2006a), com maiores detalhes na TAB. 2.3.
FIG. 2.4 Estrada de Ferro Carajás
Fonte: ANTT (2006a).
A EFC foi concebida para dar maior produtividade aos trens de minério e hoje tem um
dos centros de controle mais modernos do mundo, que possui um sistema integrado baseado
em uma rede de telecomunicações por fibra ótica. As velocidades máximas durante o tráfego
é de 80 km/h, com o trem vazio, e 75 km/h, com o trem carregado, em um percurso com 347
curvas. A EFC conta hoje com 5.353 vagões e 100 locomotivas, conforme a CVRD (2006).
A EFC conecta-se à Companhia Ferroviária do Nordeste (CFN), à Ferrovia Norte-Sul, ao
Terminal Marítimo de Ponta da Madeira (São Luís - MA) e ao Porto de Itaqui (São Luís -
MA).
39
TAB. 2.3 Transporte por Mercadoria – 2005
TU (103) TKU (106) Mercadoria Qtde % Qtde %
Minério de Ferro
72.909,90
90,42
64.275,50
92,45
Manganês 1.770,30
2,20
1.590,40
2,29
Ferro gusa 2.775,50
3,44
1.645,50
2,37
Soja 1.292,60
1,60
676,10
0,97
Combustíveis 661,50
0,82
389,20
0,56
Fertilizantes 33,90
0,04
17,60
0,03
Bebidas 41,80
0,05
21,50
0,03
Cimento 7,20
0,01
3,90
0,01
Veículos 0,10
0,00
0,00
0,00
Toretes 0,00
0,00
0,00
0,00
Outras 1.139,50
1,41
905,30
1,30
Total
80.632,30
100,00
69.525,00
100,00
Fonte: ANTT (2006a).
Desde a inauguração da EFC em 1985, além de minério de ferro e manganês, têm
passado pelos seus trilhos, anualmente, cerca de seis milhões de toneladas de produtos como
madeira, cimento, bebidas, veículos, fertilizantes, combustíveis, produtos siderúrgicos e
agrícolas, com destaque para a soja produzida no sul do Maranhão, Piauí, Pará e Mato Grosso,
conforme TAB. 2.3.
2.2.3 ESTRADA DE FERRO VITÓRIA-MINAS (EFVM)
Com 905 quilômetros de extensão, a EFVM é uma subsidiária da Companhia Vale do Rio
Doce (CVRD) com o objetivo de transportar minério de ferro de Minas Gerais para
exportação por meio do porto de Tubarão. Devido à queda do volume de exportações de
minério, decorrente da conjuntura internacional entre os anos de 1988 e 1995, a ferrovia
procurou diversificar suas atividades para transporte de granéis e carga geral. A participação
do minério na carga total tem variado bastante conforme o período apurado: em 1976, era
92%; em 1988, era 49 %; em 1995, atinge 44 %; conforme a CVRD (2006); e, em 2005, de
78%, conforme a ANTT (2006b). A TAB. 2.4 demonstra a participação das principais
mercadorias transportadas pela EFVM no ano de 2005.
40
TAB. 2.4 Transporte por Mercadoria – 2005
TU (103) TKU (106) Mercadoria Qtde % Qtde %
Minério de Ferro 102.770,70
78,47
55.113,50
80,28
Carvão mineral 4.705,70
3,59
2.735,30
3,98
Produtos siderúrgicos
5.862,60
4,48
2.474,50
3,60
Ferro gusa 3.048,80
2,33
1.722,40
2,51
Farelo de soja 332,20
0,25
215,70
0,31
Calcário siderúrgico 2.443,70
1,87
869,20
1,27
Coque 1.433,20
1,09
513,40
0,75
Toretes 1.654,60
1,26
373,00
0,54
Outras 8.710,50
6,65
4.631,00
6,75
Total
130.962,00
100,00
68.648,00
100,00
Fonte: ANTT (2006b).
Incorporada à CVRD na década de 40, a Vitória - Minas foi construída pelos ingleses e
inaugurada em 18 de maio de 1904. É hoje uma das mais modernas e produtivas ferrovias
brasileiras, transportando 37% de toda a carga ferroviária do país.
Localizada na região Sudeste, a EFVM faz conexão com outras ferrovias, integrando os
estados de Minas Gerais, Goiás, Espírito Santo, Mato Grosso, Mato Grosso do Sul, Tocantins
e o Distrito Federal, além de ter acesso privilegiado aos principais portos do Espírito Santo,
entre eles os de Tubarão e Praia Mole, conforme FIG. 2.5.
FIG. 2.5 Estrada de Ferro Vitória-Minas
Fonte: ANTT (2006b).
41
Da extensão total da ferrovia, 594 quilômetros são em linha dupla e correspondem a 3,1%
da malha ferroviária brasileira. Dispondo de 15.376 vagões e 207 locomotivas, a EFVM
transportou, em 2005, cerca de 131 milhões de toneladas por ano, das quais 80% são minério
de ferro e 20% correspondem a mais de 60 diferentes tipos de produtos, tais como aço,
carvão, calcário, granito, contêineres, ferro-gusa, produtos agrícolas, madeira, celulose,
veículos e cargas diversas, conforme CVRD (2006).
Diariamente, um trem de passageiros circula em cada sentido entre Vitória e Belo
Horizonte/Itabira, chegando a transportar em 2005 cerca de 1 milhão e cem mil de pessoas, de
acordo com a CVRD (2006). Por meio da EFVM e dos portos do Espírito Santo, a Companhia
Vale do Rio Doce permite o acesso dos produtos brasileiros ao mercado internacional em
condições mais competitivas, reafirmando sua responsabilidade com o desenvolvimento
econômico e social do Brasil.
2.2.4 FERRONORTE
A FERRONORTE S.A. - Ferrovias Norte Brasil - foi projetada para atender
principalmente à demanda do Grupo Itamarati, que, na década de 1980, era o principal
exportador de soja do país. Pela dimensão, o projeto é de longo prazo e vem sendo implantado
em trechos, tendo sido iniciadas as operações ferroviárias a partir da abertura do tráfego
público do primeiro trecho, que se inicia às margens do Rio Paraná (Ponte Rodoferroviária) e
termina no Município de Chapadão do Sul, no Estado do Mato Grosso do Sul. O Ministério
dos Transportes liberou o último trecho construído entre Alto Taquari-MT e Alto Araguaia-
MT, que somado ao primeiro (Chapadão do Sul-MS e Alto Taquari-MT) totaliza 504 Km de
extensão.
42
Em 1998, foi criada a empresa Brasil Ferrovias S.A. com a fusão das ferrovias Ferrovia
Norte Brasil S.A., Ferrovia Novoeste S.A. e Ferrovias Bandeirantes S.A.. Ou seja, foi feita a
união da Ferronorte com as concessionárias das Malhas Oeste (Novoeste) e Paulista
(Ferroban) da antiga Rede Ferroviária Federal.
Em 2002, ocorreu uma cisão na empresa:
o corredor de bitola larga (1,60m), remanescente da Ferronorte e parte da Ferroban
(trechos oriundos da antiga Companhia Paulista de Estradas de Ferro), continuou sob a
denominação Brasil Ferrovias;
o corredor de bitola métrica, remanescente da Novoeste (antiga Estrada de Ferro
Noroeste do Brasil) e de partes da Ferroban (trechos oriundos em sua maioria das antigas
ferrovias Sorocabana e Mogiana), passou a ser denominado Novoeste Brasil.
Em 2005, a FERRONORTE transportou mais de 8 milhões de toneladas, conforme TAB.
2.5, com destaque para a soja e seus derivados.
TAB. 2.5 Transporte por Mercadoria – 2005
TU (103) TKU (106) Mercadoria Qtde % Qtde %
Soja 3.772,60
47,06
2.985,00
57,18
Farelo de soja 1.793,00
22,36
1.470,50
28,17
Adubos e fertilizantes
512,40
6,39
517,80
9,92
Milho 7,80
0,10
3,10
0,06
Outras 1.931,20
24,09
243,90
4,67
Total
8.017,00
100,00
5.220,30
100,00
Fonte: ANTT (2006b).
Em maio de 2006, juntamente com a Novoeste Brasil, foi fundida à América Latina
Logística (ALL), por meio de processo de troca de ações entre seus controladores. Com isso,
a ALL passa a operar uma malha de mais de 20 mil Km de extensão, com uma frota de 960
locomotivas e 27 mil vagões, representada na FIG. 2.6, conforme a ALL (2006).
43
FIG. 2.6 ALL
Fonte: ALL (2006).
2.2.5 FERROVIA NORTE-SUL
O traçado inicial da Ferrovia Norte-Sul previa a construção de 1550 quilômetros de
trilhos, cortando os estados do Maranhão, Tocantins e Goiás. Com a Lei nº 11.297 de 09 de
maio de 2006, da Presidência da República, que incorporou o trecho Açailândia-Belém ao
traçado inicialmente projetado, a Ferrovia Norte-Sul terá, quando concluída, 1980 quilômetros
de extensão, segundo TRANSPORTES (2006b).
A construção da Ferrovia Norte-Sul tem por objetivo ligar as regiões Norte e Centro-Sul,
integrando os modais de transportes existentes ao longo dessas regiões. O primeiro trecho
ficou pronto em 1994 e nesse mesmo ano foram transportadas 203,7 mil toneladas.
Atualmente estão em operação 215 km, ligando as cidades de Açailândia a Estreito, ambas no
Maranhão, conforme FIG. 2.7. Mas o traçado projetado liga Açailândia a Senador
44
Canedo/GO. Em Açailândia/MA, a Norte-Sul se conecta com a Estrada de Ferro Carajás,
permitindo acesso ao porto de Ponta do Madeira, em São Luís. No estado de Goiás, a ferrovia
se conectará à malha férrea nacional por meio da Ferrovia Centro Atlântica (FCA).
FIG. 2.7 Ferrovia Norte-Sul Fonte: TRANSPORTES (2006b).
O volume transportado pela ferrovia no ano de 2001 alcançou um aumento de 13% em
relação ao exercício anterior, mantendo assim a projeção verificada nos últimos seis anos –
conforme mostra a TAB. 2.6. Com o transporte de 664 mil toneladas de carga geral em 2001,
dos quais 542 mil referem-se à soja, quase 2,8 milhões de toneladas foram escoados pelos
trilhos da Norte-Sul entre 1996 e 2001, quando foi iniciada a operação comercial desse trecho,
representando para o produtor local uma redução no custo do frete calculada em torno de 30%
em relação ao praticado pelo modal rodoviário, segundo VALEC (2006).
45
TAB. 2.6 Transporte 1996 – 2001 - FNS
Ano TU
1996 266.661 1997 366.529 1998 410.571 1999 498.188 2000 593.895 2001 664.016
Fonte: VALEC (2006).
A importância do setor ferroviário nas novas áreas onde está havendo expansão da
agricultura é fundamental para o desenvolvimento econômico brasileiro, inclusive por meio
de melhores preços no mercado internacional. Com a concretização da Norte-Sul, a soja que
sai de Goiás chegará ao porto de Rotterdam, na Holanda, 8% mais barata. Portanto, com uma
ferrovia bem estruturada, haveria também impactos positivos na circulação de produtos
industrializados do Centro-Oeste e Norte do país, podendo chegar aos mercados do Centro-
Sul mais competitivos e vice-versa (diminuições do custo-Brasil nos transportes), segundo
SILVEIRA (2003).
A ferrovia transportará no sentido sul-norte produtos agrícolas (soja e algodão),
industrializados (açúcar, farelo e óleo de soja) e minerais e, no sentido norte-sul,
combustíveis, fertilizantes e carga geral, permitindo explorar comercialmente uma área de
aproximadamente 1,8 milhão de quilômetros quadrados com produtos tradicionais como a
soja e potenciais como celulose, madeira e bioenergia. As projeções elaboradas indicam que,
com a ferrovia operando até Palmas, no Tocantins, serão transportadas 11,2 milhões de
toneladas de cargas em 2010, devendo atingir 25,8 milhões de toneladas em 2020, segundo o
Ministério dos Transportes (2006).
2.2.6 FERROVIA TRANSNORDESTINA
Idealizada há mais de 100 anos, a estrada de ferro que cruza o sertão chegou a ganhar
alguns trilhos em 1990, mas teve suas obras paralisadas por falta de verbas em dezembro de
1992, segundo DNIT (2006). Com a retomada do projeto, este passou a ser conhecido
também por nova Transnordestina.
46
A implantação da nova Transnordestina possibilitará a criação de novos corredores de
exportação de produtos agrícolas, ligando o oeste da Bahia, o sul do Maranhão e o sudoeste
do Piauí até os portos de Pecém, no Ceará, e Suape, em Pernambuco.
A ferrovia terá 1.815 km de extensão, com 1.193 km de linhas novas e 622 km de vias antigas
a serem remodeladas. O projeto inclui a construção de ramais e sub-ramais na malha
Nordeste; a recuperação ou remodelação de trechos já operados pela Companhia Ferroviária
do Nordeste (CFN); e a construção de dois terminais portuários privativos – um no Porto de
Pecém e o outro no Porto de Suape. Os trechos a serem construídos ou remodelados se
localizam nos estados do Ceará, Piauí e Pernambuco, ligando o terminal ferroviário (ponto de
embarque) da cidade de Eliseu Martins, no Piauí, aos portos de Pecém e Suape, conforme
FIG. 2.8.
FIG. 2.8 Ferrovia Transnordestina Fonte: TRANSPORTES (2006c).
47
Segundo o BNDES (2006), o projeto oferece alternativa ao escoamento da produção de
grãos, dos ditos cerrados setentrionais, que ocorrem no oeste da Bahia, Piauí e Maranhão. O
crescimento da produção de grãos daquelas regiões engendrado pelo projeto poderá levar ao
estabelecimento de atividades produtivas baseadas no agronegócio ao longo do traçado da
ferrovia, para desenvolvimento e atendimento de mercado interno. Outro importante mercado
a ser atingido pelo projeto será o pólo gesseiro de Araripina (PE).
2.2.7 ESTRADA DE FERRO JARI (EFJ)
A EFJ, construída para transportar madeira que alimenta a fábrica de celulose do Projeto
Jari, entrou em operação em 1979, segundo SANT’ANNA (1998). Localiza-se ao norte do
Estado do Pará, próximo à divisa com o Estado do Amapá, conforme FIG. 2.9. A madeira da
região é transportada até o Porto de Mungumba, à margem do Rio Jari.
FIG. 2.9 Estrada de Ferro Jari Fonte: ANTT (2006b).
A configuração do projeto Jari contemplava a produção de vários produtos, entre os quais
a celulose. Para abastecer a fábrica de celulose, foi necessária à construção da ferrovia, que
em função da sua grande capacidade de transporte, aliada ao baixo custo, supria de modo
confiável e seguro. O projeto da ferrovia foi desenvolvido nos Estados Unidos, sendo que em
sua implementação houve a necessidade de modificações técnicas devido às características
topográficas não observadas adequadamente nos levantamentos preliminares de campo.
Aliado aos problemas técnicos, apenas 35% das linhas previstas inicialmente foram
construídas, gerando conseqüentemente redução no número de locomotivas e vagões, o que
48
não chegou a impedir o abastecimento eficaz da fábrica de celulose (Jarcel Celulose S.A.),
segundo TRANSPORTES (2003b).
Atualmente, a ferrovia possui 68 quilômetros de linhas que interligam os quatro pátios
principais da Ferrovia: Mungumba, no Km 0, onde está localizada a área industrial, é o pátio
terminal do transporte de madeira para celulose; São Miguel, no km 36; Ponte Maria, no km
22; e Pacanari, no km 45. Estes são os principais pátios de carregamento dos vagões, local
onde são estocadas as madeiras oriundas das áreas de corte. Existem ao longo das linhas
alguns pontos intermediários onde eventualmente é estocada a madeira em função da
localização dos pátios principais em relação às áreas de corte. O fluxo do tráfego ferroviário é
regido pela necessidade de madeira na fábrica de celulose, ficando em média na ordem de três
viagens/dia, sendo as composições normalmente constituídas por vagões com madeira,
podendo chegar a 24 vagões, quando transporta-se bauxita refratária com madeira, não
utilizando-se unidades múltiplas, segundo TRANSPORTES (2001). O transporte atual
também contempla brita para uso na manutenção da via permanente e máquinas operatrizes
em vagões adaptados, conforme TAB. 2.7.
TAB. 2.7 Transporte 1997 – 2000 - EFJ
TU (milhões) TKU (bilhões) Mercadoria
1997 1998 1999 2000 1997 1998 1999 2000 Madeira 0,86
1,40
1,36
1,01
0,02
0,03
0,04
0,03
Outras 0,24
0,20
0,15
0,19
0,01
0,01
0,01
0,01
Total
1,10
1,60
1,51
1,20
0,03
0,04
0,05
0,04
Fonte: Ministério dos Transportes (2001).
2.2.8 ESTRADA DE FERRO DO AMAPÁ (EFA)
Em 1943, o território federal do Amapá foi criado, e seu governo iniciou campanhas para
procurar descobrir algum tipo de riqueza mineral na região que pudesse vir a gerar as divisas
ao novo território e sustentasse seu desenvolvimento. Foram oferecidos diversos incentivos
para que as pessoas “garimpassem” o território em busca de minerais ou jazidas, acabando por
ser descoberta uma jazida de manganês de alto teor na região da Serra do Navio.
49
O governo cedeu a jazida por meio de licitação pública, e o grupo vencedor obteve
parceiros nos Estados Unidos, os quais iniciaram prontamente os trabalhos de prospecção, que
duraram cerca de dois anos e cujos resultados foram satisfatórios a ponto de garantir o
investimento necessário do governo americano no projeto, até mesmo porque o advento da
Segunda Guerra Mundial obrigava aquele país a buscar novas jazidas de manganês, metal
muito utilizado pela indústria bélica.
O projeto constava da construção de uma vila em plena floresta - na área da mineração;
outra vila junto ao rio Amazonas - para embarque do minério - e uma ferrovia que interligasse
as duas vilas. Com tudo projetado, iniciaram-se as obras de infra-estrutura do projeto Indústria
e Comércio de Minério (ICOMI) no ano de 1947, construção realizada por empresas
americanas.
O distrito manganífero da Serra do Navio está situado às margens do rio Amapari, antigo
território e hoje Estado do Amapá. O acesso a esse distrito é feito atualmente a partir de
Macapá, capital do estado, por meio da Estrada de Ferro Amapá, num percurso de 193 Km.
Desse percurso, aproximadamente, 108 Km são de campos e 85 Km atravessando a mata.
A Estrada de Ferro do Amapá, cuja construção foi iniciada em março de 1954 e concluída
em fins de setembro de 1956, é destinada ao transporte de minério de manganês das jazidas de
Serra do Navio ao Porto de Santana, situado à montante da cidade de Macapá, na margem
esquerda do canal norte do Rio Amazonas, conforme a FIG. 2.10.
FIG. 2.10 Estrada de Ferro do Amapá Fonte: ANTT (2006b).
50
Em janeiro de 1957, a Estrada de Ferro do Amapá passou a operar regularmente, tendo
transportado, naquele ano, 678 mil toneladas de minério e carga geral. Em 1958, o transporte
de minério era feito na base de 258 vagões semanais, ou seja, 42 vagões diários.
Segundo TRANSPORTES (2003a), em 1997, a ferrovia transportou 84 mil passageiros e
1 milhão de toneladas de mercadorias (minério de manganês, ferro-silício, dormentes, areia,
explosivos, etc), equivalente a 194 milhões de TKU, conforme TAB. 2.8, com 40
empregados.
TAB. 2.8 Transporte 1997 – 2000 - EFA
TU (milhões) TKU (bilhões) Carga
1997 1998 1999 2000 1997 1998 1999 2000
Mercadorias 1,00
0,29
0,30
0,22
0,19
0,03
0,04
0,03
Total
1,00
0,29
0,30
0,22
0,19
0,03
0,04
0,03
Fonte: Ministério dos Transportes (2003a).
Atualmente, as minas ainda apresentam alguns veios de manganês, porém a eles
associados existe muita matéria inservível para tornar-se economicamente viável a prospecção
a céu aberto. As grandes montanhas existentes de minério em Serra do Navio apresentam o
teor de 36% de manganês, tornando-se uma grande montanha de rejeitos não padronizados de
minério, segundo TÁLAMO e MARTIRE (2006).
O movimento na ferrovia resume-se na remessa semanal de duas composições de 20
vagões de cromita, a qual é extraída a 40 Km de Cupixi, sendo transportada via rodovia para
essa cidade; ali é transferida para a ferrovia e levada ao terminal marítimo em Santana.
Do grande império de que a Estrada de Ferro Amapá fazia parte, vê-se ao longo de suas
linhas as tentativas de procura de uma alternativa; grandes clareiras na floresta atestam o
investimento sem retorno que foram as tentativas para a implantação do arroz, da mandioca,
da cana de açúcar e do óleo de dendê.
Somente a floresta artificial composta de Pinus e Eucalipto sobreviveu nos primeiros
quilômetros da ferrovia, e hoje o eucalipto é abatido, descascado e enviado a Santana, a fim
51
de tornar-se pequenos pedaços para a produção de celulose no Japão, para onde é transportado
via marítima em contêineres.
As operações na mina, que encontra-se fechada, na ferrovia e no porto de embarque de
minério, hoje estão divididas e terceirizadas, cabendo a ICOMI a fiscalização dos serviços.
Em março de 2006, o governador do Estado do Amapá assinou contrato de concessão da
ferrovia, com vigência de 20 anos, com a MMX Logística, que prevê, para os próximos dois
anos a recuperação das estações ferroviárias entre Santana e Serra do Navio, revitalização de
todo o leito da ferrovia com troca de trilhos, assim como modernização dos vagões dos trens,
dotando-os de poltronas confortáveis e sinalização moderna em todo o trajeto, conforme
AMAPÁ (2006).
Também está prevista no contrato a ampliação dos veículos ferroviários que servem à
população, com adequação de mais vagões para passageiros, assim como de vagões
cargueiros de melhores estruturas para transporte de minérios e produtos agrícolas.
2.2.9 ESTRADA DE FERRO TROMBETAS (EFT)
No final de 1971, a Alcan deu início à implantação do projeto Trombetas, mas logo
depois as obras foram suspensas, em função da depressão do alumínio no mercado mundial.
Em outubro de 1972, a Companhia Vale do Rio Doce (CVRD) e a Alcan iniciaram
entendimentos para constituir uma “joint-venture”, visando à retomada da implantação do
projeto. Em junho de 1974, foi assinado o acordo de acionistas da Mineração Rio do Norte
(MRN), atualmente composto pelas seguintes empresas: CVRD (40%), BHP Billiton Metais
(14,8%), Alcan (12%), CBA-Votorantim (10%), Alcoa Brasil (8,58%), Alcoa World Alumina
(5%), Norsk Hydro (5%) e Abalco (4,62%), conforme NORTE (2006a).
A construção do projeto foi retomada no primeiro trimestre de 1976, e as atividades de
lavra foram iniciadas em abril de 1979. Nesse mesmo ano, em 13 de agosto, foi realizado o
primeiro embarque de minério em um navio para o Canadá.
52
As operações da MRN, em Porto Trombetas, consistem na extração do minério,
beneficiamento, transporte ferroviário, secagem e embarque de navios, conforme FIG. 2.11. A
ferrovia está representa na FIG. 2.12.
FIG. 2.11 Operação da MRN Fonte: NORTE (2006b).
A capacidade inicial de produção da MRN foi de 3,35 milhões de toneladas de bauxita
anuais. O aumento da demanda de mercado e a grande aceitação do minério produzido pela
empresa nas refinarias de todo o mundo favoreceram o aumento gradativo dessa capacidade.
Com isso, ocorreu um aumento na produção da ferrovia, conforme a TAB. 2.9.
TAB. 2.9 Produção EFT
TU (milhões) Mercado
2001 2002 2003 2004 2005 Externo 3,80
2,60
4,30
7,00
7,40
Interno 7,10
7,30
9,80
9,50
10,40
Total
10,90
9,90
14,10
16,50
17,80
Fonte: NORTE (2006b).
53
FIG. 2.12 Estrada de Ferro Trombetas Fonte: ANTT (2006b).
A MRN está operando nas minas Saracá, Almeidas e Avisos. Nelas, o minério encontra-
se a uma profundidade média de 8m, coberto por uma vegetação densa e uma camada estéril
composta de solo orgânico, argila, bauxita nodular e laterita ferruginosa.
Para ser lavrada, a bauxita tem que ser decapeada, operação que se faz de modo
seqüencial, em faixas regulares, onde o estéril de cobertura escavado é depositado na faixa
adjacente, na qual o minério fora anteriormente lavrado.
Da lavra, o minério escavado é transportado em caminhões fora-de-estrada até as
instalações de britagem, onde é reduzido a uma granulometria de até três polegadas. De lá, ele
segue por meio de correias transportadoras para as instalações de lavagem, ciclonagem e
filtragem.
Do processo de beneficiamento, resultam aproximadamente 27% de massa sólida como
rejeito de bauxita, que é depositada nos reservatórios construídos em áreas já mineradas, no
platô Saracá.
Depois de beneficiado, o minério é transportado da área da Mina até o Porto, ao longo de
uma ferrovia de 28 km. Como a bauxita pode ser comercializada tanto úmida quanto seca, na
54
área do Porto, o minério pode ter dois destinos, antes de embarcar em navios: ou alimenta os
três fornos secadores ou segue úmido para o pátio de estocagem.
O porto tem calado para receber navios com capacidade aproximada de 60 mil toneladas.
2.2.10 FERROVIA DO AÇO
No início da década de 1970, foi feito um estudo preliminar pelo consórcio
Transcon/Engevix para o estabelecimento de uma ligação ferroviária moderna entre Belo
Horizonte e São Paulo. Os resultados desse estudo foram publicados com estardalhaço pela
imprensa em maio de 1973, recebendo então o nome de Ferrovia do Aço. Essa futura ligação
teria um ramal que, partindo de Jeceaba, alcançaria Volta Redonda; e além de estabelecer uma
ligação ferroviária direta entre duas das principais capitais do país, desafogaria a Linha do
Centro, que liga Belo Horizonte ao Rio de Janeiro, porque passaria a escoar o minério
requerido pela COSIPA e pela Companhia Siderúrgica Nacional, bem como poderia assumir
parte do volume destinado à exportação, conforme FIG. 2.13. Os padrões técnicos dessa
ligação, num total de 834 quilômetros, eram de Primeiro Mundo: via dupla, raio mínimo de
900 m, rampa máxima de 1% e eletrificação com corrente alternada a 25 kV, 60 Hz. O trem
típico teria 100 vagões tracionados por quatro locomotivas em tração múltipla, teria
comprimento de um quilômetro e peso de 12.000 toneladas. O custo do projeto também era
impressionante: 1,1 bilhões de dólares.
Apesar de gigantesco, o projeto até era justificável, considerando-se o destacável
desempenho econômico do Brasil no início da década de 1970, a famosa era do Milagre
Brasileiro. A economia crescera a taxas superiores a 10% anuais entre 1968 e 1974, e
imaginava-se que ia manter um crescimento não inferior a 8% até 1980. A demanda de
transporte em termos de TKU, na região servida pela Linha do Centro (Superintendência
Regional SR-3 da R.F.F.S.A.), crescera a 29,5% ao ano no quadriênio 1973-1976. Essa
evolução fez com que o Governo Federal temesse pelo estrangulamento da oferta de
transporte de minério de ferro, ameaçando o abastecimento das usinas siderúrgicas do sudeste
do país e o cumprimento dos compromissos assumidos com a exportação dessa matéria-
prima, segundo GORNI (2004).
55
Vários meses se passaram entre esse primeiro anúncio e as ações efetivas. Durante esse
período, decidiu-se cancelar a construção do trecho entre Itutinga e São Paulo, já que o ramal
de São Paulo da Central do Brasil tinha capacidade ociosa entre Volta Redonda e a capital
bandeirante. Apenas em outubro de 1974, foram iniciadas as obras no trecho entre Belo
Horizonte e Jeceaba. A 14 de março de 1975, era assinado um dos maiores contratos da época
entre a ENGEFER - Engenharia Ferroviária S.A. e 25 empresas da área ferroviária, no valor
de 9,42 milhões de cruzeiros, envolvendo o desenvolvimento dos projetos finais de
engenharia e a construção do primeiro trecho da Ferrovia do Aço: Belo Horizonte-Itutinga-
Saudade. A ENGEFER era uma empresa estatal, ligada à R.F.F.S.A., incumbida de
administrar a construção da Ferrovia do Aço. O início das obras nos demais trechos ocorreu a
30 de abril daquele ano, apesar de não se dispor dos projetos definitivos a serem executados.
Mesmo assim, o governo apelidou a obra de Ferrovia dos Mil Dias, uma vez que as obras
deveriam ficar prontas dentro desse prazo.
Em 1976, foi assinado formalmente o contrato das obras e equipamentos para a
eletrificação e sinalização da Ferrovia do Aço entre a ENGEFER e a GEC Transportation
Projects Ltd, no valor de 149 milhões de libras (ou 262 milhões de dólares). O objetivo inicial
era ter todas as locomotivas operacionais em dezembro de 1983, de modo que a tração elétrica
estivesse plenamente viabilizada, pelo menos entre Saudade-Bom Jardim de Minas, assim que
a ferrovia estivesse pronta, já que a tração elétrica nesse trecho teria importância fundamental.
Nesse mesmo ano, começaram os primeiros sintomas de crise econômica, com a
persistente elevação dos índices inflacionários. O controle da inflação tornou necessário
reduzir os gastos governamentais, inclusive na Ferrovia do Aço. O ritmo das obras, que era
muito intenso, foi bastante reduzido a partir de fevereiro de 1977, ficando impossível cumprir
o famoso prazo de mil dias para conclusão das obras. Na verdade era o fim da era do Milagre
Econômico, e o desempenho da economia brasileira jamais seria o mesmo. A situação
econômica foi gradativamente piorando, e as obras foram suspensas em 1978.
A chamada distensão política, na verdade o lento desmonte da ditadura militar iniciado
pelo general-presidente da época, Ernesto Geisel, propiciou um maior clima de liberdade de
expressão, o que fez com que no final desse ano a diretoria da R.F.F.S.A. emitisse um
documento oficial, no qual considerava a Ferrovia do Aço um empreendimento inviável
56
economicamente e que a melhor solução para aumentar a capacidade de transporte de minério
de ferro no eixo Belo Horizonte-Rio de Janeiro seria a duplicação e eventual eletrificação da
antiga Linha do Centro da Central do Brasil. A G.E.C. foi informada dessa alternativa, sendo
acertado na época que, na eventualidade de ser adotada essa nova opção, possíveis sobras do
contrato original seriam aplicadas na conversão do antigo sistema de eletrificação da Central
do Brasil entre Saudade e Japeri para 25 kV, corrente alternada, bem como a eletrificação, no
mesmo padrão, entre Japeri-Brisamar-Sepetiba. O novo governo do general-presidente João
Baptista Figueiredo ignorou o alerta dos técnicos e retomou as obras em julho de 1979,
demitindo a administração dissidente da R.F.F.S.A. Decidiu-se, contudo, adiar
indefinidamente a construção do trecho entre Belo Horizonte e Jeceaba, com 108 quilômetros.
O ritmo do empreendimento não era mais o mesmo, tornando-se extremamente lento a
partir de outubro de 1982. Ironicamente, nesse mesmo ano chegaram os primeiros lotes de
equipamentos para a eletrificação previstos no contrato de 1976 com a GEC. A grave crise
financeira de 1983 só agravou o quadro, levando à paralisação total da construção da Ferrovia
do Aço no ano seguinte, conforme NETO et al. (2003).
Viadutos inacabados, túneis inúteis e acampamentos de empreiteiras repletos de
máquinas abandonadas, tudo se degradando à ação do tempo, pontilhou a paisagem no sul de
Minas por vários anos ao longo das décadas de 1970 e 1980, ilustrando clamorosamente o
fracasso do empreendimento. Haviam sido gastos 1,9 bilhões de dólares, sendo cerca de meio
bilhão somente no contrato de eletrificação. Só então as críticas ao projeto da Ferrovia do Aço
começaram a aflorar, favorecidas pelo ambiente cada vez mais livre reinante no país, segundo
GORNI (2004).
A situação se encontrava mal parada há vários anos quando, em 1986, a direção da
R.F.F.S.A. desenvolveu um plano para tornar viável a Ferrovia do Aço, mais especificamente
o trecho entre Jeceaba e Saudade, com 319 quilômetros de extensão, onde a infra-estrutura
estava praticamente terminada. A nova abordagem previa diversas simplificações no projeto
da Ferrovia do Aço, como linha singela, menor altura de lastro (28 cm ao invés de 40 cm) e
operação com locomotivas diesel-elétricas. Além disso, o esquema de circulação dos trens
incluía a antiga Linha do Centro da Central do Brasil: os trens de minério circulariam cheios
de Minas Gerais para o Rio de Janeiro, pela Ferrovia do Aço, e voltariam vazios, pela Linha
57
do Centro, permitindo o transporte anual de 25 milhões de toneladas de minério de ferro. O
custo necessário para viabilizar esse plano era relativamente pequeno, da ordem de 136
milhões de dólares, incluindo ainda a adequação da via permanente entre Saudade - Barra
Mansa e Saudade - Manoel Feio, de modo a habilitar o ramal de São Paulo a receber a carga
adicional. A eletrificação da linha não foi descartada nessa ocasião, mas sim adiada
indefinidamente, uma vez que somente sua implantação requeriria um investimento superior a
um bilhão de dólares, o qual foi viabilizado por meio da participação da iniciativa privada no
projeto: mineradora MBR e a presença simbólica de outros usuários interessados, como a
Matsulfur, Cosigua, Cimento Paraíso, Ciminas, Cimento Tupi, Ferteco e Socicom. No dia 9
de fevereiro de 1987 era assinado o Acordo de Cooperação Mútua entre a ferrovia e a MBR;
no geral estabeleceu-se que o desembolso para o projeto seria feito como adiantamento para
fretes futuros. Os investimentos necessários foram distribuídos da seguinte maneira: MBR,
57%; BNDES, 22%; Governo Federal, 15%; R.F.F.S.A., 6%.
Pelo menos as obras da construção civil da Ferrovia do Aço retomaram o ritmo e
seguiram sem interrupções até seu término. No dia 14 de abril de 1989, as duas frentes de
obras se encontraram no km 138 + 965 m da ferrovia, no município mineiro de Madre Deus,
finalmente permitindo a circulação de trens na Ferrovia do Aço, após 14 anos de obras. A
chamada Ferrovia dos Mil Dias tinha se tornado, na verdade, a Ferrovia dos 5.098 Dias. A
conclusão da superestrutura e a entrada em operação comercial ocorreram no mês de julho
seguinte.
58
FIG. 2.13 Ferrovia do Aço e Linha do Centro. Fonte: TRANSPORTES (2006c) – adaptado.
Desde dezembro de 1996, a Ferrovia do Aço e a Linha do Centro estão sob administração
da MRS Logística, porque ambas pertenciam à Superintendência Regional 3 da RFFSA que
foi concessionada para a primeira.
2.3 REESTRUTURAÇÃO FERROVIÁRIA NO BRASIL
A Rede Ferroviária Federal S.A. (RFFSA) foi criada, em 1957, com o intuito de
administrar, conservar, ampliar e melhorar o transporte ferroviário brasileiro. Em 1992, a
RFFSA foi incluída no Programa Nacional de Desestatização (PND).
59
Até o início do processo de desestatização, a empresa detinha quase a totalidade da rede
de transporte ferroviário de cargas do país, com exceção da Ferrovia Paulista S.A. (Fepasa),
das ferrovias da Companhia Vale do Rio Doce (CVRD) e das estradas de ferro Vitória–Minas
e de Carajás.
Desajustes institucionais, econômico-financeiros e técnico-operacionais, em paralelo com
a baixa produtividade de seus recursos humanos, mais administrações ineficientes submetidas
quase sempre a interferências políticas tornaram os grandes sistemas ferroviários federal
(Rede Ferroviária Federal S.A. — RFFSA) e do estado de São Paulo (Ferrovia Paulista S.A.
— FEPASA) problemas para as finanças públicas, além de apresentarem baixa contribuição
social e econômica.
As malhas regionais foram definidas a partir de análises da situação da RFFSA, sob os
seguintes critérios, segundo MARQUES (1996):
estrutura organizacional no nível regional (superintendências regionais - SRs);
restrições de caráter técnico;
fluxos de transportes, atuais e potenciais;
existência de malhas isoladas;
viabilidade econômica dos investimentos necessários, motivados pelas restrições
existentes em toda a malha e que limitam sua capacidade de transporte.
A configuração resultante repartiu a RFFSA em seis malhas regionais, reagrupando as
SRs, conforme TAB. 2.10. As seguintes realidades circunscreveram as reuniões
recomendadas:
a) do restante da RFFSA, a FEPASA isola a SR-10 a oeste e as SR-5 e SR-6 ao sul;
b) a SR-9 está isolada no leste catarinense;
c) a malha sudeste compreende as SR-3 e SR-4 com bitola larga;
d) as demais SRs foram constituídas em dois conjuntos: a malha Centro-Leste e a
Nordeste, com intercâmbio de cargas pouco significativo.
60
TAB. 2.10 Malhas Regionais
Malha SR Concessionária
Nordeste 1, 11, e 12 CFN Centro-Leste 2, 7 e 8 FCA Sudeste 3 e 4 MRS Oeste 10 Ferroeste Sul 5 e 6 ALL E.F. Teresa Cristina 9 EFTC
Fonte: BNDES (2005).
Conforme MARQUES (1996), por outro lado, a diversidade e a heterogeneidade dos
mercados regionais de transportes acarretam distorções à economia do sistema ferroviário,
lembrando que linhas componentes de apenas 8% da extensão da malha são responsáveis por
80% de todo o transporte sobre os trilhos no Brasil, em 1994. Mesmo com a mudança
ocorrida no sistema ferroviário quanto à administração das empresas ficar a cargo da
iniciativa privada, em 2005, 12,30% da malha foram responsáveis por 81,95% da TU
transportada e 82,31% de toda a TKU movimentada sobre trilhos no Brasil, conforme TAB.
2.11.
TAB. 2.11 Comparação Malha com Transporte das Operadoras Ferroviárias do Brasil em 2005
Extensão TU TKU Operadora Km % Qtde % Qtde %
Novoeste - Ferrovia Novoeste S.A. 1.942
6,88
3,50
0,90
1,30
0,59
FCA - Ferrovia Centro-Atlântica S.A. 8.093
28,67
27,60
7,08
10,70
4,82
MRS - MRS Logísitca S.A. 1.674
5,93
108,10
27,71
44,40
20,01
FTC - Ferrovia Tereza Cristina S.A. 164
0,58
2,40
0,62
0,20
0,09
ALL - América Latina Logística do Brasil S.A. 7.225
25,60
21,70
5,56
15,40
6,94
Ferroeste / Ferropar 248
0,88
1,50
0,38
0,30
0,14
EFVM - Estrada de Ferro Vitória-Minas 905
3,21
131,00
33,58
68,70
30,97
EFC - Estrada de Ferro Carajás 892
3,16
80,60
20,66
69,50
31,33
CFN - Companhia Ferroviária do Nordeste S.A. 4.238
15,02
1,40
0,36
0,80
0,36
Ferroban - Ferrovias Bandeirantes S.A. 2.029
7,19
4,40
1,13
2,30
1,04
Ferronorte - Ferrovias Norte do Brasil 504
1,79
8,02
1,69
5,22
3,61
Valec - Estrada de Ferro Norte Sul 311
1,10
1,30
0,33
0,25
0,11
Total
28.225
390,10
221,85
Fonte: ANTT (2006b) e TRANSPORTES (2006b).
Embora o transporte ferroviário no Brasil esteja relacionado à atividade econômica (essa
vinculação é indicada estatisticamente por um coeficiente de correlação tráfego de cargas —
PIB, observado no período 1980-2005, com r2 = 0,57), conforme TAB. 2.12, ele se compõe
basicamente da movimentação de cinco produtos ou grupos de produtos (minérios de ferro,
61
granéis agrícolas para exportação, combustíveis, produtos siderúrgicos e cimento). Na maioria
dos sistemas ferroviários do mundo desenvolvido ou em desenvolvimento, existe grande
predominância de alguns produtos no total da carga. Entretanto, em nosso país há uma
concentração exagerada: os produtos citados alcançam 90% da carga, e somente o minério de
ferro representa 70% do volume transportado, MARQUES (1996).
TAB. 2.12 PIB e TKU Brasileiros
ANO
PIB (mil milhões de dólares)
TKU (bilhões)
1980
237.772 86,30 1981
258.553 79,50 1982
271.252 78,00 1983
189.459 74,90 1984
189.744 92,40 1985
211.092 100,20 1986
257.812 105,10 1987
282.357 109,70 1988
305.707 120,10 1989
415.916 125,00 1990
469.318 120,40 1991
405.679 121,40 1992
387.295 116,50 1993
429.685 124,90 1994
543.087 133,70 1995
705.449 130,02 1996
775.475 128,44 1997
807.814 138,35 1998
787.889 142,70 1999
536.554 140,03 2000
602.207 154,95 2001
509.797 162,23 2002
459.379 170,18 2003
506.784 182,64 2004
603.994 205,71 2005
796.284 221,60 Fonte: MARQUES (1996), ANTT (2006b) e BCB (2006).
Agregando-se aos produtos transportados por grandes setores de atividade, é significativa
a predominância de minérios (cerca de 49% do transporte e atendimento à quase totalidade da
demanda de minério de ferro) e a participação quase equilibrada dos combustíveis líquidos,
produtos agrícolas e produtos industriais de primeira transformação (cada grupo com
aproximadamente 16%).
62
No tocante às características físicas das mercadorias, destacam-se os granéis, sólidos ou
líquidos, os quais abrangem 80% do transporte. A participação dos granéis sólidos é superior
a 60%.
A concentração do tráfego em poucos segmentos do mercado de transportes ou em alguns
fluxos desses segmentos é salientada ainda pelo fato de apenas 20 clientes reunirem 70% da
produção e 72% da receita da RFFSA. Há ainda entre esses usuários alguns que, por suas
características institucionais, são estimulados ao uso do transporte ferroviário (como, ainda
hoje, os usuários do transporte de combustíveis líquidos).
Usuários e clientes potenciais têm atribuído a concentração apontada e a pequena
participação ferroviária no mercado de transporte à baixa confiabilidade da infra-estrutura
operacional do sistema: mesmo em corredores em que volumes e natureza das mercadorias,
distâncias de transportes e fretes poderiam favorecer à ferrovia, os custos adicionais gerados
pelas contingências dessa infra-estrutura poderiam elevar os custos totais para os usuários
(atribuíveis ao transporte na comercialização dos produtos e nos fretes rodoviários). De
qualquer modo, pelos problemas da infra-estrutura ou pela incompetência da organização nas
suas relações com o mercado, estudos e pesquisas da RFFSA caracterizaram, em 1992, a
existência de uma demanda insatisfatoriamente atendida (ou sem possibilidade de
atendimento), estimada em 10 milhões de toneladas, ou seja, 12% do total transportado nesse
ano, segundo MARQUES (1996).
A partir de 2000, o sistema ferroviário concedido ingressou em uma fase de
investimentos, que se caracterizou pelo aumento da capacidade instalada (aumento da oferta)
e pela assunção de serviços logísticos. Nesse período, foram ampliados os pátios de
manobras, aumentada a capacidade de suporte da via permanente, construídos terminais de
integração rodoferroviários e adquiridos novos materiais rodantes.
O sistema foi fortemente pressionado pelo aumento da demanda, segundo a ANTT
(2006b), notadamente o transporte de produtos, como granéis agrícolas de exportação (soja,
farelo e fertilizantes), minério de ferro, carvão, produtos siderúrgicos e combustíveis –
tradicionais produtos da ferrovia –, além de outras cargas, como materiais de construção
(cimento a granel e ensacados), açúcar, álcool e contêineres frigorificados, conforme TAB.
63
2.13. Em função do aumento da demanda, as concessionárias ferroviárias têm um programa
de investimento permanente para o atendimento desta, conforme TAB. 2.14.
TAB. 2.13 Mercadorias Transportadas em TU
Produto Agregado 2001 2002 2003 2004 Minério de Ferro 184.580.492
192.851.635
202.315.400
237.695.700
Indústria Siderúrgica 21.812.035
28.386.328
29.423.800
31.898.100
Cimento 5.559.784
5.236.490
4.801.300
4.812.100
Indústria Cimenteira e Construção Civil 1.774.514
1.734.794
950.000
567.200
Carvão/Coque 12.105.108
11.525.714
12.631.900
13.292.700
Granéis Minerais 5.447.245
6.336.784
8.349.200
10.200.700
Soja e Farelo de Soja 22.097.489
28.083.227
31.864.900
29.090.200
Produção Agrícola 9.777.245
7.487.715
8.738.300
10.209.000
Adubos e Fertilizantes 4.149.129
4.375.862
5.319.400
6.282.300
Extração Vegetal e Celulose 1.509.543
2.044.507
2.200.100
2.304.200
Combustíveis, Derivados de Petróleo e Álcool
7.466.538
8.433.036
7.684.400
7.806.600
Contêiner 8.439
88.133
42.600
533.400
Carga Geral - Não conteinerizada 332.628
153.284
132.000
653.800
Outras mercadorias 28.631.511
24.254.491
30.642.700
22.430.000
TOTAL
305.251.700
320.992.000
345.096.000
377.776.000
Fonte: ANTT (2006b).
TAB. 2.14 Investimentos em ferrovia no Brasil (em milhões de reais).
Concessionárias
1996
1997
1998
1999
2000
2001
2002
2003 2004 2005 Novoeste 8,8
7,3
7,3
7,6
10,9
7,5
3,1
9,9
33,5
FCA 61,4
60,3
53,9
89,7
151,0
86,6
117,0
472,0
572,4
MRS 44,1
108,6
82,4
75,9
105,7
84,3
70,9
113,8
277,2
398,0
FTC 2,5
2,6
3,5
1,6
1,3
2,7
3,8
3,8
4,9
ALL 59,7
40,2
93,2
82,3
76,4
64,6
74,1
89,1
392,7
Ferroeste 1,3
1,1
7,0
0,2
0,1
0,2
0,1
0,2
0,1
EFVM 87,4
78,3
54,9
44,6
126,7
108,6
144,7
521,2
494,1
1.036,0
EFC 22,7
32,4
55,0
29,8
75,6
165,1
78,0
152,2
396,6
754,9
CFN 4,4
10,1
7,9
-2,1
16,9
23,6
63,2
93,1
Ferroban 122,9
33,5
97,3
54,7
33,8
6,4
30,5
24,9
Ferronorte 118,2
76,4
160,1
119,8
56,8
53,0
67,2
Total
277,1
353,0
308,2
477,0
671,0
810,4
625,7
1.072,1
1.889,6
3.377,7
Fonte: ANTT (2006b).
A partir de um forte plano de investimentos visando à captação de novas cargas e clientes
e, especialmente à recuperação da capacidade operacional do sistema, a FCA objetiva
alcançar significativo crescimento no volume de mercadorias transportadas nos próximos
anos, especialmente de produtos químicos, na rota Camaçari (BA)-Paulínia (SP), e de carga
64
geral, com potencial de integrar a Bahia às regiões de grande dinamismo econômico do país,
segundo a BAHIAINVEST (2006).
Em função das perspectivas de crescimento do transporte ferroviário na Bahia, a FCA
estima que a demanda potencial no curto prazo é bastante promissora, alcançando os produtos
e os volumes anuais mostrados na tabela TAB. 2.15.
TAB. 2.15 Demanda Estimada na Bahia
Produto Quantidade / Ano
Gasolina 240 mil / m³
Adubo 36 mil t
Grãos 600 mil t
Contêineres 16 mil TEU
Escória 80 mil t
Cimento 60 mil t
Fonte: BAHIAINVEST (2006).
O horizonte para a economia do país projeta um crescimento do PIB real a taxas anuais
de 4,75% (2007), 5,00% (2008) e 5,25% (2009), segundo FEDERAL (2006), e, apesar da
persistência de fatores de instabilidade e de surtos recessivos em economias mais avançadas,
há previsões da continuidade da expansão da economia mundial.
As potencialidades do Brasil habilitam-no a ocupar espaços nesse prospecto, e o
atendimento a um mercado interno e de exportação intensamente ampliado, com redução dos
custos totais de transportes, é exigência do próprio desenvolvimento.
No país, o volume global dos transportes poderá ser multiplicado por 2,5 nos próximos
20 anos, ou seja, pode alcançar valor da ordem de grandeza de 1,5 trilhões de TKU. A
ferrovia poderia elevar sua participação nesse volume, tanto usando diretamente seus trilhos
quanto gerando elo nas cadeias multimodais de transportes, MARQUES (1996).
Entre as recentes oportunidades no comércio internacional, surgem destacadamente as
decorrentes da integração dos países do MERCOSUL e da intensificação das relações
comerciais com Bolívia, Chile e Peru. Atualmente, com a rápida abertura das economias
65
desses países, seus governos e empresas já assumem a integração da infra-estrutura física dos
transportes, em uma rede que considere os interesses comuns, como exigência de um novo
mercado em expansão.
Nesse contexto, a atenção pelo transporte ferroviário tem sido manifestada pelos
inúmeros projetos de ligações ferroviárias ou multimodais, ligações essas que levam em conta
a potencialidade da navegação fluvial; e pelas propostas de solução de problemas específicos
das conexões ferroviárias nas regiões fronteiriças daqueles países.
Tais observações, registrando a importância do crescimento da demanda global e do
possível aumento das distâncias médias de transporte, podem significar, para a iniciativa
privada, oportunidades de negócios na exploração das ferrovias brasileiras.
Para a ferrovia conseguir ampliar sua participação na matriz de transportes e atender ao
cliente de modo satisfatório, além de investimento em infra-estrutura e recursos humanos, é
necessário a otimização de ambos, e, para isso acontecer, uma das técnicas disponíveis é a
previsão de demanda, que será estuda no capítulo a seguir.
66
3 PREVISÃO DE DEMANDA
O planejamento e o controle das atividades de transporte dependem de estimativas
acuradas dos volumes de serviços a serem prestados pela empresa. Tais estimativas ocorrem
tipicamente na forma de planejamento e previsões, segundo BALLOU (2006).
3.1 TÉCNICAS DE PREVISÃO
Tais técnicas podem ser divididas em dois grupos principais de abordagem: quantitativo e
qualitativo, segundo MAKRIDAKIS et al. (1998). Na literatura, encontram-se inúmeras
propostas de subdivisões para classificar as técnicas de previsão, na tentativa de melhor
elucidá-las.
3.1.1 TÉCNICAS QUALITATIVAS DE PREVISÃO
As técnicas de previsão qualitativas, também chamadas de técnicas subjetivas ou
baseadas em critérios de juízo, são aquelas que utilizam primordialmente a capacidade
humana de estabelecer generalizações e extrapolações. Essas técnicas são pouco utilizadas, ou
simplesmente, não se utilizam, segundo PASSARI (2003).
Uma conclusão presente em vários estudos indica que, em geral, as empresas ficam mais
à vontade com essas técnicas do que com métodos quantitativos, segundo WHEELWRIGHT
e CLARKE (1976); MCHUGH e SPARKES (1983); MENTZER e COX (1984); FILDES e
HASTINGS (1994). Contudo, um estudo conduzido por SANDERS e MANRODT (1994)
sinaliza que a familiaridade com métodos quantitativos é crescente. Em sua pesquisa, 76%
dos respondentes afirmaram possuir familiaridade com pelo menos uma técnica quantitativa
para previsão de vendas contra 61% obtidos no estudo de MENTZER e COX (1984).
A familiaridade com métodos qualitativos deve-se ao fato de serem mais simples e
algumas vezes até intuitivos, fazendo com que sejam os métodos mais utilizados nas
empresas, segundo SANDERS e MANDRODT (1994); PETERSON e JUN, (1999). De fato,
a facilidade de uso e a capacidade de incorporar a experiência do gestor são os principais
67
argumentos utilizados para justificar o uso intensivo de técnicas de julgamento subjetivo nas
previsões, em detrimento de técnicas quantitativas, segundo WINKLHOFER et al. (1996).
Entretanto, diversos estudos mostraram que os métodos qualitativos oferecem baixa
acurácia (palavra de origem inglesa – accurate – com o significado de precisão) e, não raro, as
previsões subjetivas geram grandes erros, ocasionando distúrbios no planejamento e no
resultado final das operações corporativas, segundo LUXHOJ et al. (1996), ALIBAIG e
LILLY (1999), SUBRAHMANYAN (1998), SUBRAHMANYAN (2000), LAWRENCE et
al. (2000).
LAWRENCE et al. (2000) sugerem alguns motivos pelos quais as previsões subjetivas,
apesar de serem muitas vezes realizadas por analistas experientes e com informações
contextuais do mercado, não possuem bom desempenho:
as informações contextuais podem não ter valor preditivo;
enviesamento (tendenciosa a estimativa) e ineficiência na interpretação dos
relacionamentos podem mascarar as informações contextuais levadas em consideração;
excesso de dados a serem considerados pelo analista, fazendo com que ele ignore ou
atribua pesos errados às informações contextuais recebidas;
perturbações recentes na série temporal podem ser entendidas pelo analista como um
sinal de tendência, confundindo a interpretação das informações contextuais;
acurácia não é o critério mais importante nas previsões das empresas.
Para PASSARI (2003) e FREIRE (2005), as técnicas qualitativas são divididas em dois
grupos: técnicas exploratórias e técnicas de grupo. As principais técnicas exploratórias são
Pert-simplificado, teoria da utilidade e pesquisas de mercado. As principais técnicas de grupo
são o método Delphi, opiniões de júri executivo e composição de força de vendas.
Uma outra técnica qualitativa é o método AHP (Analytic Hierarchy Process) que
combina análise de decisão e planejamento de múltiplos critérios desenvolvida por Thomas L.
SAATY (1991).
68
A metodologia baseia-se no princípio de que, para a tomada de decisão, a experiência e o
conhecimento das pessoas são pelo menos tão valiosos quanto os dados utilizados. A
aplicação desse processo reduz o estudo de sistemas extremamente intricados a uma
seqüência de comparações aos pares de componentes adequadamente identificados.
3.1.2 TÉCNICAS QUANTITATIVAS DE PREVISÃO
Técnicas de previsão quantitativas são aquelas que usam dados históricos para calcular
matematicamente extrapolações dos dados futuros. A previsão com uso de técnicas
quantitativas pode ser aplicada quando, conforme MAKRIDAKIS et al. (1998):
1. as informações sobre o passado estejam disponíveis;
2. as informações possam ser quantificadas em termos matemáticos;
3. seja possível assumir que alguns aspectos do padrão verificado no passado continuarão
no futuro. Essa colocação é também chamada de pressuposto da continuidade.
O procedimento geral para estimar um padrão de relacionamento, seja causal ou de série
temporal, é por meio da aderência a uma forma funcional matemática qualquer, de modo a
minimizar o componente de erro. Exceção deve ser feita à modelagem baseada em redes
neurais artificiais, que pode ser usada tanto para modelos causais como de séries temporais,
porém não buscam a aderência a um modelo matemático explícito, segundo ANSUJ et al.
(1996).
A previsão causal, também chamada de explanatória, assume um relacionamento de
causa e efeito entre as entradas e saídas de um sistema. O sistema pode ser visto como a
economia nacional, o mercado de uma empresa e assim por diante. Já a previsão com uso de
séries temporais trata o sistema como uma “caixa-preta”, sem tentar descobrir os fatores que
causam os comportamentos observados.
A seguir as principais técnicas quantitativas de previsão são abordadas.
69
3.1.2.1 MODELOS DE ESCOLHA DISCRETA
Uma das técnicas possíveis para previsões quantitativas é a utilização de modelos de
escolha discreta, os quais têm sido aplicados principalmente na análise de participação de
mercado e também na área de transportes, para planejamento viário e de operações de
transporte, segundo PASSARI (2003). Entretanto, estes são, a rigor, modelos de classificação,
sendo que sua aplicabilidade para previsão de vendas é restrita. Por este motivo, essa
modelagem não será abordada neste trabalho.
3.1.2.2 ANÁLISES DE SÉRIES TEMPORAIS
Uma série temporal é uma seqüência de valores, ordenados no tempo, de uma variável de
interesse particular, segundo NEWBOLD (1995). Modelos de séries temporais realizam
previsões baseadas em uma série de dados observados em intervalos de tempo regulares,
buscando padrões no passado para prever o futuro. Esse tipo de modelagem é especialmente
útil quando há pouco conhecimento da base teórica sobre o processo em que os dados foram
gerados.
Segundo MAKRIDAKIS et al. (1998), existem duas razões básicas para tratar um
sistema como uma “caixa preta”:
1. o sistema não pode ser compreendido ou, mesmo que possa, é extremamente difícil
medir o relacionamento entre as variáveis que governam seu comportamento;
2. a preocupação pode ser simplesmente prever com algum grau de precisão o que vai
acontecer e não por quê.
É importante observar que as técnicas de análise de séries temporais desenvolveram-se de
modo paralelo à estatística convencional, isso porque praticamente todas as técnicas
estatísticas são baseadas no pressuposto de amostragem aleatória, ou seja, no pressuposto de
que os dados disponíveis são observações independentes do fenômeno de interesse. Esse
pressuposto raramente é verdadeiro para séries temporais, demandando, portanto, o
desenvolvimento de novas e específicas técnicas estatísticas.
70
Existem duas razões básicas para desconfiar do pressuposto de observações
independentes em séries temporais, segundo NEWBOLD (1995):
1. os fatores econômicos que contribuíram para a geração de um valor não mudam
repentinamente, tendendo-se a manter um nível próximo em períodos adjacentes. Por
exemplo, se os transportes de um mês foram altos, muito provavelmente os do mês
subseqüente também o serão, estando, portanto, os dados de transportes relacionados de
algum modo;
2. há geralmente a presença de sazonalidade, ou seja, de padrões de longo prazo,
constantes, repetitivos. O intervalo da sazonalidade vai depender da série em estudo, na
ferrovia, ela pode ser semanal, mensal ou anual.
Assim, o pressuposto de amostragem aleatória não é válido para séries temporais, e o uso
de técnicas convencionais leva a grandes erros nesse tipo de análise, segundo NEWBOLD
(1995). Pelo contrário, as técnicas de previsão a partir de séries temporais valem-se
justamente do fato de as observações serem bastante dependentes, possibilitando a inferência
de valores futuros a partir de dados históricos.
Apesar de sua grande aceitação, as técnicas de séries temporais possuem importantes
limitações. A principal delas é o fato de as causas que agem sobre as variáveis previstas serem
completamente ignoradas. Todas as forças externas, como fatores econômicos, esforços de
marketing, ações dos competidores, e assim por diante, são desprezadas. Outra deficiência é
que os padrões históricos que geraram as séries mudam com o tempo, e as técnicas podem não
detectar tais mudanças. Suas deficiências resultam em previsões com baixa acurácia,
especialmente no longo prazo, segundo GROSS e PETERSON (1983).
Como nessa classe de modelagem a preocupação é apenas com o comportamento da
variável de interesse no tempo - desprezando todos os fatores exógenos condicionantes de seu
comportamento - as técnicas quantitativas de previsão mais simples, e que demandam menor
esforço matemático-computacional, inserem-se nessa categoria. No entanto, dado o
desenvolvimento constante das técnicas, algumas delas são de fato bastante complexas e de
implementação difícil.
71
Apesar de todos os problemas verificados com as técnicas de análise de séries temporais,
elas continuam a ser extensivamente usadas e estudadas e, portanto, são brevemente
abordadas neste trabalho.
3.1.2.3 MÉTODOS DE AMORTECIMENTO POR MEIO DE MÉDIAS
Também chamada de “smooth”, em inglês, essa classe de métodos propicia um
amortecimento no gráfico da variável estudada, por meio de processos matemáticos
relativamente simples.
3.1.2.4 TÉCNICAS “NAIVE”
Talvez o mais simples método de amortecimento - e também de previsão - seja o
chamado método naive (“ingênuo”) não ajustado, que consiste simplesmente em considerar a
última observação conhecida da série como sua melhor expectativa para o futuro. Ou seja,
parte da idéia de que amanhã será, com grande chance, como hoje. Por mais simplória que
pareça, essa metodologia é freqüentemente usada para comparar o ganho em capacidade
preditiva ao se adotar uma técnica mais elaborada; e já foi mostrado que sua aplicação oferece
acurácia igual ou significativamente melhor que técnicas qualitativas, conforme LAWRENCE
et al. (2000).
Uma forma ligeiramente melhorada de técnica naive é a chamada naive ajustada, onde
também é utilizada a última observação para efeito de previsão, porém ela é antes
desazonalizada: o efeito da sazonalidade é minimizado por meio de técnicas de decomposição
- mostradas adiante - melhorando assim sua acurácia. Esse método também é usado para fins
de comparação entre capacidades preditivas.
3.1.2.5 TÉCNICAS “AVERAGING”
São as técnicas usualmente referenciadas como de amortecimento por meio de médias -
ou averaging - propriamente ditas, aplicando procedimentos matemáticos - especialmente o
cálculo sucessivo de médias - para extrapolar a série temporal no futuro.
72
O mais simples método dessa classe, conhecido como “simple average”, é o cálculo da
média das últimas observações como uma aproximação de seu valor no futuro. De fato, se
considerarmos um fenômeno que gere saídas constantes estacionárias, flutuando ao redor de
um ponto, a média é uma boa previsão. Entretanto, se a série contiver tendências ou
sazonalidades, a média deixará de ser efetiva. Mas outras técnicas utilizam mecanismos de
amortecimento dos dados por meio de médias, buscando incorporar tais características dos
dados em seus resultados.
A mais conhecida delas - presente em praticamente todos os livros de estatística aplicada
- é a de médias móveis, ou em inglês “moving averages”. A técnica consiste em tomar uma
média de um número fixo de observações que se move conforme se progride na série de
dados. Assim, para se ter a primeira observação em um “moving average”, que utiliza a média
de k observações, é necessário passar pelos k primeiros números, realizando sua média. A
segunda observação seria composta também pela média de k valores da série, mas iniciando
pelo segundo número e incluindo o próximo, e assim por diante.
Quanto maior o número de pontos tomados, mais estáveis as séries obtidas. Maior
estabilidade também pode ser conseguida por meio da aplicação do algoritmo de averaging
mais de uma vez, fazendo a média das médias. Surgiram, assim, as chamadas “double moving
averaging” e “triple moving averaging”, com a aplicação das médias duas, três ou mais vezes.
As técnicas averaging não são muito utilizadas para previsão, dada sua baixa acurácia.
De fato, seu uso mais freqüente é o utilizado na desazonalização dos dados, ou seja, na
tentativa de minimizar os efeitos da sazonalidade em dados que servirão de entrada a outras
técnicas, segundo PASSARI (2003).
3.1.2.6 MÉTODOS DE AMORTECIMENTO EXPONENCIAL
As técnicas de “moving averages” possuem alta estabilidade nas respostas fornecidas,
característica esta que é bastante desejável num sistema de previsão, para superar o problema
das grandes oscilações devido às alterações puramente aleatórias. Porém a taxa de resposta às
variações é de difícil modificação - baseia-se inerentemente no número de observações
73
tomadas. Outro problema grave dessas técnicas é sua baixa eficiência, isto é, baixo nível de
“aprendizado” ou correção dos erros com o tempo.
Na tentativa de sanar os problemas citados, foram desenvolvidas técnicas de
amortecimento exponencial, que envolvem a aplicação de pesos distintos aos dados históricos,
para dar maior importância às observações mais recentes. Nessas técnicas, a taxa de resposta
pode ser facilmente corrigida, dando maior flexibilidade aos modelos produzidos. Outra
vantagem é que elas utilizam menor número de dados da série, e, portanto, a necessidade de
registro histórico é menor.
A regra geral utilizada no desenvolvimento das técnicas de amortecimento exponencial é:
para se obter uma estimativa da demanda, adicione à estimativa do mês anterior uma fração
do erro verificado. Ou seja:
Nova estimativa = antiga estimativa + a (demanda - antiga estimativa).
Rearranjando:
1)1( tt PQP EQ. 3.1
onde:
P = valor previsto;
Q = demanda atual;
a = fator de peso.
Quanto maior o fator de peso, mais rápida a resposta das previsões às mudanças
observadas; ao contrário, quanto menor o parâmetro a, mais estáveis serão as previsões.
As principais técnicas desenvolvidas com base na idéia de amortecimento exponencial
são:
single exponential smoothing. Aplicação da EQ.3.1 uma única vez para cada período
previsto;
74
double exponential smooting. Aplicação do amortecimento exponencial duas vezes
sucessivas, utilizando o resultado da primeira iteração como entrada na segunda. Pode-se
empregar o mesmo parâmetro (conhecido como Método de Brown), usando, portanto, a
mesma equação duas vezes; ou aplicar dois parâmetros distintos nas iterações (método de
Holt);
triple exponential smoothing. Aplicação do amortecimento exponencial por três
vezes sucessivas. De modo semelhante ao “double exponential smooting”, pode-se utilizar um
(método de Brown quadrático) ou três parâmetros distintos (método de Winter);
adaptative parameter exponential smoothing (ARRSES). É, na verdade, um caso
típico de “single exponential smoothing”, porém o fator de peso é definido matematicamente
a partir dos valores de P e Q e desse modo passa a ter certa liberdade para variar conforme se
progride na série de dados. Essa característica aumenta a eficiência dos modelos, fazendo com
que possam adaptar-se melhor aos dados e diminuir os erros com o passar do tempo.
Outras equações podem ser geradas a partir da equação geral de amortecimento
exponencial, conforme EQ.3.1, como aquelas escritas a partir do modelo de classificação de
Pegel, segundo MAKRIDAKIS et al. (1998). Tais extrapolações não são, entretanto, muito
utilizadas na prática.
As maiores vantagens das técnicas de amortecimento exponencial são sua simplicidade e
baixo custo de desenvolvimento; elas podem facilmente ser aplicadas por meio de planilhas
de cálculo. Com dados estacionários, podem-se utilizar com sucesso as técnicas simples de
amortecimento exponencial. O método de Brown é indicado para dados não-estacionários sem
sazonalidade; principalmente, por requerer apenas um parâmetro. O método de Brown
quadrático também é bastante utilizado por sua simplicidade e boa capacidade de detectar
pontos de inflexão na tendência. Seu ponto falho é sua rápida reação (baixa estabilidade),
podendo indicar pontos de inflexão, onde na verdade há apenas pequenas variações aleatórias.
Para dados com sazonalidade, a única técnica largamente utilizada é a de Winter, segundo
MAKRIDAKIS et al. (1998). Essa técnica é normalmente preferida em detrimento das
técnicas averaging para previsão, por oferecer maior acurácia e necessitar de menor número
de dados históricos armazenados e computados.
75
3.1.2.7 MÉTODOS DE DECOMPOSIÇÃO
Ao contrário das técnicas de amortecimento, que tentam distinguir entre os padrões e os
erros nos dados por meio de uma medida média de valores anteriores, as técnicas de
decomposição buscam separar os componentes que possam estar presentes nos dados. Os
componentes usualmente citados na literatura são:
tendência (T). Envolve a expectativa de crescimento ou decaimento em um período
longo de tempo. Por exemplo, apesar de apresentar altos e baixos, o índice do Produto Interno
Bruto (PIB) de um país desenvolvido tende a aumentar com o tempo;
sazonalidade (I). São flutuações periódicas de amplitude constante. Muitas variáveis
econômicas possuem forte padrão anual, semestral ou trimestral, e outras variáveis podem ter
sazonalidades quaisquer; pode-se verificar facilmente um aquecimento da economia próximo
ao fim do ano, por exemplo;
componente cíclico (C). Compreende padrões oscilatórios, desconectados de
comportamentos sazonais repetitivos. Não é necessariamente regular, mas segue um certo
padrão ao longo do tempo, geralmente relacionado ao comportamento macroeconômico;
componente irregular (e). Agrega a multitude de fatores que influencia o
comportamento de uma série real, e cujo padrão parece ser imprevisível. Os modelos de
decomposição supõem que se pode escrever o padrão dos dados como:
Y = F(tendência, ciclo, sazonalidade) + e
Tal relação pode ser aditiva, do tipo:
Y = (T + C + I) + e
Ou multiplicativa, como:
Y = TCI + e
76
Todas as técnicas desse gênero, como a Decomposição Clássica ou a Decomposição
Censo II, envolvem a decomposição dos dados nos fatores acima (tendência, ciclo e
sazonalidade), segundo GROSS e PETERSON (1983).
3.1.2.8 MÉTODOS AUTO-REGRESSIVOS (ARIMA)
Os métodos Auto-Regressivos (Autoregressive Integrated Moving Average - ARIMA)
constituem uma classe genérica de métodos capazes de gerar modelos por meio da
combinação de três técnicas matemático-estatísticas: auto-regressão (regressão com base no
tempo); moving averages (para suavizar e dasazonalizar); e diferenciação (para incluir
processos não estacionários). BOX e JENKINS (1976) uniram à teoria de modelagem auto-
regressiva a capacidade de tratar dados não-estacionários, por meio de um processo de
diferenciação, criando a classe genérica de modelos ARIMA, que também passaram a ser
conhecidos como modelos Box-Jenkins.
As equações utilizadas no método ARIMA são normalmente referenciadas por ARIMA
(a,b,c), onde: a representa o grau de auto-regressão utilizado, b representa o grau de
diferenciação, e c representa o grau de moving average usado. Desse modo, são possíveis
inúmeras combinações, gerando um conjunto de equações que são escolhidas conforme as
características dos dados.
A metodologia proposta por BOX e JENKINS (1976) define três passos para a
construção do modelo de previsão:
1. identificação de um ou mais modelos que descrevam a série temporal adequadamente.
É feita utilizando ferramental estatístico, testando a estrutura de correlação da série, a partir da
classe genérica ARIMA (a,b,c);
2. estimação dos parâmetros dos modelos. É similar à estimação de parâmetros de
modelos de regressão, porém com uso de técnicas de estimação não-lineares;
3. condução do diagnóstico dos modelos. É realizada por meio da medição dos erros
provocados por cada modelo e seleção daquele com maior acurácia.
77
Apesar de seu apelo estatístico e teórico, esses modelos nunca foram muito utilizados na
prática, principalmente devido à sua complexidade matemática, que nem sempre se traduz em
melhoria na acurácia, segundo MAKRIDAKIS et al. (1998).
3.1.3 TÉCNICAS CAUSAIS
As técnicas de previsão baseadas em análises de séries temporais são especialmente úteis
quando há pouco conhecimento sobre a teoria envolvida no processo investigado. Por
exemplo, se houver total desconhecimento dos fatores que influenciam a demanda de um
determinado produto, ou se esses fatores não puderem ser mensurados, então o uso de uma
técnica de análise de séries temporais pode ser a mais adequada.
Porém o uso dessa abordagem resulta em previsões não explicativas e,
conseqüentemente, o gestor não é capaz de realizar simulações sobre o comportamento da
variável de interesse com mudanças em outros fatores, especialmente sobre os quais ele tem
controle. Por exemplo, a demanda de um produto é claramente influenciada pelo preço
praticado, e esse preço é um fator que está sob controle do gestor. Habilitar o gestor a simular
o comportamento da demanda com mudanças no preço é fornecer a ele uma ferramenta de
apoio à decisão, o que é um passo além de uma simples ferramenta de previsão de vendas.
As técnicas de previsão causais buscam descrever matematicamente as relações de causa
e efeito entre a variável que está sendo medida e seus fatores constituintes (explicativos). Um
modelo causal, conforme o descrito por uma equação de regressão, tem a vantagem de
permitir ao tomador de decisões explorar como mudanças nas variáveis explicativas alteram a
saída prevista.
3.1.4 MODELOS DE REGRESSÃO
Freqüentemente, o relacionamento entre duas ou mais variáveis de interesse pode ser bem
modelado por meio de uma equação matemática. O processo de adaptação de uma equação
matemática a um fenômeno envolvendo duas ou mais variáveis, de modo que uma delas seja
dependente das demais, é chamado de regressão, o qual gera modelos matemáticos que
buscam representar a relação de causa e efeito entre as variáveis consideradas.
78
Se existir uma associação entre duas variáveis quaisquer, diz-se que há covariância
positiva (ou negativa). Se não há associação entre as variáveis, a covariância é nula.
Entretanto esse valor depende da unidade de medida das variáveis. Para superar essa restrição,
foi definida a correlação, que é uma medida pura, independente de escala.
Quanto maior o coeficiente de correlação (em módulo), mais forte a associação entre as
variáveis. Todas as técnicas de regressão são baseadas na idéia de associação entre as
variáveis, demonstrada estatisticamente por meio da correlação.
A técnica mais simples de regressão é a Regressão Linear, que modela o relacionamento
entre uma variável dependente Y e uma variável independente X de modo linear. Assim:
XY EQ. 3.2
onde:
e = variável aleatória com média zero.
Por exemplo, se demanda for a variável dependente e ela tiver uma correlação linear com
o preço, escreve-se:
PQ EQ. 3.3
onde:
Q = demanda;
P = preço ofertado.
Na verdade, a regressão linear é um caso específico da técnica geral de análise de
Regressão Múltipla, que estabelece matematicamente a relação entre uma variável dependente
e uma ou mais variáveis independentes. Assim:
kk XXXY 2211 EQ. 3.4
79
No caso de previsão de vendas, por exemplo, pode-se relacionar a demanda do produto
(variável dependente) com a renda dos consumidores, o tamanho da população, o preço do
produto, o preço de seus substitutos e complementares, o nível de promoção, o crescimento
macroeconômico, entre outros.
Para que as equações possam ser efetivamente empregadas como modelos de previsão, é
necessária a determinação dos parâmetros a e ßk. A principal técnica para determinação dos
parâmetros de um modelo de regressão é a de mínimos quadrados, que se baseia no teorema
de Gauss-Markov. NEWBOLD (1995) mostra que a técnica de mínimos quadrados é não-
enviesada e ótima para modelos lineares, além de muito bem aplicada a modelos de regressão
múltipla. A qualidade de aderência do modelo aos dados é calculada em termo do erro
verificado, que é minimizado por meio da técnica de mínimos quadrados.
Um termo relevante nas análises de regressão é o coeficiente de determinação (R2), o qual
é interpretado como a proporção de variação total da variável dependente que é explicada pela
variação da variável independente.
Quanto maior o R2 (com valores entre 0 e 1), diz-se que a curva está mais ajustada aos
dados, portanto, o modelo representa bem os dados usados para construí-lo.
Comparativamente, os modelos de regressão requerem um esforço maior para construção
do que as técnicas de séries temporais, excetuando-se possivelmente os modelos ARIMA,
segundo PASSARI (2003). Além disso, eles requerem uma série de testes estatísticos para a
seleção das variáveis de entrada mais relevantes e exigem um conhecimento prévio da forma
funcional do relacionamento entre as variáveis. Em condições normais, tal determinação a
priori é difícil de ser obtida. Uma técnica usual é tentar diversas formais funcionais, a fim de
acarretar em uma família de equações, optando-se pela equação com maior aderência aos
dados. Mesmo nesse caso, deve-se decidir as formas funcionais a serem consideradas.
Freqüentemente, os analistas assumem hipóteses simplificadoras de linearidade na
estrutura dos dados, para que os modelos sejam construídos mais facilmente. Modelos
lineares, entretanto, têm performance ruim na determinação de pontos de inflexão. Como os
problemas em marketing sempre lidam com dados como vendas e preços, as séries de dados
80
estão inseparavelmente ligadas a pontos de inflexão, tendências e não-linearidades, e muitas
vezes podem ser até mesmo caóticas, conforme THALL (1992).
MAKRIDAKIS et al. (1998) desenvolveram uma metodologia para a escolha das
variáveis a serem utilizadas nos modelos de regressão múltipla, a qual envolve:
1. determinação de uma “lista longa” com todas as variáveis potenciais que possam ter
algum efeito sobre a variável dependente analisada, e baseada na opinião de especialistas, na
disponibilidade dos dados e no esforço e custo associado à aquisição dos dados;
2. redução para uma “lista curta”, empregando métodos variados na eliminação de
algumas das possíveis variáveis da lista longa. Os mais simples (e menos recomendados) são:
a) plotar cada variável contra Y, observando se há alguma relação visível;
b) observar as correlações entre todas as variáveis independentes potenciais, eliminando
as de grande correlação para evitar multicolineariedade;
c) efetuar uma regressão múltipla com todas as variáveis e eliminar aquelas com baixo t.
Os métodos mais sofisticados, segundo MAKRIDAKIS et al. (1998) são:
a) regressão stepwise (método iterativo de retirada de variáveis e testes de significância);
b) análise de componentes principais;
c) análise horizontal no tempo (lag analysis).
Já ACZEL (1993) sugere as seguintes abordagens:
testar todas as regressões possíveis. Assim, tendo k variáveis independentes, tem-se
2k possibilidades, já que cada variável pode estar ou não incluída no modelo. Aplica-se, então,
um critério de performance para seleção da melhor opção, que pode ser maior R2 ou menor
MSE (Erro Quadrado Médio);
seleção “para frente”. Começa com um modelo sem variáveis, testando uma de cada
vez e selecionando aquele com maior F estatístico (da análise de componentes principais). O
processo recomeça, adicionando mais uma variável e mantendo aquela pré-selecionada;
81
eliminação “para trás”. Funciona de maneira oposta à seleção para frente: começa
com um modelo com todas as possíveis k variáveis e é retirada aquela com menor F,
recomeçando o processo;
regressão stepwise. É na verdade uma mistura da seleção para frente e eliminação
para trás, que reavalia o nível de significância de todas as variáveis a cada passada - ao
contrário dos demais uma vez tomada a decisão de incluir ou excluir uma determinada
variável, ela não mais é revista.
Apesar das dificuldades na seleção das variáveis e construção dos modelos, HUSSEY e
HOOLEY (1995) mostraram que a análise de regressão é a técnica estatística mais utilizada
nas empresas européias, atingindo cerca de 18% dos respondentes. Essa popularidade deve-se
a pelo menos dois fatores, segundo GROSS e PETERSON (1983):
1. são técnicas de fácil compreensão, mesmo para aqueles sem profundos conhecimentos
matemáticos ou estatísticos;
2. resultam em boa acurácia para a maior parte das aplicações.
Certamente, os modelos de regressão são os que oferecem maior capacidade explicativa
para as variações nos dados, já que é possível enxergar a relação matemática entre as
variáveis explicitamente. Mas, de acordo com ZHOU (1999), eles nem sempre oferecem as
melhores previsões. A maior parte das limitações das regressões está relacionada aos
pressupostos que foram assumidos para a formulação das equações e determinação dos
parâmetros ideais. Os pressupostos assumidos ao se desenvolver um modelo de regressão
qualquer, com n pares de observações disponíveis, são, segundo NEWBOLD (1995):
1. os valores de xi são números fixos (determinados, por exemplo, por um experimento)
ou realizações de variáveis aleatórias Xi, que são independentes do erro e.
2. os termos de erro e são variáveis aleatórias com média zero.
3. as variáveis e têm a mesma variância.
4. as variáveis e não estão correlacionadas uma com a outra.
5. não é possível determinar um grupo de números c0 ... ck de modo que:
c + c1x1 + c2x2 + ... + ckxk = 0
(ou seja, as variáveis independentes não estão correlacionadas).
82
Para PASSARI (2003), as principais limitações da análise de regressão são decorrentes
dos pressupostos acima, e podem ser listadas como sendo:
1. relacionamento constante. As técnicas de regressão assumem um relacionamento
constante entre as variáveis, durante o período histórico compreendido pelos dados utilizados
na criação do modelo. Ou seja, todas as observações possuem o mesmo peso durante a
regressão; o que pode ser um problema sério ao se utilizar grande horizonte de dados
históricos ou ao analisar mercados altamente dinâmicos;
2. autocorrelação. Refere-se à condição onde o valor da variável prevista está relacionado
ao seu valor no período anterior. A análise de regressão assume valores aleatórios e não
ordenados (correlacionados) das variáveis previstas; problema que gera previsões enviesadas -
sub ou sobrestimadas constantemente;
3. multicolinearidade. Presente quando uma ou mais, e até mesmo todas as variáveis
independentes estão relacionadas entre si. A existência desta condição teoricamente invalida
as medidas de correlação e o procedimento de stepwise. Se existir multicolineariedade
perfeita numa regressão, a solução ótima baseada no método dos Mínimos Quadrados não
pode ser encontrada. No caso de multicolineariedades quase perfeitas, esta solução será
afetada por problemas de arredondamento nos computadores;
4. causalidade. A regressão assume uma relação de causalidade entre a variável
dependente e as variáveis independentes; porém essa relação não pode ser tida como certa.
Pode-se afirmar que duas variáveis estão estatisticamente correlacionadas (a mudança em uma
é acompanhada de uma mudança proporcional na segunda), contudo nada se pode afirmar em
respeito à relação de causalidade entre as duas;
5. linearidade. Refere-se à linearidade dos coeficientes e relata-se diretamente ao
desenvolvimento dos testes F e T. Em outras palavras, se for violada, os testes estatísticos não
são mais válidos;
6. independência dos residuais. Também se reflete nos testes F e T, tornando os
resultados destes não válidos. O teste Durbin-Watson é um modo de examinar se este
pressuposto está sendo respeitado;
7. homocedasticidade. Refere-se à variância dos erros, que deve ser constante. Mais uma
vez, o impacto está na validade dos testes F e T;
83
8. normalidade dos residuais. Se há forte violação da normalidade nos erros, os testes
estatísticos não são recomendados;
9. intervalo de confiança. Há um intervalo de confiança ao qual o modelo é aplicável, que
pode ser determinado matematicamente. O desrespeito ao intervalo de confiança gera
previsões errôneas.
3.1.5 MODELOS ECONOMÉTRICOS
Assim como a regressão linear simples é um caso especial da regressão múltipla, esta
última pode ser vista como um caso especial da modelagem econométrica. Os modelos
econométricos envolvem várias equações de regressão, com mais de uma variável
dependente. Vale ressaltar que alguns autores usam o termo “econométrico” para qualquer
modelo de regressão, seja simples, múltiplo ou de várias equações. Na verdade, as técnicas
econométricas surgiram efetivamente para prever índices econômicos, como o próprio nome
diz, e foram posteriormente adaptadas para previsões microeconômicas, segundo PASSARI
(2003).
A análise de regressão assume que cada uma das variáveis independentes seja
determinada por fatores externos, exógenos ao sistema. Esse pressuposto nem sempre é
verdadeiro na análise macroeconômica, onde as variáveis exibem comportamentos
interdependentes.
A maior vantagem dos modelos econométricos é sua habilidade em lidar com
interdependências, ou seja, em levar em consideração variáveis com efeito mútuo, onde não é
possível determinar uma relação de causa e efeito claros. Sua principal desvantagem é a
inexistência de um conjunto de regras que possam ser aplicadas em situações distintas, o que
torna o desenvolvimento dos modelos altamente dependente do problema específico,
solicitando sempre a presença de um analista experiente.
Por exemplo, se um governo quiser saber qual o impacto de uma redução de impostos em
uma economia em recessão, uma modelagem econométrica seria bem apropriada. Tal redução
afetaria a renda das pessoas e empresas e influenciaria toda a economia, incluindo nível de
preços, desemprego, capital circulante aplicado, e assim por diante. Todos esses fatores são
84
inter-relacionados, e uma equação de regressão múltipla não seria capaz de modelar esse
fenômeno eficazmente - tal problema seria mais bem expresso com o uso de um conjunto de
equações econométricas.
3.1.6 REDE NEURAL ARTIFICIAL (RNA)
As RNA são sistemas paralelos distribuídos compostos por unidades de processamento
simples, denominados neurônios, que calculam determinadas funções matemáticas
normalmente não-lineares. Tais unidades são dispostas em uma ou mais camadas e
interligadas por um grande número de conexões, geralmente unidirecionais. Na maioria dos
modelos estas conexões estão associadas a pesos, os quais armazenam o conhecimento
representado no modelo e servem para ponderar a entrada recebida por cada neurônio da rede.
O funcionamento destas redes é inspirado no cérebro humano, conforme HAYKIN (2001).
Para que uma rede neural possa realizar previsões, esta deve ter a capacidade de
memória. É de acordo com a maneira de aderir memória à rede que classificamos as redes
neurais de previsão em dois tipos: i) a rede considera entradas atrasadas no tempo; ii) a rede
tem laços de realimentação.
Os modelos de Redes Neurais comumente utilizados na previsão de séries temporais são
MultiLayer Perceptron, Redes com filtros FIR (Finite Impulse Response) e Redes de Elman,
conforme CALÔBA et al. (2002) e ARAÚJO e GOMES (2005). Maiores informações sobre a
RNA deve-se consultar o anexo 9.2.
3.1.7 LÓGICA FUZZY
A Lógica Fuzzy foi criada por L. A. Zadeh em 1965 e, segundo MENDEL (1995), tem
como objetivo modelar o modo aproximado de raciocínio, permitindo o desenvolvimento de
sistemas que imitem a habilidade humana de tomar decisões racionais em um ambiente de
incerteza e imprecisão. Deste modo, a lógica fuzzy é uma ferramenta capaz de capturar
informações imprecisas, em linguagem natural, e convertê-las em uma forma numérica.
Um sistema fuzzy para previsão de séries difere um pouco dos sistemas fuzzy para outras
aplicações. A extração das regras se faz a partir de dados numéricos (ocorrências temporais da
série), conforme MENDEL (1995), isto é, o conhecimento é adquirido diretamente da própria
85
série, que faz então o papel do especialista. Maiores informações sobre Lógica Fuzzy deve-se
consultar o anexo 9.3.
3.1.8 NEURO-FUZZY
Sistemas neuro-fuzzy (SNF), segundo MENDEL (1995), são sistemas híbridos, porque
utilizam mais de uma técnica de identificação de sistemas para a solução de um problema de
modelagem. Essa mistura de técnicas reflete na obtenção de um sistema mais poderoso (em
termos de interpretação, de aprendizado, de estimativa de parâmetros, de generalização, etc).
Os sistemas neuro-fuzzy combinam a capacidade de aprendizado das redes neurais artificiais
(RNAs) com o poder de interpretação lingüístico dos sistemas de inferência fuzzy (SIFs),
MENDEL (1995).
3.2 MÉTODOS DE PREVISÃO APLICADOS AO TRANSPORTE FERROVIÁRIO
A maior parte dos estudos de previsão de demanda aplicados ao transporte ferroviário se
refere ao transporte de passageiros, segundo COELI (2004). São poucos os que se aplicam ao
transporte ferroviário de carga. BABCOCK et al. (1999) analisaram a demanda por transporte
ferroviário de grãos nos EUA. Conscientes de que essa demanda é dependente de inúmeros
fatores, os autores desenvolveram um modelo de equilíbrio que explicita as principais
variáveis que influenciam a oferta e a demanda por transporte ferroviário.
Segundo BABCOCK et al. (1999), a demanda por transporte ferroviário depende de
fatores externos às ferrovias, relacionados à disponibilidade de produtos a serem
transportados, à demanda nos mercados de destino e à competitividade dos modos
concorrentes (preço e performance). Por outro lado, a oferta disponível está relacionada a
fatores internos, que determinam a competitividade na própria ferrovia.
No Brasil, ÁVILA (1999) desenvolveu um estudo em que procurava prever a demanda
por transporte de carga no Mercosul. Seu foco, portanto, não estava apenas no transporte
ferroviário, mas em todos os modos de transporte. Para a realização do estudo, o pesquisador
levou em conta aspectos políticos, econômicos e sociais dos países do bloco. Aplicou, então,
uma metodologia que usava como ponto de partida as séries históricas de dados sócio-
86
político-econômicos e de dados de transporte e utilizou a técnica econométrica e modelos de
regressão, a fim de incluir as variáveis que considerou relevantes para prever a demanda no
Mercosul.
No que se refere à escolha dos modos de transporte no escoamento da soja brasileira,
encontra-se o estudo de FAJARDO (2001). Tal estudo foca na escolha da alternativa mais
adequada para o transporte da soja produzida nos estados do Mato Grosso e Pará. Seu
objetivo final é observar a possibilidade de inversão do fluxo de transportes em direção aos
portos do Norte e Nordeste do país.
ALMEIDA (1992) realizou estudo semelhante, no qual procurou mostrar os benefícios da
utilização do rio Araguaia para o transporte de soja. Para isso, calculou o valor do
investimento em infra-estrutura para viabilização da hidrovia (derrocamento, dragagem e
sinalização, terminais portuários), identificou o modo pela qual o fluxo de cargas ocorreria ao
longo do rio, levando em conta os fatores que considerou relevantes (custos, tipo de comboio,
salários) e comparou com outras alternativas de transporte, concluindo que o transporte
hidroviário é mais vantajoso.
Outro estudo que segue essa mesma linha é o de NASCIMENTO (2000), cujo objetivo
foi analisar as alternativas de transporte hidroviário, mostrando os benefícios da utilização
desse modo de transporte para o aumento da competitividade da produção brasileira de grãos
frente à produção norte-americana.
3.2.1 PREVISÃO COM DATA MINING
Mineração de dados ou Data Mining é o processo de varrer grandes bases de dados à
procura de padrões, tais como: regras de associação, sequências temporais e dados para
classificação de itens ou agrupamento (clusterização). Maiores explicações serão dadas no
capítulo 4.
De uma maneira geral, a área de previsão é uma dentre aquelas de Data Mining que tem
sido pouco desenvolvida, segundo COELHO (2005); seu trabalho apresenta o algoritmo de
87
indução de modelos de previsão baseados em árvore chamado M5.5’, que é uma evolução do
algoritmo M5 proposto por QUINLAN (1992), e que são utilizados dentro de Data Mining.
Em SILVA (2006), estudam-se métodos de Data Mining como redes neurais e algoritmos
genéticos junto com ferramentas de modelagem de reservatórios para tentar produzir soluções
mais eficientes na predição e otimização da produção de petróleo. As soluções testadas se
mostraram eficientes na modelagem do problema, permitindo bons resultados de previsão de
produção tanto para curto, quanto longo prazo.
MOTA FILHO (2005) utiliza técnicas disponíveis em Data Mining para o planejamento
de circulação de trens em ferrovias, que consiste em determinar os melhores horários de
entrada e saída de cada trem em cada segmento do seu percurso, sendo que o objetivo
primordial a ser alcançado é reduzir ao máximo os atrasos sofridos pelos trens em
conseqüência dos conflitos que podem ocorrer durante a circulação deles na linha ferroviária.
MONTEIRO NETO (2002), em seu trabalho, propõe um sistema de informações a ser
utilizado pelos tomadores de decisão do Departamento de Estradas de Rodagem do Paraná,
em suas tarefas referentes ao gerenciamento da extensa malha rodoviária sob jurisdição direta
do Estado. Para tanto, ele utilizou os Sistemas de Apoio à Decisão; entre eles, o Data Mining.
WEIGANG et al. (2001) desenvolveram um Sistema de Transporte Inteligente (ITS), o
qual está sendo utilizado para otimizar a operação e elevar o nível de satisfação dos usuários
de transporte urbano. Para atingir os objetivos almejados, esse sistema utilizou tecnologias de
setores distintos, tais como: Sistema de Posicionamento Global (GPS); Sistema de
Informações Geográficas (GIS); Banco de Dados / Data Warehouse / Data Mining; Internet e
Telecomunicação; cujo objetivo é disponibilizar informações aos usuários de transporte
coletivo nas paradas de ônibus e posteriormente pela Web.
A General Accounting Office (GAO), agência do senado dos Estados Unidos que
acompanha a utilização de recursos públicos, em seu relatório de maio de 2004, informa que
há 199 projetos de Data Mining, sendo que 68 estão em fase de planejamento e 131 em
execução. A maioria dos projetos são para melhorar serviços ou analisar o desempenho dos
mesmos, passando por área como detecção de fraudes e atividades terroristas. Um dos
88
projetos em execução é na área ferroviária que consiste na utilização dos bancos de dados de
pagamento e dados dos empregados das ferrovias.
Outro trabalho que utiliza Data Mining na área de transporte é o de ICHIKAWA et al.
(2002), no qual utilizam-se as técnicas de árvore de decisão e classificação para se obterem
relações entre as características sócio-econômicas e padrões de viagens dos habitantes de São
Paulo, em 1987.
A escolha do Data Mining, para se fazer previsões de demanda com enfoque em
transporte ferroviário, deveu-se ao fato de ser uma ferramenta voltada para manipulação de
grandes volumes de dados e de não se encontrarem trabalhos sobre ferrovia de carga nessa
área.
89
4 DATA MINING
Os constantes avanços na área da Tecnologia da Informação têm viabilizado o
armazenamento de grandes e múltiplas bases de dados. Tecnologias como a internet, sistemas
gerenciadores de banco de dados, leitores de códigos de barras, dispositivos de memória
secundária de maior capacidade de armazenamento e de menor custo e sistemas de
informação em geral são alguns exemplos de recursos que têm proporcionado a proliferação
de inúmeras bases de dados de natureza comercial, administrativa, governamental e científica.
Atualmente, dados científicos em projetos de pesquisa, como missões espaciais da NASA
e o Projeto do Genoma Humano, têm alcançado proporções gigantescas. Empresas nos
Estados Unidos, tais como: FedEx, Wal-Mart e UPS, e, no Brasil: Banco do Brasil, Caixa
Econômica Federal e Sendas, possuem bases de dados da ordem de centenas de terabytes de
informações. Diante desse cenário, naturalmente surgem algumas questões: “O que fazer com
todos os dados armazenados?”, “Como utilizar o patrimônio digital em benefício das
instituições?”, “Como analisar e utilizar todo o volume de dados disponível?”, entre outras.
A análise de grandes quantidades de dados pelo homem é inviável sem o auxílio de
ferramentas computacionais apropriadas. Portanto, torna-se imprescindível o desenvolvimento
de ferramentas que auxiliem o homem, de modo automática e inteligente, na tarefa de
analisar, interpretar e relacionar esses dados para que se possam desenvolver e selecionar
estratégias de ação em cada contexto de aplicação.
Para atender a esse novo contexto, surgiu a área Descoberta de Conhecimento em Bases
de Dados (Knowledge Discovery in Databases – KDD), que vem despertando interesse junto
às comunidades científica, industrial e comercial. A expressão popular Mineração de Dados
(Data Mining em inglês) é, na realidade, uma das etapas da Descoberta de Conhecimento em
Bases de Dados. Ambas serão mais detalhadas adiante.
Para AZEVEDO e CÔRTES (2006), Mineração de Dados ou Data Mining (DM), em
inglês, é parte de um processo maior de pesquisa denominado KDD, o qual possui uma
metodologia própria para preparação e exploração dos dados, interpretação de seus resultados
90
e assimilação dos conhecimentos minerados. No entanto a Mineração de Dados, se tornou
mais conhecida do que o próprio processo de KDD em função de ser a etapa onde são
aplicadas as técnicas de busca de conhecimentos.
O termo KDD foi formalizado em 1989 em referência ao amplo conceito de procurar
conhecimento a partir de bases de dados. Uma das definições mais populares foi proposta em
1996 por um grupo de pesquisadores, segundo FAYYAD et al. (1996): “KDD é um processo,
de várias etapas, não trivial, interativo e iterativo, para identificação de padrões
compreensíveis, válidos, novos e potencialmente úteis a partir de grandes conjuntos de
dados”.
Na definição formal de KDD, o termo interativo indica a necessidade de atuação do
homem como responsável pelo controle do processo. O homem utiliza os recursos
computacionais disponíveis em função da análise e da interpretação dos fatos observados e
resultados obtidos ao longo do processo.
O termo iterativo, por outro lado, sugere a possibilidade de repetições integrais ou
parciais do processo de KDD, na busca de resultados satisfatórios, por meio de refinamentos
sucessivos.
A expressão não trivial alerta para a complexidade normalmente presente na execução de
processos de KDD.
Ainda considerando a definição de KDD, um padrão deve ser interpretado como um
conhecimento representado segundo as normas sintáticas de alguma linguagem formal,
segundo FAYYAD et al. (1996). Um padrão compreensível refere-se, portanto, a um padrão
representado em alguma maneira de representação do conhecimento que possa ser
interpretada pelo homem. A expressão padrão válido indica que o conhecimento deve ser
verdadeiro e adequado ao contexto da aplicação de KDD. Um padrão novo deve acrescentar
novos conhecimentos àqueles existentes no contexto da aplicação de KDD.
E, finalmente, um conhecimento útil é aquele que pode ser aplicado de modo a
proporcionar benefícios ao contexto da aplicação de KDD.
91
Além da definição de FAYYAD et. al. (1996), diversas outras definições de KDD podem
ser encontradas na literatura. Entre elas destacam-se as seguintes:
KDD é a busca de informações valiosas em grandes bancos de dados. É um esforço
de cooperação entre homens e computadores; os homens projetam bancos de dados,
descrevem problemas e definem seus objetivos; os computadores verificam dados e procuram
padrões que casem com as metas estabelecidas pelos homens, segundo WEIS e
INDURKHYA (1999);
KDD é a exploração e análise de dados, por meios automáticos ou semi-automáticos,
em grandes quantidades de dados, com o objetivo de descobrir regras ou padrões interessantes
, segundo BERRY e LINOFF (1997);
KDD, em poucas palavras, é a análise de dados indutiva, segundo MENA (1999);
KDD é o processo de proposição de várias consultas e extração de informações
úteis, padrões e tendências, freqüentemente desconhecidos, a partir de grande quantidade de
dados armazenada em bancos de dados, segundo THURAISINGHAM (1999);
KDD, de modo simples, é o processo de extração ou mineração de conhecimento em
grandes quantidades de dados, segundo HAN e KAMBER (2001).
Um conceito muito difundido e errado sobre mineração de dados é o que define os
sistemas de mineração de dados como sistemas que podem automaticamente minerar todos os
conceitos valiosos que estão escondidos em um grande banco de dados sem intervenção ou
direcionamento humano, segundo HAN e KAMBER (2001).
De uma maneira geral, a complexidade do processo de KDD está na dificuldade em
perceber e interpretar adequadamente inúmeros fatos observáveis durante o processo e na
dificuldade em conjugar dinamicamente tais interpretações de modo a decidir quais ações
devem ser realizadas em cada caso, segundo GOLDSCHMIDT (2003). Cabe ao analista
humano a árdua tarefa de orientar a execução do processo de KDD, que é multidisciplinar
conforme representação na FIG. 4.1.
92
FIG. 4.1 Assuntos envolvidos com mineração de dados
Fonte: HAN e KAMBER (2001) apud MOTTA (2004).
Com o propósito de melhor situar a área de KDD, a FIG. 4.2 apresenta uma taxonomia
das atividades na área da Descoberta de Conhecimento em Bases de Dados, segundo
GOLDSCHMIDT (2003). Essa taxonomia mostra a diversidade de atividades relacionadas ao
contexto de KDD.
FIG. 4.2 Taxonomia de Atividades na Área de KDD
Fonte: GOLDSCHMIDT e PASSOS (2005).
93
As atividades na área de KDD podem ser organizadas em três grandes grupos: voltadas
ao desenvolvimento tecnológico, à execução de processos de KDD e à aplicação de resultados
obtidos em processos de KDD. A seguir encontram-se comentados os itens dessa
classificação:
desenvolvimento tecnológico: esse item abrange todas as iniciativas de concepção,
aprimoramento e desenvolvimento de algoritmos, ferramentas e tecnologias de apoio que
possam ser utilizados na busca por novos conhecimentos em grandes bases de dados;
execução de KDD: esse item refere-se às atividades voltadas à busca efetiva de
conhecimento em bases de dados. As ferramentas produzidas pelas atividades de
desenvolvimento tecnológico são utilizadas na execução de processo de KDD;
aplicação de resultados: finalmente, uma vez obtidos modelos úteis de conhecimento
a partir de grandes bases de dados, as atividades se voltam à aplicação dos resultados no
contexto em que foi realizado o processo de KDD. Exemplos comuns de aplicação de
resultados são as alterações em estratégias de negócios que tenham como objetivo tirar
proveito do conhecimento obtido. Tais alterações podem variar desde o posicionamento de
produtos nas gôndolas de um mercado até políticas estratégicas corporativas, conforme
AGRAWAL et al. (1993); GOLDSCHMIDT e PASSOS (2000) e GODOY et al. (2003). O
desenvolvimento de sistemas que utilizem conhecimentos extraídos de bases de dados tem
propiciado valiosas ferramentas de apoio à decisão, segundo WEISS e INDURKHYA (1998).
4.1 HISTÓRICO
A Mineração de Dados, usualmente utilizada para referenciar a Descoberta de
Conhecimento em Bases de Dados, pode ser dividida em quatro gerações.
A primeira geração, segundo PIATETSKY-SHAPIRO (1999), apareceu nos anos 80 e
consistia em ferramentas de análise voltadas a uma única tarefa, sem suporte às demais etapas
do processo, que incluíam, em geral, a construção de classificadores usando ferramentas de
Indução de Regras (por exemplo, C4.5) ou de Redes Neurais (por exemplo,
BackPropagation), a descoberta de clusters (grupos) nos dados (por exemplo, K-Means), ou
ainda a visualização de dados. As técnicas aqui citadas estão detalhadas no anexo.
94
A segunda geração, segundo PIATETSKY-SHAPIRO (1999), apareceu em 1995 com o
desenvolvimento de ferramentas chamadas suites. Essas ferramentas eram dirigidas de acordo
com o processo de descoberta do conhecimento que requer múltiplos tipos de análise dos
dados. Os pacotes computacionais, tais como SPPS Clementine, Intelligent Miner e SAS
Enterprise Miner, permitiam ao usuário realizar diversas tarefas de descoberta (geralmente
classificação, clusterização e visualização) e suportavam transformação de dados.
Embora a segunda geração de sistemas de Mineração de Dados enfatize a análise de
dados, tais sistemas requerem conhecimento significativo da teoria estatística, não devendo
ser usados diretamente pelo usuário, sem o auxílio de especialistas em análise de dados.
Assim, surgiu a necessidade da terceira geração, conforme PIATETSKY-SHAPIRO (1999)
no final dos anos 90. Essas soluções são orientadas para a resolução de um problema
específico da empresa, como, por exemplo, detecção de fraudes em cartão de crédito. Nesta
geração, as interfaces são orientadas para o usuário e procuram esconder toda a complexidade
da Mineração de Dados. O HNC Software's Falcon, segundo RAINHO (2001), para detecção
de fraudes em cartão de crédito é um exemplo desse tipo de sistema.
A quarta geração compreende o desenvolvimento e a aplicação de técnicas e ferramentas
que auxiliem o homem na própria condução do complexo processo de KDD, surgida no início
do século 21, conforme GOLDSCHMIDT (2003).
4.2 ETAPAS DO PROCESSO DE KDD
O KDD é caracterizado como um processo composto por várias etapas operacionais. A
FIG. 4.3 apresenta um resumo pragmático das etapas operacionais executadas em processos
de KDD. A etapa de pré-processamento compreende as funções relacionadas à captação, à
organização e ao tratamento dos dados e tem como objetivo a preparação desses dados para os
algoritmos da etapa seguinte, a Mineração de Dados. Durante essa segunda etapa, é realizada
a busca efetiva por conhecimentos úteis no contexto da aplicação de KDD. Já a etapa de pós-
processamento abrange o tratamento do conhecimento obtido na Mineração de Dados, o qual
nem sempre é necessário e tem como objetivo viabilizar a avaliação da utilidade do
conhecimento descoberto, segundo FAYYAD et al. (1996).
95
FIG. 4.3 Etapas Operacionais do Processo de KDD
Fonte: GOLDSCHMIDT e PASSOS (2005).
4.2.1 PRÉ-PROCESSAMENTO
Essa etapa compreende as funções relacionadas à captação, à organização, ao tratamento
e à preparação dos dados para a etapa da Mineração de Dados, possuindo fundamental
relevância no processo de descoberta de conhecimento. Compreende desde a correção de
dados errados até o ajuste da formatação dos dados para os algoritmos de Mineração de Dados
a serem utilizados.
Para cada atividade de pré-processamento apresentada neste tópico, serão indicados e
discutidos alguns métodos.
Ainda, ao longo desta seção, serão apresentadas algumas heurísticas voltadas a
orientações sobre quando determinadas operações devem ser utilizadas. Em inteligência
computacional, denomina-se heurística todo conhecimento que pode ser utilizado na
simplificação de um problema, segundo GOLDSCHIMIDT e PASSOS (2005). Para CURY
(1999), heurística abrange todo método analítico para o descobrimento de verdades científicas
e congrega regras de decisão que contêm informações para a solução de problemas.
4.2.1.1 SELEÇÃO DE DADOS
Essa atividade compreende, em essência, a identificação de quais informações dentre as
bases de dados existentes devem ser efetivamente consideradas durante o processo de KDD,
segundo GOLDSCHMIDT e PASSOS (2005). Em geral, os dados encontram-se organizados
96
em bases de dados transacionais que sofrem constantes atualizações ao longo do tempo.
Assim sendo, recomenda-se que seja sempre feita uma cópia dos dados, a fim de que o
processo de KDD não interfira nas rotinas operacionais eventualmente relacionadas à base de
dados. Nos casos em que já exista uma estrutura de Data Warehouse (DW), deve-se verificar
a possibilidade de que esta seja utilizada no processo de KDD. Nos demais casos, é comum a
congregação dos dados em uma única tabela. Tal fato justifica-se porque a maioria dos
métodos de Mineração de Dados pressupõe que os dados estejam organizados em uma única,
possivelmente muito grande, estrutura tabular bidimensional. Percebe-se, portanto, que o
processo de KDD pode ocorrer independente da disponibilidade ou não de DW.
Para VELLASCO et al. (1999), a função de seleção de dados possui duas direções
(dimensões). A primeira são as colunas ou parâmetros, os quais serão parte do processo de
Data Mining. A segunda é a seleção de linhas ou registros, baseado nos valores dos atributos
individuais. O mecanismo usado para acessar todos os bancos de dados relacionais é o SQL.
Os passos para seleção de dados requerem algum conhecimento do domínio do problema
e do dado. Freqüentemente, o dado é armazenado em um banco de dados para ser manipulado
antes que a mineração de dados se inicie. Essa manipulação é descrita na próxima seção.
4.2.1.2 LIMPEZA
A etapa de pré-processamento envolve, dentre outras atividades, a limpeza dos dados. A
percepção sobre como os dados devem ser pré-processados, a fim de melhorar a qualidade dos
dados e, conseqüentemente, dos resultados da mineração constitui-se em uma questão de
grande relevância no processo de KDD. Em aplicações reais, é comum que os dados, dos
quais se deseja extrair algum conhecimento, estejam incompletos, ruidosos ou inconsistentes.
Conforme definição:
os dados são considerados incompletos se há informação ausente para determinados
atributos ou ainda se há dados pouco detalhados;
dados ruidosos são dados errados ou que contenham valores considerados dispersos,
em inglês outliers, do padrão normal esperado;
97
dados inconsistentes são aqueles que contêm algum tipo de discrepância semântica
entre si.
É importante perceber que a qualidade dos dados tem grande influência na qualidade dos
modelos de conhecimento a serem abstraídos a partir desses dados. Quanto pior for a
qualidade dos dados informados ao processo de KDD, pior será a qualidade dos modelos de
conhecimento gerados, ou seja, lixo entra, lixo sai (em inglês GIGO - garbage in, garbage
out).
A fase de limpeza dos dados envolve uma verificação da consistência das informações, a
correção de possíveis erros e o preenchimento ou a eliminação de valores desconhecidos e
redundantes, além da eliminação de valores não pertencentes ao domínio. A execução dessa
fase tem como objetivo, portanto, corrigir a base de dados, eliminando consultas
desnecessárias que poderiam ser executadas futuramente pelos algoritmos de Mineração de
Dados, afetando o desempenho desses algoritmos. Em geral, os métodos de limpeza dos
dados dependem do contexto da aplicação e pressupõem a caracterização dos domínios
envolvidos. Assim sendo, a participação dos especialistas em KDD e dos especialistas na área
da aplicação é essencial ao processo, segundo GOLDSCHMIDT e PASSOS (2005).
Sobre informações ausentes, HAN e KAMBER (2001) definem que estas se caracterizam
por existirem em diversos registros ou atributos (campos) que não possuem valores
armazenados, os quais podem ser importantes para o processo de KDD e apresentam métodos
para o tratamento da atividade de limpeza:
exclusão de casos: usualmente utilizada quando o conteúdo da variável está ausente -
null. Não é muito efetivo, a menos que o registro possua muitos atributos com valores
ausentes. É especialmente pobre quando o percentual de valores ausentes varia
consideravelmente;
preenchimento manual de valores: em geral essa abordagem consome muito tempo e
pode não ser possível em grandes bases de dados com muitos valores ausentes;
preenchimento com valores globais constantes: atualização de todos os valores
ausentes com um único valor constante. Embora simples, não é muito recomendado;
98
preenchimento com medidas estatísticas: utilizado quando o atributo é do tipo
numérico e seu significado é passível de utilização de uma medida estatística, cálculo do valor
médio do atributo em estudo (por exemplo, quantidade solicitada de transporte pelo cliente) e
atribuição desse valor a todos os valores ausentes do atributo;
preenchimento com métodos de DM: utilizam-se modelos preditivos para sugerir
valores mais prováveis com o objetivo de serem utilizados no preenchimento dos valores
ausentes.
Para valores inconsistentes, HAN e KAMBER (2001) definem que pode haver inúmeras
inconsistências nos dados armazenados e que existem dois métodos para a correção desse
problema:
exclusão de casos: elimina-se o registro que possui o valor inconsistente;
correção de erros: alguns dos dados inconsistentes podem ser corrigidos
manualmente, utilizando-se referências externas, como erros causados por entrada de dados
manuais. Ferramentas de software de engenharia de conhecimento podem também ser
utilizadas para detectar violações nas restrições de integridades dos dados, tais como funções
de dependência entre atributos. Podem também existir inconsistências causadas por
integrações de dados, onde um atributo pode possuir nomes diferentes em seus bancos de
dados.
Para valores não pertencentes ao domínio, GOLDSCHMIDT e PASSOS (2005) definem
que compreendem a identificação e a eliminação de valores que não pertençam ao domínio
dos atributos do problema e que existem dois métodos para a correção desse problema:
exclusão de casos: eliminam-se, do conjunto de dados original, os registros que
possuam pelo menos um valor fora do conjunto de valores válidos de cada atributo;
correção de erros: consiste em substituir os valores inválidos identificados no
conjunto de dados; pode envolver desde a correção manual até a atualização desses valores
em um lote predeterminado de registros utilizando comandos SQL.
99
4.2.1.3 CODIFICAÇÃO
Codificação de dados é atividade de pré-processamento responsável pelo modo como os
dados serão representados durante o processo de KDD. Trata-se de uma atividade criativa que
deve ser realizada repetidas vezes em busca de melhores representações, segundo
GOLDSCHMIDT e PASSOS (2005). É importante compreender que os dados devem ser
codificados de modo a atender às necessidades específicas dos algoritmos de Mineração de
Dados. Por exemplo, uma rede neural requer que os dados estejam em uma representação
numérica. Assim sendo, caso a base de dados a ser processada apresente valores nominais,
estes devem ser codificados antes de serem submetidos à rede.
A codificação de dados é potencialmente a atividade na qual há a necessidade de grande
habilidade no processo de KDD. Tipicamente essa atividade exige a experiência do analista
de dados e do seu conhecimento nos dados em questão. Embora o processo de KDD possa ser
executado sem essa fase, nota-se que, quando efetivada, os resultados obtidos são mais
intuitivos e valiosos, além de que, na maioria das vezes, facilita a construção do modelo,
segundo VELLASCO et al. (1999).
Em essência, a codificação pode ser: numérica – categórica, que divide valores de
atributos contínuos em intervalos codificados; ou categórica – numérica, que representa
valores de atributos categóricos por códigos numéricos, segundo GOLDSCHMIDT e
PASSOS (2005), e detalhadas abaixo:
Codificação: Numérica – Categórica:
o mapeamento direto: consiste na simples substituição dos valores numéricos por
valores categóricos; por exemplo: Sexo: 0 -> M e 1 -> F;
o mapeamento em intervalos: também denominada discretização, a representação
em intervalos pode ser obtida a partir de métodos que dividam o domínio de uma
variável numérica em intervalos.
Codificação: Categórica - Numérica:
o representação binária padrão (econômica): nessa representação, cada valor
categórico é associado a um valor de 1 a N e é representado por uma cadeia de
100
dígitos binários; por exemplo, se temos 5 possíveis valores, podemos representá-los
com cadeias binárias de comprimento 3, conforme TAB. 4.1;
TAB. 4.1 Codificação binária padrão
Valores Originais Representação Binária Padrão
Casado 001 Solteiro 010 Viúvo 100
Divorciado 011
Outro 110 Fonte: GOLDSCHMIDT e PASSOS (2005).
o representação binária 1-de-N: nessa representação, o código 1-N tem um
comprimento igual ao número de categorias discretas permitidas para a variável,
conforme TAB. 4.2;
TAB. 4.2 Codificação binária 1-de-N
Valores Originais Representação Binária 1-de-N
Casado 00001 Solteiro 00010 Viúvo 00100
Divorciado 01000
Outro 10000 Fonte: GOLDSCHMIDT e PASSOS (2005).
o representação binária por temperatura: essa representação é utilizada mais
freqüentemente quando os valores discretos estão relacionados de algum modo, ou
seja, existe uma graduação entre os valores, conforme TAB. 4.3;
TAB. 4.3 Codificação binária por temperatura
Valores Originais Representação Binária por
Temperatura
Fraco 0001 Regular 0011
Bom 0111 Ótimo 1111
Fonte: GOLDSCHMIDT e PASSOS (2005).
Segundo VELLASCO et al. (1999), as vantagens de se codificar um atributo são:
101
melhorar a compreensão do conhecimento descoberto;
reduzir o tempo de processamento para o algoritmo minerador, diminuindo o seu
espaço de busca;
facilitar o algoritmo a tomar decisões globais, já que os valores dos atributos foram
englobados em faixas.
Como desvantagem, cita-se a redução da medida de qualidade de um conhecimento
descoberto, perdendo, assim, detalhes relevantes sobre as informações extraídas, segundo
VELLASCO et al. (1999).
4.2.1.4 NORMALIZAÇÃO
Essa atividade consiste em atribuir uma nova escala a um atributo, de modo que os
valores possam cair na nova escala em um intervalo especificado, tais como de -1,0 a 1,0 ou
de 0,0 a 1,0. Tal ajuste faz-se necessário para evitar que alguns atributos, por apresentarem
uma escala de valores maior que outros, influenciem de maneira tendenciosa em determinados
métodos de Mineração de Dados.
Abaixo estão apresentados, de modo resumido, alguns métodos de normalização de
dados.
Normalização Linear:
também denominada normalização por interpolação linear, consiste em considerar os
valores mínimo e máximo de cada atributo no ajuste de escala. Mapeia os valores de um
atributo no intervalo fechado de 0 até 1. Mantém distâncias entre os dados normalizados que
sejam proporcionais às distâncias entre os dados originais. Recomenda-se a utilização deste
método somente nos casos em que exista a certeza de que o domínio do atributo está entre os
valores mínimo e máximo considerados, segundo GODLSCHMIDT e PASSOS (2005).
MinMax
MinAA' EQ. 4.1
onde:
A’ = valor normalizado;
102
A = valor do atributo a ser normalizado;
Min = valor mínimo do atributo a ser normalizado;
Max = valor máximo do atributo a ser normalizado.
Normalização por Desvio Padrão:
também denominada normalização Z-Score ou Zero Mean, considera a posição média
dos valores de um atributo, assim como os graus de dispersão desses valores em relação à
posição média. Esse método de normalização é útil quando os valores mínimo e máximo do
atributo são desconhecidos, segundo GODLSCHMIDT e PASSOS (2005).
XAA' EQ. 4.2
onde:
A’ = valor normalizado;
A = valor do atributo;
X = média entre os valores do atributo;
s = desvio padrão.
Normalização por Escala Decimal:
esse método realiza o processo de normalização por meio do deslocamento do ponto
decimal dos valores do atributo a ser normalizado. O número de casas decimais depende do
maior valor absoluto do atributo em questão, segundo GODLSCHMIDT e PASSOS (2005).
j
AA
10' EQ. 4.3
onde:
A’ = valor normalizado;
A = valor do atributo;
j = menor inteiro tal que o maior valor absoluto normalizado seja inferior a 1.
Como exemplo de utilização dos métodos, tem-se na TAB. 4.4 o valor original de
despesa de determinados clientes e seus respectivos valores de despesas normalizadas, de
acordo com os métodos das EQ. 4.1, 4.2 e 4.3.
103
TAB. 4.4 Despesas de Clientes
Despesa Normalizada Nome Despesa
Linear
Desvio Padrão
Escala Decimal
José 1.000
0,14
-0,75
0,10
Maria 2.000
0,43
0,13
0,20
Ana 3.000
0,71
1,02
0,30
Pedro 1.500
0,29
-0,31
0,15
Mario 1.500
0,29
-0,31
0,15
Manoel
1.000
0,14
-0,75
0,10
Liza 3.000
0,71
1,02
0,30
Marisa 500
0,00
-1,19
0,05
Carlos 4.000
1,00
1,90
0,40
Paula 1.000
0,14
-0,75
0,10
Fonte: GODLSCHMIDT e PASSOS (2005).
4.2.1.5 ENRIQUECIMENTO
A atividade de enriquecimento consiste em conseguir agregar mais informações aos
registros existentes, a fim de que estes forneçam mais elementos para o processo de
descoberta de conhecimento. A seguir estão comentadas algumas das operações mais
usualmente utilizadas no processo de enriquecimento das bases de dados.
Pesquisas:
estão incluídas nessa operação todas as iniciativas de enriquecimento que envolvem a
captação de novas informações junto às fontes originais. Normalmente as pesquisas requerem
a inclusão de novos atributos ou mesmo de novas tabelas nas bases de dados existentes.
Diferem das operações de limpeza porque não estão restritas a preencher informações
ausentes. Buscam-se, no caso do enriquecimento, agregar novas informações. Muitas vezes
inviáveis devido ao alto custo de implementação, as pesquisas podem ser realizadas
considerando-se uma amostra do universo completo de casos. Recomenda-se uma especial
atenção ao processo de carga das informações captadas em pesquisas; nos casos de pesquisas
realizadas em papel, as interfaces para entrada de dados devem refletir os formulários
utilizados de maneira a facilitar a digitação. Adicionalmente, as devidas críticas de dados
devem estar implementadas nas interfaces de maneira a minimizar os esforços posteriores na
limpeza das informações.
Consultas a bases de dados externos:
104
a atividade de enriquecimento pode ser realizada mediante a incorporação de informações
fornecidas por outros sistemas. É muito comum a importação de informações advindas de
outras bases de dados.
Construção de Atributos:
essa operação consiste em gerar novos atributos denominados derivados a partir dos
existentes. Como exemplo, pode-se citar a criação da idade a partir da data de nascimento e da
data corrente do sistema. A importância desse tipo de operação é justificada, porque novos
atributos, além de expressarem relacionamentos conhecidos entre atributos existentes, podem
reduzir o conjunto de dados, simplificando o processamento dos algoritmos de Mineração de
Dados. A construção de atributos por meio da combinação daqueles já existentes pode
incorporar ao problema informações de relacionamentos entre os dados, que sejam úteis ao
processo de KDD. É conveniente enfatizar que é muito comum a substituição dos atributos
existentes pelos respectivos atributos derivados. Como exemplo de operadores para a
construção de atributos podem ser citados os operadores aritméticos (+, -, *, /).
Correção de prevalência:
essa operação é muitas vezes necessária em tarefas de classificação. Consiste em corrigir
um eventual desequilíbrio na distribuição de registros com determinadas características. Por
exemplo, suponha que em uma base de dados sobre crédito somente um dos clientes não
tenha quitado suas dívidas. Nesse caso, a descoberta de modelos de conhecimento voltados à
classificação de novos clientes pode ser influenciada pela pouca ocorrência de maus
pagadores. Um modo de solucionar esse problema é pelo método de Replicação Aleatória de
Registros, segundo GOLDSCHMIDT e PASSOS (2005), que consiste em selecionar
aleatoriamente registros das classes com menor quantidade de amostras, de modo a equilibrar
o volume de casos associados às diversas classes.
4.2.2 MINERAÇÃO DE DADOS
A Mineração de Dados é a principal etapa do processo de KDD, e nela ocorre a busca
efetiva por conhecimentos novos e úteis a partir dos dados. Por esse motivo, diversos autores,
tais como: FAYYAD et al. (1996), GOLDSCHMIDT e PASSOS (2005), CARVALHO
(2005) e BRAGA (2005), referem-se à Mineração de Dados e ao processo de KDD de
maneira indistinta, como se fossem sinônimos.
105
Para GRAEML (2004), a Mineração de Dados se utiliza de diversas ferramentas e
técnicas para permitir a produção de conhecimento a partir dos dados existentes nas bases de
dados analisadas.
De acordo com CHEN et al. (1996), diferentes critérios podem ser usados para classificar
os sistemas de mineração de dados, tais como:
tipos de base de dados. Os sistemas de mineração de dados podem ser classificados
de acordo com o tipo de base de dados em que estão sendo executados. Por exemplo, um
sistema é considerado um minerador de dados relacional, se o conhecimento descoberto
provir de uma base de dados relacional; ou um minerador orientado a objetos, se executado
sobre uma base de dados orientada a objetos;
tipos de conhecimento. Vários tipos de conhecimento podem ser descobertos pelos
sistemas de mineração de dados, incluindo regras de associação, regras de classificação,
clusterização (agrupamentos), entre outros. FELDENS (1997) aborda os tipos de
conhecimentos descobertos, acrescentando: correlação, dependência (regra curta), descrição
de conceitos, detecção de seqüências, detecção de desvios e regressão;
tipos de técnicas. A escolha da técnica a ser utilizada está diretamente relacionada
com o tipo de conhecimento que se pretende minerar. Para um tipo de conhecimento em
particular, têm-se diferentes abordagens, tais como, aprendizado de máquina, estatística e
orientada a grandes bases de dados, além da integração destas. Essas são comparadas e
utilizadas com ênfase nas questões de base de dados como eficiência e escalabilidade
computacional.
A execução da etapa de Mineração de Dados compreende a aplicação de algoritmos sobre
os dados procurando abstrair conhecimento. Conforme mencionado, esses algoritmos são
fundamentados em técnicas que procuram, segundo determinados paradigmas, explorar os
dados de modo a produzir modelos de conhecimento.
Todo processo de KDD deve ser norteado por objetivos, que compreendem a definição da
tarefa a ser executada e da expectativa que os conhecedores do domínio da aplicação tenham
com relação ao modelo de conhecimento a ser gerado. A partir dessas definições, o
106
especialista em KDD tem condições de delinear que tipos de padrões devem ser abstraídos a
partir dos dados, segundo GOLDSCHMIDT e PASSOS (2005).
Um outro fator que influencia na escolha dos algoritmos de Mineração de Dados a serem
utilizados em cada problema diz respeito aos tipos de variáveis envolvidas. Determinados
algoritmos possuem restrições quanto aos tipos de variáveis existentes no conjunto de dados.
Nesse caso, duas alternativas podem ser consideradas:
eliminam-se do conjunto de algoritmos de Mineração de Dados todos aqueles que
forem incompatíveis com os tipos de variáveis envolvidas no problema; ou opta-se por
utilizar um determinado algoritmo de Mineração de Dados e realizar todo o pré-
processamento sobre o conjunto de dados de modo a torná-lo compatível com o algoritmo
desejado.
Para AZEVEDO e CÔRTES (2006), Inteligência de Negócios ou Business Intelligence
(BI) é um conjunto de conceitos e metodologias que, fazendo uso de acontecimentos (fatos) e
sistemas baseados nos mesmos, apóia a tomada de decisões em negócios. Diversas
tecnologias têm sido usadas conjuntamente em Inteligência de Negócios, entre elas se
destacam as tecnologia de Data Warehousing (DW), de On-Line Analitical Processing
(OLAP), de Análise e Exploração de Dados (AED) e de Mineração de Dados. Sendo que a
última foi aclamada como uma das principais tecnologias para o futuro próximo e é
considerada, atualmente, o ponto mais alto na busca de conhecimentos para tomada de
decisões.
A FIG. 4.4 a seguir exibe as tecnologias que são utilizadas no contexto da inteligência de
negócios. A mineração de dados, atualmente, representa, em nível de informação, a principal
tecnologia para tomada de decisão. Nessa área, não basta apenas trabalhar com informação, é
cada vez mais importante ter conhecimento de seus negócios, conhecimentos esses que a
mineração de dados proporciona.
107
FIG. 4.4 Mineração de Dados no contexto da inteligência de negócios
Fonte: AZEVEDO e CÔRTES (2006).
4.2.2.1 PARTIÇÃO DO CONJUNTO DE DADOS
A etapa de Mineração de Dados é responsável pela abstração de modelos de
conhecimento a partir dos dados existentes, cuja qualidade precisa ser avaliada.
A avaliação de um modelo de conhecimento requer a confrontação deste com dados
visando à mensuração de algumas medidas que expressem sua qualidade. Para que essa
avaliação seja isenta, os dados utilizados na construção do modelo não devem ser os mesmos
utilizados na avaliação. Portanto, pelo menos dois conjuntos de dados devem ser utilizados no
processo de KDD, um de treinamento e um de testes, segundo GOLDSCHMIDT (2003).
o conjunto de treinamento deve conter os registros a serem utilizados na construção
do modelo de conhecimento;
o conjunto de testes, conforme o próprio nome indica, deve conter os registros a
serem utilizados na avaliação do modelo de conhecimento gerado.
Como o processo de KDD possui um conjunto de dados, a operação de partição do
conjunto de dados em treinamento e teste assume grande importância.
108
Para RIPLEY (1996), o conjunto de dados é dividido em até três partes:
treinamento é usado para treinar os modelos, isto é, para estimar os parâmetros do
modelo;
validação é usado para se fazer o ajuste fino e/ou selecionar o melhor modelo, ou
seja, baseado em algumas métricas é escolhido o modelo que melhor ajusta-se aos dados. Por
exemplo, o menor erro da previsão do quadrado médio é um critério que pode ser usado;
teste é usado para testar o desempenho do modelo selecionado. Depois que o melhor
modelo é selecionado e testado, pode ser usado na base de dados inteira.
Para RIPLEY (1996), o conjunto de validação é opcional e os demais obrigatórios, isto
ocorre dependendo da técnica e do algoritmo utilizados.
4.2.2.2 ABORDAGEM DE APRENDIZADO
As principais abordagens de aprendizado normalmente aplicadas no processo de KDD
são: aprendizado supervisionado e aprendizado não-supervisionado, segundo HAYKIN
(2001).
O aprendizado supervisionado compreende a abstração de um modelo de conhecimento a
partir dos dados apresentados na forma de pares ordenados (entrada, saída desejada). Por
entrada entenda-se o conjunto de valores das variáveis de entrada do algoritmo para um
determinado caso. A saída desejada corresponde ao valor que se espera que o algoritmo possa
produzir sempre que receber os valores especificados em entrada. O Back-Propagation e C4.5
são exemplos de algoritmos que utilizam a abordagem de aprendizado supervisionado,
segundo GOLDSCHMIDT e PASSOS (2005). Algoritmos desse tipo necessitam de pelo
menos dois conjuntos de dados: conjunto de treinamento e conjunto de teste. O modelo de
conhecimento é abstraído a partir do conjunto de treinamento e avaliado a partir do conjunto
de testes.
No aprendizado não-supervisionado não existe a informação da saída desejada. Os
algoritmos partem dos dados, procurando estabelecer relacionamentos entre eles. Como
109
exemplos clássicos de algoritmos que utilizam aprendizado não-supervisionado estão o K-
Means e o Apriori, segundo GOLDSCHMIDT e PASSOS (2005).
4.2.3 PÓS-PROCESSAMENTO
Essa etapa envolve a visualização, a análise e a interpretação do modelo de conhecimento
gerado pela etapa de Mineração de Dados. Em geral, é nessa etapa que o especialista em KDD
e o especialista no domínio da aplicação avaliam os resultados obtidos e definem novas
alternativas de investigação dos dados.
A obtenção do conhecimento não é o passo final do processo de KDD. O conhecimento
extraído pode ser utilizado na resolução de problemas da vida real, seja por meio de um
Sistema Inteligente ou de um ser humano como apoio a algum processo de tomada de decisão.
Para isso é importante que algumas questões sejam respondidas aos usuários, segundo LIU e
HSU (1996):
“o conhecimento extraído representa o conhecimento do especialista?”;
“de que maneira o conhecimento do especialista difere do conhecimento extraído?”;
“em que parte o conhecimento do especialista está correto?”.
No entanto, geralmente, não é fácil responder essas questões, já que os algoritmos de
extração de padrões podem gerar uma quantidade enorme de resultados, muitos dos quais
podem não ser importantes, relevantes ou interessantes para o usuário. Sabe-se também que
fornecer ao usuário uma grande quantidade de padrões descobertos não é produtivo, porque,
normalmente, ele procura uma pequena lista daqueles interessantes. Portanto, é de vital
importância desenvolver algumas técnicas de apoio no sentido de fornecer aos usuários
apenas os padrões mais interessantes, conforme SILBERSCHATZ e TUZHILIN (1995).
Diversas medidas para avaliação de conhecimento têm sido pesquisadas com a finalidade
de auxiliar o usuário no entendimento e na utilização do conhecimento adquirido e podem ser
divididas entre medidas de desempenho e medidas de qualidade.
110
Para LAVRAC et al. (1999), algumas medidas de desempenho são precisão, erro,
confiança negativa, sensitividade, especificidade, cobertura, suporte, satisfação, velocidade e
tempo de aprendizado.
As medidas de qualidade são necessárias, pois um dos objetivos do processo de Extração
de Conhecimento é que o usuário possa compreender e utilizar o conhecimento descoberto.
Entretanto, podem ocorrer casos em que os modelos são muito complexos ou não fazem
sentido para os especialistas, segundo PAZZANI (2000) e PAZZANI et al. (1997). Assim, a
compreensibilidade do conhecimento extraído é um aspecto bastante importante para o
processo de Extração de Conhecimento.
A compreensibilidade de um dado conjunto de regras está relacionada com a facilidade
de interpretação dessas regras por um ser humano; já a compreensibilidade de um modelo
pode ser estimada, por exemplo, pelo número de regras e número de condições por regra.
Nesse caso, quanto menor a quantidade de regras de um dado modelo e menor o número de
condições por regra, maior será a compreensibilidade das regras descobertas, segundo
FERTIG et al. (1999). Em PAZZANI (2000) e PAZZANI et al. (1997), é discutido que outros
fatores, além do tamanho do modelo, são importantes na determinação da compreensibilidade
de um conhecimento. Um fator citado é que os usuários especialistas possuem tendência a
compreender melhor os modelos que não contradizem seu conhecimento prévio.
A interessabilidade é uma maneira de avaliar a qualidade tentando estimar o quanto de
conhecimento interessante (ou inesperado) existe e deve combinar fatores numa medida que
reflita como o especialista julga o padrão, segundo PIATETSKY-SHAPIRO e MATHEUS
(1994).
As medidas de interessabilidade estão baseadas em vários aspectos, principalmente na
utilidade que as regras representam para o usuário final do processo de Extração de
Conhecimento, segundo DONG e LI (1998). Para SILBERSCHATZ e TUZHILIN (1995),
PIATETSKY-SHAPIRO e MATHEUS (1994) e FREITAS (1998), essas medidas podem ser
divididas em objetivas e subjetivas.
111
Medidas objetivas são aquelas que estão relacionadas somente com a estrutura dos
padrões e do conjunto de dados de teste. Elas não levam em consideração fatores específicos
do usuário nem do conhecimento do domínio para avaliar um padrão. Algumas medidas
objetivas de interessabilidade são: modelos de regras, cobertura de regras mínimas e custo da
classificação incorreta, segundo HORST (1999).
Como diferentes usuários finais do processo de Extração de Conhecimento podem ter
diferentes graus de interesse para um determinado padrão, medidas subjetivas são necessárias.
Essas medidas consideram que fatores específicos do conhecimento do domínio e de interesse
do usuário devem ser tratados ao selecionar um conjunto de regras interessantes ao usuário.
Algumas medidas subjetivas são inesperabilidade e utilidade, segundo SILBERSCHATZ e
TUZHILIN (1995).
Em um ambiente para avaliação de conhecimento, aspectos objetivos de interessabilidade
podem ser utilizados como um primeiro filtro para selecionar regras potencialmente
interessantes. Por outro lado os aspectos subjetivos podem ser utilizados como um filtro final
para selecionar regras realmente interessantes.
Após a análise do conhecimento, caso este não seja de interesse do usuário final ou não
cumpra com os objetivos propostos, o processo de extração pode ser repetido ajustando-se os
parâmetros ou melhorando o processo de escolha dos dados para a obtenção de resultados
melhores numa próxima iteração.
A seguir encontram-se indicadas as atividades do pós-processamento.
4.2.3.1 SIMPLIFICAÇÃO DE MODELO DE CONHECIMENTO
A simplificação de um modelo de conhecimento, conforme o próprio nome sugere,
consiste em remover detalhes deste de modo a torná-lo menos complexo, sem perda de
informação relevante.
A representação de conhecimento por meio de regras é muito utilizada em KDD.
Conjuntos com grandes quantidades de regras são de difícil interpretação, exigindo métodos
112
voltados ao corte de regras. Esses métodos se baseiam em medidas de qualidade das regras,
segundo HAN e KEMBER (2001).
No processo de KDD, é comum que o usuário estabeleça limites mínimos de acurácia e
abrangência para as regras, de tal maneira a excluir do modelo de conhecimento gerado todas
as regras que não satisfaçam a tais limites. O corte de atributos em determinadas regras
também constitui-se em uma alternativa para simplificação de modelos de conhecimento. O
ID3 ou sua versão mais recente C4.5 são algoritmos que eliminam atributos e conseqüente-
mente conjuntos de regras baseados no conceito de entropia da Teoria da Informação,
segundo QUINLAN (1993). De uma maneira simplificada, o grau de entropia de um conjunto
de atributos expressa o grau de complexidade da informação contida no referido conjunto.
Assim, quanto menor a entropia, menor a quantidade de informação codificada em um ou
mais atributos. Em contrapartida, quanto maior a entropia de um conjunto de atributos, maior
a relevância desses atributos na descrição do conjunto de dados. De modo análogo ao descrito
para regras, existem métodos de simplificação de modelos baseados na poda de árvores de
decisão. Para um melhor entendimento dessa classe de algoritmos, é necessário compreender
que existe uma correspondência entre regras e árvores de decisão, melhor comentada na
próxima seção.
4.2.3.2 ORGANIZAÇÃO E APRESENTAÇÃO DOS RESULTADOS
Conforme mencionado, os modelos de conhecimento podem ser representados de
diversos modos: árvores, regras, gráficos em duas ou três dimensões, planilhas, tabelas e
cubos de dados. Em geral, as técnicas de visualização de dados estimulam a percepção e a
inteligência humana, aumentando a capacidade de entendimento e associação de novos
padrões. Oferecem, portanto, subsídios para a escolha dos passos seguintes a serem realizados
no processo de KDD.
4.3 TAREFAS DE KDD
No processo de KDD cada etapa pode possuir uma interseção com as demais. Desse
modo, os resultados produzidos numa etapa podem ser utilizados para melhorar os resultados
das próximas etapas. Esse cenário indica que o processo de KDD é iterativo, buscando sempre
113
aprimorar os resultados a cada iteração. Na execução do processo de KDD o usuário analisa
as informações geradas em cada etapa e procura incorporar sua experiência de analista de
dados para obter, cada vez mais, melhores resultados.
A definição do problema é fundamental para o processo de KDD e requer que a pessoa
que solicita a tarefa de KDD entenda perfeitamente o problema existente e tenha um objetivo
bem especificado, ou seja, aquilo que se deseja conhecer ou extrair. Para isso, é necessário
uma interação com o solicitador da tarefa de modo que seja exposto tudo o que se relaciona
com o problema. Tendo sido definido o problema, pode-se fixar metas para os objetivos da
tarefa de KDD.
4.3.1 DESCOBERTA DE ASSOCIAÇÕES
A tarefa clássica de busca por regras de associação (também denominada de regras
associativas) foi introduzida em AGRAWAL et al. (1993). Intuitivamente essa tarefa consiste
em encontrar conjuntos de itens que ocorram simultaneamente e de modo freqüente em um
banco de dados.
Como exemplo de uma aplicação da descoberta de regras de associação, considere o
banco de dados da TAB. 4.5. Nesse exemplo a tarefa consiste em descobrir produtos que
sejam freqüentemente transportados de modo conjunto.
Abaixo estão indicados dois exemplos de regras de associação. São implicações que
indicam que a ocorrência do conjunto de itens do antecedente da regra tem propensão a levar
à compra do conjunto de itens do conseqüente. A regra (1) indica que o transporte de
vergalhão pode levar ao transporte de fio máquina. Segundo a regra (2), o transporte de fio
máquina e areia pode induzir ao transporte de madeira.
(1) Vergalhão -> Fio máquina
(2) Fio máquina /\ Areia -> Madeira
114
TAB. 4.5 Relação de transportes efetuados em um período
Transação Vergalhão
Madeira
Cimento
Fio
máquina
Areia Soja Açúcar
1 Não Sim Não Sim Sim Não Não
2 Sim Não Sim Sim Sim Não Não
3 Não Sim Não Sim Sim Não Não
4 Sim Sim Não Sim Sim Não Não
5 Não Não Sim Não Não Não Não
6 Não Não Não Não Sim Não Não
7 Não Não Não Sim Não Não Não
8 Não Não Não Não Não Não Sim
9 Não Não Não Não Não Sim Sim 10 Não Não Não Não Não Sim Não
Formalmente, uma regra de associação é uma implicação de modo X -> Y, onde X e Y
são conjuntos de itens tais que X n Y = 0. Convém destacar que a interseção vazia entre
antecedente e conseqüente das regras assegura que não sejam extraídas regras óbvias que
indiquem que um item está associado a ele próprio.
Transação é o nome atribuído ao elemento de ligação existente em cada ocorrência de
itens no banco de dados.
Uma associação é considerada freqüente se o número de vezes em que a união de
conjuntos de itens (X U Y) ocorrer em relação ao número total de transações do banco de
dados for superior a uma freqüência mínima (denominada suporte mínimo) que é estabelecida
em cada aplicação. Busca-se, por meio do suporte, identificar que associações surgem em
uma quantidade expressiva a ponto de ser destacada das demais existentes. No exemplo da
TAB. 4.5, as regras (1) e (2) possuem suporte 20% e 30%, respectivamente.
Uma associação é considerada válida se o número de vezes em que X U Y ocorrer em
relação ao número de vezes que X ocorrer for superior a um valor denominado confiança
mínima, e também estabelecido em cada aplicação. A medida de confiança procura expressar
a qualidade de uma regra, indicando o quanto a ocorrência do antecedente da regra pode
assegurar a ocorrência do conseqüente desta. As regras (1) e (2) possuem confiança 100% e
75%, respectivamente.
115
Denomina-se K-itemset todo conjunto de itens com exatamente K elementos. As regras
(1) e (2) apresentadas acima correspondem a 2-itemset e 3-itemset, respectivamente.
Assim sendo, a tarefa de Descoberta de Associações (Descoberta de Regras de
Associação) pode ser definida formalmente como a busca por regras de associação
freqüentes e válidas em um banco de dados, a partir da especificação dos parâmetros de
suporte e confiança mínimos.
Os valores desses parâmetros devem ser especificados pelo especialista em KDD em
conjunto com o especialista no domínio da aplicação.
Existem diversos algoritmos desenvolvidos especificamente para aplicação na tarefa de
descoberta de associações, dentre eles: Apriori, DHP (Direct Hashing and Pruning), Partition,
DIC (Dynamic Itemset Counting), Eclat, MaxEclat, Clique, MaxClique, Cumulate e
EstMerge, segundo GOLDSCHMIDT e PASSOS (2005). Existem versões desses algoritmos
para funcionamento em ambientes paralelos e distribuídos.
Todos os algoritmos mencionados, no entanto, possuem uma estrutura comum, inspirada
na estrutura do algoritmo Apriori. Baseiam-se na propriedade de antimonotonicidade do
suporte: “Um k-itemset somente pode ser freqüente se todos os seus (k-l)-subconjuntos forem
freqüentes”. É fácil observar que o suporte de um conjunto de itens nunca pode crescer
quando este é expandido para um conjunto com mais itens. Pode, na melhor hipótese,
permanecer igual ou simplesmente diminuir.
4.3.2 DESCOBERTA DE SEQÜÊNCIAS
É uma extensão da tarefa de descoberta de associações, que considera o aspecto temporal
entre as transações registradas no banco de dados.
Na descoberta de associações, os padrões a serem descobertos pertencem a cada
transação e são denominados padrões intratransação. No caso da descoberta de seqüências, os
padrões são denominados intertransação, pois diversas transações devem ser analisadas em
ordem cronológica de ocorrência. A busca por tais padrões é, evidentemente, mais complexa
116
do que a busca por padrões intratransação.
Como exemplos de aplicações de descoberta de seqüências podem ser citados:
a análise do histórico de itens comprados por consumidores ao longo de um período.
A descoberta de quais itens os consumidores compram ao longo do tempo pode ser utilizada
no marketing com a oferta de compras de maneira direcionada aos interesses sazonais de cada
consumidor ou de grupos de consumidores;
a análise do histórico contendo a ordem dos acessos às páginas de um site pelos
usuários da Internet, o que permite identificar páginas de interesse e atalhos de acesso. Com
base nessas informações, os sites podem ser reestruturados de acordo com os interesses das
pessoas que o acessam, tornando-os mais práticos e agradáveis.
Uma seqüência é uma lista ordenada de conjuntos de itens, caracterizada por objetos,
rótulos temporais e eventos. Cada registro armazena ocorrências de eventos sobre um objeto
em um instante de tempo particular. Notação: <S1, S2 ... Sn> onde Sy é um conjunto de itens.
O conjunto de itens Sy é também chamado de elemento da seqüência. Cada elemento da
seqüência é denotado por <X1, X2 ... Xn> onde Xy é um item ou evento.
No exemplo das compras do mercado, apresentado na TAB. 4.6:
117
TAB. 4.6 Relação das compras realizadas por cada cliente
Identificação do Cliente
Identificação da Transporte
Itens
114 A B 232 B 1
349 A B 150 A C 386 A B C
2
529 B 105 A 307 B 3
402 A 302 A B 447 A 4
596 B
os clientes correspondem aos objetos e servem de ligação entre os diversos eventos
temporais, que são as compras realizadas;
os itens transportados correspondem aos itens vinculados a cada evento temporal de
compra, realizado por um consumidor.
Uma seqüência <a1a2...an> é uma subseqüência (ou especialização) de outra seqüência
<b1b2...bn> se existirem inteiros i1 < i2 < ... < in, tais que a1
bi1 , a2
bi2, ... an
bin.
Exemplos:
< (3) (4,5) (8) > é uma subseqüência de < (7) (3,8) (9) (4,5,6) (8) >, pois (3)
(3,
8), (4,5) (4,5,6) e (8) (8);
a seqüência < (3) (5) > não é uma subseqüência de < (3, 5) > e vice-versa.
O suporte (ou freqüência) de uma seqüência a refere-se à proporção de objetos que
contêm a.
A seguir encontram-se citados alguns exemplos de seqüências observáveis na TAB. 4.6 e
seus respectivos suportes na TAB. 4.7:
118
TAB. 4.7 Seqüências descobertas
Seqüência Suporte (%) <(A)> 100
<(A) (A)> 100 <(B) (A)> 75
<(B)> 100 <(A , B)> 75 <(A) (B)> 100 <(B) (B)> 75
<(A , B) (B)> 75
Dado um limiar definido pelo usuário, denominado suporte mínimo, diz-se que uma
seqüência é freqüente se esta ocorrer mais do que o suporte mínimo. Uma k-seqüência é uma
seqüência com exatamente k elementos.
4.3.3 CLASSIFICAÇÃO
Uma das tarefas de KDD mais importantes e mais populares é a tarefa de classificação.
Informalmente, conforme mostra a FIG. 4.5, essa tarefa pode ser compreendida como a busca
por uma função que permita associar corretamente cada registro Xi de um banco de dados a
um único rótulo categórico, Yj, denominado classe. Uma vez identificada, essa função pode
ser aplicada a novos registros de modo a prever a classe em que tais registros se enquadram.
Com a finalidade de formalizar a tarefa de classificação, consideremos um par ordenado
da maneira (x, f(x)), onde x é um vetor de entradas n-dimensional, e f(x) a saída de uma função
f, desconhecida, aplicada a x. A tarefa de inferência indutiva consiste em, dada uma coleção
de exemplos de f, obter uma função h que se aproxime de f. A função h é chamada de hipótese
ou modelo de f.
119
FIG. 4.5 Associação entre registros de dados e classes
Fonte: GOLDSCHMIDT e PASSOS (2005).
Nos casos em que a imagem de f é formada por rótulos de classes, a tarefa de inferência
indutiva é denominada classificação, e toda hipótese h chamada de classificador. A
identificação da função h consiste em um processo de busca no espaço de hipóteses H, pela
função que mais se aproxime da função original f. Esse processo é denominado aprendizado ,
segundo RUSSELL e NORVIG (1995). Todo algoritmo que possa ser utilizado na execução
do processo de aprendizado é chamado algoritmo de aprendizado; o conjunto de todas as
hipóteses que podem ser obtidas a partir de um algoritmo de aprendizado L é representado por
HL e cada hipótese pertencente ao HL é representada por hL.
A acurácia da hipótese h retrata a qualidade ou a precisão de h em mapear corretamente
cada vetor de entradas x em f(x). O conjunto de pares (x, f(x)) utilizados na identificação da
função h é denominado conjunto de treinamento. Por outro lado, o conjunto de pares (x, f(x))
utilizados para avaliar a acurácia de h é denominado conjunto de testes. Assim, o algoritmo L
pode ser interpretado como uma função, tal que:
L: T -> HL, onde T é o espaço composto por todos os conjuntos de treinamento possíveis
para L.
120
Cada algoritmo possui um bias indutivo que direciona o processo de construção dos
classificadores. O bias indutivo de um algoritmo pode ser definido como o conjunto de
fatores que coletivamente influenciam na seleção de hipóteses, segundo UTGOFF (1986).
Em termos práticos, o bias de um algoritmo de aprendizado L afeta o processo de
aprendizado de dois modos: restringe o tamanho do espaço de hipóteses HL e impõe uma
ordem de preferência sobre as hipóteses em HL , conforme BENUSAN (1999).
Segundo o teorema NFL (No Free Lunch Theorem), WOLPERT (1996), não existe um
algoritmo de classificação que seja superior a todos os outros em qualquer problema de
classificação. Isso significa que, a cada nova aplicação envolvendo a tarefa de classificação,
os algoritmos disponíveis devem ser experimentados a fim de identificar aqueles que obtêm
melhor desempenho.
Como exemplos nos quais a tarefa de classificação é aplicável, podem ser citados: análise
de crédito, análise de risco em seguros, diagnóstico de doenças e prescrição de tratamento,
análise de defeitos em equipamentos, entre inúmeros outros.
Conforme mencionado anteriormente, uma medida de desempenho de classificador
comumente utilizada é a acurácia (Acc(h)), também denominada precisão do classificador:
)(1)( hErrhAcc EQ. 4.4
Onde:
Err(h): é denominada taxa de erro ou taxa de classificação incorreta e calculada do
seguinte modo.
n
ii ihy
nhErr
1
)(1
)( EQ. 4.5
Na equação acima:
o operador E retoma 1 se a expressão E for verdadeira e 0; caso contrário
121
n é o número de exemplos (registros da base de dados);
Yi é a classe real associada ao i-ésimo exemplo;
h(i) é a classe indicada pelo classificador para o i-ésimo exemplo.
Uma vez induzida uma hipótese (classificador), esta pode ser muito específica para o
conjunto de treinamento utilizado. Caso esse conjunto não seja suficientemente
representativo, o classificador pode ter bom desempenho no conjunto de treinamento, mas não
no de teste. Diz-se, nesse caso, que o classificador ajustou-se em excesso ao conjunto de
treinamento, ocorrendo fenômeno denominado overfitting.
Por outro lado, quando o classificador ajusta-se muito pouco ao conjunto de treinamento,
diz-se que ocorre um underfitting, fenômeno que costuma ocorrer em função de
parametrizações inadequadas do algoritmo de aprendizado; por exemplo, um número de
neurônios insuficiente em uma rede neural, ou uma tolerância de erro excessivamente alta.
A completude de um classificador se refere à capacidade deste em classificar (apresentar
uma resposta) a todos os exemplos da base de dados. A consistência, por outro lado, indica a
capacidade do classificador em classificar corretamente os exemplos disponíveis no banco de
dados.
Por ora, para fins ilustrativos, consideremos a base de dados da TAB. 4.8 que contém
dados sobre clientes e seu interesse por determinado tipo de literatura. O algoritmo de
aprendizado C4.5, aplicado a essa base, geraria um classificador representado pelo conjunto
de regras da TAB. 4.8.
122
TAB. 4.8 Clientes e suas compras em um tipo de literatura
Sexo País Idade Compra
M França 25 Sim M Inglaterra 21 Sim F França 23 Sim F Inglaterra 34 Sim F França 30 Não M Alemanha
21 Não M Alemanha
20 Não F Alemanha
18 Não F França 34 Não M França 55 Não
Se país = Alemanha então compra = Não Se país = lnglaterra então compra = Sim Se país = França e idade <= 25 então compra = Sim Se país = França e idade > 25 então compra = Não
4.3.4 SUMARIZAÇÃO
A tarefa de sumarização, também denominada descrição de conceitos, consiste em
identificar e apresentar, de modo conciso e compreensível, as principais características dos
dados contidos em um conjunto de dados.
Exemplos de aplicações envolvendo a tarefa de sumarização:
a) identificar as características dos assinantes de uma revista que residem na região
sudeste do Brasil: “são em grande maioria, assinantes com faixa salarial de X reais, nível
superior completo e que possuem residência própria”;
b) descrever o perfil dos meninos de rua da cidade do Rio de Janeiro: “são meninos que
se encontram predominantemente na faixa etária X, cujos pais utilizam drogas e possuem na
faixa de Y irmãos”.
Um conceito normalmente se refere a uma coleção de dados com pelo menos uma
característica em comum. Por exemplo: assinantes da revista XYZ na região Sudeste, meninos
de rua na cidade do Rio de Janeiro, clientes inadimplentes, pacientes cardiopatas, alunos de
123
graduação, locomotivas com defeitos, dentre muitos outros.
A sumarização dos dados não é uma simples enumeração destes. Busca gerar descrições
para caracterização resumida dos dados e possivelmente comparação (discriminação) entre
eles. Tais descrições são denominadas descrições de classe, quando o conceito a ser descrito
se refere a uma classe de objetos.
A descrição de conceitos pode ser interpretada como uma generalização dos dados a
partir das características mais relevantes dentre os registros analisados.
4.3.5 CLUSTERIZAÇÃO
A tarefa de Clusterização, também chamada de Agrupamento, é usada para particionar os
registros de uma base de dados em subconjuntos ou clusters, de tal maneira que elementos em
um cluster compartilhem um conjunto de propriedades comuns que os distingam dos
elementos de outros clusters. O objetivo dessa tarefa é maximizar similaridade intracluster e
minimizar similaridade intercluster. Diferente da classificação que tem rótulos predefinidos, a
clusterização precisa automaticamente identificar os rótulos; por essa razão, é também
denominada indução não-supervisionada. A clusterização pode ser definida como uma das
tarefas básicas da Mineração de Dados que auxilia o usuário a realizar agrupamentos naturais
de registros em um conjunto de dados.
A análise de clusters envolve, portanto, a organização de um conjunto de padrões
(usualmente representados na forma de vetores de atributos ou pontos em um espaço
multidimensional - espaço de atributos) em clusters, de acordo com alguma medida de
similaridade. Intuitivamente, padrões pertencentes a um dado cluster devem ser mais similares
entre si (compartilham um conjunto de propriedades comuns) do que em relação a padrões
pertencentes a outros clusters.
Em geral, o processo de clusterização requer que o usuário determine qual o número de
grupos a ser considerado. Com base nesse número, os registros de dados são então separados
de modo que registros similares fiquem nos mesmos grupos e registros diferentes em grupos
distintos. Uma vez tendo esses grupos, é possível fazer uma análise dos elementos que
124
compõem cada um deles, identificando as características comuns aos seus elementos e, dessa
maneira, podendo criar um rótulo que represente cada grupo.
A presença de dados distribuídos em um espaço de grande dimensionalidade (muitos
atributos) dificulta a detecção de clusters, porque estes podem estar imersos em algum
subespaço do espaço de dados original.
4.3.6 PREVISÃO DE SÉRIES TEMPORAIS
Para CARVALHO (2005), detectar regularidades em fenômenos que ocorrem ao longo
do tempo e poder prever tendências futuras são tarefas das mais importantes no mundo atual.
A previsão de séries temporais, como preços futuros em mercados livres, tendências nas
bolsas de valores e prognósticos de pacientes, não é uma atividade fácil, pois os parâmetros
envolvidos são muitos, e a descoberta de ciclos ou padrões de repetição nem sempre se faz de
maneira clara, porque as técnicas matemáticas têm seus limites diante de fenômenos da
dinâmica não-linear como o caos. Se no mundo de hoje o conhecimento significa dinheiro,
pode se imaginar o que dizer do conhecimento prévio.
Entre as várias tarefas de KDD, destaca-se a previsão de séries temporais, segundo
SERRA (2002), AMARAL (2001), CARVALHO (2005), GOLDSCHMIDT e PASSOS
(2005).
Uma série temporal é um conjunto de observações de um fenômeno ordenadas no tempo.
Citam-se como exemplos de séries temporais: o consumo mensal de energia elétrica de uma
casa, registrado durante um ano; as vendas diárias de um produto no decorrer de um mês e o
transporte solicitado pelos clientes da ferrovia; dentre muitos outros.
A análise de uma série temporal é o processo de identificação das características, dos
padrões e das propriedades importantes da série, utilizados para descrever em termos gerais o
seu fenômeno gerador. Dentre os diversos objetivos da análise de séries temporais, o maior
deles é a geração de modelos voltados à previsão de valores futuros, segundo
GOLDSCHIMIDT e PASSOS (2005).
125
Para DIAS (2001), a predição é o processo de escolher o melhor resultado possível
baseado na análise de dados históricos. O usuário deve analisar a informação descoberta de
acordo com sua tarefa de suporte à decisão e objetivos. Portanto, ele precisa ter um bom
entendimento sobre o negócio da empresa e sobre o conhecimento descoberto.
Dentre os modelos que se pode utilizar nessa análise, estão os que proporcionam a
classificação das observações; os que permitem prever comportamentos de novas
observações, com base em informações existentes a respeito de observações anteriores; os de
agrupamento e os de séries temporais, segundo GRAEML (2004).
4.3.7 DETECÇÃO DE DESVIOS
A tarefa de detecção de desvios tem como objetivo identificar mudanças em padrões
anteriormente percebidos. Sua aplicação vem crescendo de maneira significativa nos últimos
anos, sendo muito utilizada para detecção de fraudes em cartões de crédito, planos de saúde,
arrecadação, consumo de combustível de locomotivas, dentre outras.
Essa tarefa objetiva encontrar conjuntos de dados que não obedecem ao comportamento
ou modelo destes. Uma vez encontrados podem ser tratados ou descartados para utilização no
processo de KDD, o que torna essa avaliação nos dados importante no sentido de descobrir
probabilidades crescentes de desvios ou riscos associados aos vários objetivos traçados
inicialmente na mineração dos dados. Detectar esses desvios é muito análogo às técnicas
utilizadas em análises estatísticas, onde são aplicados testes de significância que assumem
uma distribuição, utilizando medidas estatísticas, como, por exemplo, a média aritmética e
desvio padrão para aferir essas diferenças, segundo HAN e KAMBER (2001), WEIS e
INDURKHYA (1999).
Diferentemente das demais tarefas de KDD, em que a repetição de padrões é uma
característica fundamental na busca por conhecimento, a detecção de desvios procura
identificar padrões com pouca incidência e que sejam suficientemente distintos dos valores
normalmente registrados, segundo GOLDSCHMIDT e PASSOS (2005).
126
Para PRADO (1997), a detecção de desvios ou padrões identifica elementos que se
encontram fora dos padrões esperados ou estabelecidos.
127
5 METODOLOGIA PROPOSTA
Segundo CARVALHO (2005), KDD pode ser realizado de três diferentes maneiras em
função do nível de conhecimento que se tenha do problema estudado:
Se nada se sabe sobre o comportamento do fenômeno, pode-se simplesmente deixar
que as técnicas de KDD procurem nos dados relações escondidas e que não poderiam ser
descobertas com facilidade. Chama-se esse método de descoberta não-supervisionada de
relações.
Quando se tem algum conhecimento sobre o campo de atuação da empresa ou
alguma idéia sobre que relação nova se está buscando, pode-se definir uma hipótese e
verificar sua confirmação ou refutação por meio da metodologia do KDD, denominada
testagem de hipótese.
Finalmente, quando se tem um nível maior de conhecimento da área e da relação que
se deseja estudar, procede-se com a metodologia de modelagem de dados.
São infinitas as possibilidades de ação em problemas de KDD. Diante desse cenário, este
capítulo tem como principal objetivo descrever um modo de trabalho que procure organizar
esforços e resultados em um processo tão vasto quanto ao de KDD. Aqui, são restringidas as
diretrizes que devem nortear a elaboração da metodologia para a previsão de demanda
ferroviária por meio de KDD. Chama-se metodologia uma coleção de métodos, técnicas e
ferramentas para se atingir um objetivo, segundo PMBOX (1996).
O desenvolvimento de um sistema de descoberta de conhecimento em banco de dados é
uma tarefa muito complexa, principalmente pela característica de indeterminismo desse tipo
de sistema. Portanto, é imprescindível o uso de uma metodologia completa e sistemática.
“Uma metodologia de engenharia de software é um processo para a
produção organizada de software, com utilização de uma coleção de
técnicas predefinidas e convenções notacionais. Uma metodologia
costuma ser apresentada como uma série de etapas, com técnicas e
notação associadas a cada etapa.”, RUMBAUGH (1994).
128
Os trabalhos que se propõem a apresentar uma metodologia para o processo de KDD não
incluem formalismo na especificação desses sistemas. Normalmente, as metodologias
propostas procuram solucionar questões relativas a determinadas etapas do processo de
desenvolvimento desses sistemas e não apresentam notação para representar as características
do sistema como um todo.
A complexidade do processo de KDD deve-se, basicamente, à dificuldade de percepção,
interpretação e conjugação adequada de inúmeros fatos que surgem durante o processo, aliada
à diversidade de alternativas de métodos e parametrizações possíveis de experimentação,
segundo GOLDSCHMIDT e PASSOS (2005).
Segundo o site especializado em KDD, KDnuggets, as principais metodologias usadas
por empresas estão representadas na TAB. 5.1.
TAB. 5.1 Metodologias usadas em KDD
2002 2004 Metodologia Qtde % Qtde %
CRISP-DM 96
50,79
72
42,35
SEMMA 22
11,64
17
10,00
Organização 13
6,88
11
6,47
Proprietária 43
22,75
48
28,24
Outras 8
4,23
10
5,88
Nenhuma 7
3,70
12
7,06
Total
189
170
Fonte: www.kdnuggets.com.
Observa-se na comparação entre 2002 e 2004, conforme a TAB. 5.1, uma redução na
participação das metodologias CRISP-DM e SEMMA, em relação às proprietárias e aos que
responderam que não usam metodologia.
A formulação dessa metodologia de realização de KDD não tem como objetivo
desenvolver ferramentas computacionais, mas preestabelecer conjuntos ordenados de regras e
tarefas a serem seguidas pelo homem, a fim de realizar processos de KDD e produzir
resultados satisfatórios, segundo BRACHMAN e ANAND (1996); WIRTH et al. (1997) e
KERBER et al. (1998), no processo de previsão de demanda ferroviária.
129
Assim sendo, este capítulo procura fornecer algumas orientações práticas sobre a
condução dos processos de KDD. Para tanto, são indicados alguns modelos de documentação
que, apoiados em uma linha básica de raciocínio, subsidiem a escolha de procedimentos a
serem adotados diante da diversidade de situações e possibilidades.
A Metodologia para Previsão de Demanda Ferroviária utilizando Data Mining, ou
simplesmente MPDF-DM aqui proposta, está baseada em três metodologias disponíveis no
mercado, que são detalhadas nos tópicos 5.1 (CRISP-DM), 5.2 (Fayyad) e 5.3 (SEMMA).
5.1 CRISP-DM
O CRISP-DM (Cross Industry Standard Process for Data Mining) é uma metodologia
desenvolvida por um consórcio de empresas, lideradas por: DaimlerChrysler (uma das
maiores fabricantes de automóveis do mundo), SPSS (empresa com diversas ferramentas
computacionais na área de Data Mining) e NCR (empresa com soluções em hardware e
software para tornar mais fáceis as interações entre clientes e fornecedores), segundo o
consórcio CRISP-DM (2006). Consiste em um conjunto de fases e processos que tendem a
desenvolver projetos de KDD, independentemente da área de negócio e das ferramentas
usadas, de um modo estruturado e metódico. Procura ser uma aproximação padrão que
transforma necessidades de negócio em tarefas de KDD, que sugere transformações nos dados
e técnicas apropriadas da tecnologia, identificando métricas para avaliar a qualidade dos
resultados obtidos e documentar o projeto. As fases desta metodologia estão representadas na
FIG. 5.1 e descritas a seguir.
130
FIG. 5.1 Fases da metodologia CRISP-DM
Fonte: Consórcio CRISP-DM (2006).
Nesse modelo, o ciclo de vida do projeto de KDD consiste em seis fases, descritas dos
itens 5.1.1 ao 5.1.6. A seqüência dessas fases não é rigorosa, depende do resultado de cada
etapa ou de qual tarefa particular de uma fase precisa ser executada na próxima. As flechas
indicam as dependências mais importantes e freqüentes entre as fases.
O círculo externo na figura simboliza a natureza cíclica da mineração de dados. Um
processo de mineração de dados continua após uma solução ter sido descoberta, e os
subseqüentes se beneficiarão das experiências anteriores, segundo DIAS (2001).
5.1.1 ENTENDIMENTO DO NEGÓCIO
Identifica o âmbito, os objetivos e as necessidades de uma perspectiva de negócio e
converte esse conhecimento em uma tarefa de KDD.
131
Na determinação dos objetivos do negócio, o primeiro passo é a identificação das
necessidades do cliente, que podem ter objetivos concorrenciais e restrições que devem ser
conhecidas. O analista identifica fatores importantes que poderão influenciar os resultados, e
o fato de não se contemplar essa fase poderá implicar o risco de dispender tempo e esforço,
obtendo respostas corretas para as questões erradas. Essa subfase compreende ainda uma
descrição do background do cliente, dos seus objetivos de negócio e uma descrição dos
critérios utilizados para determinar o sucesso do seu empreendimento.
5.1.2 ENTENDIMENTO DOS DADOS
Compreende a identificação da informação que seja relevante para o estudo e a
familiarização com o seu conteúdo, descrição, qualidade e utilidade. A coleção inicial dos
dados tem como tarefa adquirir a informação com a qual se irá trabalhar, listando as suas
fontes, o procedimento de leitura e os problemas detectados.
A descrição dos dados expõe a maneira como estes foram adquiridos, listando o seu
formato, volume, significado e toda a informação relevante. Na análise exploratória, efetua-se
um primeiro estudo dos dados identificando-se questões que podem ser solucionadas com
queries, visualizações e relatórios. Inclui, por exemplo, distribuições de atributos chave, tais
como o atributo de saída em um estudo de previsão, relações entre pares ou pequenos
números de atributos, resultados de agregações simples, propriedades de subpopulações
significativas e análises estatísticas simples.
5.1.3 PREPARAÇÃO DE DADOS
Consiste em variadas atividades destinadas a obter o conjunto final dos dados, Data Set,
cujo objetivo é descrever o seu formato final para efeitos de modelagem dos dados e
validação dos mesmos. A seleção dos dados perfaz a escolha dos atributos que serão
incluídos em termos da análise. Os critérios de seleção vão desde os objetivos do KDD até a
sua correção e restrições de volume.
A integração representa a junção de dados provenientes de várias tabelas, para criar uma
só, onde esteja toda a informação necessária para a análise. Compreende a junção de tabelas e
132
a agregação de valores. A formatação dos dados pretende modificar o seu formato sem mudar
o seu significado, no sentido de estes refletirem as necessidades dos algoritmos de
aprendizagem.
5.1.4 MODELAGEM
Na fase de modelagem são selecionadas e aplicadas as técnicas de KDD mais
apropriadas, dependendo dos objetivos pretendidos.
Cria-se um modelo para testar a qualidade e validar os modelos que serão obtidos. Em
estudos supervisionados, é costume usar-se a taxa de erro como medida de qualidade do
modelo; para isso, será necessário separar o conjunto de dados em um conjunto de treino e em
outro de teste.
A criação do modelo representa a fase central, mais importante do KDD, significando
colocar uma técnica de modelagem sobre o conjunto de dados a analisar, para criar um ou
vários modelos. Inclui a parametrização das técnicas de modo a obter melhores resultados.
5.1.5 AVALIAÇÃO
Esta fase consiste na avaliação do modelo, revendo os passos seguidos e verificando se
foram alcançados os objetivos pretendidos na compreensão do negócio.
A estimação da qualidade e alcance dos resultados obtidos faz sua avaliação de acordo
com a perspectiva do negócio, ou seja, verifica se os resultados vão ao encontro dos objetivos
do negócio traçados inicialmente.
A revisão do processo tem como objetivo uma última confirmação da forma e tentativa
de encontrar fatores importantes que tenham sido omitidos até então.
A determinação das próximas tarefas a serem executadas pretende, de acordo com os
resultados obtidos e a revisão, decidir se o processo termina, devendo-se passar ao
133
desenvolvimento, ou se deverá efetuar correções no processo voltando a fases anteriores, ou
reiniciar um novo processo.
5.1.6 UTILIZAÇÃO
Conjunto de ações que conduzem à organização do conhecimento obtido e à sua
disponibilização, de modo que possa ser utilizado eficientemente pelo cliente.
O plano de desenvolvimento procura utilizar os resultados do KDD no negócio, tendo em
conta as avaliações dos resultados, que gera uma estratégia de desenvolvimento.
A produção do relatório final pretende criar, após o termino do processo, um relatório
para explicar os resultados obtidos e as experiências.
O plano de acompanhamento e manutenção do modelo gerado procura evitar utilizar
durante muito tempo resultados menos corretos. Dependendo do estudo e dos dados, poderá
ser necessária uma atualização periódica dos modelos.
A revisão do processo tem como objetivo uma verificação após o fim deste, para
determinar o que decorreu bem, o que não decorreu de acordo e o que poderá ser melhorado.
5.2 METODOLOGIA DE FAYYAD
Segundo FAYYAD et al. (1996), o processo de descoberta de conhecimento em base de
dados (DCBD) ou KDD, em inglês, é interativo e iterativo, envolvendo vários passos
seqüenciais, com muitas decisões sendo tomadas pelo usuário, podendo retornar a passos
anteriores buscando novos resultados. Resumidamente e de modo amplo, o processo envolve:
1. compreensão do domínio da aplicação e identificação do objetivo do processo de
KDD;
2. criação de um conjunto de dados alvos: seleção do conjunto de dados, nos quais a
descoberta será executada;
134
3. pré-processamento e limpeza dos dados: operações básicas como remoção de ruído (se
apropriado), coleta de informações necessárias para o modelo, verificação de campos de
dados ausentes;
4. projeção e redução dos dados: observação de características úteis para representar os
dados, dependendo do objetivo da tarefa, e utilização de métodos de redução ou
transformação para reduzir o número efetivo de variáveis;
5. combinação do objetivo do processo de KDD com um método particular de mineração
de dados, isto é, sumarização, classificação, regressão, clusterização, previsão etc;
6. escolha do algoritmo de mineração de dados: seleção do(s) método(s) a ser (em)
utilizado(s) para a busca de padrões nos dado;
7. aplicação do algoritmo de mineração de dados: busca por padrões interessantes
representados em uma maneira particular ou num conjunto de representações, como regras ou
árvores de classificação, regressão, clusterização, etc;
8. interpretação dos padrões minerados: possibilidade de retornar para qualquer um dos
passos anteriores para iterações adicionais. Esse passo pode também envolver o modo de
visualização dos padrões / modelos extraídos;
9. consolidação do conhecimento descoberto: incorporação desse conhecimento em outro
sistema para ações adicionais, ou simplesmente realização de sua documentação relatando
partes interessantes. Também inclui detecção e resolução de conflitos com o conhecimento
prévio do próprio usuário (especialista do domínio) ou do extraído.
135
FIG. 5.2 Processo KDD Fayyad
Fonte: FAYYAD et al. (1996).
FAYYAD et al. (1996) dividiram a metodologia em cinco etapas, vide a FIG. 5.2:
seleção;
pré-processamento;
transformação;
mineração de dados (Data Mining);
interpretação e avaliação.
O processo de KDD pode envolver diversas iterações e conter laços entre todas as etapas.
O fluxo básico das etapas é ilustrado na FIG. 5.2 e, segundo FAYYAD et al. (1996), a
maioria de trabalhos precedentes em KDD focaliza-se na etapa 4 - a mineração dos dados.
Entretanto, as outras etapas são de importância considerável para a aplicação bem sucedida na
prática.
136
Variantes das etapas do processo de KDD são encontradas em KLEMETTINEN et al.
(1997), conforme FIG. 5.3, e FELDENS et al. (1998), conforme FIG. 5.4, porém apenas com
algumas supressões e/ou aglutinações dessas etapas ou com sinônimos de nomenclatura.
FIG. 5.3 Processo de KDD – Klemettinen
Fonte: KLEMETTINEN et al. (1997).
FIG. 5.4 Processo de KDD – Feldens
Fonte: FELDENS et al. (1998).
137
A diferença entre a metodologia de Fayyad e suas variantes em relação à CRISP-DM é o
fato da primeira não fornecer apoio à documentação do processo de KDD.
5.2.1 SELEÇÃO
Tem por objetivo selecionar um conjunto de dados pertencentes a um domínio, para que,
a partir de um critério definido pelo especialista, estes possam ser analisados.
5.2.2 PRÉ-PROCESSAMENTO
Nessa etapa deverão ser realizadas tarefas que eliminem ou tratem os ruídos ou registros
com dados ausentes. Outra tarefa importante é a verificação de predominância de classes,
sendo que nesses casos, devem-se eliminar alguns registros da classe predominante ou
acrescentar registros das outras classes. O objetivo é balancear a base de dados de tal modo
que, no processo do aprendizado, uma classe não seja favorecida. Isso ocorre dependendo da
tarefa a ser escolhida.
Para que a base de dados possa se tornar consistente, faz-se necessário que os ruídos e os
dados ausentes sejam eliminados ou tratados, com o auxílio do especialista do domínio.
Ruídos referem-se a situações em que o atributo analisado possui valor não pertencente ao
universo desse atributo, por exemplo, um atributo altura com valor negativo. Já dados
ausentes correspondem a registros que não possuem todos os valores dos atributos
preenchidos. Em ambas as situações, os registros redundantes ou mal formados devem ser
eliminados ou modificados, de tal maneira que tenham a mesma classe ou todos os seus
valores preenchidos, respectivamente. A presença do especialista do domínio nesta etapa é
muito relevante.
5.2.3 TRANSFORMAÇÃO
Os dados são armazenados e formatados adequadamente para que os algoritmos de
aprendizado possam ser aplicados. Esta etapa, por algum tempo, foi considerada um
obstáculo, porque o usuário (engenheiro de conhecimento) tinha que ficar formatando os
dados, ou seja, adaptando-os em arquivos necessários para a execução de cada algoritmo de
138
aprendizado escolhido. Porém, hoje, esses algoritmos geralmente adotam um padrão de
entrada de dados único ou semelhante.
5.2.4 MINERAÇÃO DE DADOS (DATA MINING)
Envolve criação de modelos apropriados de representação dos padrões e relações
identificadas a partir dos dados. Os resultados desses modelos, depois de avaliados pelo
analista e/ou especialista, são empregados para predizer os valores de atributos definidos pelo
usuário final baseados em novos dados, segundo KERBER et al. (1995) e FAYYAD et al.
(1996b).
Os modelos gerados por data mining geralmente seguem os padrões estatísticos, neurais
ou simbólicos, de acordo com a técnica utilizada. Um modelo estatístico típico é gerado pelo
método de regressão e é representado por um sistema de equações. Um modelo neural é
representado como uma arquitetura de nós e conexões entre eles, além de ter uma função de
aprendizado. Já os modelos simbólicos são geralmente representados por regras do tipo
if...then ou árvores de decisão.
5.2.5 INTERPRETAÇÃO E AVALIAÇÃO
Durante essa etapa, o conhecimento adquirido (por exemplo, árvores de decisão e regras
de produção) é analisado. Para que esse exame seja feito corretamente, é fundamental que
essa etapa seja realizada em conjunto com o(s) especialista(s) do negócio.
5.3 SEMMA
Não há referencial bibliográfico sobre essa metodologia, além das informações
disponibilizadas pelo fabricante de software SAS, segundo SEMMA (2006).
A sigla SEMMA, do inglês Sample, Explore, Modify, Model e Assess, em português -
selecionar, explorar, modificar, modelar e avaliar – refere-se ao processo de conduzir o KDD.
Inicia-se com a escolha de uma amostra representativa de seus dados e, por meio da
metodologia, fica fácil a aplicação das técnicas estatísticas e de visualização, seleção e
139
transformação das variáveis mais significativas, modelando-as para predizer resultados e
confirmar a exatidão de um modelo.
Antes de examinar cada estágio da SEMMA, é importante dizer que se trata de referir-se
à SEMMA como uma metodologia de mineração de dados. SEMMA não é uma metodologia,
mas apenas uma organização lógica e funcional da ferramenta de mineração SAS Enterprise
Miner, e que abrange apenas a etapa de mineração dos dados e uma parte da etapa de pré-
processamento (atividade de seleção). O SAS Enterprise Miner pode ser usado como parte da
metodologia adotada pelo cliente. Naturalmente, as etapas de pré-processamento (formulação
do problema e a definição da origem dos dados) e pós-processamento (apresentação dos
resultados) são críticas para o sucesso total de todo o projeto de KDD.
A SEMMA é focalizada apenas nos aspectos do desenvolvimento da etapa de mineração
dos dados:
selecionar (Sample): os dados são extraídos de uma série muito grande e que
contenha informação significativa, podendo ser reduzida para que seja manipulada
rapidamente. Para otimizar o custo e o desempenho, a empresa SAS sugere definir uma
estratégia de amostragem, que utilize a estatística para extrair uma amostra representativa de
todos os dados disponíveis. Minerar uma amostra representativa, em vez do volume inteiro,
reduz o tempo de processamento necessário para começar a obter o conhecimento crucial do
negócio. Caso padrões gerais apareçam na maioria dos dados, estes serão representados em
uma amostra. Do contrário, ou seja, caso haja um nicho que tenha uma quantidade de dados
muito pequena e esta não for representada na amostra, devem-se utilizar técnicas de
reaplicação de dados de maneira que o nicho fique representado na amostra.
explorar (Explore): procura-se nos dados tendências e anomalias, a fim de ganhar a
compreensão e idéias. A exploração ajuda a refinar o processo da descoberta. Se a exploração
visual não revelar claramente tendências, podem-se explorar os dados com as técnicas
estatísticas incluindo a análise de fator, a análise da correspondência e agrupamento. Por
exemplo, minerar dados para uma campanha de mala direta, usando-se a técnica de
agrupamento pode revelar grupos de clientes com padrões requisitados distintos. Com isso,
criam-se oportunidades para desenvolvimento de promoções personalizadas;
140
modificar (Modify): criação, seleção e transformação das variáveis para focalizar o
processo de seleção do modelo. Baseado em suas descobertas na fase da exploração, o usuário
pode necessitar de:
manipular seus dados para incluir a informação, tal como a de agrupar os clientes
e subgrupos significativos, ou para introduzir variáveis novas;
procurar outliers e reduzir o número das variáveis, deixando as mais
significativas;
modificar dados, porque a mineração dos dados é um processo dinâmico,
iterativo, e podem-se atualizar métodos ou modelos de mineração de dados
quando a informação nova fica disponível;
modelar (Model): permiti-se que o software procure automaticamente por uma
combinação dos dados que predigam de modo confiante um resultado desejado; modelam-se
as técnicas de mineração dos dados que incluem: redes neurais, árvores de decisão, modelos
logísticos e outros modelos estatísticos - tais como a análise de séries temporais e de
componentes principais. Cada tipo de modelo tem forças particulares, é apropriado para
determinado tipo de tarefa, que também depende dos dados;
avaliar (Assess): os dados são avaliados por sua utilidade e a confiabilidade dos
resultados obtidos no processo de mineração de dados executado. Os meios comuns de
avaliação de um modelo são aplicados nas parcelas dos dados reservados durante o estágio da
amostragem. Se o modelo for válido, deve-se comparar a amostra de teste com a amostra de
treinamento usada para construir o modelo. Por exemplo, se em um arquivo de dados for
percebido que os clientes tiveram elevadas taxas de retenção e seu modelo predizer a
retenção, pode-se verificar se esse modelo seleciona os clientes corretamente. Além disso, as
aplicações práticas do modelo, tais como envios parciais em uma campanha de mala direta,
ajudam a provar sua validez.
Avaliando os resultados ganhos de cada estágio do processo de SEMMA, pode-se
determinar como modelar novas perguntas levantadas pelos resultados precedentes, e
prosseguir assim com uma nova fase de exploração dos dados para o refinamento do modelo.
Uma vez que se desenvolveu o modelo e que se obteve o melhor resultado esperado, por meio
da metodologia SEMMA, ele então necessita de ser distribuído ao cliente. O Enterprise Miner
pode gerar o código fonte do processo em linguagens de computador (C e Java) que poderão
ser anexadas a outros sistemas na empresa.
141
5.4 METODOLOGIA PROPOSTA PARA PREVISÃO DE DEMANDA FERROVIÁRIA (MPDF-DM)
A metodologia MPDF-DM é baseada nas metodologias CRISP-DM, SEMMA e
FAYYAD e será apresentada por meio de um conjunto de etapas que são detalhadas nas
seções seguintes.
Considerando a complexidade normalmente inerente a processos de descoberta de
conhecimento em bases de dados, esta metodologia utiliza como base princípios de
planejamento de atividades. Assim, em função dos objetivos de cada aplicação de KDD, os
passos do processo de descoberta de conhecimento são planejados antes do início de sua
execução. A aplicação da metodologia de KDD proposta divide-se em quatro etapas
detalhadas a partir do item 5.4.1.
A metodologia proposta sugere um processo iterativo e interativo, nos quais dependendo
dos resultados obtidos, os analistas de KDD podem retornar a qualquer etapa realizada
anteriormente em busca de melhores resultados. Para tanto, a metodologia requer uma
documentação detalhada das ações realizadas e dos resultados produzidos.
A documentação completa está disponível no anexo, item 9.6 do trabalho.
5.4.1 O MODELO GERAL PROPOSTO
O principal objetivo desta tese é definir um modelo de formalização do processo de
desenvolvimento de sistemas de descoberta de conhecimento em banco de dados, o qual é
representado na FIG. 5.6.
Assim, pode-se dizer que o processo de KDD consiste na descoberta de conhecimento
útil em dados; basicamente envolve várias etapas: a compreensão do domínio da aplicação
pelo usuário, a identificação do objetivo do processo, a seleção dos dados para a descoberta, a
preparação dos dados (eliminação de ruído, limpeza de erros), a transformação dos dados
(criação de classes e/ou discretização de atributos quantitativos), a aplicação de algoritmos de
mineração de dados (extração de padrões nos dados), até a interpretação ou avaliação dos
142
padrões descobertos (visualização, ordenação por algum critério, criação de relatórios,
validação do conhecimento descoberto por meio de algum método estatístico ou por um
especialista). No entanto, caso em algum momento o usuário perceba que os padrões gerados
não estão de acordo com o seu conhecimento ou que existem conflitos, ou que há necessidade
de se testar a geração de novos padrões, este por sua vez pode recorrer a etapas anteriores do
processo retomando a sua execução, caracterizando assim, a interatividade e a iteratividade do
processo.
A metodologia MPDF-DM é descrita na forma de modelo hierárquico de processos, que
consiste em um conjunto de tarefas descritas em três níveis de abstração (do geral para o mais
específico): etapas, atividades e detalhamento das atividades, conforme a FIG. 5.5.
FIG. 5.5 Níveis da Metodologia MPDF-DM
O primeiro nível da metodologia é organizado em etapas, que são divididas em
atividades, passando-se para o terceiro nível, com o detalhamento das atividades escolhidas
no nível anterior, conforme representado na FIG. 5.5.
143
FIG. 5.6 Metodologia MPDF-DM
Para tanto, são indicados modelos de documentação que, apoiados em uma linha básica
de raciocínio, subsidiam a escolha de procedimentos a serem adotados diante da diversidade
de situações e possibilidades, permitindo também uma documentação de todo o projeto.
A utilização de formulários deve-se à recomendação feita no trabalho de
GOLDSCHIMIDT e PASSOS (2005) e na metodologia CRISP-DM, que mantém toda a
documentação por meio de formulários.
Todos os documentos da metodologia têm o mesmo cabeçalho, FIG. 5.7, e rodapé, FIG.
5.8.
144
FIG. 5.7 Cabeçalho do documento
No cabeçalho, o título do documento está descrito acima da linha azul e, abaixo, tem-se o
campo nome do projeto, que é auto-explicativo e o campo atividade que deve ser preenchido
com um valor numérico seqüencial, iniciado por 1 e acrescido de 1 à medida que os
documentos forem utilizados.
FIG. 5.8 Rodapé do documento
O rodapé é comum a quase todos os documentos e deve ser preenchido com o nome do
responsável pelo planejamento da atividade referente ao documento e o nome do executante
da atividade do respectivo documento; para ambos os casos deve-se preencher o campo de
data. A exceção é o rodapé do documento de observação, que não tem o responsável pelo
planejamento, porque é uma continuação de uma atividade planejada em outro documento.
5.4.2 ANÁLISE DO SISTEMA
Essa primeira etapa da metodologia tem como principais objetivos: definir tipos de
investigações a serem realizadas com a aplicação de técnicas do processo de KDD e
identificar as fontes de dados necessárias nessas investigações.
As atividades são (FIG. 5.9):
1) definição dos atores;
2) descrição inicial do problema;
3) definição dos objetivos do sistema;
145
4) expectativas quanto ao modelo de conhecimento;
5) prazo.
FIG. 5.9 Atividades da Etapa Análise do Sistema
A documentação gerada nessa etapa é o Documento de Análise do Sistema, representado
na FIG. 5.10.
146
FIG. 5.10 Documento – Análise do Sistema
As principais definições encontram-se nos tópicos seguintes.
5.4.2.1 DEFINIÇÃO DOS ATORES
Identificar as pessoas e áreas envolvidas no processo de KDD é a primeira atividade
dessa etapa. Os atores são classificados em quatro tipos:
interessados (stakeholder, confome a metodologia PMI, PMBOX (1996)): é
qualquer um que esteja interessado na previsão de demanda gerada pelo projeto ou que seja
afetado por seus produtos, direta ou indiretamente. É importante entender os valores e
assuntos que os interessados têm, para focá-los e mantê-los unidos durante o projeto.
Exemplos de interessados: gerentes, patrocinadores e usuários do conhecimento;
patrocinador: é o indivíduo ou entidade que disponibiliza os recursos financeiros
para a execução do projeto de previsão de demanda e que pode ter algumas funções durante
147
esta, conforme PMBOX (1996), tais como: participar com a equipe na definição do escopo,
caracterizar a expectativa quanto ao modelo de conhecimento, aprovar o escopo definido e
suas alterações (mudanças) e promover as articulações com os participantes;
analista KDD: é o especialista em projetos de KDD e responsável pela condução do
projeto;
especialista ferroviário: é o indivíduo com domínio em ferrovia e na área onde será
realizado o projeto de KDD.
Segundo GOLDSCHMIDT e PASSOS (2005), os especialistas no domínio da aplicação,
a equipe de tecnologia da informação e os grupos de decisão que deverão aplicar os resultados
devem ser submetidos, sempre que necessário, a um treinamento em KDD que nivela o
conhecimento técnico na área.
5.4.2.2 DESCRIÇÃO INICIAL DO PROBLEMA
A segunda atividade da etapa de análise do sistema inicia-se com a descrição do
problema a ser solucionado dentro da tarefa de previsão de séries temporais. Na verdade, pode
não existir um problema real a ser solucionado, considerando que a mineração de dados pode
ser aplicada como um processo de descoberta, no qual nem sempre é feito algum tipo de
suposição antecipada.
Na descrição do problema, deve-se dar uma visão geral do funcionamento do(s)
sistema(s) em operação, pertencentes ao domínio do problema, e dos bancos de dados
existentes como, por exemplo, relação das tabelas e atributos de bancos de dados operacionais
e a periodicidade de sua atualização.
5.4.2.3 DEFINIÇÃO DOS OBJETIVOS DO SISTEMA
Após ser feita a descrição do problema, deve-se identificar a área de interesse para
estudo, definir os objetivos gerais e específicos que deverão ser alcançados com a previsão de
demanda e determinar como os resultados obtidos podem ser usados no suporte à tomada de
decisão na empresa.
148
Na definição dos objetivos, deve–se ter uma idéia sobre que tipos de informações seriam
estrategicamente interessantes de serem obtidas e sobre como o conhecimento descoberto
poderá ser aplicado na empresa.
5.4.2.4 EXPECTATIVAS QUANTO AO MODELO DE CONHECIMENTO
O analista de KDD deve listar todas as expectativas identificadas, bem como as métricas
de avaliação dos modelos gerados na previsão. Em seguida, deve validá-las junto aos
especialistas ferroviários. Uma vez validadas, o analista de KDD deve procurar agrupá-las em
função de sua natureza e de modo que expectativas em um grupo possam ser atendidas por
um mesmo modelo de conhecimento.
5.4.2.5 PRAZO
Deve-se informar o prazo previsto de execução do processo de KDD e, se possível,
alinhá-lo com outras metodologias de controle de projetos, visto que segundo MACHADO
(2002), um dos principais efeitos negativos dos projetos de software é o não atendimento ao
seu prazo.
5.4.3 PRÉ-PROCESSAMENTO
Essa etapa é responsável pela escolha do método utilizado, dos dados necessários, e de
sua padronização para a utilização na etapa de mineração de dados. Maiores detalhes podem
ser obtidos no item 4.2.1 e são representados na FIG. 5.11.
149
FIG. 5.11 Atividades da etapa Pré-processamento.
Nessa etapa são gerados cinco tipos de documentos, definidos nos itens abaixo.
5.4.3.1 ESCOLHA DA TÉCNICA CANDIDATA
Uma vez definidas as funcionalidades (resultados) a que se deseja chegar com o processo
de KDD, cabe agora escolher que técnicas podem ser utilizadas, que sejam mais aderentes
para a obtenção dos resultados, com uma melhor precisão. Por exemplo, a funcionalidade de
previsão pode ser feita utilizando-se a técnica de regressão linear ou regressão múltipla.
Entretanto, sabe-se que para uma estimativa de curtíssimo prazo e com poucas variáveis, a
150
regressão linear é mais fácil de ser utilizada e proporciona bons resultados. Para estimativas
de longo prazo essa regressão não é a mais indicada, segundo BALLOU (2006). A TAB. 5.2
mostra um conjunto parcial de técnicas que podem ser utilizadas em cada funcionalidade; o
formulário está representado na FIG. 5.12.
TAB. 5.2 Relação técnica de previsão e horizonte
Método Horizonte de tempo da previsão Box-Jenkins Curto – Médio Delphi Médio – Longo Lógica Fuzzy Curto – Médio Média Móvel Curto Modelo Econométrico Curto – Médio Ponderação Exponencial Curto Redes Neurais Curto – Médio Regressão de Poisson Curto – Médio Regressão Linear Curto – Médio Regressão Logística Curto – Médio Regressão Múltipla Curto – Médio Regressão não Linear Curto – Médio
Fonte: BALLOU (2006) e AZEVEDO e CORTES (2006).
151
FIG. 5.12 Documento – Pré-processamento para escolha da técnica
5.4.3.2 SELEÇÃO DOS DADOS
A atividade de seleção é obrigatória na etapa de pré-processamento, devido à necessidade
de informar qual é a origem da informação no processo de KDD, podendo ser transacional ou
data warehouse.
152
FIG. 5.13 Documento pré-processamento de seleção
O documento, representado na FIG. 5.13, deve ser preenchido seguindo os seguintes
critérios para os campos destacados:
campo 1: caso a origem da informação seja um banco de dados transacional, deve-se
preencher esse campo com o nome da tabela;
campo 2: caso a origem da informação seja um banco de dados transacional, deve-se
preencher esse campo com os nomes das colunas utilizadas na tabela definida no campo 1;
campo 3: se a origem da informação for um data warehouse, deve-se preencher esse
campo com o nome da tabela fato ou dimensão, que estão explicadas no item 9.1;
campo 4: se a origem da informação for um data warehouse, deve-se preencher esse
campo com os nomes dos atributos utilizados na tabela fato ou dimensão definida no campo
3;
campo 5: deve-se informar a condição de união das tabelas, fatos e dimensões
definidas nos campos 1 e 3;
153
campo 6: deve-se informar o período utilizado para a seleção das informações
utilizadas no processo de KDD;
campo 7: caso seja necessário, comentar algo sobre a atividade de seleção.
Maiores informações sobre a atividade de seleção de dados encontram-se no item 4.2.1.1;
sobre data warehouse, tabelas fato e dimensão, no anexo.
5.4.3.3 LIMPEZA
A atividade de limpeza somente faz sentido quando se encontram no processo
informações ausentes, inconsistências e valores não pertencentes ao domínio; por isso, é uma
atividade opcional. Quando a origem da informação é um data warehouse, a possibilidade e a
necessidade da atividade de limpeza diminuem, visto que um dos processos para se fazer um
data warehouse é limpar a base de dados, conforme KIMBALL e ROSS (2002), e, caso a
origem seja um banco transacional, a possibilidade aumenta, conforme BRAGA (2005).
Essa atividade deve ser realizada para cada coluna ou atributo que tenha alguma
informação inconsistente.
154
FIG. 5.14 Documento pré-processamento de limpeza
O documento, representado na FIG. 5.14, deve ser preenchido seguindo os seguintes
critérios:
método: marcar o método utilizado;
critério: preencher o campo descrevendo o critério utilizado na atividade de limpeza;
observação: caso seja necessário, comentar algo sobre a atividade de limpeza.
Maiores informações sobre a atividade de seleção encontram-se no item 4.2.1.2.
5.4.3.4 CODIFICAÇÃO
A necessidade da atividade de codificação e sua utilização dependem do método
escolhido no item 5.4.3.1.
155
FIG. 5.15 Documento pré-processamento de codificação
O documento, representado na FIG. 5.15, deve ser preenchido seguindo as regras para os
campos:
método: marcar o método utilizado;
critério: preencher o campo descrevendo o critério utilizado na atividade de
codificação;
observação: caso seja necessário, comentar algo sobre a atividade de codificação.
Maiores informações sobre a atividade de seleção encontram-se no item 4.2.1.3.
5.4.3.5 NORMALIZAÇÃO
Essa atividade é opcional e sua utilização depende do método escolhido no item 5.4.3.1.
Algumas técnicas, como por exemplo Redes Neurais, obtêm melhor desempenho quando os
dados estão normalizados. Esse documento está representado conforme FIG. 5.17.
156
FIG. 5.16 Documento pré-processamento de normalização
O documento, representado na FIG. 5.16, deve ser preenchido seguindo as regras para os
campos:
método: marcar o método utilizado;
critério: preencher o campo descrevendo o critério utilizado na atividade de
normalização;
observação: caso seja necessário, comentar algo sobre a atividade de normalização.
Maiores informações sobre a atividade de normalização encontram-se no item 4.2.1.4.
157
5.4.3.6 ENRIQUECIMENTO
Essa atividade é opcional, porque às vezes a empresa que está fazendo o processo de
KDD possui todas as informações necessárias à geração do conhecimento em sua base de
dados. Esse documento está representado conforme FIG. 5.17.
FIG. 5.17 Documento pré-processamento de enriquecimento
O documento, representado na FIG. 5.17, deve ser preenchido seguindo as regras para os
campos destacados:
campo 1: informação pesquisada;
campo 2: nome da técnica utilizada na pesquisa;
158
campo 3: período a que se refere a pesquisa;
campo 4: nome da fonte da base de dados externa, banco de dados e tabela;
campo 5: informação selecionada da base de dados externa;
campo 6: período a que se referem os dados selecionados da base de dados externa;
campo 7: nome do(s) atributo(s) utilizado(s) na criação do novo atributo;
campo 8: nome do atributo derivado, ou seja, que está sendo criado;
campo 9: critério utilizado para a criação do novo atributo;
campo 10: caso seja necessário, comentário sobre a atividade de enriquecimento.
Maiores informações sobre a atividade de seleção encontram-se no item 4.2.1.5.
5.4.4 MINERAÇÃO DE DADOS
A mineração de dados é a principal etapa da metodologia proposta e onde ocorre a
descoberta do conhecimento. Maiores detalhes, podem ser obtidos no item 4.2.2 e são
representados na FIG. 5.18.
FIG. 5.18 Atividades da etapa de Mineração de Dados
Para a execução das atividades dessa etapa, é necessário o preenchimento de somente um
documento que está representado na FIG. 5.19.
159
FIG. 5.19 Documento de mineração de dados
O documento, representado na FIG. 5.19, deve ser preenchido seguindo as regras para os
campos destacados:
campo 1: seleção dos conjuntos de dados que serão utilizados nessa atividade e os
respectivos percentuais. REZENDE (2003) sugere que o conjunto de dados seja divido em 2/3
para treinamento e 1/3 para teste, quando são utilizados somente os dois conjuntos. Caso seja
necessária a utilização do conjunto de validação, o mesmo deverá ter aproximadamente 10%;
campo 2: escolha da ferramenta utilizada nessa atividade e a técnica, como, por
exemplo, para ferramenta: SAS Enterprise Miner, SAS Enterprise Guide, Matlab, Excel, etc; e
para a técnica: redes neurais, lógica fuzzy, regressão linear, regressão logística, etc. A técnica
160
é a definida na atividade de Escolha da Técnica na etapa de Pré-processamento, que deve ser
preenchida nesse campo novamente;
campo 3: parâmetros utilizados com a técnica para obtenção dos resultados
apresentados no campo 4;
campo 4: resultados obtidos com a técnica em cada conjunto de dados e a métrica
utilizada para a avaliação dos resultados;
campo 5: caso seja necessário, comentar algo sobre a atividade de mineração de
dados.
Maiores informações sobre a etapa atividade de mineração de dados encontram-se no
item 4.2.2.
5.4.5 PÓS-PROCESSAMENTO
A última etapa da metodologia tem como objetivo realizar as atividades da FIG. 5.20:
FIG. 5.20 Atividades da etapa de Pós-processamento
O documento gerado nessa etapa é o de pós-processamento, contendo informações sobre
as atividades de simplificação do modelo de conhecimento e da apresentação.
161
FIG. 5.21 Documento de pós-processamento
O documento, representado na FIG. 5.21, deve ser preenchido seguindo os seguintes
critérios para os campos destacados e vai depender da técnica utilizada na atividade de
mineração de dados:
campo 1: técnica utilizada na atividade mineração de dados;
campo 2: precisão da regra gerada na métrica definida na atividade de expectativa de
conhecimento;
campo 3: informação se a regra foi eliminada ou não, baseada na atividade de
Expectativa de Conhecimento da etapa de Análise do Sistema;
campo 4: data de conclusão / apresentação de todo o processo de KDD, alinhando
com outras metodologias de controle de projetos, conforme MACHADO (2002);
162
campo 5: caso seja necessário, comentar algo sobre a etapa de Pós-processamento ou
suas atividades.
Maiores informações sobre a etapa atividade de mineração de dados encontram-se no
item 4.2.3.
5.4.6 OBSERVAÇÃO
Esse documento, representado pela FIG. 5.22, deve ser preenchido somente quando em
alguma atividade o campo de observação for insuficiente.
FIG. 5.22 Documento de observação
163
5.5 CONSIDERAÇÕES FINAIS
A característica de indeterminismo presente no processo de previsão de demanda
ferroviária faz com que esse se diferencie de outros tipos de tarefas de KDD. Por isso, o uso
de metodologias clássicas de condução do processo de KDD torna-se inadequado, sendo
necessária a definição de metodologia específica, porque as primeiras têm atividades
desnecessárias ao processo de previsão de demanda e não possuem atividades específicas,
como por exemplo, a partição do conjunto de dados, presente na metodologia proposta.
A má especificação de qualquer tipo de produto de software pode levar a resultados
incorretos, que causem graves conseqüências. No caso dos processos de KDD, os resultados
incorretos possivelmente levam a tomadas de decisões também incorretas, as quais propiciam
grandes prejuízos financeiros à empresa.
A metodologia proposta define um processo completo e sistemático de desenvolvimento
de sistemas de KDD que aplicam técnicas de mineração de dados.
As etapas da metodologia MPDF-DM, se seguidas corretamente, levam a especificações
corretas, verificadas e validadas, contribuindo, assim, na construção de sistemas confiáveis e
de qualidade, no processo de KDD.
Deve-se ressaltar que a metodologia pode ser empregada para diversas técnicas de
previsão, diversos períodos, ou seja, curto, médio ou longo prazo, e utilizada
independentemente do software que executará a atividade de mineração de dados.
O próximo capítulo apresenta o estudo de caso com a aplicação da metodologia MPDF-
DM.
164
6 ESTUDO DE CASO
Este capítulo visa apresentar a aplicação da metodologia proposta, para avaliação do
desempenho do planejamento da solicitação de transporte pelos clientes da MRS Logística
S.A., empresa situada em Juiz de Fora / MG e que forneceu todos os dados necessários para
que a metodologia pudesse ser testada.
Para a execução dos métodos, foram utilizadas as ferramentas SAS Enterprise Miner,
SAS Enterprise Guide, MATLAB 7.1, Microsoft Excel 2003 e ferramenta Fuzzy Rules 2001,
desenvolvida por VALE e VELLASCO (2001).
6.1 MRS LOGÍSTICA
A MRS Logística é uma concessionária ferroviária privada que controla, opera e
monitora a Malha Sudeste da Rede Ferroviária Federal. A empresa atua no mercado de
transporte ferroviário desde 1996, quando foi constituída, interligando os estados do Rio de
Janeiro, Minas Gerais e São Paulo. São 1.674 Km de malha - trilhos que facilitam o processo
de transporte e distribuição de cargas numa região que concentra aproximadamente 65% do
produto interno bruto do Brasil e onde estão instalados os maiores complexos industriais do
país. Pela malha da MRS, também é possível alcançar os portos de Sepetiba e de Santos (o
mais importante da América Latina).
O foco das atividades da empresa está no transporte ferroviário de cargas gerais, como
minérios, produtos siderúrgicos acabados, cimento, bauxita, produtos agrícolas, coque verde e
contêineres e na logística integrada, que implica planejamento, multimodalidade e transit time
(tempo de trânsito entre a origem e o destino) definido, segundo MRS (2006).
Atualmente, os clientes da MRS solicitam o que vão transportar com um dia de antecedência e só
a partir desse momento é que se faz a programação da produção, o que causa transtorno, porque os
recursos materiais a serem alocados são escassos e disponibilizá-los no local correto demanda tempo,
provocando o atraso no atendimento do cliente.
165
6.2 SOFTWARES UTILIZADOS
Um dos motivos da escolha das ferramentas da SAS para a utilização nesta dissertação
foi o fato de ela ter um programa de apoio e incentivo a projetos acadêmicos chamado
Fellowship, que fornece todos os aplicativos necessários ao desenvolvimento da dissertação e
o acesso a sua base de conhecimento sobre o assunto; além do fato da SAS ser uma das
empresas líderes de mercado nos seguimentos em que atua.
Além dos softwares da SAS, foram utilizados o Matlab com o pacote ANFIS, o Microsoft
Excel e o Fuzzy Rules 2001. Todos estão descritos nos tópicos abaixo.
6.2.1 SAS ENTERPRISE MINER
A SAS define Data Mining como “o processo de Selecionar (Sample), Explorar
(Explore), Modificar (Modify), Modelar (Model) e Avaliar (Assess) – SEMMA – grandes
quantidades de dados, para descobrir padrões previamente desconhecidos”. O pacote
Enterprise Miner é um pacote integrado de Data Mining, que fornece uma interface amigável
ao processo SEMMA. Maiores detalhes podem ser consultados no item 5.3.
O processo é conduzido por um fluxograma, conforme a FIG. 6.1, que pode ser
modificado e gravado. Este é desenhado de modo que o analista do negócio, que tem poucos
conhecimentos de estatística, o possa utilizar para descobrir informação face a novos dados.
166
FIG. 6.1 SAS Enterprise Miner versão 5.2 – Janela de projeto
Enterprise Miner contém um conjunto de ferramentas de análise que podem ser
combinadas de modo a criar e comparar múltiplos modelos. Além destas, existem ferramentas
para preparação dos dados, nomeadamente para detecção de pontos isolados, transformação
de variáveis, amostragem e partição dos dados em conjuntos de treino, teste e de validação.
As suas ferramentas de visualização permitem uma análise rápida e fácil dos dados e
resultados obtidos.
6.2.2 SAS ENTERPRISE GUIDE
O Enterprise Guide tem uma interface intuitiva e fácil de usar, pois fornece um acesso
transparente aos dados sem olhar o local ou a maneira na qual se encontram os mesmos.
Nesse pacote é possível acessar uma grande variedade de ferramentas da empresa SAS.
Por meio dela é possível:
acesso transparente aos dados no formato SAS e em outros formatos;
tarefas interativas que conduzem o analista a produzir relatórios e análises;
facilidade de exportar os resultados para outras aplicações Windows e para a Web;
167
possibilidade de programar o projeto para funcionar em versões anteriores.
Com o SAS Enterprise Guide você pode produzir ótimos resultados em poucos minutos.
Sua aparência pode ser observada na FIG. 6.2.
FIG. 6.2 SAS Enterprise Guide – versão 4
6.2.3 MICROSOFT EXCEL
O Excel é um programa de planilha eletrônica desenvolvido pela Microsoft para
Windows, que pode ser utilizado a fim de calcular, armazenar e trabalhar com lista de dados,
criar relatórios e gráficos; sendo recomendado para planejamentos, previsões, análises
estatísticas e financeiras, simulações e manipulação numérica em geral.
Por meio das técnicas demonstradas por CHOPRA e MEINDL (2003) e com o
suplemento de análise de dados, foi possível utilizar o Excel nos métodos de Média Móvel,
Ponderação Exponencial, Holt e Regressão Linear, FIG. 6.3.
168
FIG. 6.3 Regressão no Excel
6.2.4 MATLAB
Matlab é um pacote de software que facilita a inserção de matrizes e vetores, além de
facilitar a manipulação deles. A interface segue uma linguagem que é projetada para parecer
com a notação usada na álgebra linear. Possui diversos pacotes extras, sendo um deles o
ANFIS que implementa o método Neuro-Fuzzy. Desenvolvido pela empresa MathWorks, foi
utilizada a versão 7.2.
A interface do pacote ANFIS é representada pela FIG. 6.4.
169
FIG. 6.4 Matlab ANFIS
6.2.5 FUZZY RULES 2001
Software desenvolvido por Vale e Vellasco tendo como técnica a utilização de Lógica
Fuzzy na área de controle e de previsões de séries temporais, representado pela FIG. 6.5.
170
FIG. 6.5 Fuzzy Rules 2001
O software baseia-se no método de Mendel para gerar uma base de regras fuzzy a partir
de dados numéricos e informações lingüísticas, dando suporte também a testes em cima dessa
base, a fim de observar o comportamento do sistema criado.
6.3 APLICAÇÃO DA METODOLOGIA
A MRS Logística forneceu os dados referentes à solicitação da Tonelada Útil (TU) –
unidade de peso utilizada em transporte ferroviário - por parte de seus clientes. Essa base tem
um total de 562.746 registros com as informações representadas na TAB. 6.1, para o período
entre 1° de dezembro de 2003 e 31 de outubro de 2006.
171
TAB. 6.1 Estrutura dos dados da MRS Logística
Coluna Descrição NU_FLUXO_TRPT Número do fluxo de transporte DT_DEMD_VAGAO Data da demanda de vagões QT_VAGAO_SLTD Quantidade de vagões solicitados para o transporte PS_TU_SLTD Peso em TU solicitado para o transporte DC_MERC_RSMD Mercadoria a ser transportada NM_ABRV_CLIE Nome abreviado do cliente SG_PATIO_FRVR_ORIG Sigla do pátio ferroviário de origem NM_PATIO_FRVR_ORIG
Nome do pátio ferroviário de origem SG_PATIO_FRVR_DEST Sigla do pátio ferroviário de destino NM_PATIO_FRVR_DEST
Nome do pátio ferroviário de destino DC_PROD Descrição do produto SG_TERM_CLIE Sigla do terminal de destino do cliente
NM_TERM_FRVR_CLIE Nome do terminal de destino do cliente Fonte: MRS Logística S.A. (2006).
Devido à metodologia ser iterativa, algumas atividades foram repetidas, porque técnicas
diferentes foram usadas. Todas as atividades realizadas são detalhadas abaixo.
A primeira atividade foi a identificação dos atores envolvidos no processo de KDD, e,
após discussões entre os interessados no estudo, ficou definido:
interessados:
Instituto Militar de Engenharia (IME): instituição responsável pelo aluno;
MRS: empresa fornecedora dos dados;
patrocinador:
CNPq: mantenedor da pesquisa;
analista de KDD:
Giovanni: conhecedor das técnicas e tarefas do processo de KDD;
Especialista ferroviário:
Marcelo Neder: especialista em Engenharia Ferroviária e engenheiro de
operações da MRS.
As atividades seguintes foram:
descrever o problema enfrentado pela MRS Logística;
172
definir o objetivo do processo de KDD;
informar as expectativas quanto ao modelo de conhecimento a ser gerado no
processo.
Para realizar todo o processo, foi importante definir o prazo de execução, de modo que
todos os envolvidos ficaram cientes de quando os resultados estariam disponíveis. Com isso
foi concluída a etapa de Análise do Sistema, que está representada na FIG. 6.6.
FIG. 6.6 Análise do Sistema
Em função de o modelo gerado ser para um dia à frente, as técnicas escolhidas são de
curto prazo, conforme BALLOU (2006):
Média Móvel;
173
Ponderação Exponencial;
Suavização Exponencial com Tendência (Método de Holt);
Regressão Linear;
Lógica Fuzzy;
Neuro-Fuzzy;
Redes Neurais.
Na expectativa quanto ao modelo de conhecimento gerado foi escolhida a métrica de
avaliação chamada Erro Médio Percentual, ou MAPE em inglês, que indica o valor médio do
erro percentual das previsões sobre todo o conjunto de teste.
Como foi definido que o objetivo era de prever o que os clientes iriam solicitar, gerou-se
uma nova base de dados com as informações representadas na TAB. 6.2 e o respectivo
gráfico, conforme FIG. 6.7. Essa base foi utilizada para as técnicas de Média Móvel,
Ponderação Exponencial, Método de Holt, Regressão Linear, Lógica Fuzzy, Neuro-Fuzzy e
Redes Neurais.
TAB. 6.2 Informações utilizadas na previsão
Coluna Descrição DT_DEMD_VAGAO Data da demanda de vagões PS_TU_SLTD Peso em TU solicitado para o transporte
Fonte: MRS Logística S.A. (2006).
174
TU Solicitada
050
100150200250300350400
01/12
/200
3
01/03
/200
4
01/06
/200
4
01/09
/200
4
01/12
/200
4
01/03
/200
5
01/06
/200
5
01/09
/200
5
01/12
/200
5
01/03
/200
6
01/06
/200
6
01/09
/200
6
Data
To
n x
mil
FIG. 6.7 TU Solicitada Diária
Fonte: MRS Logística S.A. (2006).
Com a visualização do gráfico, observou-se que havia um outlier na série e, consultando
a base, descobriu-se que era o dia 1º de janeiro de 2006 com 80.675 toneladas. Devido a isso,
o especialista do negócio confirmou que esse valor estava errado, e foi gerada uma atividade
de limpeza de inconsistência para esse dia, representada pela FIG. 6.8. O novo valor foi
apurado pela média dos sete dias anteriores a 1º de janeiro e passou a ser de 297.521
toneladas. Esse modo de apuração foi aprovado pelo especialista e descrito no documento da
FIG. 6.9.
175
FIG. 6.8: Atividade de limpeza dos dados.
176
FIG. 6.9 Atividade de observação
Os métodos de previsão de Média Móvel, Ponderação Exponencial, Método de Holt,
Regressão Linear e Lógica Fuzzy seguem o mesmo padrão de trabalho, ou seja, executam a
atividade de escolha do método, FIG. 6.10, e a de mineração de dados, FIG. 6.11.
177
FIG. 6.10 Atividade de escolha do método
A diferença no preenchimento dos formulários é quanto à escolha da técnica e à
justificativa da mesma.
178
FIG. 6.11 Atividade de mineração de dados
Na atividade de mineração, as diferenças que ocorreram no preenchimento do formulário
foram:
a ferramenta utilizada, que para Média Móvel, Ponderação Exponencial, Método de
Holt e Regressão Linear foi o Microsoft Excel 2003 e para Lógica Fuzzy, o Fuzzy Rules
2001;
o parâmetro, que é particular de cada método;
o resultado alcançado por cada um dos métodos.
179
Para a técnica de Média Móvel, foram utilizadas diversas combinações de quantidade de
períodos para se prever o período seguinte; o melhor resultado foi obtido com três períodos
anteriores para a previsão do quarto, conforme FIG. 6.11.
Para as técnicas de Ponderação Exponencial e de Holt, os parâmetros foram encontrados
por meio de tentativa de ajustes das constantes de suavização a para a primeira técnica e a e ß
para a segunda técnica.
O resultado para a técnica de Regressão Linear foi apurado lançando a série de dados
diretamente no Excel e aplicando a função de regressão do pacote de análise de dados.
Gerou-se um arquivo com as informações da TU Solicitada pelo cliente para o período de
estudo e lido pelo Fuzzy Rules 2001 para a execução da técnica de Lógica Fuzzy. Após,
foram ajustados os parâmetros de conjuntos por variável como 3, do mesmo modo que a
técnica de Média Móvel. Foram escolhidos três conjuntos para a variável, a fim de que fosse
gerado um conjunto menor de regras, e depois da geração das mesmas, eliminaram-se aquelas
que tinham menor peso, o que resultou em doze regras. Esse trabalho foi realizado para o
conjunto de treinamento, que representava 70% das ocorrências. Para o conjunto de teste, que
representava 30% das ocorrências, foram testadas as combinações referentes aos métodos de
interseção e implicação e ao processo de defuzzificação. O melhor resultado foi obtido com a
combinação de Interseção com a opção mínimo, Implicação com produto e Defuzzificação
com altura limite.
Para o método Neuro-Fuzzy, ocorreram atividades extras às realizadas para os métodos
anteriores; na atividade de Seleção de Dados, foram selecionados também os pesos defasados
em um dia e dois dias, e, na atividade de Normalização, FIG. 6.12, houve a necessidade de
normalizar os pesos, de modo que ocorresse um melhor desempenho da técnica. O software
utilizado para esse método foi o Matlab com o pacote ANFIS.
180
FIG. 6.12 Atividade de normalização
O último método usado foi o de Redes Neurais Artificiais (RNA) com o software SAS
Enterprise Miner, que utilizou todas as informações descritas na TAB. 6.1, com as
transformações necessárias para o melhor desempenho da técnica, sendo acrescentadas as
informações do valor médio diário do dólar de venda, valores diários da balança comercial de
importação e exportação, por meio das atividades de Enriquecimento e Normalização
conforme FIG. 6.13 e FIG. 6.14, respectivamente. Foi necessária a realização da atividade de
Codificação para a adequação dos atributos do nome do cliente, sigla dos pátios de origem e
destino ao método, representado pela FIG. 6.15. As demais atividades realizadas foram a de
Seleção de Dados e Mineração de Dados.
181
FIG. 6.13 Atividade de enriquecimento
182
FIG. 6.14 Atividade de normalização
183
FIG. 6.15 Atividade de codificação
Após a execução dos sete métodos, realizou-se a última etapa da metodologia MPDF-DM
que é a de Pós-processamento, onde foi feita a escolha do método vencedor por meio da
métrica MAPE, definida na atividade Expectativa do Modelo e representada na FIG. 6.16.
Os modelos gerados pelas técnicas consideradas no trabalho foram:
Média Móvel:
o 3
211
tttt
DDDF EQ. 6.1
o Onde:
o F: valor previsto para o período
o D: demanda no período
o t: período de tempo
Ponderação Exponencial:
184
o ttt FDF 58,042,01 EQ. 6.2
o Onde:
o F: valor previsto para o período
o D: demanda no período
o t: período de tempo
Suavização Exponencial com Tendência (Holt):
o 11111 55,0)(45,0)(77,023,0 ttttttt TLLTLDF EQ. 6.3
o Onde:
o F: valor previsto para o período
o L: nível do período
o T: tendência do período
o D: demanda no período
o t: período de tempo
Regressão Linear:
o ttF 34,9388,570.2551 EQ. 6.4
o Onde:
o F: valor previsto para o período
o t: período de tempo
Lógica Fuzzy: 12 regras geradas.
o Se [Peso Atual] igual a [Médio] e [Peso Mês Passado] igual a [Médio] e
[Peso Mês Retrasado] igual a [Baixo] então [Peso Mês Seguinte] igual a
[Médio]
o Se [Peso Atual] igual a [Médio] e [Peso Mês Passado] igual a [Baixo] e
[Peso Mês Retrasado] igual a [Médio] então [Peso Mês Seguinte] igual a
[Médio]
o Se [Peso Atual] igual a [Baixo] e [Peso Mês Passado] igual a [Médio] e
[Peso Mês Retrasado] igual a [Baixo] então [Peso Mês Seguinte] igual a
[Baixo]
o Se [Peso Atual] igual a [Médio] e [Peso Mês Passado] igual a [Baixo] e
[Peso Mês Retrasado] igual a [Baixo] então [Peso Mês Seguinte] igual a
[Médio]
185
o Se [Peso Atual] igual a [Baixo] e [Peso Mês Passado] igual a [Baixo] e
[Peso Mês Retrasado] igual a [Baixo] então [Peso Mês Seguinte] igual a
[Baixo]
o Se [Peso Atual] igual a [Baixo] e [Peso Mês Passado] igual a [Baixo] e
[Peso Mês Retrasado] igual a [Médio] então [Peso Mês Seguinte] igual a
[Baixo]
o Se [Peso Atual] igual a [Baixo] e [Peso Mês Passado] igual a [Médio] e
[Peso Mês Retrasado] igual a [Médio] então [Peso Mês Seguinte] igual a
[Médio]
o Se [Peso Atual] igual a [Médio] e [Peso Mês Passado] igual a [Médio] e
[Peso Mês Retrasado] igual a [Médio] então [Peso Mês Seguinte] igual a
[Médio]
o Se [Peso Atual] igual a [Médio] e [Peso Mês Passado] igual a [Alto] e
[Peso Mês Retrasado] igual a [Médio] então [Peso Mês Seguinte] igual a
[Médio]
o Se [Peso Atual] igual a [Alto] e [Peso Mês Passado] igual a [Médio] e
[Peso Mês Retrasado] igual a [Médio] então [Peso Mês Seguinte] igual a
[Médio]
o Se [Peso Atual] igual a [Médio] e [Peso Mês Passado] igual a [Alto] e
[Peso Mês Retrasado] igual a [Alto] então [Peso Mês Seguinte] igual a
[Alto]
o Se [Peso Atual] igual a [Alto] e [Peso Mês Passado] igual a [Alto] e [Peso
Mês Retrasado] igual a [Alto] então [Peso Mês Seguinte] igual a [Alto]
Neuro-Fuzzy:
o Conjuntos: 3 para cada uma das 3 variáveis, gerando 27 regras
o Formato do conjunto: gaussmf
o Tipo de saída: Constante
o Otimização: Híbrida
o Épocas: 20
Redes Neurais:
o Camada de entrada:
Peso (3 dias atrás) – 1
Peso (2 dias atrás) – 1
186
Peso (1 dia atrás) – 1
Dólar venda – 1
Balança comercial (importação) – 1
Balança comercial (exportação) – 1
Cliente – 8
Pátio origem – 7
Pátio destino – 7
o Camada intermediária
Automática, gerada pelo software SAS Enterprise Miner
o Camada de saída
Peso
187
FIG. 6.16 Etapa de pós-processamento
Após execução das atividades para todas as técnicas consideradas no trabalho, obteve-se
os resultados demonstrados na TAB. 6.3.
TAB. 6.3 Comparação dos Métodos de Previsão
Técnica MAPE
Holt 3,86 Lógica Fuzzy 4,05 Média Móvel 3,95 Neuro-Fuzzy 4,60 Ponderação Exponencial 3,87 Redes Neurais 2,17 Regressão Linear 10,09
Foram utilizadas sete técnicas de previsão para a solicitação de demanda de transporte
188
ferroviário. Dentre elas, a técnica de Redes Neurais alcançou resultado superior às demais,
baseado no que foi definido na atividade Expectativas Quanto ao Modelo de Conhecimento da
etapa Análise do Sistema, e por isto ele foi a escolhida.
Como o objetivo desse estudo de caso não é a comparação de desempenho das técnicas e
sim a utilização da metodologia, ocorreram mudanças nas variáveis de entrada dos modelos,
de modo que cada técnica obtivesse o melhor desempenho, com isso, não se pode dizer que
uma técnica é melhor do que a outra.
É importante destacar que dentre todas as etapas da MPDF-DM, a de Pré-processamento
foi a que consumiu a maior parte do tempo, aproximadamente 70%, visto que foi onde
ocorreu todo o processo de seleção e preparação dos dados, o que é independente da técnica
utilizada.
189
7 CONCLUSÕES E RECOMENDAÇÕES
7.1 CONCLUSÕES
A pesquisa teórica realizada mostrou que, apesar de existirem metodologias na área de
Descoberta de Conhecimento em Banco de Dados, ainda são encontradas dificuldades na
condução do processo, geralmente, devido à característica de indeterminismo desses sistemas
e devido à falta de uma metodologia específica para o desenvolvimento desses projetos que
seja completa e inclua formalismo visando à garantia de obtenção de sistemas confiáveis e de
qualidade.
Por serem fundamentadas em metodologias clássicas, as iniciativas de desenvolvimento e
aplicação de sistemas de descoberta de conhecimento não possuem formalização e, a fim de
suprir essas dificuldades, este trabalho propôs um modelo de formalização específico para a
tarefa de previsão de demanda ferroviária no processo de KDD. Este modelo engloba uma
metodologia rigorosa e sistemática para esses projetos, denominada MPDF-DM, que combina
o formalismo da metodologia CRISP-DM, com seus formulários, e as etapas da metodologia
de Fayyad.
Com o estudo de caso realizado, pode-se concluir que a metodologia MPDF-DM, seguida
etapa por etapa, leva ao desenvolvimento eficiente e eficaz do processo de KDD. O estudo de
caso serviu também para mostrar que a obtenção de projetos confiáveis e de qualidade pode
ser garantida com a inclusão de métodos formais e a utilização de formulários, no seu
processo de desenvolvimento.
A aplicação da metodologia, tomando como estudo de caso os dados da solicitação de
transportes dos clientes da MRS Logística, permitiu verificar a viabilidade e a utilidade
prática da metodologia proposta em um caso real. Além disso, os resultados do projeto
desenvolvido podem apoiar políticas organizacionais adotadas e elucidar características
relevantes de discussão no âmbito da empresa.
190
A utilização do SAS Enterprise Miner, software especialista em Data Mining, facilitou a
execução de todo o processo, porque diminuiu o tempo da etapa de mineração de dados,
devido à existência da técnica de redes neurais implementada. Na utilização das outras
técnicas, houve a necessidade de desenvolver os programas, tornando a etapa de mineração
mais demorada. Esse tempo extra pode ser utilizado para desenvolver novos modelos, o que
traz benefícios para a organização.
As conclusões do estudo de casos permitiram mostrar a relevância da metodologia
MPDF-DM na obtenção de resultados de mineração de dados, partindo-se de hipóteses
levantadas por usuários e buscando-se, passo a passo, meios de se chegar à prova verdadeira
ou falsa dessas hipóteses.
As dificuldades encontradas no decorrer desta pesquisa estão relacionadas à
diversificação de técnicas possíveis de serem empregadas na previsão de demanda ferroviária,
devido aos softwares, que têm poucas técnicas implementadas, ou seja, há necessidade de
utilizar mais de um software quando se empregam mais técnicas, como ocorreu no estudo de
caso.
As principais contribuições desta pesquisa são:
a criação de uma metodologia completa para o desenvolvimento de sistemas de
descoberta de conhecimento em banco de dados na área de previsão de demanda ferroviária,
incluindo formalismo, ou seja, a documentação de todo o processo por meio de formulários;
a descrição da evolução do transporte ferroviário brasileiro, baseado na ótica do
crescimento da demanda de transporte.
7.2 RECOMENDAÇÕES
Sugere-se a automatização da metodologia, por meio do desenvolvimento de um
software, o que facilitará o trabalho de preenchimento e acompanhamento das etapas.
Com a informatização da metodologia, recomenda-se o aprimoramento da atividade de
escolha de métodos a serem utilizados na atividade de mineração de dados, de modo que o
191
usuário responda algumas perguntas, e a própria metodologia informe alguns métodos
candidatos a serem utilizados. Desse modo, a utilização da metodologia torna-se-ia mais fácil
para pessoas que têm um menor conhecimento dos possíveis métodos utilizáveis.
Recomenda-se, também, a adaptação desta metodologia, de maneira que possa ser usada
em outras tarefas do processo de KDD, porque os formulários não possuem identificação de
qual tarefa está sendo realizada e algumas tarefas têm atividades não descritas na MPDF-DM.
192
8 BIBLIOGRAFIA
ACRE, Governo do Estado do. História do Acre. Disponível: http://www.ac.gov.br/ [capturado em 31/07/2006], 2006.
ACZEL, Amir D. Complete Business Statistics. Irwin Homewood, IL, 2a. ed, 1993.
AGRAWAL, R.; IMISLINSKI, T; SWAMI, A. Mining Association Rules Between Sets of Itens in Large Databases. ACM SIGMOD Conference Management of Data, 1993.
ALIBAIG, Shahbaz; LILLY, Bryan. Updating Your Forecasting System: Wisconsin Tissue's Experience. The Journal of Business Forecasting Methods & Systems, Fall, v. 18, n. 3, págs. 13-18, 1999.
ALL. Site da América Latina Logística. Disponível: http://www.all-logistica.com/port/index.asp [capturado em 06/09/2006].
ALMEIDA, Arnaldo B. Estudo do Transporte de Soja na Região de Influência do Rio Araguaia. Dissertação (Mestrado em Engenharia de Transportes) - Universidade Federal do Rio de Janeiro. Rio de Janeiro, 1992.
AMAPÁ. Site do Governo do Amapá. Disponível: http://www.amapa.gov.br/not-individual.php?id=3716&PHPSESSID=c364a996e86c9bc4a9105cebaccbf1cd [capturado em 08/09/2006].
AMARAL, Fernanda Cristina Naliato do. Data Mining – Técnicas e Aplicações para o Marketing Direto. Berkeley, São Paulo, 2001.
ANSUJ, A. P.; CAMARGO, M.E.; RADHARAMANAN, R.; PETRY, D.G. Sales Forecasting Using Time Series and Neural Networks. Computers and Industrial Engineering, Elsevier Science Ltda., v. 31, n. 1/2, págs. 421-425, 1996.
ANTT, Agência Nacional de Transportes Terrestres. Evolução Recente do Transporte Ferroviário. Disponível: www.antt.gov.br/concessaofer/EvolucaoFerroviaria20060614.pdf [capturado em 15/07/2006], 2006a.
ANTT, Agência Nacional de Transportes Terrestres. Estrada de Ferro Carajás. Disponível: http://www.antt.gov.br/concessaofer/estradaferrocarajas.asp [capturado em 03/08/2006], 2006b.
ANTT, Agência Nacional de Transportes Terrestres. Ferrovia Tereza Cristina S.A. Disponível: http://www.antt.gov.br/concessaofer/terezacristina.asp [capturado em 03/08/2006], 2006c.
193
ARAÚJO, Bruno C.; GOMES, Herman M. Redes Neurais versus Métodos Estatísticos na Previsão de Séries Temporais. Universidade Federal de Campina Grande, Departamento de Sistemas e Computação, 2005.
ÁVILA, Giovani M. Contribuição ao Estudo da Previsão da Demanda por Transporte de Carga no Mercosul. Tese (Doutorado em Engenharia de Transportes) - Universidade Federal do Rio de Janeiro, Rio de Janeiro, 1999.
AZEVEDO, Hugo; CÔRTES, Sérgio. Data Mining – Conceitos, Técnicas, Ferramentas e Aplicações. Material distribuído, no curso de Data Mining, pela Coordenação Central de Cursos de Extensão. PUC – Rio, 2006.
BABCOCK, Michael W.; LU, Xiaohua; NORTON, Jerry. Time Series Forecasting of Quarterly Railroad Grain Carloadings. Transportation Research, Part E35, p. 43-57. 1999.
BAHIAINVEST. Porque investir na Bahia - Ferrovias. Disponível: http://www.bahiainvest.com.br/port/pq_investir/infra_ferrovias.asp?pai=2g [capturado em 09/08/2006], 2006
BALLOU, Ronald H. Gerenciamento da Cadeia de Suprimentos / Logística Empresarial. Porto Alegre, Bookman, 2006.
BARRETO, Jorge Muniz. Inteligência Artificial no Limiar do Século XXI. 2a. Ed., Duplic Edições, Florianopolis, 1999.
BERRY, Michel J. A.; LINOFF, Gordon. Data Mining Techniques for Marketing, Sales, and Customer Support. John Wiley & Sons, New York, 1997.
BCB, Banco Central do Brasil. Cotação e Boletins. Disponível: http://www5.bcb.gov.br/pec/taxas/port/ptaxnpesq.asp?id=txcotacao [capturado em 13/11/2006], 2006.
BENSUSAN, H. Automatic Bias Learning: Na Inquiry into Inductive Basis of Induction. Tese (Ph.D. em Ciência da Computação) – University of Sussex, 1999.
BISPO, Carlos Alberto Ferreira. Uma Análise da Nova Geração de Sistemas de Apoio à Decisão. Dissertação (Mestrado em Engenharia de Produção) - Universidade de São Paulo, São Carlos, São Paulo, 1998.
BNDES, Banco Nacional de Desenvolvimento Econômico e Social. BNDES aprova financiamento de R$ 500 milhões para CSN investir na ferrovia Transnordestina. Disponível: http://www.bndes.gov.br/noticias/not090_06.asp [capturado em 02/11/2006], 2006.
BNDES, Banco Nacional de Desenvolvimento Econômico e Social. Relatório Anual de 2005. Disponível: http://www.bndes.gov.br/empresa/desempenho/relatorio/default.asp [capturado em 31/07/2006], 2005.
194
BORGES, Barsanufo Gomide. O despertar dos dormentes; estudo sobre a estrada de ferro de Goiás e seu papel nas formações das estruturas regionais: 1909-1922. Goiânia: Legraf, 1990.
BOX, G. E. P.; JENKINS, G. M. Time-Series Analysis, Forecasting and Control. Ed. San Francisco: Holden-Day, 1976.
BRACHMAN, R.J.; ANAND, T. The Process of Knowledge Discovery in Databases. The KDD Process for Extracting Useful Knowledge from Volumes of Data, p.37-57, 1996.
BRAGA, Luis Paulo Vieira. Introdução à Mineração de Dados. Rio de Janeiro, E-papers, 2005.
CALÔBA, Guilherme Marques; CALÔBA, Luiz Pereira; SALIBY, Eduardo. Cooperação entre Redes Neurais Artificiais e Técnicas ‘Clássicas’ para Previsão de Demanda de uma Série de Vendas de Cerveja na Austrália. Pesquisa Operacional, v. 22, n.3, p.345-358, 2002.
CAMPOS, Flávio; DOLHNIKOFF, Mirian. Atlas: história do Brasil. São Paulo: Scipione, 1994.
CARVALHO, Luís Alfredo Vidal de. Data Mining: A Mineração de Dados no Markenting, Medicina, Economia, Engenharia e Administração. Rio de Janeiro, editora Ciência Moderna, 2005.
CHEN, Ming-Syan; HAN, Jiawei; YU, Philip S. Data Mining: An Overview from Databases Perspective. Disponível: http://citeseer.nj.nec.com/5126.html [capturado em 25/05/2006], 1996.
CHOPRA, Sunil; MEINDL, Peter. Gerenciamento da Cadeia de Suprimentos. Estratégia, Planejamento e Operação. São Paulo, Prentice Hall, 2003.
COELHO, Paulo Sérgio de Souza. Um Sistema para Indução de Modelos de Predição baseados em Árvores. Tese (Doutorado em Engenharia Civil) - Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2005.
COELI, Carla Costa de Medina. Análise da Demanda por Transporte Ferroviário: O Caso do Transporte de Grãos e Farelo de Soja na Ferronorte. Dissertação (Mestrado em Administração) - Universidade Federal do Rio de Janeiro – Instituto COPPEAD, Rio de Janeiro, 2004.
CRISP-DM. Site da entidade criadora da metodologia de mineração de dados. Disponível: http://www.crisp-dm.org [capturado em 29/08/2006].
CURY, Marcus Vinícius Quintella. Modelo Heurístico Neuro-fuzzy para Avaliação Humanística de Projetos de Transporte Urbano. Tese (Doutorado em Engenharia de Produção) – Universidade Federal do Rio de Janeiro, Rio de Janeiro, 1999.
195
CVRD, Companhia Vale do Rio Doce. Ferrovias. Disponível: http://www.cvrd.com.br/cvrd/cgi/cgilua.exe/sys/start.htm?sid=64 [capturado em 04/08/2006].
DESENVOLVIMENTO, Ministério do. Balança Comercial Brasileira. Disponível: http://www.desenvolvimento.gov.br/ [capturado em 13/11/2006].
DIAS, Maria Madalena. Um Modelo de Formalização do Processo de Desenvolvimento de Sistemas de Descoberta de Conhecimento em Banco de Dados. Tese (Doutorado em Engenharia de Produção) - Universidade Federal de Santa Catarina, Florianópolis, 2001.
DNIT, Departamento Nacional de Infra-estrutura Terrestre. DNIT recomenda Transnordestina: Agora Vai. Disponível: http://www.dnit.gov.br/noticias/Transnordestina/view?searchterm=transnordestina [capturado em 02/11/2006], 2006.
DONG, Guozhu; LI, Jinyan. Interestingness of Discovered Association Rules in Terms of Neighborhood-based Unexpectedness. Lecture Notes in Artificial Intelligence, 1394, 72–86, 1998.
EXCEL. Microsoft. Site de ajuda do software. Disponível: http://office.microsoft.com/pt-br/excel/FX100646961046.aspx?CTT=96&Origin=CL100570551046 [capturado em 16/11/2006].
FAJARDO, Ana Paula C. Estudo do Transporte da Soja Produzida nos Estados do Pará e Mato Grosso. Dissertação (Mestrado em Engenharia de Transportes) - Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2001.
FAYYAD, Usama M.; PIATETSKY-SHAPIRO, Gregory; SMYTH, Padhraic; UTHURUSAMY, Ramasamy. Advances in Knowledge Discovery and Data Mining. Massachusetts, USA, editora The MIT Press, 1996.
FAYYAD, Usama; HAUSSLER, David; STOLORZ, Paul. KDD for Science Data Analysis: Issues and Examples. Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96), ed. Evangelos Simoudis and Jia Wei Han en Usama Fayyad, AAAI Press, pp.55-56, 1996 B.
FEDERAL, Governo. Lei de Diretrizes Orçamentárias de 2007. Disponível em http://www.senado.gov.br/sf/orcamento/ldo/LDO%202007%5C4%20-%20Projeto%20da%20LDO%202007%20encaminhado%20pelo%20Executivo%5CPLDO2007%20ANEXO%204.01.pdf [capturado em 02/11/2006], 2006.
FELDENS, Miguel Artur. Engenharia da Descoberta de Conhecimento em Base de Dados: Estudo e Aplicação na Área de Saúde. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal do Rio Grande do Sul, Porto Alegre, 1997.
FELDENS, Miguel Artur; MORAES, R.L.; PAVAN, A.; CASTILHO, J.M.V. Towards a methodology for the discovery of useful knowledge combining data mining, data warehousing and visualization. In: XXIV CLEI (Conferência Latino-Americana de
196
Informática). Quito, Equador. Disponível: http://jacui.inf.ufrgs.br/~feldens/clei98.html [capturado em 22/10/2006], 1998.
FERTIG, Christina S.; FREITAS, Alex Alves; ARRUDA, Lúcia V. R.; KAESTNER Celso. A Fuzzy Beam Search Rule Induction Algorithm. In Proceedings of the Third European Conference (PKDD-99) Lecture Notes in Artificial Intelligence 1704, pp. 341–347, 1999.
FILDES, Roberts; Hastings, R. The Organization and Improvement of Market Forecasting. Journal of Operational Research Society, v. 45, págs. 1-16, 1994.
FORTULAN, Marcos Roberto; GONÇALVES FILHO, Eduardo Vila. Uma Proposta de Aplicação de Business Intelligence no Chão-de-Fábrica. Revista Gestão & Produção, v.12, nº 1, p. 55-66, 2005.
FREIRE, Mac Daves de Moraes. Métodos Estatísticos de Previsão de Vendas: Metodologia para Elaboração de Orçamento no Setor Energia Elétrica. Dissertação (Mestrado em Ciências Contábeis) - Universidade de Brasília, Brasília, 2005.
FREITAS, Alex Alves. A Multi-criteria Approach for the Evaluation of Rule Interestingness. In Proceedings of the International Conference on Data Mining, pp. 7–20, 1998.
FTC, Ferrovia Tereza Cristina. História da Estrada de Ferro. Disponível: http://www.ftc.com.br/ [capturado em 02/08/2006], 2006.
FURTADO, Celso. Formação Econômica do Brasil. Companhia Editora Nacional, 23ª edição, São Paulo, 1989.
GAO, General Accounting Office. Site da agência do senado dos Estados Unidos. Disponível: http://www.gao.gov/new.items/d04548.pdf [capturado em 05/07/2006].
GARGANO, Michael L. e RAGGAD, Bel G.. Data Mining – A Powerful Information Creating Tool. MCB University Press, 1999.
GODOY, R.; GOLDSCHMIDT, Ronaldo; PASSOS, Emmanuel. Mineração de Dados: Aplicação Prática em Pequenas e Médias Empresas. KM- Rio de Janeiro, 2003.
GOLDSCHMIDT, Ronaldo. Assistência inteligente à orientação do processo de descoberta de conhecimento em base de dados. Tese (Doutorado em Engenharia Elétrica) - Pontifícia Universidade Católica do Rio de Janeiro, Rio de Janeiro, 2003.
GOLDSCHMIDT, Ronaldo; PASSOS, Emmanuel. Data Mining – Um Guia Prático. Rio de Janeiro, editora Campus, 2005.
GOLDSCHMIDT, Ronaldo; PASSOS, Emmanuel. Utilização de Recursos de Banco de Dados Relacionais em Tarefas de Mineração de Regras Associativas. I Congresso de Lógica Aplicada à Tecnologia. São Paulo: SENAC, 2000.
197
GORNI, Antônio Augusto. A Eletrificação das Ferrovias Brasileiras. (Ferrovia do Aço). Disponível: http://www.efbrasil.eng.br/electro/ferroaco.html [capturado em 21/11/2006], 2004.
GRAEML, Alexandre Reis. Os Impactos da Utilização da Internet e outras Tecnologias da Informação sobre o Setor Industrial. Tese (Doutorado em Administração de Empresas) - Fundação Getúlio Vargas, São Paulo, 2004.
GRAY, Paul; WATSON, Hugh J. The New DSS: Data Warehouses, OLAP, MDD and KDD. Disponível em: http://hsb.baylor.edu/ramsover/ais.ac.96/papers/graywats.htm [capturado em 20/03/2006], 1999.
GROSSBERG, Stephen. Neural Networks and Natural Intelligence. MIT Press, Cambridge, 1988.
GROSS, Charles W.; PETERSON, Robin T. Business Forecasting. Houghton Mifflin Co., Boston, 2a. ed, 1983.
GUIDE. SAS Enterprise. Site do software de mineração de dados. Disponível: http://www.sas.com/technologies/bi/query_reporting/guide/ [capturado em 06/09/2006].
HAN, Jiawei; KEMBER, Micheline. Data Mining: Concepts and Techniques. San Francisco: Morgan Kaufmann Publishers, 2001.
HARDING, J. A.; YU, B. Information-centred Enterprise Design Supported by a Factory Data Model and Data Warehousing. Computers in Industry, v. 40, n. 1, p. 23-36,1999.
HAYKIN, Simon. Redes Neurais: Princípios e Prática. Porto Alegre, Bookman, 2001.
HORST, Paulo Sérgio. Avaliação do conhecimento adquirido por algoritmos de aprendizado de máquina utilizando exemplos. Dissertação (Mestrado em Computação) – Universidade de São Paulo, São Carlos, São Paulo, 1999.
HUSSEY, Michael; HOOLEY, Graham. The Diffusion of Quantitative Methods into Marketing Management. Journal of Marketing Practice: Applied Marketing Science, MCB University Press, v. 1, n. 4, págs. 13-31, 1995.
IANNI, Octávio. Estado e Democracia. Ed. Brasiliense, 2ª edição, São Paulo, 1989.
IBGE, Instituto Brasileiro de Geografia e Estatística. Estimativas populacionais para municípios brasileiros. Disponível: http://www.ibge.gov.br/home/estatistica/populacao/estimativa2006/POP_2006_DOU.pdf [capturado em 03/10/2006], 2006.
ICHIKAWA, Sandra Matiko, PITOMBO, Cira Souza, KAWAMOTO, Eiji. Aplicação de Minerador de Dados na Obtenção de Relações entre Padrões de Viagens Encadeadas e Características Sócio-Econômicas. In: XVI ANPET – Congresso de Pesquisa e Ensino em Transporte. Anais eletrônicos (CD). Natal, 2002.
198
JACOB, Chafic. Ferrovia, O Caminho Certo. Imprensa Oficial do Estado. São Paulo, 1982.
JORGE, Fauzi Timaço; MOREIRA, José Octávio de Campos. Economia – Notas Introdutórias. Editora Atlas, São Paulo, 1995.
KDNUGGETS. Site especializado em mineração de dados. Disponível: http://www.kdnuggets.com [capturado em 25/08/2006].
KERBER, Randy; BECK, H.; ANAND, T.; SMART, B. Active Templates: Comprehensive Support for the Knowledge Discovery Process. Proceedings of the International Conference on Knowledge Discovery and Data Mining, p 244-248, 1998.
KERBER, Randy; LIVEZEY, Brain; SIMOUND, Evangelos. A Hybrid System for Data Mining (Chapter 7). Itelligent Hybrid System, John Wiley & Sons Ltd, pp.121-141, 1995.
KIMBALL, Ralph, ROSS, Margy. The Data Warehouse Toolkit. Guia Completo para Modelagem Dimensional. Editora Campus. Rio de Janeiro, 2002.
KLEMETTINEN, M.; MANNILA, H.; TOIVONEN, H. A data mining methodology and its application to semi-automatic knowledge acquisition. In: DEXA Workshop, p. 670-677, 1997.
KOHONEN, Teuvo. Self-Organization and Associative Memory. Springler-Verlarg, Berlin, 1987.
LAVRAC, Nada; FLACH, Peter; ZUPAN, Blaz. Rule Evaluation Measures: A Unifying View. Ninth International Workshop on Inductive Logic Programming (ILP’99), Volume 1634 of Lecture Notes in Artificial Intelligence, pp. 174–185. Springer-Verlag. Disponível: http://link.springer.de/link/service/series/0558/papers/1634/16340174.pdf [capturado em 27/09/2006], 1999.
LAWRENCE, Michael; EDMUNDSON, Bob; O'CONNOR, Marcus. A Field Study of Sales Forecasting Accuracy and Processes. Amsterdam European Journal of Operational Research, Elsevier Science, B. V., Apr 1, Vol. 122, n. 1, págs. 151-160, 2000.
LIU, Bing; HSU,Wynne. Post-analysis of Learned Rules. AAAI 1, 828–834, 1996.
LUXHOJ, J. T.; RIIS, J. O.; STENSBALLE, B. A Hybrid Econometric-Neural Network Modeling Approach for Sales Forecasting. Amsterdam International Journal of Production Economics, Elsevier Science B. V., n. 43, págs. 175-192, 1996.
MACHADO, Cristina Ângela Filipak. A-RISK: Um Método para Identificar e Quantificar Risco de Prazo em Projetos de Desenvolvimento de Software. Dissertação (Mestrado em Informática Aplicada) - Pontifícia Universidade Católica do Paraná, Curitiba, 2002.
MAKRIDAKIS, Spyros; WHEELWRIGHT, Steven C.; HYNDMAN, Rob J. Forecasting: Methods and Application. John Wiley & Sons, New York, 3a. ed, 1998.
199
MARQUES, Sérgio de Azevedo. Privatização do Sistema Ferroviário Brasileiro. IPEA – Instituto de Pesquisa Econômica Aplicada, 1996.
MATLAB. Site da empresa. Disponível: http://www.mathworks.com/ [capturado em 16/11/2006].
MCHUGH, A. K.; SPARKES, J. R.. The Forecasting Dilemma. Management Accounting, n. 61, págs. 30-34, 1983.
MELO, L.; MEZZONATO, V. Ferrovias: Integração e Crescimento Econômico. Seminário: Ferrovias – Integração e Crescimento Econômico, São Paulo, p. 12 – 13, 2005.
MENA, Jesus. Data Mining Your Website. Digital Press, 1999.
MENDEL, J. M. Fuzzy Logic Systems for Engineering: A Tutorial. Proceedings of the IEEE, Vol. 83, nº 3, pp. 345-377, Março 1995.
MENDES, Judas Tadeu Grassi. Economia : Fundamentos e Aplicações. Prentice Hall, São Paulo, 2004.
MENTZER, J. T.; COX Jr., J. E. Familiarity, Application and Performance of Sales Forecasting Techniques. Journal of Forecasting, n. 3, págs. 27-36, 1984.
MINER. SAS Enterprise. Site do software de mineração de dados. Disponível: http://www.sas.com/technologies/analytics/datamining/miner/index.html [capturado em 06/09/2006].
MONTEIRO NETO, Júlio Pacheco. Um Modelo Teórico para Estruturação de um Sistema de Informações para Controle e Acompanhamento da Manutenção de uma Malha Rodoviária. Dissertação (Mestrado em Engenharia de Produção) - Universidade Federal de Santa Catarina, Florianópolis, Santa Catarina, 2002.
MOTA FILHO, Francisco Osvaldo Mendes. Aplicação de Modelos de Estimação de Fitness em Algoritmos Genéticos. Dissertação (Mestrado em Engenharia Elétrica) - Universidade Estadual de Campinas, Campinas, São Paulo, 2005.
MOTTA, Custódio Gouvêa Lopes da. Sistema Inteligente para Avaliação de Riscos em Vias de Transporte Terrestre. Dissertação (Mestrado em Engenharia de Transportes) – COPPE / UFRJ, Rio de Janeiro, 2004.
MRS. História da MRS Logística. Disponível: http://www.mrs.com.br/interna.php?nomPagina=aempresa/historia_da_ferrovia.php&IdSecao=0 [capturado em 03/11/2006].
NASCIMENTO, Marcos B. C. Uma Análise do Sistema Hidroviário e seu Impacto no Desenvolvimento da Agro-indústria Brasileira, Dissertação (Mestrado em Engenharia de Transportes) - Universidade Federal do Rio de Janeiro. Rio de Janeiro, 2000.
200
NCR. Informações sobre a Empresa. Disponível: http://www.ncr.com/en/about_ncr/aboutncr.htm [capturado em 11/10/2006], 2006.
NETO, Aristóteles Teobaldo; OLIVEIRA, Ana Carolina de; CONCEIÇÃO, Vitória Helena Stacciarini da; BATISTA, Marcelo Martins; CLEPS, Geisa Daise Gumiero; CARVALHO; Renato Muniz Barreto de. O Transporte Rodoviário e Ferroviário na Cidade de Uberaba / MG. II Simpósio Regional de Geografia “Perspectivas para o Cerrado no Século XXI”. Universidade Federal de Uberlândia, 2003.
NEWBOLD, Paul. Statistics for Business & Economics. Prentice-Hall, Inc. Englewood Cliffs, N.J., 4a. ed, 1995.
NORTE, Mineração Rio do. Site. Disponível: http://www.mrn.com.br/index_1024.htm [capturado em 03/08/2006], 2006a.
NORTE, Mineração Rio do. História. Disponível: http://www.mrn.com.br/quem_somos/historia.html [capturado em 04/08/2006], 2006b.
NUNES, Ivanil. As Ferrovias em São Paulo. Disponível:. http://www.angelfire.com/ar/ufa/ferrovia.html [capturado em 25/07/2006], 1993.
PASSARI, Antônio Fabrizio Lima. Exploração de dados atomizados para previsão de vendas no varejo utilizando redes neurais. Dissertação (Mestrado em Administração) - Universidade de São Paulo, São Paulo, 2003.
PAZZANI, Michael J., MANI, S.; SHANKLE, W. Comprehensible Knowledge Discovery in Databases. In Proceedings of the Nineteenth Annual Conference of the Cognitive Science Society, Lawrence Erlbaum, pp. 596–601, 1997.
PAZZANI, Michael J. Knowledge Discovery from Data? IEEE Intelligent Systems 15(2), 10–13, 2000.
PETERSON, Robin T.; JUN, Minjoon. Forecasting Sales in Wholesale Industry. The Journal of Business Forecasting Methods & Systems, Summer, v. 18, n. 2, págs. 15-18, 1999.
PIATETSKY-SHAPIRO, Gregory; MATHEUS, Christopher J. The interestingness of deviations. In Proceedings of the International Conference on Knowledge Discovery and Data Mining (KDD-94), pp. 23–36, 1994.
PIATETSKY-SHAPIRO, Gregory. The Data Mining Industry Coming of Age. IEEE Intelligent Systems, p. 32-34, 1999.
PMBOX. A Guide to the Project Management Body of Knowledge. PMI, Upper Darby, Estados Unidos, 1996.
POE, Vidette; KLAUER, Patrícia; BROBST, Stephen. Building a Data Warehouse for Decision Support. 2 ed. Prentice-Hall, New Jersey, 1998.
201
PRADO, Hércules Antônio do. Conceitos de Descoberta de Conhecimento em Bancos de Dados. Tese (Doutorado em Ciência da Computação) – Universidade Federal do Rio Grande do Sul, Porto Alegre, 1997.
QUINLAN, John Ross. C4.5: Programs for Machine Learning. San Francisco: Morgan Kaufmann Publishers, 1993.
QUINLAN, John Ross. Learning With Continuous Classes. In Proceedings AI'92 (Adams Sterling, Eds), 343-348, Singapore: World Scientific, 1992.
RAINHO, P. S. Mineração de Dados: Conceitos, Técnicas e Aplicações. Rio de Janeiro. Trabalho de Graduação, Universidade Gama Filho, 2001.
REZENDE, Solange Oliveira. Sistemas Inteligentes: Fundamentos e Aplicações. São Paulo, Editora Manoele, 2003.
RIPLEY, Brain D. Pattern Recognition and Neural Networks, Cambridge University Press, Cambridge, 1996.
RUMBAUGH, James. Modelagem e projetos baseados em objetos. Editora Campus, 1994.
RUSSELL, S.; NORVIG, P. Artificial Intelligence: A Modern Approach. Prentice-Hall, New Jersey, 1995.
SAATY, Thomas L. Método de Análise Hierárquica. São Paulo, McGraw-Hill, 1991.
SANDERS, N. R.; MANRODT, K. Forecasting Practices in US Corporations: Survey Results. Interfaces, v. 24, págs. 92-100, 1994.
SANT’ANNA, José Alex. Rede Básica de Transportes na Amazônia. IPEA – Instituto de Pesquisa Econômica Aplicada. Brasíla, 1998.
SEMMA. Site da metodologia desenvolvida pela SAS. Disponível: http://www.sas.com/technologies/analytics/datamining/miner/semma.html [capturado em 28/08/2006].
SERRA, Laércio. A Essência do Business Intelligence. Berkeley, São Paulo, 2002.
SILBERSCHATZ, Abraham; TUZHILIN Alexander. On Subjective Measures of Interestingness in Knowledge Discovery. In Proceedings of the First International Conference on Knowledge Discovery and Data Mining 1, 275–281, 1995.
SILVA, Luiz Carlos Ferreira da. Inteligência Computacional na Predição de Produção de Reservatórios de Petróleo. Tese (Doutorado em Engenharia Civil) - Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2006.
SILVA, Christian Luiz; STEFANELO, Eugênio. Ambiente econômico. In: Economia Empresarial. 1.ed. Curitiba: Associação Franciscana de Ensino Senhor Bom Jesus, v.1, p. 1-13, 2002
202
SILVEIRA, Márcio Rogério. A importância Geoeconômica das Estradas de Ferro no Brasil. Tese (Doutorado em Geografia) – Universidade Estadual Paulista, Presidente Prudente, São Paulo, 2003.
SINGH, Harry S. Data Warehouse. 1 ed. Macron Books, São Paulo, 2001.
SPSS. Informações sobre a Empresa. Disponível: http://www.spss.com.br/ [capturado em 11/10/2006], 2006.
SUBRAHMANYAN, Saroja. An Exploratory Empirical Study on How Pricing and Inventory Decisions are Made in a Simulated Environment. Research paper Series, Faculty of Business Administration, National University of Singapure, Maio, RPS, págs. 98-123, 1998.
SUBRAHMANYAN, Saroja. Using Quantitative Models for Setting Retail Prices. Journal of Product and Brand Management, MCB University Press, v. 9, n. 5, págs. 304-320, 2000.
TÁLAMO, Marcello; MARTIRE, Sérgio. História da Estrada de Ferro do Amapá. Disponível: http://www.geocities.com/e_f_amapa/ef-amapa.htm [capturado em 02/11/2006], 2006.
THALL, N. Neural Forecasts: A Retail Sales Booster. Discount Merchandiser, v. 32, n. 10, págs. 41-42, 1992.
THURAISINGHAM, Bhavani. Data Mining. CRC Press, 1999
TRANSPORTES, Ministério dos. Banco de Informações de Transportes - Estrada de Ferro do Amapá. Disponível: http://www.transportes.gov.br/bit/ferro/efa/inf-efa.htm [capturado em 02/11/2006], 2003a.
TRANSPORTES, Ministério dos. Banco de Informações de Transportes - Estrada de Ferro Jari. Disponível: http://www.transportes.gov.br/bit/ferro/efj-jari/inf-efj.htm [capturado em 02/11/2006], 2003b.
TRANSPORTES, Ministério dos. Estrada de Ferro Jari. Disponível: http://www.transportes.gov.br/bit/ferro/efj-jari/inf-efj.htm [capturado em 03/08/2006], 2006a.
TRANSPORTES, Ministério dos. Ferrovia Norte-Sul. Disponível: http://www.ferrovianortesul.com.br/index_fla.htm [capturado em 02/11/2006], 2006b.
TRANSPORTES, Ministério dos. Mapas Ferroviários. Disponível: http://www.transportes.gov.br/bit/mapas/mapdoc/ferro.html [capturado em 04/08/2006], 2006c.
203
TRANSPORTES, Ministério dos. O Crescimento do Brasil Passa por Aqui. Disponível: http://www.transportes.gov.br/ProPro/FolderFerrovias.pdf [capturado em 02/11/2006], 2006d.
TRANSPORTES, Ministério dos. Sistema de Carga e de Passageiros de Longo Percurso - EFJ - Estrada de Ferro Jari. Disponível: http://www.transportes.gov.br/bit/ferro/efj-jari/est-EFJ.htm [capturado em 02/11/2006], 2001.
UTGOFF, P. Shift of Bias for Inductive Concept Learning. Machine Learning: An Artificial Intelligence Approach, v. 3, São Francisco, 1986.
VALE, Marcos Neves do; VELLASCO, Marley Maria B. R. Fuzzy Rules 2001 – Sistema de Inferência Fuzzy com Geração Automática de Regras. Rio de Janeiro. Trabalho de Graduação, Universidade do Estado do Rio de Janeiro, 2001.
VALEC, Ferrovia Norte-Sul. Relatório Final de Gestão. Disponível: http://www.ferrovianortesul.com.br/contas.htm [capturado em 09/08/2006], 2006.
VELLASCO, Marley; PACHECO, Marco Aurélio, LOPES, Carlos Henrique. Introdução ao Data Mining. Laboratório de Inteligência Computacional Aplicada. PUC – Rio. Disponível em: http://www.ica.ele.puc-rio.br/cursos/index.asp [capturado em 13/04/2006], 1999.
WEIGANG, Li; YAMASHITA, Yaeko; SILVA, Osmar Quirino da; XIJUN, Deng; PRAZERES, Miguel Ângelo Trindade dos; OLIVEIRA, Daniel Cristino Silva de. Implementação do Sistema de Mapeamento de uma Linha de Ônibus para um Sistema de Transporte Inteligente. Disponível: http://www.cic.unb.br/~weigang/pub/itssemish2001.pdf [capturado em 07/06/2006], 2001.
WEISS, Sholom M.; INDURKHYA, Nitim. Predictive Data Mining: A Practical Guide. Morgan Kaufmann Publishers, San Francisco, 1998.
WEISS, Sholom M.; INDURKHYA, Nitim. Predict Data Mining. Morgan Kaufmann Publishers, 1999.
WESSELS,Walter. Microeconomia: Teoria e Aplicações. Saraiva, São Paulo, 2002.
WHEELWRIGHT, Steven C.; CLARKE, D. G. Corporate Forecasting: Promise and Reality. Harvard Business Review, v. 54, págs. 40-64, 1976.
WIDROW, Bernard; WINTER, Rodney. Neural Nets for Adaptive Filtering and Adaptive Pattern Recognition. IEEE An Introduction to Neural and Eletronic Networks, 1988.
WINKLHOFER, Heidi; WITT, Stephen F.; DIAMANTOPOULOS, Adamantios. Forecasting Practice: A Review of the Empirical Literature and an Agenda for Future Research. International Journal of Forecasting, Elsevier Science B. V., n. 12, págs. 193-221, 1996.
204
WIRTH, R.; SHEARER, C.; GRIMMER, U.; REINARTZ, T.; SCHLOSSER, J.; BREITNER, C.; ENGELS, R.; LINDNER, G. Towards Process-Oriented Tool Support for Knowledge Discovery in Databases. Proceedings of the First European Symposium on Principles of Data Mining and Knowledge Discovery. Trondheim, 1997.
WOLPERT, D. The Lack of a Priori Distinctions Between Learning Algorithms and the Existence of a Priori Distinctions Between Learning Algorithms. Revista Neural Computations, v. 8, 1996.
ZHOU, Wei. Integration of Different Forecasting Models. The Journal of Business Forecasting Methods & Systems, Fall, v. 18, n. 3, págs. 26-29, 1999.
205
9 ANEXOS
206
9.1 DATA WAREHOUSE (DW)
À medida que a sociedade se automatiza, grandes quantidades de dados são geradas nas
mais diversas fontes e para os mais diferentes usos. Há alguns anos estimava-se que o volume
de dados eletronicamente armazenados dobrava a cada ano e meio; hoje, qualquer usuário da
Internet sabe o quanto os dados digitais crescem por dia.
Ao longo do tempo, os bancos de dados foram sendo desenvolvidos para fins de
processamentos de dados operacionais e analíticos, havendo maior ênfase no primeiro caso,
ainda que ambos tivessem usuários com diferentes necessidades. Uma vez compreendida essa
diferença, foram criados bancos de dados separados para fins analíticos, chamados de Data
Warehouse (DW), explicam GRAY e WATSON (1999). É inevitável a perda de
produtividade e confiabilidade quando os dados são retirados de diversas fontes em sistemas
desintegrados; assim, o conceito de Data Warehouse propicia integração e consolidação da
informação.
Conforme HARDING e YU (1999), o DW extrai, de uma maneira eficiente, informações
valiosas dos bancos de dados operacionais que estão espalhados por toda a empresa e que,
certamente, contêm dados duplicados ou parcialmente duplicados. Por isso, antes de povoar o
DW com os dados operacionais, estes precisam ser preparados para estarem aptos a serem
questionados, pesquisados, analisados e apresentarem conclusões. Nas aplicações de Business
Intelligence (BI), o foco está mais voltado para as tendências e agregações do que para cada
transação individual, portanto os dados armazenados devem oferecer níveis de agregação
apropriados.
GRAY e WATSON (1999) destacam como características desses bancos:
serem orientados para determinado assunto;
serem integrados;
não serem violáveis, ou seja, seus dados não são alterados, só incluídos;
representarem um histórico;
serem condensados;
representarem um longo período de tempo (de 5 a 10 anos);
207
não serem normalizados, ou seja, podem ter dados redundantes;
não serem baratos e terem implantação demorada; e
serem grandes e continuarem crescendo ao longo do tempo.
Para CARVALHO (2005), DW é o processo de reunir de modo organizado e eficiente dos
dados de diferentes fontes com o objetivo de auxiliar na sua análise.
KIMBAL e ROSS (2002) definem assim: é um conjunto de ferramentas e técnicas de
projeto, que quando aplicadas às necessidades específicas dos usuários e aos bancos de dados
específicos permitirá que planejem e construam um DW.
Em uma empresa que deseja analisar o conteúdo da massa de dados criada por suas
atividades, um processo de unificação precisa ser efetuado de maneira a possibilitar o acesso
de um indivíduo (analista) às múltiplas faces dessa informação. Para que o processo de KDD
seja realizado, é necessário o acesso a uma massa de dados limpa, consistente e unificada em
sua linguagem e lógica. Certamente que analistas vêm realizando o processo de KDD há
muitos anos, utilizando-se de ferramentas simples e bancos de dados separados; porém a
construção de um DW em muito facilita o processo de mineração de dados e de decisão,
segundo CARVALHO (2005).
Para o desenvolvimento de um DW, é utilizada a modelagem dimensional de banco de
dados, cuja representação se dá por meio do chamado esquema Estrela. Algumas vantagens
desse modelo de banco de dados sobre os modelos relacionais convencionais para aplicações
de DW são citadas por POE et al. (1998) e BISPO (1998), descritas abaixo:
permitir a criação de um projeto de banco de dados que fornecerá respostas rápidas,
com menos tabelas e índices;
permitir ao administrador do banco de dados trabalhar com projetos mais simples e
assim produzir melhores planos de execução; e
possuir uma estrutura mais intuitiva, assemelhando o projeto do banco de dados com
a maneira como o usuário final pensa e usa os dados.
208
O modelo dimensional é composto basicamente por dois tipos de tabelas: as de Fato e as
de Dimensão. As primeiras são grandes tabelas centrais, compostas basicamente das
ocorrências do negócio, por exemplo, vendas, produção e defeitos. Já as segundas armazenam
as descrições do negócio, como dados sobre o produto (marca, tamanho, categoria, preço), o
tempo (dia, mês, ano) ou o cliente (nome, endereço, classe social). Cada tabela de Dimensão
possui uma única chave primária, e o conjunto dessas chaves primárias formará a chave
composta da tabela de Fato. Cada negócio ou assunto possui sua tabela de Fato e suas
respectivas tabelas de Dimensão.
Uma variação do esquema Estrela é o Snowflake, que consiste em uma normalização do
primeiro. No esquema Snowflake, as tabelas de Dimensão são estruturadas de modo que
atendam à terceira forma normal, mantendo as tabelas de Fato em sua estrutura inicial. Vale
ressaltar que o uso do esquema Snowflake traz como desvantagem o aumento da
complexidade da estrutura de dados, dificultando a compreensão do modelo por parte de
usuários que trabalham diretamente com a estrutura física das tabelas. No entanto, seu uso
pode ser indispensável em alguns casos em que, por exemplo, o modelo desnormalizado
(Estrela) requeira muito espaço em disco ou suas tabelas dimensionais sejam muito grandes,
prejudicando o desempenho do sistema, segundo SINGH (2001) e POE et al. (1998). A FIG.
9.1 mostra o formato geral de um esquema Estrela e uma derivação Snowflake.
209
FIG. 9.1 Modelo dimensional de banco de dados utilizando esquema Estrela e Snowflake
Fonte: FORTULAN e GONÇALVES FILHO (2005).
Muito utilizados em projetos-pilotos, existem também os Data Marts, que, conforme
SINGH (2001) define, são subconjuntos do DW da empresa-inteira. Tipicamente
desempenham o papel de um DW departamental, regional ou funcional. Uma empresa pode
construir uma série de Data Marts ao longo do tempo e, eventualmente, vinculá-los por meio
de um DW lógico da empresa inteira.
9.2 REDES NEURAIS
Redes Neurais Artificiais (RNA) são técnicas computacionais que apresentam um modelo
matemático inspirado na estrutura neural de organismos inteligentes e que adquirem
conhecimento por meio da experiência. Uma grande rede neural artificial pode ter centenas ou
milhares de unidades de processamento; já o cérebro de um mamífero pode ter muitos bilhões
de neurônios.
210
9.2.1 HISTÓRICO
Um histórico resumido sobre Redes Neurais Artificiais deve começar por três das mais
importantes publicações iniciais, desenvolvidas por McCulloch e Pitts (1943), Hebb (1949) e
Rosemblatt (1958). Essas publicações introduziram o primeiro modelo de redes neurais
simulando “máquinas”, o modelo básico de rede de auto-organização e o modelo Perceptron
de aprendizado supervisionado, respectivamente.
Alguns históricos sobre a área costumam “pular” os anos 60 e 70 e apontar um reínicio da
área com a publicação dos trabalhos de Hopfield (1982) relatando a utilização de redes
simétricas para otimização, e de Rumelhart, Hinton e Williams que introduziram o poderoso
método Backpropagation.
Entretanto, para se ter um histórico completo, devem ser citados alguns pesquisadores
que realizaram, nos anos 60 e 70, importantes trabalhos sobre modelos de redes neurais em
visão, memória, controle e auto-organização, como: Amari, Anderson, Cooper, Cowan,
Fukushima, Grossberg, Kohonen, Von der Malsburg, Werbos e Widrow.
9.2.2 CARACTERÍSTICAS GERAIS
Uma RNA é composta por várias unidades de processamento, cujo funcionamento é
simples e geralmente, conectadas por canais de comunicação que estão associados a
determinado peso. As unidades fazem operações apenas sobre seus dados locais, que são
entradas recebidas pelas suas conexões. O comportamento inteligente de uma RNA vem das
interações entre as unidades de processamento da rede.
A operação de uma unidade de processamento, proposta por McCullock e Pitts em 1943,
FIG. 9.2, pode ser resumida da seguinte maneira:
sinais são apresentados à entrada;
cada sinal é multiplicado por um número ou peso, que indica a sua influência na
saída da unidade;
é feita a soma ponderada dos sinais que produz um nível de atividade;
211
se esse nível de atividade exceder um certo limite (threshold), a unidade produz uma
determinada resposta de saída.
FIG. 9.2 Esquema de unidade McCullock – Pitts
Suponha que tenhamos p sinais de entrada X1, X2, ..., Xp e pesos w1, w2, ..., wp e
limitador t; com sinais assumindo valores booleanos (0 ou 1) e pesos valores reais.
Nesse modelo, o nível de atividade a é dado por:
a = w1X1 + w2X2 + ... + wpXp
A saída y é dada por:
y = 1, se a >= t ou
y = 0, se a < t.
A maioria dos modelos de redes neurais possui alguma regra de treinamento, onde os
pesos de suas conexões são ajustados de acordo com os padrões apresentados. Em outras
palavras, elas aprendem por meio de exemplos.
Arquiteturas neurais são tipicamente organizadas em camadas, FIG. 9.3, com unidades
que podem estar conectadas às unidades da camada posterior.
212
FIG. 9.3 Organização em camadas da RNA
Usualmente as camadas são classificadas em três grupos:
camada de entrada: onde os padrões são apresentados à rede;
camadas intermediárias ou escondidas: onde é feita a maior parte do
processamento, por meio das conexões ponderadas. Podem ser consideradas como extratoras
de características;
camada de saída: onde o resultado final é concluído e apresentado.
Uma rede neural é especificada, principalmente pela sua topologia, pelas características
dos nós e pelas regras de treinamento. A seguir, serão analisados os processos de aprendizado.
9.2.3 PROCESSOS DE APRENDIZADO
A propriedade mais importante das redes neurais é a habilidade de aprender de seu
ambiente e com isso melhorar seu desempenho, o que é feito por meio de um processo
iterativo de ajustes aplicado a seus pesos, o treinamento. O aprendizado ocorre quando a rede
neural atinge uma solução generalizada para uma classe de problemas.
Denomina-se algoritmo de aprendizado um conjunto de regras bem definidas para a
solução de um problema de aprendizado. Existem muitos tipos de algoritmos de aprendizado
213
específicos para determinados modelos de redes neurais, os quais diferem entre si
principalmente pelo modo como os pesos são modificados.
Outro fator importante é a maneira pela qual uma rede neural se relaciona com o
ambiente. Nesse contexto, existem os seguintes paradigmas de aprendizado:
aprendizado supervisionado, quando é utilizado um agente externo que indica à
rede a resposta desejada para o padrão de entrada;
aprendizado não-supervisionado (auto-organização), quando não existe um agente
externo indicando a resposta desejada para os padrões de entrada;
reforço, quando um crítico externo avalia a resposta fornecida pela rede.
Denomina-se ciclo uma apresentação de todos os N pares (entrada e saída) do conjunto
de treinamento no processo de aprendizado. A correção dos pesos num ciclo pode ser
executado de dois modos:
1) modo padrão: a correção dos pesos acontece a cada apresentação à rede de um
exemplo do conjunto de treinamento. Cada correção de pesos baseia-se somente no erro do
exemplo apresentado naquela iteração. Assim, em cada ciclo ocorrem N correções.
2) modo batch: apenas uma correção é feita por ciclo. Todos os exemplos do conjunto
de treinamento são apresentados à rede, seu erro médio é calculado e a partir desse erro,
fazem-se as correções dos pesos.
9.2.4 TIPOS DE REDES NEURAIS
9.2.4.1 PERCEPTRON
O Perceptron foi proposto por Rosenblatt (1959) para reconhecimento de letras
maiúsculas do alfabeto. É uma rede direta consistindo de unidades binárias, que aprendem a
classificar padrões por meio de aprendizado supervisionado. Os perceptrons introduzem
formalmente uma lei de treinamento. Modelam o neurônio fazendo a soma ponderada de suas
entradas e enviando o resultado 1 se a soma for maior do que algum resultado inicial ajustável
(caso contrário, ele envia 0).
214
9.2.4.2 PERCEPTRONS MULTICAMADAS
O perceptron tem saída binária de cada neurônio. Entretanto, é comum chamar de
perceptron multicamada uma rede em que se distinguem neurônios de entrada, neurônios de
saída e neurônios internos, arrumados formando camadas; se bem que os neurônios não sejam
binários e tenham uma não linearidade do tipo função logística, tangente hiperbólica, ou outra
função qualquer. Muitas vezes, essa função é derivável e se emprega o algoritmo de retro
propagação (“backpropagation”), o que conduz a ambigüidades na denominação dessas redes
como sendo redes de retro propagação ou apenas, em inglês, redes backpropagation , segundo
BARRETO (1999). Estritamente falando o perceptron multicamada é uma rede direta
multicamada com neurônios binários.
Deve ser notado que, na rede direta multicamada, cada neurônio de uma camada se liga
somente a neurônios da camada vizinha.
A limitação do Perceptron foi superada pela implementação de redes multicamadas com
algoritmo de aprendizado de retropropagação.
9.2.4.3 ADALINE E MADALINE
Proposta por Widrow e Hoff em 1959, segundo WIDROW e WINTER (1988), é uma
rede linear onde as conexões são ajustadas, isto é, adaptativas. O neurônio tem uma saída
proporcional à soma ponderada das excitações sendo, portanto, utilizado o modelo linear que
foi chamado de Adaline (do inglês “ADAptiveLInear Element”). Mais tarde criaram uma
generalização multidimensional denominada MADALINE (Multiple ADALINE).
9.2.4.4 ADAPTIVE RESSONANCE THEORY (ART)
Os primeiros modelos foram propostos por Gail Carpenter & Stephen Grossberg em
1976. Eram destinados a reconhecimento de tarefas não familiares aos seres humanos, tais
como, reconhecimento de sinais de radares, impressão de voz, etc. Uma das limitações desses
modelos é sua sensibilidade a variações dos sinais de entrada, tais como, distorções e
mudanças de escala, conforme GROSSBERG (1988). O sistema consiste de duas camadas, F1
215
e F2, as quais são implementadas por mecanismos LTM (long-term memory) de classificação
e STM (short-term memory) de contraste.
9.2.4.5 REDES BAM
A memória bidirecional associativa (BAM) é uma rede heteroassociativa e conteúdo
endereçável, consistindo de duas camadas. Ela usa o fluxo de informação forward e backward
para produzir uma pesquisa associativa em resposta a um estímulo. Suas mais populares
aplicações são em processamento de imagem, controle e alocação de recursos na área
financeira.
9.2.4.6 REDES DE CONTRA-PROPAGAÇÃO
A rede de Contra-propagação (Counterpropagation) foi proposta por Robert Nielsen em
1987. É muito utilizada em classificação de padrões, aproximação de funções, análise
estatística e aplicações que requerem compressão de dados.
A primeira camada funciona com o aprendizado competitivo e a segunda com
aprendizado supervisionado. Segundo BARRETO (1999), o mais interessante é que esse
paradigma permite obter valores das conexões sinápticas de modo algorítmico, sem iterações.
Um vetor de entrada é aplicado na camada de entrada, pré-processado e propagado para a
camada intermediária. Na camada intermediária, cada neurônio calcula o seu net (produto
escalar de um vetor de entrada pelo vetor de pesos) e compete com outros neurônios da
mesma camada para ver quem tem o maior valor de net. Apenas a unidade vencedora é que
manda o seu sinal para os neurônios da camada de saída.
9.2.4.7 REDE DE HOPFIELD
A rede de Hopfield é uma rede binária, recursiva, ou seja, todas as saídas de cada unidade
realimentam as entradas de outras na mesma camada.
216
Essa rede possui uma única camada de processamento, e cada unidade de processamento
tem um valor de atividade ou “estado” que é binário - com um ou dois valores possíveis;
usualmente, a entrada é um vetor de “ 0 “ e “ 1”.
9.2.4.8 REDE DE KOHONEN
O pioneiro no desenvolvimento da teoria das Redes Competitivas foi Teuvo Kohonen, e
por essa razão, os neurônios de uma rede competitiva são muitas vezes chamados de
neurônios de Kohonen. Do mesmo modo, as redes auto-organizáveis são também conhecidas
como Redes de Kohonen ou Mapas topológicos de características auto-organizativas, nos
quais a característica do objeto a ser mapeado é preservado.
A rede de Kohonen é uma estrutura de duas camadas de neurônios. A primeira camada é
a de Entrada, e seus neurônios estão completamente interconectados aos neurônios da segunda
camada - denominada competitiva - que é organizada numa grade bidimensional ou em um
arranjo dependente do objeto a ser mapeado, segundo KOHONEN (1987).
9.2.5 APLICAÇÕES PARA REDES NEURAIS
As redes neurais artificiais podem ser aplicadas para resolver uma variedade de
problemas; um bom exemplo de aplicação são softwares de reconhecimento de voz, que
precisam aprender a conhecer a voz de determinadas pessoas. Redes neurais também são
usados em robôs que desarmam bombas. O uso de um scanner para retirar um texto de um
jornal, por exemplo, aplica o software de OCR, que precisa aprender a reconhecer caracteres
da imagem. Logo, ele certamente possui algoritmos de rede neural. Existem até alguns
softwares que aprendem a identificar SPAMs em e-mails e apagá-los (e conseguem uma boa
margem aceitável de acertos). Mas, no geral, as redes neurais são usadas principalmente em
aplicações mais complexas, como em usinas, mercado financeiro, etc.
Em aplicações reais, as RNAs se sobressaem nas seguintes tarefas:
aproximação de funções;
previsão de séries temporais;
217
classificações;
reconhecimento de padrões.
9.3 LÓGICA FUZZY
Usamos, no cotidiano, conceitos subjetivos para classificar ou considerar certas situações,
tais como:
siga em frente “alguns” metros;
o dia está “parcialmente” nublado;
preciso perder “alguns” quilos para ficar “bem”;
estamos com uma moeda “estável”.
Ou ainda:
a classificação de certos objetos como “largo”, “sujo”, etc;
a classificação de pessoas pela idade tal como “velho”, “jovem”, etc;
a descrição de características humanas como “saudável”, “alto”, etc.
Nos exemplos acima, os termos entre aspas são “fuzzy” no sentido de envolverem
imprecisões e serem conceitos vagos.
O conceito “fuzzy” pode ser entendido como uma situação onde não podemos responder
simplesmente “sim” ou “não”. Mesmo conhecendo as informações necessárias sobre a
situação, dizer algo entre “sim” e “não” como, por exemplo: “talvez”, “quase”, se torna mais
apropriado.
Considere, por exemplo, informações como “homens altos”, “dias quentes” ou “vento
forte”. Nada existe que determine exatamente qual a “altura”, “temperatura” ou “velocidade”
que podemos considerar como limites para tais informações. Se considerarmos como alto
todos os homens com mais de 1,90m, então um homem com 1,88m não seria “alto” e sim
“quase alto”.
218
9.3.1 HISTÓRICO
As primeiras noções da lógica dos conceitos “vagos” foi desenvolvida por um lógico
polonês Jan Lukasiewicz (1878-1956), em 1920, que introduziu conjuntos com graus de
pertinência sendo 0 , ½ e 1 e, mais tarde, expandiu para um número infinito de valores entre 0
e 1.
A primeira publicação sobre lógica “fuzzy” data de 1965, quando recebeu esse nome. Seu
autor foi Lotfi Asker Zadeh, professor em Berkeley, Universidade da Califórnia. Zadeh criou
a lógica “fuzzy” combinando os conceitos da lógica clássica e os conjuntos de Lukasiewicz e
definindo graus de pertinência.
Entre 1970 e 1980, as aplicações industriais da lógica “fuzzy” aconteceram com maior
importância na Europa e, após 1980, o Japão iniciou seu uso com aplicações na indústria.
Algumas das primeiras aplicações foram em um tratamento de água feito pela Fuji Electric
em 1983 e pela Hitachi em um sistema de metrô inaugurado em 1987. Por volta de 1990, é
que a lógica “fuzzy” despertou um maior interesse em empresas dos Estados Unidos.
Devido ao desenvolvimento, às inúmeras possibilidades práticas dos sistemas “fuzzy” e
ao grande sucesso comercial de suas aplicações, a lógica “fuzzy” é considerada hoje uma
técnica “standard” e tem uma ampla aceitação na área de controle de processos industriais.
9.3.2 CONJUNTOS “FUZZY”
Na teoria clássica, os conjuntos são denominados “crisp”, e um dado elemento do
universo em discurso (domínio) pertence ou não pertence ao referido conjunto.
Na teoria dos conjuntos “fuzzy”, existe um grau de pertinência de cada elemento a um
determinado conjunto. Por exemplo, considerados os conjuntos abaixo:
pessoas com alta renda.
pessoas altas.
219
Pode-se verificar que não existe uma fronteira bem definida para decidirmos quando um
elemento pertence ou não aos respectivos conjuntos dados acima.
Com os conjuntos “fuzzy”, podemos definir critérios e graus de pertinência para tais
situações.
A função característica (crisp sets) pode ser generalizada de modo que os valores
designados aos elementos do conjunto universo U pertençam ao intervalo de números reais de
0 a 1, inclusive este, isto é, [0,1].
1,0:A
Esses valores indicam o GRAU DE PERTINÊNCIA dos elementos do conjunto U em
relação ao conjunto A, ou seja, quanto é possível para um elemento x de U pertencer ao
conjunto A.
Tal função é chamada de FUNÇÃO DE PERTINÊNCIA, e o conjunto A é definido como
“CONJUNTO FUZZY”.
9.3.3 CONCEITOS IMPORTANTES
Dado o exemplo abaixo:
seja o conjunto universo U = {5,10,20,30,40,50,60,70,80}, e consideremos os seguintes
conjuntos “fuzzy” : A={crianças}, B={jovens}, C={adultos} e D={velhos}, para os quais
atribuímos os graus de pertinência dos elementos do conjunto U na seguinte tabela:
220
TAB. 9.1 Comparativo entre idade e grau de pertinência
IDADE Criança Jovem Adulto Velho 5 0 1 0 0
10 0 1 0 0 20 0 0,8 0,8 0,1 30 0 0,5 1 0,2 40 0 0,2 1 0,4 50 0 0,1 1 0,6 60 0 0 1 0,8 70 0 0 1 1
80 0 0 1 1
O SUPORTE de um conjunto fuzzy A no conjunto universo U é o conjunto clássico
que contém todos os elementos de U, os quais têm grau de pertinência maior do que zero (>0)
e indica-se: 0)(sup xUxA A
Exemplos:
o suporte do conjunto “fuzzy” “jovem” da tabela anterior é o conjunto clássico
sup (jovem) = { 5,10,20,30,40,50};
o conjunto vazio “fuzzy” tem um conjunto suporte vazio, isto é, o grau de
pertinência é 0.
Na TAB. 9.1 o suporte do conjunto “fuzzy” “crianças” é o conjunto vazio Ø.
A CARDINALIDADE de um conjunto “fuzzy” A sobre um conjunto universo finito
U é a soma dos graus de pertinência de todos os elementos de U em A e indica-se:
Ux A xA )(
Exemplo:
a cardinalidade do conjunto “fuzzy”“velho”da tabela anterior é:
|velho| = 0 + 0 + 0,1 + 0,2 + 0,4 + 0,6 + 0,8 + 1 + 1 = 4,1.
9.3.4 OPERAÇÕES ENTRE CONJUNTOS “FUZZY”
O conjunto “fuzzy” A é um SUBCONJUNTO de um conjunto “fuzzy” B se o grau
de pertinência de cada elemento do conjunto universo U, no conjunto A, é menor ou igual que
221
seu grau de pertinência no conjunto B; ou seja, para todo Ux , )()( xx BA , e indica-se
BA .
Exemplo: na TAB. 9.1, o conjunto “fuzzy” “velho” é um subconjunto do conjunto
“fuzzy” “adulto”, pois, para todo Ux , tem-se: )()( xx AdultoVelho .
Os conjuntos “fuzzy” A e B SÃO IGUAIS se )()( xx BA , para todo elemento
Ux , e indica-se A = B.
Os conjuntos “fuzzy” A e B NÃO SÃO IGUAIS se )()( xx BA , para no
mínimo um Ux , e indica-se BA .
O conjunto “fuzzy” A é um SUBCONJUNTO PRÓPRIO do conjunto “fuzzy” B
quando A é um subconjunto de B e BA ,isto é, )()( xx BA , para todo Ux , e
)()( xx BA , para no mínimo um Ux , e indica-se BA
se e somente se BA
e
BA .
Exemplo: na tabela anterior, o conjunto “fuzzy” “velho” é um subconjunto próprio do
conjunto “fuzzy” “adulto”, pois, para todo Ux , tem-se: )()( xx AdultoVelho
e
)()( xx AdultoVelho , para no mínimo um Ux .
O COMPLEMENTO de um conjunto “fuzzy” A em relação ao conjunto universo
U é indicado por A’, e a função de pertinência é definida como: )(1)( xx AA , para todo
Ux .
Exemplo: se um elemento Ux
tem grau de pertinência 0,8 no conjunto “fuzzy” A, seu
grau de pertinência em A’ será 0.2.
A UNIÃO de dois conjuntos “fuzzy” A e B é um conjunto “fuzzy” BA
tal que,
para todo Ux , seja )(),(max)( xxx BABA .
A INTERSECÇÃO de dois conjuntos “fuzzy” A e B é um conjunto “fuzzy” BA
tal que, para todo Ux , seja )(),(min)( xxx BABA .
222
9.4 OUTROS ALGORITMOS
9.4.1 APRIORI
O algoritmo Apriori é um dos mais conhecidos para encontrar grandes conjuntos de itens
em bancos de dados de transações. Ele utiliza os conjuntos de itens de tamanho k para gerar
os conjuntos de itens de tamanho (k + 1). O primeiro passo do algoritmo é encontrar os
conjuntos de itens com 1 item, que é denominado L1. O conjunto L1 é usado para gerar L2,
que representa os conjuntos de itens com 2 itens e, assim por diante, até que nenhum conjunto
de itens possa ser gerado.
Para reduzir o número de conjuntos de itens gerados, o algoritmo utiliza uma propriedade
dos grandes conjuntos de itens, que é baseada na seguinte observação. Por definição, se um
conjunto de itens I não satisfaz a condição de suporte mínimo, então I não é grande, isto é,
P(I) < minsupport. Se um item A é adicionado ao conjunto de itens I, então o conjunto de
itens resultante (I U A) não pode ocorrer mais freqüentemente que I. Portanto, I U A também
não é grande, ou seja, P(I U A) < minsupport.
O primeiro passo do algoritmo é realizar a contagem dos conjuntos de itens para
encontrar os grandes conjuntos de itens de tamanho unitário. Os passos seguintes consistem
em duas fases. Primeiro, os conjuntos de itens freqüentes Lk-1, encontrados no passo anterior
(k – 1) são utilizados para gerar os conjuntos de itens potencialmente grandes, os conjuntos de
itens candidatos (Ck). Na seqüência, é realizada uma nova busca no banco de dados,
contando-se o suporte de cada candidato em Ck.
A geração dos conjuntos de itens candidatos utiliza como argumento o conjunto Lk-1. Isso
retorna um superconjunto de itens com todos os conjuntos de itens de tamanho k acrescidos
de um item. Se um conjunto de itens X contém o conjunto de itens Y, diz-se que X é um
superconjunto de Y. O próximo passo é excluir todos os conjuntos de itens c U Ck, tal que os
conjuntos de itens de tamanho (k – 1) de c não estejam em Lk-1.
223
9.4.2 C 4.5
É uma evolução do algoritmo ID3 e um dos mais recentes algoritmos de árvore de
decisão disponíveis. Foi desenvolvido pelo pesquisador Australiano J. Ross Quinlan em 1993
e é encontrado em vários produtos comerciais. O algoritmo transforma a árvore de decisão em
um conjunto de regras ordenadas pela sua importância, permitindo ao usuário identificar, de
imediato, os fatores que mais direcionam seus negócios, segundo BERRY e LINOFF (1997).
O algoritmo produz uma árvore com um número variado de folhas por nó e assume os
valores das categorias como divisores, comportando-se diferentemente de algoritmos que
produzem uma árvore binária, como o CART. O prunning é executado examinando a taxa de
erro de cada folha, que somadas formam a taxa de erro da árvore.
Uma vez criado um conjunto de regras, o algoritmo agrupa as regras geradas para cada
classe e elimina as que não contribuem para a precisão do conhecimento a ser extraído. O
resultado final é um pequeno conjunto de regras de fácil entendimento, obtido pela
combinação das regras que levam à mesma classificação, conforme BERRY e LINOFF
(1997).
9.5 DOCUMENTOS DAS ATIVIDADES DA METODOLOGIA MPDF-DM
A metodologia é composta de nove formulários representados a seguir.
224
9.5.1 ANÁLISE DO SISTEMA
FIG. 9.4 Formulário – Análise do Sistema
225
9.5.2 PRÉ-PROCESSAMENTO - TÉCNICA
FIG. 9.5 Formulário – Pré-processamento - Técnica
226
9.5.3 PRÉ-PROCESSAMENTO - SELEÇÃO
FIG. 9.6 Formulário – Pré-processamento – Seleção
227
9.5.4 PRÉ-PROCESSAMENTO - LIMPEZA
FIG. 9.7 Formulário – Pré-processamento – Limpeza
228
9.5.5 PRÉ-PROCESSAMENTO - CODIFICAÇÃO
FIG. 9.8 Formulário – Pré-processamento – Codificação
229
9.5.6 PRÉ-PROCESSAMENTO - NORMALIZAÇÃO
FIG. 9.9 Formulário – Pré-processamento – Normalização
230
9.5.7 PRÉ-PROCESSAMENTO - ENRIQUECIMENTO
FIG. 9.10 Formulário – Pré-processamento – Enriquecimento
231
9.5.8 MINERAÇÃO DE DADOS
FIG. 9.11 Formulário – Mineração de Dados
232
9.5.9 PÓS-PROCESSAMENTO
FIG. 9.12 Formulário – Pós-processamento
233
9.5.10 OBSERVAÇÃO
FIG. 9.13 Formulário – Observação
234
9.6 PRODUTOS DE DATA MINING
Os parágrafos abaixo fornecem uma visão geral de algumas ferramentas de mineração de
dados disponíveis no mercado. Os sites são fornecidos para encontrar informações mais
detalhadas a respeito de cada produto.
AC2
Fabricante: ISoft.
URL: www.alice-soft.com/html/prodac2.htm
Tarefas: Clusterização, classificação, predição e segmentação.
Técnicas: Árvore de decisão.
Plataformas: Unix e Windows.
Comentários: é uma ferramenta de mineração de dados projetada para o
descobrimento de conhecimento pelos usuários, tem uma linguagem gráfica orientada a
objetos e bibliotecas para as linguagens C/C++.
Al Trilogy
Fabricante: Ward Systems Group.
URL: http://www.wardsystems.com/products.asp?p=aitrilogy
Tarefas: Classificação, previsão e predição.
Técnicas: Algoritmos genéticos e redes neurais.
Plataformas: Windows.
Comentários: o pacote computacional é composto de três produtos: Predictor,
Classificador e GeneHunter. Os tipos arquivos suportados são: ASCII, CSV e XLS.
Acompanha um plug-in que pode ser utilizado junto com o Excel.
Answer Tree
Fabricante: SPPS.
URL: http://www.spss.com/answertree
Tarefas: Classificação.
Técnicas: Árvore de decisão (CHAID, C&RT (uma variação do CART), QUEST).
Plataformas: Cliente (Windows), servidor (Solaris e Windows).
235
Comentários: é um produto da SPSS usado para criar árvore de decisão. Como uma
ferramenta de mineração de dados ele separa os grupos de clientes pelo perfil, sendo uma
ferramenta útil para as áreas de marketing e vendas. Quatro algoritmos básicos de árvore da
decisão são usados, incluindo dois algoritmos de CHAID, ambos otimizados pela SPSS para
assegurar as variáveis dependentes categóricas.
Braincel
Fabricante: Jurik Research and Consulting.
URL: http://www.jurikres.com/catalog/ms_bcel.htm#top
Tarefas: Previsão.
Técnicas: Redes neurais (back propagation).
Comentários: este produto é um componente extra para a planilha Excel que realiza
previsões. Uma versão desenvolvida pelo fabricante do algoritmo back propagation é usada,
que o mesmo chama de back-percolation.
BrainMaker
Fabricante: California Scientific Software.
URL: http://www.calsci.com
Tarefas: Previsão.
Técnicas: Redes Neurais.
Plataformas: Windows e Macintosh.
Comentários: é um software que pode ser usado com diferentes fontes de dados,
incluindo Lótus, Excel, dBase, ASCII ou formato binário. É uma dos mais populares
softwares de redes neurais. Um pacote opcional, o Genetic Training Option (GTO), que usa
algoritmos genéticos para criar as possíveis redes neurais. Com diversas iterações, este pacote
opcional, escolhe a melhor rede possível.
Bramining
Fabricante: Graal.
URL: http://www.graal-corp.com.br
Tarefas: Classificação, regras de associação, regressão, sumarização.
Técnicas: Redes neurais (back propagation), C4.5, C-Means.
236
Comentários: produto desenvolvido por pesquisadores da PUC-Rio e do IME. Com
interface simples facilita a utilização por usuários inexperientes na condução de projetos de
KDD.
CART
Fabricante: Salford Systems.
URL: http://www.salford-systems.com
Tarefas: Classificação.
Técnicas: Árvore de decisão (CART).
Plataformas: CMS, MVS, Unix (Linux) e Windows.
Comentários: CART é uma ferramenta de análise de arvores de decisão baseada no
algoritmo de nome homonimo. Possui uma interface com mais de 80 tipos formatos de
arquivos, incluindo Excel, Informix, Lotus, Oracle.
Clementine
Fabricante: SPSS.
URL: www.spss.com/clementine
Tarefas: Regras de associação, classificação, clusterização, análise de fatores, séries
temporais, predição, descobrimento de seqüência e detecção de desvios.
Técnicas: Apriori, BIRCH, CARMA, árvore de decisão (C5.0, C&RT uma variação
do CART), K-means clusterização, redes neurais (Kohonen, MLP, RBFN), regressão (linear,
logística) e regras de indução (C5.0, GRI)
Plataforma: HP/UX, IBM AIX, Sun Solaris, Windows.
Comentários: O Clementine possui uma estrutura de organização de dados própria
mas permite a importação de dados em diversos formatos, tais como: FoxPro, Access, DBase,
ASCII, XLS, Oracle e SQL Server. É um dos principais softwares de mineração de dados
disponível comercialmente.
Darwin
Fabricante: Thinking Machines.
URL: http://en.wikipedia.org/wiki/Thinking_Machines
Tarefas: Classificação.
237
Técnicas: Árvore de decisão, redes neurais, K-Nearst Neighbors.
Plataforma: Windows, Sun Solaris e HP-UX.
Comentários: Fornece uma interface simples, baseadas no modelo Windows, e
oferece também uma implementação de vários algoritmos de mineração de dados, que podem
ser executados paralelamente. Possui a flexibilidade para utilizar diversos algoritmos e
escolher o mais adequado para um dado problema.
DataEngine
Fabricante: Management Intelligenter Technologien.
URL: www.dataengine.de
Tarefas: Classificação, clusterização, árvore de decisão, previsão de séries
temporais.
Técnicas: Árvore de decisão, lógica fuzzy, K-means, redes neurais (MLP, Kohonen),
regressão (linear).
Plataforma: Windows.
Comentários: DataEngine suporta diferentes tipos de tarefas de mineração de dados
e métodos estatísticos. Por meio desta ferramenta é possível gera o código fonte de programas
em C ou DLLs para serem usados em outros sistemas.
DBMiner
Fabricante: DBMiner Technologies Inc.
URL: www.dbminer.com
Tarefas: Regras de associação, Classificação, clusterização.
Técnicas: Árvore de decisão, K-means.
Plataforma: Windows.
Comentários: DBMiner acessa diferentes tipos de fontes de dados, incluindo
Microsoft SQL Server, Excel, OLEDB, e outros bancos de dados relacionais por meio de
drivers ODBC.
DB2 Intelligent Miner
Fabricante: IBM.
URL: http://www-306.ibm.com/software/data/iminer/
238
Tarefas: Regras de associação, clusterização, classificação, sumarização, padrões
seqüenciais, séries temporais.
Técnicas: Árvore de decisão (modificação do CART), K-means, redes neurais
(MLP, back-propagation, RBF), regressão (linear).
Plataforma: Windows, Solaris, AIX, OS/390, OS/400.
Comentários: É escalável e ofere suporte para várias plataformas, independente de
banco de dados e sistema operacional. Está apto a fornecer uma estrutura que suporta o
processo iterativo de descoberta de conhecimento.
Decider
Fabricante: Neural Technologies.
URL: www.neuralt.com
Tarefas: Classificação, predição, regras.
Técnicas: Redes neurais.
Comentários: É uma ferramenta que incorpora funcionalidades de mineração de
dados para identificar risco na concessão de crédito e fraudes.
Enterprise Miner
Fabricante: SAS Institute.
URL: www.sas.com/products/miner
Tarefas: Regras de associação, classificação, clusterização, predição, regressão e
séries temporais.
Técnicas: Árvore de decisão (CART, CHAID), regressão (linear, logística), redes
neurais (Kohonen, MLP, RBF, SOM).
Plataforma: Cliente (Windows), Servidor (Unix, Windows).
Comentários: Comentado no item Erro! Fonte de referência não encontrada..
KnowledgeSTUDIO
Fabricante: ANGOSS.
URL: http://www.angoss.com/products/studio.php
Tarefas: Classificação, clusterização, predição, regras.
239
Técnicas: Árvore de decisão (CHAID), K-means, redes neurais (MLP, RBF),
regressão (linear, logística).
Plataforma: Windows, Servidor (Solaris, Windows).
Comentários: KnowledgeSTUDIO executa as principais tarefas de mineração de
dados. Está pronta para importer dados dos principais pacotes de estatística e também importa
dados por meio de ODBC. Ele pode gerar código para as linguagens Visual Basic,
PowerBuilder, Delphi, C++, e Java.
KnowledgeSEEKER
Fabricante: ANGOSS.
URL: http://www.angoss.com/products/seeker.php
Tarefas: Classificação.
Técnicas: Árvore de decisão (CHAID, XAID).
Plataforma: Windows, Unix (AIX, HP-UX, IRIX, Digital Alpha, Sinux, Solaris,
SCO, LINUX).
Comentários: KnowledgeSEEKER tem uma interface baseada em GUI e grande
capacidade de visualização de árvores.
MarketMiner
Fabricante: MarketMiner.
URL: www.marketminer.com
Tarefas: Classificação, reconhecimento de padrões, predição, segmentação.
Técnicas: Árvore de decisão (C4.5), KNN, regressão (linear, logística), técnicas
estatísticas.
Plataforma: Windows.
Comentários: MarketMiner é composta de um conjunto de ferramentas de mineração
de dados voltadas para a análise de marketing e que são automatizadas, o que facilita a vida
dos usuários.
Oracle Data Mining
Fabricante: Oracle.
URL: www.oracle.com
240
Tarefas: Classificação, regressão, associação, clusterização e mineração de texto.
Técnicas: Classificação bayesiana ingênua, mineração de texto e K-Means.
Plataforma: Windows, Unix e Linux.
Comentários: Integrado com o banco de dados da Oracle, o que facilita a
manipulação de dados por meio de comandos SQL..
PolyAnalyst
Fabricante: Megaputer Intelligence.
URL: www.megaputer.com/products/pa/index.php3
Tarefas: Regras de associação, classificação, clusterização, regressão, sumarização e
detecção de desvios.
Técnicas: Árvore de decisão, redes neurais.
Plataforma: Windows e Unix.
Comentários: PolyAnalyst pode acessar dados armazenados em banco de dados
relacionais usando a interface ODBC. Também pode acessar arquivos textos, Excel e arquivos
do tipo DBF. A interface de fácil utilização favorece o emprego do software..
See5
Fabricante: RuleQuest.
URL: www.rulequest.com/see5-info.html
Tarefas: Classificação.
Técnicas: Árvore de decisão, regras.
Plataforma: Windows, Unix (Linux, Solaris, Irix).
Comentários: O algoritmo de classificação C5.0 é implementado neste software. Que
gera código fonte em C para que possam ser inseridos nas aplicações.
Statistica Data Miner
Fabricante: StatSoft.
URL: http://www.statsoft.com/products/dataminer.htm
Tarefas: Classificação, clusterização, predição.
Técnicas: ARIMA, árvore de decisão (CART, CHAID), amortecimento exponencial,
redes neurais (Back-propagation, MLP, RBF, SOM), regressão.
241
Plataforma: Windows
Comentários: STATISTICA Data Miner oferece métodos avançados e fáceis para os
usuários, com geração de gráficos de alta qualidade. Há possibilidade de customização das
ferramentas disponibilizadas e ela também manipulação arquivos grandes eficientemente.
Weka
Fabricante: Universidade de Waikato.
URL: http://www.cs.waikato.ac.nz/ml/weka/
Tarefas: Classificação, regressão, regras de associação e previsão de séries
temporais.
Técnicas: Árvores de decisão, redes neurais, regras, regressão linear, regressão
logística.
Plataforma: Windows e Linux.
Comentários: É uma ferramenta de código aberto, flexível, desenvolvida na
linguagem Java. Há a possibilidade de inclusão ou remoção de novos métodos, o que torna a
ferramenta customizável e expansível.
WizRule
Fabricante: WizSoft.
URL: http://www.wizsoft.com
Tarefas: Classificação, sumarização e detecção de desvios.
Técnicas: Informação não disponível.
Plataforma: Windows.
Comentários: Desenvolvido para examinar e descrever conjuntos de dados,
detectando possíveis erros dentre os dados analisados.
This document was created with Win2PDF available at http://www.win2pdf.com.The unregistered version of Win2PDF is for evaluation or non-commercial use only.This page will not be added after purchasing Win2PDF.
Recommended