METODOLOGIA PARA PREVISÃO DE DEMANDA FERROVIÁRIA...

View
3
Download
0
Category

Documents

Preview:

Citation preview

INSTITUTO MILITAR DE ENGENHARIA

GIOVANNI MELO CARVALHO VIGLIONI

METODOLOGIA PARA PREVISÃO DE DEMANDA FERROVIÁRIA

UTILIZANDO DATA MINING

Dissertação de Mestrado apresentada ao Curso de Mestrado em Engenharia de Transportes do Instituto Militar de Engenharia, como requisito parcial para a obtenção do título de Mestre em Ciências em Engenharia de Transportes.

Orientadores: Prof. Marcus Vinicius Quintella Cury. D. Sc. Prof. Paulo Afonso Lopes da Silva. Ph. D.

Rio de Janeiro

2007

c2007

INSTITUTO MILITAR DE ENGENHARIA Praça General Tibúrcio, 80 – Praia Vermelha Rio de Janeiro – RJ CEP: 22.290-270

Este exemplar é de propriedade do Instituto Militar de Engenharia, que poderá incluí-lo em base de dados, armazenar em computador, microfilmar ou adotar qualquer forma de arquivamento.

É permitida a menção, reprodução parcial ou integral e a transmissão entre bibliotecas deste trabalho, sem modificação de seu texto, em qualquer meio que esteja ou venha a ser fixado, para pesquisa acadêmica, comentários e citações, desde que sem finalidade comercial e que seja feita a referência bibliográfica completa.

Os conceitos expresso neste trabalho são de responsabilidade do autor e dos orientadores.

V672 Viglioni, Giovanni Melo Carvalho

Metodologia para previsão de demanda ferroviária utilizando data mining / Giovanni Melo Carvalho Viglioni – Rio de Janeiro: Instituto Militar de Engenharia, 2007.

241 p. : il., graf., tab.

Dissertação (mestrado) – Instituto Militar de Engenharia – 2007

1. Transporte Ferroviário. 2. Data mining. 3. Metodologia. I Título. II. Instituto Militar de Engenharia.

CDD 625.1

INSTITUTO MILITAR DE ENGENHARIA

GIOVANNI MELO CARVALHO VIGLIONI

METODOLOGIA PARA PREVISÃO DE DEMANDA FERROVIÁRIA UTILIZANDO DATA MINING

Orientadores: Prof. Marcus Vinícius Quintella Cury – D. Sc. Prof. Paulo Afonso Lopes da Silva – Ph. D.

Aprovada em 7 de fevereiro de 2007 pela seguinte Banca Examinadora:

___________________________________________________________________________ Prof. Marcus Vinícius Quintella Cury – D. Sc. do IME - Presidente

___________________________________________________________________________ Prof. Paulo Afonso Lopes da Silva – Ph. D. do IME

___________________________________________________________________________ Profª. Marley Maria Bernardes Rebuzzi Vellasco – Ph. D. da PUC-Rio

Rio de Janeiro 2007

Às pessoas mais importantes da minha vida, que me deram oportunidade de crescer física e intelectualmente, que nortearam meu caminho, que me deram amor e carinho, que são os meus exemplos maiores; em suma, aqueles que são responsáveis pelo que sou: meus pais, meus irmãos, meus avós e minha esposa, os amores da minha vida.

AGRADECIMENTOS

A Deus, perfeito, por ter me proporcionado a chance de crescer como profissional e como ser

humano, iluminando sempre meus caminhos durante toda a minha vida.

A meus pais Dalton e Maria Marli por tudo, desde o primeiro minuto da minha existência; por

terem me tornado a pessoa que sou hoje, pelos meus estudos, pela minha educação, pela

paciência, pela tolerância perante a minha personalidade, enfim, por todo o amor. Esta vitória

é para os dois.

A meus irmãos Anderson e Dalton Júnior, pelo companheirismo em todos os momentos da

minha vida e pela incansável torcida.

A minha esposa Flavine (meu eterno amor, minha amiga e companheira), pela paciência e

também pela falta dela, durante os dois anos de curso, quando ficamos longe um do outro.

A meus avós José Viglioni, Amélia, Antônio e Maria Villela, todos in memorian, sempre no

meu pensamento. Obrigado por fazerem parte da minha história.

Ao William, Tatiana e Léo, os primeiros e grandes incentivadores deste mestrado, pelo apoio

e abrigo neste período.

A meu sogro Silas, sogra Mareny, avô Mario, e avó Eny, que muito torceram e rezaram por

mim nestes dois anos.

As minhas sobrinhas Fernanda, Fabiana, Paula e Julia, pelo apoio.

A meus cunhados Alexandre e Moises e cunhadas Márcia, Paula e Deise, pelo apoio e

confiança.

A minha cunhada Denise, por ser paciente e dedicada nas correções da dissertação.

Aos familiares, pela força e carinho depositados.

Aos meus orientadores, professores Quintella e Lopes, pelos conhecimentos transmitidos e

paciência no esclarecimento de todas as dúvidas, pela dedicação e confiança depositados e por

todo o trabalho de orientação envolvendo ética, dedicação, qualidade e amizade.

À professora Marley, pelos ensinamentos e por ter aceitado participar da banca examinadora.

Aos companheiros do IME, que compartilharam os momentos de luta. Em especial, aos

amigos Olivio e Guerson, pela amizade e ajudas prestadas nos momentos necessários.

Ao Marcelo Neder, pela inestimável colaboração e apoio no que foi preciso para a realização

desta pesquisa.

Ao Alysson Barros Paolinelli, José Geraldo Ferreira e demais colaboradores da MRS, pela

cooperação e incentivo.

À SAS Brasil, pela disponibilização de seus softwares, em especial à Andrea Szyfer, pela sua

atenção e dedicação.

Ao Exército Brasileiro, pela oportunidade de realizar este curso.

Por fim, a todos os professores, alunos e funcionários do Departamento de Engenharia de

Transportes do IME, que de algum modo contribuíram para a realização deste trabalho.

A PEDRA

O distraído nela tropeçou... O bruto a usou como projétil. O empreendedor, usando-a, construiu. O camponês, cansado da lida, dela fez assento. Para meninos, foi brinquedo. Drummond a poetizou. Já, Davi matou Golias, e Michelangelo extraiu-lhe a mais bela escultura...

E em todos esses casos, a diferença não esteve na pedra, mas no homem! Não existe “pedra” no seu caminho que você não possa aproveitá-la para o seu próprio crescimento.

SUMÁRIO

LISTA DE ILUSTRAÇÕES.....................................................................................................12

LISTA DE TABELAS..............................................................................................................15

LISTA DE SIGLAS..................................................................................................................17

1 INTRODUÇÃO .......................................................................................................21

1.1 Conhecimento do Problema.......................................................................................21

1.2 Objetivo .....................................................................................................................24

1.3 Justificativa................................................................................................................25

1.4 Composição da Dissertação.......................................................................................25

2 PANORAMA SOBRE A DEMADA FERROVIÁRIA ........................................27

2.1 Demanda por Bens e Serviços ...................................................................................27

2.2 Demanda Ferroviária .................................................................................................30

2.2.1 Ferrovia Tereza Cristina (FTC) .................................................................................36

2.2.2 Estrada de Ferro Carajás (EFC).................................................................................37

2.2.3 Estrada de Ferro Vitória-Minas (EFVM) ..................................................................39

2.2.4 Ferronorte ..................................................................................................................41

2.2.5 Ferrovia Norte-Sul.....................................................................................................43

2.2.6 Ferrovia Transnordestina...........................................................................................45

2.2.7 Estrada de Ferro Jari (EFJ) ........................................................................................47

2.2.8 Estrada de Ferro do Amapá (EFA) ............................................................................48

2.2.9 Estrada de Ferro Trombetas (EFT)............................................................................51

2.2.10 Ferrovia do Aço .........................................................................................................54

2.3 Reestruturação Ferroviária no Brasil .........................................................................58

3 PREVISÃO DE DEMANDA ..................................................................................66

3.1 Técnicas de Previsão .................................................................................................66

3.1.1 Técnicas Qualitativas de Previsão .............................................................................66

3.1.2 Técnicas Quantitativas de Previsão ...........................................................................68

3.1.3 Técnicas Causais........................................................................................................77

3.1.4 Modelos de Regressão ...............................................................................................77

3.1.5 Modelos Econométricos ............................................................................................83

3.1.6 Rede Neural Artificial (RNA) ...................................................................................84

3.1.7 Lógica Fuzzy .............................................................................................................84

3.1.8 Neuro-Fuzzy ..............................................................................................................85

3.2 Métodos de Previsão Aplicados ao Transporte Ferroviário ......................................85

3.2.1 Previsão com Data Mining ........................................................................................86

4 DATA MINING .......................................................................................................89

4.1 Histórico ....................................................................................................................93

4.2 Etapas do Processo de KDD......................................................................................94

4.2.1 Pré-Processamento.....................................................................................................95

4.2.2 Mineração de Dados ................................................................................................104

4.2.3 Pós-Processamento ..................................................................................................109

4.3 Tarefas de KDD.......................................................................................................112

4.3.1 Descoberta de Associações......................................................................................113

4.3.2 Descoberta de Seqüências .......................................................................................115

4.3.3 Classificação............................................................................................................118

4.3.4 Sumarização.............................................................................................................122

4.3.5 Clusterização ...........................................................................................................123

4.3.6 Previsão de Séries Temporais..................................................................................124

4.3.7 Detecção de Desvios................................................................................................125

5 METODOLOGIA PROPOSTA ...........................................................................127

5.1 CRISP-DM ..............................................................................................................129

5.1.1 Entendimento do Negócio .......................................................................................130

5.1.2 Entendimento dos Dados .........................................................................................131

5.1.3 Preparação de Dados ...............................................................................................131

5.1.4 Modelagem ..............................................................................................................132

5.1.5 Avaliação .................................................................................................................132

5.1.6 Utilização.................................................................................................................133

5.2 Metodologia de Fayyad ...........................................................................................133

5.2.1 Seleção.....................................................................................................................137

5.2.2 Pré-Processamento...................................................................................................137

5.2.3 Transformação .........................................................................................................137

5.2.4 Mineração de Dados (Data Mining) ........................................................................138

5.2.5 Interpretação e Avaliação ........................................................................................138

5.3 SEMMA...................................................................................................................138

5.4 Metodologia Proposta para Previsão de Demanda Ferroviária (MPDF-DM).........141

5.4.1 O Modelo Geral Proposto........................................................................................141

5.4.2 Análise do Sistema ..................................................................................................144

5.4.3 Pré-processamento...................................................................................................148

5.4.4 Mineração de Dados ................................................................................................158

5.4.5 Pós-processamento ..................................................................................................160

5.4.6 Observação ..............................................................................................................162

5.5 Considerações Finais ...............................................................................................163

6 ESTUDO DE CASO ..............................................................................................164

6.1 MRS Logística.........................................................................................................164

6.2 Softwares Utilizados................................................................................................165

6.2.1 SAS Enterprise Miner..............................................................................................165

6.2.2 SAS Enterprise Guide..............................................................................................166

6.2.3 Microsoft Excel .......................................................................................................167

6.2.4 Matlab......................................................................................................................168

6.2.5 Fuzzy Rules 2001 ....................................................................................................169

6.3 Aplicação da Metodologia.......................................................................................170

7 CONCLUSÕES E RECOMENDAÇÕES ...........................................................189

7.1 Conclusões...............................................................................................................189

7.2 Recomendações .......................................................................................................190

8 BIBLIOGRAFIA ...................................................................................................192

9 ANEXOS.................................................................................................................205

9.1 Data Warehouse (DW) ............................................................................................206

9.2 Redes Neurais ..........................................................................................................209

9.2.1 Histórico ..................................................................................................................210

9.2.2 Características Gerais ..............................................................................................210

9.2.3 Processos de Aprendizado .......................................................................................212

9.2.4 Tipos de Redes Neurais ...........................................................................................213

9.2.5 Aplicações para Redes Neurais ...............................................................................216

9.3 Lógica Fuzzy ...........................................................................................................217

9.3.1 Histórico ..................................................................................................................218

9.3.2 Conjuntos “FUZZY” ...............................................................................................218

9.3.3 Conceitos Importantes .............................................................................................219

9.3.4 Operações entre Conjuntos “FUZZY” ....................................................................220

9.4 Outros Algoritmos ...................................................................................................222

9.4.1 Apriori .....................................................................................................................222

9.4.2 C 4.5.........................................................................................................................223

9.5 Documentos das Atividades da Metodologia MPDF-DM ......................................223

9.5.1 Análise do Sistema ..................................................................................................224

9.5.2 Pré-processamento - Técnica...................................................................................225

9.5.3 Pré-processamento - Seleção ...................................................................................226

9.5.4 Pré-processamento - Limpeza .................................................................................227

9.5.5 Pré-processamento - Codificação ............................................................................228

9.5.6 Pré-processamento - Normalização .........................................................................229

9.5.7 Pré-processamento - Enriquecimento......................................................................230

9.5.8 Mineração de Dados ................................................................................................231

9.5.9 Pós-processamento ..................................................................................................232

9.5.10 Observação ..............................................................................................................233

9.6 Produtos de Data Mining.........................................................................................234

LISTA DE ILUSTRAÇÕES

FIG. 1.1 Matriz de Transportes no Brasil – 2005...................................................................22

FIG. 1.2 Planejamento Hierárquico em Transporte Ferroviário.............................................23

FIG. 2.1 Densidade das ferrovia no Brasil na década de 1870...............................................31

FIG. 2.2 Ferrovias Brasileiras na década de 1930..................................................................35

FIG. 2.3 Ferrovia Tereza Cristina...........................................................................................37

FIG. 2.4 Estrada de Ferro Carajás ..........................................................................................38

FIG. 2.5 Estrada de Ferro Vitória-Minas................................................................................40

FIG. 2.6 ALL..........................................................................................................................43

FIG. 2.7 Ferrovia Norte-Sul ...................................................................................................44

FIG. 2.8 Ferrovia Transnordestina .........................................................................................46

FIG. 2.9 Estrada de Ferro Jari.................................................................................................47

FIG. 2.10 Estrada de Ferro do Amapá......................................................................................49

FIG. 2.11 Operação da MRN....................................................................................................52

FIG. 2.12 Estrada de Ferro Trombetas .....................................................................................53

FIG. 2.13 Ferrovia do Aço e Linha do Centro..........................................................................58

FIG. 4.1 Assuntos envolvidos com mineração de dados........................................................92

FIG. 4.2 Taxonomia de Atividades na Área de KDD ............................................................92

FIG. 4.3 Etapas Operacionais do Processo de KDD ..............................................................95

FIG. 4.4 Mineração de Dados no contexto da inteligência de negócios ..............................107

FIG. 4.5 Associação entre registros de dados e classes........................................................119

FIG. 5.1 Fases da metodologia CRISP-DM .........................................................................130

FIG. 5.2 Processo KDD Fayyad ...........................................................................................135

FIG. 5.3 Processo de KDD – Klemettinen ...........................................................................136

FIG. 5.4 Processo de KDD – Feldens...................................................................................136

FIG. 5.5 Níveis da Metodologia MPDF-DM .......................................................................142

FIG. 5.6 Metodologia MPDF-DM........................................................................................143

FIG. 5.7 Cabeçalho do documento .......................................................................................144

FIG. 5.8 Rodapé do documento............................................................................................144

FIG. 5.9 Atividades da Etapa Análise do Sistema................................................................145

FIG. 5.10 Documento – Análise do Sistema ..........................................................................146

FIG. 5.11 Atividades da etapa Pré-processamento.................................................................149

FIG. 5.12 Documento – Pré-processamento para escolha da técnica.....................................151

FIG. 5.13 Documento pré-processamento de seleção ............................................................152

FIG. 5.14 Documento pré-processamento de limpeza ...........................................................154

FIG. 5.15 Documento pré-processamento de codificação......................................................155

FIG. 5.16 Documento pré-processamento de normalização...................................................156

FIG. 5.17 Documento pré-processamento de enriquecimento ...............................................157

FIG. 5.18 Atividades da etapa de Mineração de Dados .........................................................158

FIG. 5.19 Documento de mineração de dados........................................................................159

FIG. 5.20 Atividades da etapa de Pós-processamento............................................................160

FIG. 5.21 Documento de pós-processamento.........................................................................161

FIG. 5.22 Documento de observação .....................................................................................162

FIG. 6.1 SAS Enterprise Miner versão 5.2 – Janela de projeto............................................166

FIG. 6.2 SAS Enterprise Guide – versão 4...........................................................................167

FIG. 6.3 Regressão no Excel ................................................................................................168

FIG. 6.4 Matlab ANFIS........................................................................................................169

FIG. 6.5 Fuzzy Rules 2001...................................................................................................170

FIG. 6.6 Análise do Sistema.................................................................................................172

FIG. 6.7 TU Solicitada Diária ..............................................................................................174

FIG. 6.8: Atividade de limpeza dos dados..............................................................................175

FIG. 6.9 Atividade de observação ........................................................................................176

FIG. 6.10 Atividade de escolha do método ............................................................................177

FIG. 6.11 Atividade de mineração de dados ..........................................................................178

FIG. 6.12 Atividade de normalização.....................................................................................180

FIG. 6.13 Atividade de enriquecimento .................................................................................181

FIG. 6.14 Atividade de normalização.....................................................................................182

FIG. 6.15 Atividade de codificação........................................................................................183

FIG. 6.16 Etapa de pós-processamento ..................................................................................187

FIG. 9.1 Modelo dimensional de banco de dados utilizando esquema Estrela e Snowflake 209

FIG. 9.2 Esquema de unidade McCullock – Pitts.................................................................211

FIG. 9.3 Organização em camadas da RNA.........................................................................212

FIG. 9.4 Formulário – Análise do Sistema...........................................................................224

FIG. 9.5 Formulário – Pré-processamento - Técnica ...........................................................225

FIG. 9.6 Formulário – Pré-processamento – Seleção...........................................................226

FIG. 9.7 Formulário – Pré-processamento – Limpeza .........................................................227

FIG. 9.8 Formulário – Pré-processamento – Codificação ....................................................228

FIG. 9.9 Formulário – Pré-processamento – Normalização.................................................229

FIG. 9.10 Formulário – Pré-processamento – Enriquecimento..............................................230

FIG. 9.11 Formulário – Mineração de Dados.........................................................................231

FIG. 9.12 Formulário – Pós-processamento...........................................................................232

FIG. 9.13 Formulário – Observação.......................................................................................233

LISTA DE TABELAS

TAB. 1.1 Matriz de Transporte de Cargas (%) – 2004...........................................................22

TAB. 2.1 Malha ferroviária Brasileira em Km.......................................................................34

TAB. 2.2 Transporte por Mercadoria - 2005..........................................................................37

TAB. 2.3 Transporte por Mercadoria – 2005 .........................................................................39

TAB. 2.4 Transporte por Mercadoria – 2005 .........................................................................40

TAB. 2.5 Transporte por Mercadoria – 2005 .........................................................................42

TAB. 2.6 Transporte 1996 – 2001 - FNS ...............................................................................45

TAB. 2.7 Transporte 1997 – 2000 - EFJ ................................................................................48

TAB. 2.8 Transporte 1997 – 2000 - EFA...............................................................................50

TAB. 2.9 Produção EFT.........................................................................................................52

TAB. 2.10 Malhas Regionais ...................................................................................................60

TAB. 2.11 Comparação Malha com Transporte das Operadoras Ferroviárias do Brasil em

2005 .....................................................................................................................60

TAB. 2.12 PIB e TKU Brasileiros............................................................................................61

TAB. 2.13 Mercadorias Transportadas em TU ........................................................................63

TAB. 2.14 Investimentos em ferrovia no Brasil (em milhões de reais). ..................................63

TAB. 2.15 Demanda Estimada na Bahia ..................................................................................64

TAB. 4.1 Codificação binária padrão...................................................................................100

TAB. 4.2 Codificação binária 1-de-N ..................................................................................100

TAB. 4.3 Codificação binária por temperatura ....................................................................100

TAB. 4.4 Despesas de Clientes ............................................................................................103

TAB. 4.5 Relação de transportes efetuados em um período ................................................114

TAB. 4.6 Relação das compras realizadas por cada cliente .................................................117

TAB. 4.7 Seqüências descobertas.........................................................................................118

TAB. 4.8 Clientes e suas compras em um tipo de literatura ................................................122

TAB. 5.1 Metodologias usadas em KDD.............................................................................128

TAB. 5.2 Relação técnica de previsão e horizonte...............................................................150

TAB. 6.1 Estrutura dos dados da MRS Logística.................................................................171

TAB. 6.2 Informações utilizadas na previsão.......................................................................173

TAB. 6.3 Comparação dos Métodos de Previsão.................................................................187

TAB. 9.1 Comparativo entre idade e grau de pertinência ....................................................220

LISTA DE SIGLAS

AHP Analytic Hierarchy Process

ALL América Latina Logística

ANTT Agência Nacional de Transporte Terrestre

apud Em

BA Bahia

BNDES Banco Nacional de Desenvolvimento Econômico e Social

CFN Companhia Ferroviária do Nordeste

COSIPA Companhia Siderúrgica Paulista

CRISP-DM Cross Industry Standard Process for Data Mining

CSN Companhia Siderúrgica Nacional

CVRD Companhia Vale do Rio Doce

DW Data Warehouse

EFA Estrada de Ferro do Amapá

EFC Estrada de Ferro Carajás

EFJ Estrada de Ferro Jarí

EFT Estrada de Ferro Trombetas

EFVM Estrada de Ferro Vitória-Minas

ENGEFER Engenharia Ferroviária – Sociedade Anônima

EQ. Equação

et al. E outros

EUA Estados Unidos da América

FCA Ferrovia Centro Atlântica

FEPASA Ferrovia Paulista – Sociedade Anônima

Ferroban Ferrovias Bandeirantes

Ferroeste Estrada de Ferro Paraná Oeste – Sociedade Anônima

Ferronorte Ferrovias Norte Brasil

FIG. Figura

FTC Ferrovia Tereza Cristina

ICOMI Indústria e Comércio de Minério

KDD Knowledge Discovery in Database

Km Quilometro

MPDF-DM Metodologia para Previsão de Demanda Ferroviária – Data Mining

MRN Mineração Rio do Norte

MRS MRS Logística S.A.

MS Mato Grosso do Sul

MSE Erro Quadrado Médio

MT Mato Grosso

PE Pernambuco

PND Programa Nacional de Desestatização

QTDE Quantidade

RFFSA Rede Ferroviária Federal – Sociedade Anônima

SEMMA Sample, Explore, Modify, Model, Assess

SGBD Sistema Gerenciador de Banco de Dados

SP São Paulo

SQL Structure Query Language

SR Superintendência Regional

TAB. Tabela

TKU Tonelada Útil por Quilometro

TU Tonelada Útil

RESUMO

Após a organização conseguir sanar seus problemas operacionais, surge a necessidade de sistemas para o suporte à tomada de decisão. A área de pesquisa de mineração de dados cresce rapidamente para atender a essas novas necessidades. No entanto, a utilização de técnicas de mineração de dados torna-se difícil pela falta de uma metodologia completa e sistemática para o desenvolvimento de sistemas de descoberta de conhecimento. Esta dissertação apresenta um modelo de formalização do processo de desenvolvimento de sistemas de descoberta de conhecimento em banco de dados para a previsão de demanda ferroviária, que inclui uma metodologia sistemática e rigorosa, a qual integra as metodologias: CRISP-DM, SEMMA, FAYYAD, e um ambiente interativo para a implementação desses sistemas. A metodologia proposta foi aplicada em uma base de dados de solicitação de transporte dos clientes da MRS Logística, no período de 1º de dezembro de 2003 até 31 de outubro de 2006; com o principal objetivo de validar a metodologia proposta, segundo critérios da própria empresa. As conclusões do estudo de casos permitiram mostrar a relevância da metodologia MPDF-DM na previsão de demanda ferroviária.

Palavras-chave: Data Mining – Mineração de Dados, metodologia, previsão de demanda, transporte ferroviário.

ABSTRACT

After the organization to resolve its operational problems, comes the necessity for systems to support decision making. The research area data mining grows quickly to take care of these new necessities. However, the use of data mining techniques becomes difficult due to the lack of a complete and systematic methodology for the knowledge discovery in database. This dissertation presents a model of the formal process of development of systems of discovery of knowledge in database for the prediction of railroad demand, that includes a systematic and rigorous methodology, which integrates the methodologies: CRISP-DM, SEMMA, FAYYAD, and an interactive environment for the implementation of these systems. The methodology proposal integrates the cited methodologies and was applied in a customer transport request database of MRS Logística, during the period of Dec, 1st of 2003 until Oct, 31st of 2006. This application is main objective was to validate the methodology proposal according to the criteria of the respective company. The conclusions of the case studies allowed us to show the relevance of the MPDF-DM methodology in the forecast of railroad demand.

Key-word: Data Mining, demand forecasting, methodology, railroad.

1 INTRODUÇÃO

1.1 CONHECIMENTO DO PROBLEMA

A gestão eficiente de qualquer empresa requer planejamento, seja ela do setor público ou

privado, industrial, varejista ou de serviços. E para que este seja efetivo é necessário que se

tenha uma expectativa precisa das condições futuras em que a empresa irá operar e de como

se relacionam os elementos condicionantes dessa expectativa.

O gestor de uma ferrovia, para tomar as deliberações corretas, deve saber qual a

expectativa de crescimento de transporte a fim de alocar os equipamentos e a mão-de-obra

necessários, e também quais são os principais fatores que afetam essa demanda e a capacidade

de oferta dos terminais de embarque / desembarque.

Tanto as decisões estratégicas como as operacionais de uma empresa requerem a

exploração do relacionamento presente entre os elementos que compõem a realidade em que a

empresa está inserida. Para apoiar decisões corporativas, como as citadas, as empresas

procuram criar sistemas e procedimentos, a fim de explorar cenários, com base em

informações quantitativas e/ou qualitativas.

Em todo o mundo, as linhas ferroviárias constituem um importante meio de transporte

tanto de passageiros quanto de carga. O transporte ferroviário caracteriza-se, especialmente,

por sua capacidade de transportar grandes volumes, com elevada eficiência energética,

principalmente em casos de deslocamentos a médias e grandes distâncias. Apresenta ainda

maior segurança em relação ao transporte rodoviário, com menor índice de acidentes e menor

incidência de furtos e roubos. A FIG. 1.1 apresenta a distribuição do transporte de cargas no

Brasil, onde uma parcela de 24% corresponde ao transporte ferroviário, segundo a ANTT

(2006a).

Matriz de Transportes

60%24%

14% 2%

Rodoviário

Ferroviário

Aquaviário

Dutoviário e Aéreo

FIG. 1.1 Matriz de Transportes no Brasil – 2005

Fonte: ANTT (2006a)

Os países ainda em desenvolvimento, como o Brasil, precisam melhorar os índices sócio-

econômicos da população, havendo a necessidade de um maior intercâmbio de mercadorias

com outros países. Há consenso de que os transportes ferroviário e aquaviário são os melhores

modos de transporte, visto que o trem transporta a mercadoria até o porto, e o navio completa

o trajeto até o destino final. Conforme a TAB. 1.1, no Brasil há uma margem de crescimento

não explorada pelas ferrovias.

TAB. 1.1 Matriz de Transporte de Cargas (%) – 2004

Modo

País Aquaviário Ferroviário Rodoviário

Austrália 4 43 53

Brasil 14 24 62

Canadá 11 46 43

China 13 37 50

EUA 25 43 32

Rússia 11 81 8 Fonte: MELO e MEZZONATO (2005).

A FIG. 1.2 mostra a distinção entre os níveis de planejamento envolvidos na

administração de uma linha ferroviária, a qual envolve um sistema complexo de planejamento

e tomada de decisões. Devido ao custo fixo elevado e à escassez de recursos para

investimento em infra-estrutura (construção de novas linhas), é necessário aproveitar ao

máximo os recursos e a capacidade disponíveis de uma ferrovia, ou seja, priorizar o nível

operacional. Portanto, o planejamento de circulação de trens constitui um dos principais

ingredientes para incrementar a produtividade de uma ferrovia, conforme MOTA FILHO

(2005), e a análise da demanda é uma destas etapas.

FIG. 1.2 Planejamento Hierárquico em Transporte Ferroviário.

Fonte: MOTA FILHO (2005).

Com o avanço da tecnologia e da capacidade de armazenagem e processamento dos

sistemas computacionais, diversos modelos e técnicas quantitativas de previsão têm sido

pesquisados, complementando e aprimorando as análises qualitativas em uma série de fatores,

incluindo maior precisão.

Os modelos de previsão quantitativos utilizam dados históricos para detectar padrões de

comportamento e fazer previsão. Tais modelos empregam ferramental matemático-estatístico

com o objetivo de representar a realidade para a qual foram criados. Diversas técnicas

estatísticas têm sido usadas na criação dos modelos, baseadas em diferentes pressupostos

assumidos.

Este trabalho visa explorar o uso de técnicas novas para criação de modelos voltados à

detecção de padrões e previsão de demanda / oferta. Entre essas técnicas avançadas, serão

exploradas as comumente chamadas de data mining (DM) - mineração de dados, que incluem

métodos de inteligência artificial (sistemas especialistas, lógica fuzzy, entre outros); árvores

de decisão; métodos de indução de regras; redes neurais; entre outras (GARGANO e

RAGGAD, 1999 apud PASSARI, 2003). As técnicas de árvores de decisão e métodos de

indução de regras não são técnicas de previsão de demanda. Desse modo, a mineração de

dados é uma atividade interdisciplinar pela diversidade de tecnologias que podem estar

envolvidas.

O transporte ferroviário é adequado para o transporte de mercadorias de baixo valor

agregado e grandes quantidades, tais como: produtos agrícolas, derivados de petróleo,

minérios de ferro, produtos siderúrgicos, fertilizantes, entre outros. Esse modal não é tão ágil

como o rodoviário no acesso às cargas, uma vez que estas têm que ser levadas aos terminais

ferroviários para embarque, segundo DESENVOLVIMENTO (2006). As vantagens desse

modo de transporte são: adequação para longas distâncias e grandes quantidades de carga;

baixo custo do transporte e de infra-estrutura. E suas desvantagens são: diferença na largura

das bitolas; menor flexibilidade no trajeto; necessidade maior de transbordo; tempo de viagem

demorado e irregular e, por último, alta exposição a furtos.

1.2 OBJETIVO

O objetivo geral deste trabalho é desenvolver uma metodologia capaz de identificar

padrões de relacionamentos úteis nas previsões de demanda, para subsidiar o

dimensionamento do transporte ferroviário. Essas previsões devem abordar grande parte das

deliberações de curto prazo enfrentadas no cotidiano do gestor ferroviário, em um nível

aprofundado (detalhado quanto a produtos) e dar importante subsídio para as tomadas de

decisão de investimentos em capacidade de tráfego, de transporte e de terminais, em longo

prazo.

1.3 JUSTIFICATIVA

As ferrovias podem ser um dos mais importantes modos de transporte terrestre se lhes

forem permitidas suas próprias metas e o exercício de suas funções específicas, ou seja, sem a

interferência do poder concedente, pois continuam a ser o meio mais eficiente de realizar

movimentos densos de mercadorias e de pessoas. Dependendo do vulto, localização e

recursos de uma região, elas podem ser essenciais para deslocar grandes volumes de

mercadorias básicas ou para movimentar contêineres em uma cadeia logística internacional; já

que as tendências econômicas e técnicas recentes, como elevados preços de energia, avanços

técnicos no manuseio e nas operações em terminais e fluxos de carga a granel, desviam na

margem as vantagens econômicas a favor das ferrovias, segundo MARQUES (1996).

As empresas de transporte ferroviário têm problemas quanto à alocação de recursos, tanto

humano quanto de equipamentos por serem limitados já que dependem do modo como o

cliente faz seu pedido. O processo de solicitação de transporte inicia-se com o pedido do

cliente, que informa a quantidade de mercadoria a ser transportada; caso a empresa

transportadora aceite esse pedido, o mesmo entrará na carteira de transporte para o período.

Por exemplo, é feita uma solicitação de transportar 106 kg em um determinado mês. A

empresa se prepara para isso, dividindo as 106 kg pelos dias úteis do mês. Porém se esse

cliente trabalha de outra maneira, deixando todo o transporte para o último dia do mês, ele

trará transtornos para a empresa e para si mesmo, porque haverá atraso na devolução dos

vagões vazios para novos carregamentos e o terminal ficará congestionado durante o final do

mês, já que não está preparado para receber uma quantidade tão grande de material. Com isso,

a empresa perderá recursos financeiros devido à alocação desnecessária de pessoal e

equipamentos durante parte do mês e atrasará sua programação de produção no final deste

mês, em função da demora na carga ou descarga dos trens. Esse problema pode ocorrer em

qualquer tipo de terminal, sendo mais propenso nos de carga geral, conforme informações da

MRS Logística S.A. (2006).

1.4 COMPOSIÇÃO DA DISSERTAÇÃO

A presente dissertação está estruturada em mais seis capítulos que tratam dos seguintes

assuntos:

capítulo 2 – Panorama da evolução da demanda por transporte ferroviário no Brasil;

capítulo 3 – Explana sobre algumas técnicas de previsão de demanda e seus conceitos;

capítulo 4 – Enfatiza os conceitos, técnicas e aplicações de Data Mining;

capítulo 5 – Explica o funcionamento de algumas metodologias e desenvolvimento da

proposta;

capítulo 6 – Aborda a empresa onde foi aplicado o estudo de caso, softwares utilizados e

a aplicação da metodologia proposta;

capítulo 7 - Consiste de conclusões sobre o presente estudo e propostas de trabalhos que

dêem continuidade a este.

2 PANORAMA SOBRE A DEMADA FERROVIÁRIA

2.1 DEMANDA POR BENS E SERVIÇOS

As empresas procuram bens e serviços para satisfazerem suas necessidades. A demanda

de mercado de um serviço informa a quantidade que os consumidores participantes daquele

mercado desejam comprar a cada preço unitário que tenham de pagar, num determinado

período de tempo, dado um cenário. Além do preço que amplia ou reduz a própria demanda,

esse cenário é representado por diversas outras variáveis, como o número dos consumidores;

suas rendas e grau de distribuição; seus gostos e preferências; o marketing; a sazonalidade,

conforme as épocas do ano e datas específicas; os preços dos demais serviços substitutos ou

complementares; entre outras. Assim, o preço do serviço estabelece a quantidade demandada,

e as demais variáveis determinam o nível da demanda em si, aumentando-a ou diminuindo-a,

segundo JORGE e MOREIRA (1995).

Para a quase totalidade dos serviços, a quantidade demandada aumenta à medida que os

preços diminuem e vice-versa. Essa relação inversa entre preço e quantidade se explica pelas

seguintes razões, segundo SILVA e STEFANELO (2002):

com a queda dos preços, o poder de compra ou a renda real aumenta, mesmo que a

renda mensal das pessoas permaneça inalterada (efeito renda);

existe uma tendência dos consumidores substituírem os bens ou serviços mais caros,

cujos preços aumentaram, por outros mais baratos e que satisfaçam as mesmas necessidades

(efeito substituição);

a preços menores, novos consumidores passam a ter condições de adquirir o serviço,

e novos usos podem ser encontrados (efeito novos compradores e novos usos).

À medida que as pessoas vão adquirindo maiores quantidades de uma mercadoria, os

acréscimos de satisfação tendem a ser cada vez menores, induzindo ao pagamento de preços

também menores (efeito utilidade marginal decrescente).

Para WESSELS (2002), o preço de mercado depende, basicamente, de quatro condições:

da posição e forma da demanda, do custo de produção e da interação entre as empresas que

atuam no mercado.

posição da demanda: se a demanda aumenta (se desloca para a direita), a empresa

tem condições de aumentar o preço de venda do produto. Se a demanda fica menor, a empresa

mantém o preço ou o reduz;

forma da demanda: quanto mais elástica o preço (menos inclinada) for a demanda

com que a empresa se defronta, menor será o seu poder sobre o preço de mercado; e, quanto

menos elástica (mais inelástica), maior será o poder de mercado da empresa;

custo de produção: quando ocorre aumento no custo de produção, as empresas

tendem a repassá-lo para os preços de venda dos produtos. O poder de repasse depende do

grau de liderança da empresa no mercado, da concorrência com as demais e da posição e

forma da demanda com que a mesma se defronta. Se a empresa consegue uma redução no

custo de produção, ela tem duas possibilidades: ou mantém o preço de venda e amplia sua

margem de lucro; ou reduz o preço para buscar um aumento de sua participação no mercado

(market share);

interação com as demais empresas: as empresas tendem a evitar a competição aberta,

via preços, ou as guerras de preços, porque sabem como começam, mas não sabem como

terminam; além de reduzirem a lucratividade. Ao contrário, buscam praticar uma política de

estabilidade de preços e até podem chegar a acordos informais ou formais sobre preços e

produção, que reduzem a competição e ampliam a lucratividade. Se uma empresa eleva seu

preço, e as demais não a acompanham na alta, ela perde uma parcela de sua procura. Se baixar

seu preço para ganhar consumidores, as demais são obrigadas a acompanhá-la na baixa para

não perderem mercado, fato que pode gerar perda de lucratividade para todas. Assim, as

empresas tendem a praticar uma política estável de preços, implicitamente aceita por todas, e

competir em outros aspectos do marketing, pela diferenciação de produtos e serviços e pela

diversificação.

Para MENDES (2004), além do preço que afeta a quantidade demandada, muitos outros

fatores ampliam ou reduzem a demanda, como anteriormente citados. Agora, esses fatores

serão discutidos mais detalhadamente.

A demografia estuda a população, onde ela vive e como vive. Os 186,77 milhões de

brasileiros, segundo estimativa do IBGE (2006), apresentam uma taxa de crescimento de

1,3% ao ano e igual expansão média da demanda. A urbanização cresce continuamente,

atingindo 81,5% do total da população e ampliando também a demanda por bens e serviços. O

aumento do nível de educação amplia as necessidades e conseqüentemente a procura por

maior variedade de bens e serviços de melhor qualidade e por produtos com maior valor

agregado. Do mesmo modo, as pessoas de meia idade consomem mais, em média, do que as

crianças e idosos, com exceções, como leite e remédios;

a abertura da economia brasileira às importações e a globalização da produção, do

comércio e das finanças, ocorridas a partir dos anos de 1990, aumentaram o grau de

competitividade interna e a disponibilidade de bens e serviços substitutos, diminuindo o poder

de mercado das empresas sobre os preços ou tornando a demanda mais elástica a preços.

Muitas empresas que não se ajustaram a essa situação, diminuindo seus preços,

experimentaram uma redução da demanda interna;

o marketing de sucesso provoca dois efeitos sobre a demanda. Primeiro, traz maior

número de consumidores para o produto e amplia suas quantidades demandadas, deslocando a

demanda para a direita, ou seja, aos mesmos preços, os consumidores passam a consumir

mais. Segundo, torna o consumidor mais fiel àquela marca, tornando a demanda mais

inelástica e conferindo à empresa maior poder sobre os preços;

a exportação amplia a demanda internacional sobre os produtos das empresas e pode

se constituir em alternativa de uma redução da demanda interna, provocada por mudanças na

política econômica ou nas variáveis aqui descritas;

a sazonalidade implica maior demanda em determinadas épocas do ano e menor em

outras, obrigando as empresas a adotarem processos adequados de logística, de estocagem e

de distribuição dos produtos;

outros fatores influenciam a demanda, como mudanças nos gostos e preferências; a

disponibilidade da mercadoria, sua qualidade e variedade, os prazos de entrega; a expectativa

de variação dos preços no futuro; a moda; a região geográfica do consumidor e o clima; o

sexo; a idade; a ocupação; a religião; a origem étnica e a política macroeconômica. Estar

atento a todas essas situações e ter rápida capacidade de adequação e resposta evidenciam a

dificuldade em se atender à soberania do consumidor e encantá-lo.

BALLOU (2006) classifica a demanda em:

espacial: o especialista precisa saber onde a demanda irá manifestar-se;

temporal: necessidade de saber quando a demanda ocorrerá;

irregular: quando a demanda de determinados itens é intermitente, em função do

baixo volume geral e da incerteza de quanto e quando a demanda ocorrerá;

regular: sua representação típica é a de uma série de dados que pode ter um dos

seguintes componentes – tendência, sazonalidade e aleatoriedade;

dependente: quando a demanda é gerada a partir de poucos clientes;

independente: quando a demanda é gerada a partir de muitos clientes;

A demanda é importante em qualquer setor da economia. No tópico seguinte é estudada a

demanda no setor ferroviário, sua origem, evolução e ferrovias que foram criadas para

atenderem a demandas específicas.

2.2 DEMANDA FERROVIÁRIA

Segundo SILVEIRA (2003), no início do século XVII, os transportes, no Brasil, faziam o

trajeto, primeiramente, interior - litoral e vice-versa, por caminhos primitivos, ou seja, aqueles

que não utilizam a tração mecânica, mas sim a força humana, a força animal, a corrente

aquática, a força da gravidade e a força do vento. Nos transportes terrestres, os produtos eram

carregados nas costas, por arrastamento e em veículos com rodas ou trenós com esquis. Com a

chegada das ferrovias, fruto da expansão da revolução dos transportes, esse meio de

locomoção passou a atender a agroexportação monocultora do café, cultivada nos grandes

latifúndios do Sudeste. Portanto, as ferrovias fortaleceram a agroexportação.

A aristocracia cafeeira foi a grande beneficiada com as construções ferroviárias na

América do Sul (Brasil, Venezuela, Colômbia) e América Central, mas também se

contemplou com o transporte mais eficiente os produtores de cobre e trigo (Chile); de lã (Rio

da Prata) e do açúcar (México e Antilhas), todos situados dentro da lógica da exportação,

como bem demonstra a direção dos traçados (interior - litoral, ou seja, longitudinais),

conforme SILVEIRA (2003) e observado na FIG. 2.1.

FIG. 2.1 Densidade das ferrovia no Brasil na década de 1870

Fonte: SILVEIRA (2003).

O estado do Acre está em amarelo, na FIG. 2.1, devido ao mesmo ter sido anexado ao

Brasil somente em 1903, quando a posse foi assegurada por meio do Tratado de Petrópolis, no

qual o nosso país troca áreas de Mato Grosso, paga dois milhões de libras esterlinas e

compromete-se a construir a ferrovia Madeira-Mamoré, conforme site do governo do estado

do ACRE (2006).

Para NUNES (1993), a produção brasileira de café atingiu um ritmo sem precedentes a

partir da metade do século XIX. Enquanto isso, a produção açucareira, ao contrário, tornava-

se cada vez menos promissora frente à concorrência da produção das Antilhas e E.U.A., além

da diminuição da demanda européia devido à produção do açúcar a partir da beterraba. O

café, por outro lado, apesar de introduzido no Brasil desde os começos do século XVII e

cultivado por toda a parte para fins de consumo local, assumiu importância comercial quando

ocorreu a alta do preço causada principalmente pela desorganização da produção do Haiti.

Contido na expansão comercial iniciada com a Revolução Industrial e atendendo às

necessidades das metrópoles européias, o café transformou-se em produto de exportação.

Salta, assim, de terceiro produto da pauta de exportação brasileira na década de 1830, com

18% das exportações, atrás do açúcar e do algodão, para primeiro lugar na década de 1840,

representando nesse momento mais de 40% do valor das exportações. Para FURTADO

(1989), essa primeira fase da expansão cafeeira se concentrou na região montanhosa próxima

à cidade de São Paulo, beneficiando-se de recursos semi-ociosos desde a decadência da

mineração. Assim, a mão-de-obra e transporte (mula), relativamente abundante naquele

momento, e do preço da terra, permitiu a expansão da produção a ponto de quintuplicar a

quantidade exportada entre 1821 e 1850, apesar dos preços apresentarem declínio entre os

anos 30 e 40, chegando a desvalorizar-se em média 40% durante esse período, conforme

IANNI (1989).

A produção cafeeira, segundo FURTADO (1989), passou a ser responsável pela

formação de uma nova classe empresarial. Diferentemente dos produtores de açúcar do

nordeste, que limitavam-se ao pólo da produção, deixando as atividades comerciais aos

monopólios holandês ou português, os produtores de café desde muito cedo entrelaçaram os

interesses da produção e do comércio. Essa nova classe dirigente estruturou-se com a

aquisição de terras, recrutamento de mão-de-obra, organização e direção da produção,

transportes, comercialização nos portos e interferência na política econômica e financeira.

Outrossim, percebeu a importância do governo como instrumento de ação econômica e, por

essa consciência clara de seus próprios interesses, diferenciou-se de outros grupos dominantes

anteriores ou contemporâneos, segundo JACOB (1982).

Alguns “obstáculos” porém, estavam presentes na expansão da produção cafeeira.

Coincidentemente, durante a expansão do plantio na década de 1830, o governo imperial

brasileiro instituiu, em novembro de 1831, a lei que proibia o tráfico internacional de negros,

e com isso as elites cafeeiras passaram a ter dois problemas: mão-de-obra e uso da terra diante

das necessidades da expansão da produção.

A ferrovia representava, então, nova oportunidade de investimento para o capital

cafeeiro, ao mesmo tempo em que provocava uma redução apreciável nos custos do transporte

do café, que antes era feito em “lombos de mula”. Surgindo como parte do complexo cafeeiro,

contribuindo para a realização do sistema de produção agroexportador. Assim, apesar de a

ferrovia ser construída e implantada por concessão estatal, atende basicamente às

necessidades dessa elite empresarial que se torna hegemônica no aparelho de Estado, até

1930. Portanto, toda a construção ferroviária de São Paulo acontece durante o período em que

esses interesses agroexportador dominam o aparelho do Estado, nas suas mais variadas

instâncias, segundo NUNES (1993).

A partir da segunda metade do século XIX, com a chegada do capital inglês e o

financiamento interno (público e privado), foram construídas várias estradas de ferro para

escoar a produção de café do Sudeste e substituir os transportes primitivos. No mesmo

período, no Nordeste, as ferrovias (Recife ao São Francisco, Baturité, São Francisco, Central

da Bahia e Ramais, Central de Pernambuco, etc.) emergiram para transportar, em especial,

açúcar, algodão e cacau, segundo CAMPOS e DOLHNIKOFF (1994).

Para SILVEIRA (2003), a maior parte das construções ferroviárias foi implantada de

1854 a 1879 nas regiões agroexportadoras, compostas pelos complexos cafeeiros, como pode

ser observado na TAB. 2.1, quando essas regiões possuíam 82,7% de toda a quilometragem

ferroviária do país. Nesse período, o direcionamento das estradas de ferro era para o interior

do país, o que propiciou também a ampliação da região cafeeira, porque somente um

transporte eficiente poderia oferecer condições econômicas mais favoráveis para o aumento

da distância entre a área produtora e o porto. A expansão das ferrovias causou prejuízos às

manufaturas situadas no interior, pois o fato de elas se localizarem afastadas dos grandes

centros tornou-se obstáculo ao transporte dos produtos estrangeiros nas suas áreas de

abrangência. Com as ferrovias indo até o interior, ampliaram-se as regiões servidas pelos

produtos estrangeiros, que passaram, então, a fazer concorrência com a produção local.

TAB. 2.1 Malha ferroviária Brasileira em Km

Anos

Região Cafeira Brasil %

1854

14,5

100,0

1859

77,9

109,4

71,2

1864

163,2

411,3

39,7

1869

450,4

713,1

63,2

1874

1.053,1

1.357,3

77,6 1879

2.395,9

2.895,7

82,7 1884

3.838,1

6.324,6

60,7 1889

5.590,3

9.076,1

61,6 1894

7.676,6

12.474,3

61,5 1899

8.713,9

13.980,6

62,3 1904

10.212,0

16.023,9

63,7 1906

11.281,3

17.340,4

65,1 1910

... 21.466,6

... 1915

... 26.646,6

... 1920

... 28.556,2

... 1925

... 32.000,3

... 1929

18.326,1

32.000,3

57,3 Fonte: SILVEIRA (2003)

Entre 1879 e 1894, já se percebia uma certa mudança com a região cafeicultora

concentrando menos quilometragem (61,5% de toda a quilometragem existente no Brasil). A

região cafeeira, nesse período, já não tinha o mesmo vigor da fase anterior, e o Sul passou a

receber construções férreas, diminuindo a porcentagem das ferrovias na região cafeeira,

conforme BORGES (1990). Mesmo com a baixa da lavoura (café, açúcar e algodão), no

último quarto do século XIX, o café ainda permaneceria por meio século como principal

produto brasileiro. Nesse período, o café entrou em crise e agravou a instabilidade econômica

do Brasil (especialmente de 1880 a 1886), o que acarretou manifestações nacionalistas e

tendências favoráveis à implantação do protecionismo e ao intervencionismo, servindo

também de argumento para os industrialistas, conforme SILVEIRA (2003).

Enfraquecendo a cafeicultura, a preocupação, primeiramente, foi com relação ao

barateamento dos custos de transportes para atender à monocultura e, secundariamente, com a

diminuição dos arquipélagos geoeconômicos. Essa preocupação expressou-se no Decreto 524,

de 26 de junho de 1890, que previa a necessidade de realização de um plano geral de viação

para o território brasileiro, o qual deveria levar em consideração a ampliação territorial de

produtos da monocultura, defesa do território e aumento da comunicação entre os estados e a

capital da República, conforme SILVEIRA (2003). Delegava, também, responsabilidades aos

Estados Federativos para fazerem as ligações entre os centros populosos e as regiões

produtivas às linhas de viação nacional e aos portos, ficando o Brasil com a seguinte malha

ferroviária em 1930, conforme FIG. 2.2.

FIG. 2.2 Ferrovias Brasileiras na década de 1930

Fonte: SILVEIRA (2003)

A seguir são apresentadas ferrovias que foram criadas para atender a uma demanda

específica.

2.2.1 FERROVIA TEREZA CRISTINA (FTC)

Com a descoberta do carvão, por volta de 1830, na cabeceira do rio Tubarão e com a

demanda pelo mesmo na Europa, havia a necessidade de transportá-lo. Somente em 1874, o

Império autorizou a construção da ferrovia, dando o nome em homenagem à esposa do

imperador, e tomou a seu cargo o transporte do carvão de Santa Catarina aos portos de

embarque de Imbituba e de Laguna. O término da construção ocorreu em 1880 e totalizou

125.152 metros de ferrovia, conforme FIG. 2.3. Durante os anos seguintes, foram construídos

os ramais, todos por causa da descoberta do carvão no local, esquivando-se de dar condições

para o transporte de mercadorias e outras cargas. Segundo ANTT (2006), a empresa possui

164 km de linhas férreas. A demanda por transporte na FTC é dividida em marcos assim

definidos, conforme site da ferrovia Tereza Cristina (2006):

primeiro: em 1945, com a instalação do lavador de Capivari e o início do suprimento

de carvão à Companhia Siderúrgica Nacional (CSN) e, posteriormente, à toda a siderurgia

brasileira integrada ao carvão mineral;

segundo: em 1978, com o estabelecimento da Indústria Carboquímica Catarinense

(ICC), em Imbituba, e o objetivo de aproveitar os rejeitos perigosos do carvão como fonte de

enxofre, com a conseqüente demanda de seu transporte;

terceiro: na segunda crise do petróleo, que despertou maior interesse pelo uso do

carvão Nacional;

A conjunção dos três primeiros fatores levou ao período áureo da ferrovia, entre 1983 e

1986, quando o transporte se situou no nível de sete milhões de toneladas / ano.

Com a superação da crise do petróleo, com o fim da obrigação em 1990 das siderúrgicas

utilizarem o mínimo de 20% do carvão nacional e com a paralisação da ICC, em 1992, a

demanda de transporte reduziu-se às necessidades de suprimento da Usina Termelétrica Jorge

Lacerda, situada no município de Capivari de Baixo, cuja primeira unidade iniciou a operação

em 1965.

quarto: em 1997, a ferrovia é transferida para a iniciativa privada. A inauguração da

etapa quatro da usina Jorge Lacerda, a escassez de energia no país e o aumento do consumo

de energia pela Eletrosul fazem aumentar a demanda por transporte na ferrovia.

FIG. 2.3 Ferrovia Tereza Cristina

Fonte: ANTT (2006c).

Segundo a ANTT (2006c), as mercadorias transportadas pela FTC estão representadas na

TAB. 2.2.

TAB. 2.2 Transporte por Mercadoria - 2005

TU (103) TKU (106) Mercadoria

Qtde % Qtde %

Carvão mineral 2.370,60

98,76 165,40 98,04 Revest. Cerâmicos 29,80 1,24 3,30 1,96

Total 2.400,40

100,00 168,70 100,00 Fonte: ANTT (2006c).

2.2.2 ESTRADA DE FERRO CARAJÁS (EFC)

No dia 28 de fevereiro de 1985, era inaugurada a EFC, pertencente e diretamente operada

pela Companhia Vale do Rio Doce (CVRD), na região Norte do país, ligando o interior ao

principal porto da região, em São Luís.

Com seus 892 quilômetros de linha singela, conforme FIG. 2.4, 73% de sua extensão em

linha reta e 27% em curva de excelentes condições técnicas, a EFC é uma das ferrovias com

melhores índices de produtividade do mundo. Foi construída para o escoamento do minério de

ferro da Serra de Carajás, no Pará, para o porto de Ponta da Madeira, no Maranhão, que em

1994 representava 95% do volume transportado (37,5 mil milhões de toneladas / km (TKU) )

pela EFC, segundo a CVRD (2006), e, em 2005, transportou 69,7 mil milhões de TKU, com

92,45% de minério de ferro, conforme a ANTT (2006a), com maiores detalhes na TAB. 2.3.

FIG. 2.4 Estrada de Ferro Carajás

Fonte: ANTT (2006a).

A EFC foi concebida para dar maior produtividade aos trens de minério e hoje tem um

dos centros de controle mais modernos do mundo, que possui um sistema integrado baseado

em uma rede de telecomunicações por fibra ótica. As velocidades máximas durante o tráfego

é de 80 km/h, com o trem vazio, e 75 km/h, com o trem carregado, em um percurso com 347

curvas. A EFC conta hoje com 5.353 vagões e 100 locomotivas, conforme a CVRD (2006).

A EFC conecta-se à Companhia Ferroviária do Nordeste (CFN), à Ferrovia Norte-Sul, ao

Terminal Marítimo de Ponta da Madeira (São Luís - MA) e ao Porto de Itaqui (São Luís -

MA).

TAB. 2.3 Transporte por Mercadoria – 2005

TU (103) TKU (106) Mercadoria Qtde % Qtde %

Minério de Ferro

72.909,90

90,42

64.275,50

92,45

Manganês 1.770,30

2,20

1.590,40

2,29

Ferro gusa 2.775,50

3,44

1.645,50

2,37

Soja 1.292,60

1,60

676,10

0,97

Combustíveis 661,50

0,82

389,20

0,56

Fertilizantes 33,90

0,04

17,60

0,03

Bebidas 41,80

0,05

21,50

0,03

Cimento 7,20

0,01

3,90

0,01

Veículos 0,10

0,00

Toretes 0,00

0,00

Outras 1.139,50

1,41

905,30

1,30

Total

80.632,30

100,00

69.525,00

100,00

Fonte: ANTT (2006a).

Desde a inauguração da EFC em 1985, além de minério de ferro e manganês, têm

passado pelos seus trilhos, anualmente, cerca de seis milhões de toneladas de produtos como

madeira, cimento, bebidas, veículos, fertilizantes, combustíveis, produtos siderúrgicos e

agrícolas, com destaque para a soja produzida no sul do Maranhão, Piauí, Pará e Mato Grosso,

conforme TAB. 2.3.

2.2.3 ESTRADA DE FERRO VITÓRIA-MINAS (EFVM)

Com 905 quilômetros de extensão, a EFVM é uma subsidiária da Companhia Vale do Rio

Doce (CVRD) com o objetivo de transportar minério de ferro de Minas Gerais para

exportação por meio do porto de Tubarão. Devido à queda do volume de exportações de

minério, decorrente da conjuntura internacional entre os anos de 1988 e 1995, a ferrovia

procurou diversificar suas atividades para transporte de granéis e carga geral. A participação

do minério na carga total tem variado bastante conforme o período apurado: em 1976, era

92%; em 1988, era 49 %; em 1995, atinge 44 %; conforme a CVRD (2006); e, em 2005, de

78%, conforme a ANTT (2006b). A TAB. 2.4 demonstra a participação das principais

mercadorias transportadas pela EFVM no ano de 2005.

TAB. 2.4 Transporte por Mercadoria – 2005

TU (103) TKU (106) Mercadoria Qtde % Qtde %

Minério de Ferro 102.770,70

78,47

55.113,50

80,28

Carvão mineral 4.705,70

3,59

2.735,30

3,98

Produtos siderúrgicos

5.862,60

4,48

2.474,50

3,60

Ferro gusa 3.048,80

2,33

1.722,40

2,51

Farelo de soja 332,20

0,25

215,70

0,31

Calcário siderúrgico 2.443,70

1,87

869,20

1,27

Coque 1.433,20

1,09

513,40

0,75

Toretes 1.654,60

1,26

373,00

0,54

Outras 8.710,50

6,65

4.631,00

6,75

Total

130.962,00

100,00

68.648,00

100,00

Fonte: ANTT (2006b).

Incorporada à CVRD na década de 40, a Vitória - Minas foi construída pelos ingleses e

inaugurada em 18 de maio de 1904. É hoje uma das mais modernas e produtivas ferrovias

brasileiras, transportando 37% de toda a carga ferroviária do país.

Localizada na região Sudeste, a EFVM faz conexão com outras ferrovias, integrando os

estados de Minas Gerais, Goiás, Espírito Santo, Mato Grosso, Mato Grosso do Sul, Tocantins

e o Distrito Federal, além de ter acesso privilegiado aos principais portos do Espírito Santo,

entre eles os de Tubarão e Praia Mole, conforme FIG. 2.5.

FIG. 2.5 Estrada de Ferro Vitória-Minas

Fonte: ANTT (2006b).

Da extensão total da ferrovia, 594 quilômetros são em linha dupla e correspondem a 3,1%

da malha ferroviária brasileira. Dispondo de 15.376 vagões e 207 locomotivas, a EFVM

transportou, em 2005, cerca de 131 milhões de toneladas por ano, das quais 80% são minério

de ferro e 20% correspondem a mais de 60 diferentes tipos de produtos, tais como aço,

carvão, calcário, granito, contêineres, ferro-gusa, produtos agrícolas, madeira, celulose,

veículos e cargas diversas, conforme CVRD (2006).

Diariamente, um trem de passageiros circula em cada sentido entre Vitória e Belo

Horizonte/Itabira, chegando a transportar em 2005 cerca de 1 milhão e cem mil de pessoas, de

acordo com a CVRD (2006). Por meio da EFVM e dos portos do Espírito Santo, a Companhia

Vale do Rio Doce permite o acesso dos produtos brasileiros ao mercado internacional em

condições mais competitivas, reafirmando sua responsabilidade com o desenvolvimento

econômico e social do Brasil.

2.2.4 FERRONORTE

A FERRONORTE S.A. - Ferrovias Norte Brasil - foi projetada para atender

principalmente à demanda do Grupo Itamarati, que, na década de 1980, era o principal

exportador de soja do país. Pela dimensão, o projeto é de longo prazo e vem sendo implantado

em trechos, tendo sido iniciadas as operações ferroviárias a partir da abertura do tráfego

público do primeiro trecho, que se inicia às margens do Rio Paraná (Ponte Rodoferroviária) e

termina no Município de Chapadão do Sul, no Estado do Mato Grosso do Sul. O Ministério

dos Transportes liberou o último trecho construído entre Alto Taquari-MT e Alto Araguaia-

MT, que somado ao primeiro (Chapadão do Sul-MS e Alto Taquari-MT) totaliza 504 Km de

extensão.

Em 1998, foi criada a empresa Brasil Ferrovias S.A. com a fusão das ferrovias Ferrovia

Norte Brasil S.A., Ferrovia Novoeste S.A. e Ferrovias Bandeirantes S.A.. Ou seja, foi feita a

união da Ferronorte com as concessionárias das Malhas Oeste (Novoeste) e Paulista

(Ferroban) da antiga Rede Ferroviária Federal.

Em 2002, ocorreu uma cisão na empresa:

o corredor de bitola larga (1,60m), remanescente da Ferronorte e parte da Ferroban

(trechos oriundos da antiga Companhia Paulista de Estradas de Ferro), continuou sob a

denominação Brasil Ferrovias;

o corredor de bitola métrica, remanescente da Novoeste (antiga Estrada de Ferro

Noroeste do Brasil) e de partes da Ferroban (trechos oriundos em sua maioria das antigas

ferrovias Sorocabana e Mogiana), passou a ser denominado Novoeste Brasil.

Em 2005, a FERRONORTE transportou mais de 8 milhões de toneladas, conforme TAB.

2.5, com destaque para a soja e seus derivados.

TAB. 2.5 Transporte por Mercadoria – 2005

TU (103) TKU (106) Mercadoria Qtde % Qtde %

Soja 3.772,60

47,06

2.985,00

57,18

Farelo de soja 1.793,00

22,36

1.470,50

28,17

Adubos e fertilizantes

512,40

6,39

517,80

9,92

Milho 7,80

0,10

3,10

0,06

Outras 1.931,20

24,09

243,90

4,67

Total

8.017,00

100,00

5.220,30

100,00

Fonte: ANTT (2006b).

Em maio de 2006, juntamente com a Novoeste Brasil, foi fundida à América Latina

Logística (ALL), por meio de processo de troca de ações entre seus controladores. Com isso,

a ALL passa a operar uma malha de mais de 20 mil Km de extensão, com uma frota de 960

locomotivas e 27 mil vagões, representada na FIG. 2.6, conforme a ALL (2006).

FIG. 2.6 ALL

Fonte: ALL (2006).

2.2.5 FERROVIA NORTE-SUL

O traçado inicial da Ferrovia Norte-Sul previa a construção de 1550 quilômetros de

trilhos, cortando os estados do Maranhão, Tocantins e Goiás. Com a Lei nº 11.297 de 09 de

maio de 2006, da Presidência da República, que incorporou o trecho Açailândia-Belém ao

traçado inicialmente projetado, a Ferrovia Norte-Sul terá, quando concluída, 1980 quilômetros

de extensão, segundo TRANSPORTES (2006b).

A construção da Ferrovia Norte-Sul tem por objetivo ligar as regiões Norte e Centro-Sul,

integrando os modais de transportes existentes ao longo dessas regiões. O primeiro trecho

ficou pronto em 1994 e nesse mesmo ano foram transportadas 203,7 mil toneladas.

Atualmente estão em operação 215 km, ligando as cidades de Açailândia a Estreito, ambas no

Maranhão, conforme FIG. 2.7. Mas o traçado projetado liga Açailândia a Senador

Canedo/GO. Em Açailândia/MA, a Norte-Sul se conecta com a Estrada de Ferro Carajás,

permitindo acesso ao porto de Ponta do Madeira, em São Luís. No estado de Goiás, a ferrovia

se conectará à malha férrea nacional por meio da Ferrovia Centro Atlântica (FCA).

FIG. 2.7 Ferrovia Norte-Sul Fonte: TRANSPORTES (2006b).

O volume transportado pela ferrovia no ano de 2001 alcançou um aumento de 13% em

relação ao exercício anterior, mantendo assim a projeção verificada nos últimos seis anos –

conforme mostra a TAB. 2.6. Com o transporte de 664 mil toneladas de carga geral em 2001,

dos quais 542 mil referem-se à soja, quase 2,8 milhões de toneladas foram escoados pelos

trilhos da Norte-Sul entre 1996 e 2001, quando foi iniciada a operação comercial desse trecho,

representando para o produtor local uma redução no custo do frete calculada em torno de 30%

em relação ao praticado pelo modal rodoviário, segundo VALEC (2006).

TAB. 2.6 Transporte 1996 – 2001 - FNS

Ano TU

1996 266.661 1997 366.529 1998 410.571 1999 498.188 2000 593.895 2001 664.016

Fonte: VALEC (2006).

A importância do setor ferroviário nas novas áreas onde está havendo expansão da

agricultura é fundamental para o desenvolvimento econômico brasileiro, inclusive por meio

de melhores preços no mercado internacional. Com a concretização da Norte-Sul, a soja que

sai de Goiás chegará ao porto de Rotterdam, na Holanda, 8% mais barata. Portanto, com uma

ferrovia bem estruturada, haveria também impactos positivos na circulação de produtos

industrializados do Centro-Oeste e Norte do país, podendo chegar aos mercados do Centro-

Sul mais competitivos e vice-versa (diminuições do custo-Brasil nos transportes), segundo

SILVEIRA (2003).

A ferrovia transportará no sentido sul-norte produtos agrícolas (soja e algodão),

industrializados (açúcar, farelo e óleo de soja) e minerais e, no sentido norte-sul,

combustíveis, fertilizantes e carga geral, permitindo explorar comercialmente uma área de

aproximadamente 1,8 milhão de quilômetros quadrados com produtos tradicionais como a

soja e potenciais como celulose, madeira e bioenergia. As projeções elaboradas indicam que,

com a ferrovia operando até Palmas, no Tocantins, serão transportadas 11,2 milhões de

toneladas de cargas em 2010, devendo atingir 25,8 milhões de toneladas em 2020, segundo o

Ministério dos Transportes (2006).

2.2.6 FERROVIA TRANSNORDESTINA

Idealizada há mais de 100 anos, a estrada de ferro que cruza o sertão chegou a ganhar

alguns trilhos em 1990, mas teve suas obras paralisadas por falta de verbas em dezembro de

1992, segundo DNIT (2006). Com a retomada do projeto, este passou a ser conhecido

também por nova Transnordestina.

A implantação da nova Transnordestina possibilitará a criação de novos corredores de

exportação de produtos agrícolas, ligando o oeste da Bahia, o sul do Maranhão e o sudoeste

do Piauí até os portos de Pecém, no Ceará, e Suape, em Pernambuco.

A ferrovia terá 1.815 km de extensão, com 1.193 km de linhas novas e 622 km de vias antigas

a serem remodeladas. O projeto inclui a construção de ramais e sub-ramais na malha

Nordeste; a recuperação ou remodelação de trechos já operados pela Companhia Ferroviária

do Nordeste (CFN); e a construção de dois terminais portuários privativos – um no Porto de

Pecém e o outro no Porto de Suape. Os trechos a serem construídos ou remodelados se

localizam nos estados do Ceará, Piauí e Pernambuco, ligando o terminal ferroviário (ponto de

embarque) da cidade de Eliseu Martins, no Piauí, aos portos de Pecém e Suape, conforme

FIG. 2.8.

FIG. 2.8 Ferrovia Transnordestina Fonte: TRANSPORTES (2006c).

Segundo o BNDES (2006), o projeto oferece alternativa ao escoamento da produção de

grãos, dos ditos cerrados setentrionais, que ocorrem no oeste da Bahia, Piauí e Maranhão. O

crescimento da produção de grãos daquelas regiões engendrado pelo projeto poderá levar ao

estabelecimento de atividades produtivas baseadas no agronegócio ao longo do traçado da

ferrovia, para desenvolvimento e atendimento de mercado interno. Outro importante mercado

a ser atingido pelo projeto será o pólo gesseiro de Araripina (PE).

2.2.7 ESTRADA DE FERRO JARI (EFJ)

A EFJ, construída para transportar madeira que alimenta a fábrica de celulose do Projeto

Jari, entrou em operação em 1979, segundo SANT’ANNA (1998). Localiza-se ao norte do

Estado do Pará, próximo à divisa com o Estado do Amapá, conforme FIG. 2.9. A madeira da

região é transportada até o Porto de Mungumba, à margem do Rio Jari.

FIG. 2.9 Estrada de Ferro Jari Fonte: ANTT (2006b).

A configuração do projeto Jari contemplava a produção de vários produtos, entre os quais

a celulose. Para abastecer a fábrica de celulose, foi necessária à construção da ferrovia, que

em função da sua grande capacidade de transporte, aliada ao baixo custo, supria de modo

confiável e seguro. O projeto da ferrovia foi desenvolvido nos Estados Unidos, sendo que em

sua implementação houve a necessidade de modificações técnicas devido às características

topográficas não observadas adequadamente nos levantamentos preliminares de campo.

Aliado aos problemas técnicos, apenas 35% das linhas previstas inicialmente foram

construídas, gerando conseqüentemente redução no número de locomotivas e vagões, o que

não chegou a impedir o abastecimento eficaz da fábrica de celulose (Jarcel Celulose S.A.),

segundo TRANSPORTES (2003b).

Atualmente, a ferrovia possui 68 quilômetros de linhas que interligam os quatro pátios

principais da Ferrovia: Mungumba, no Km 0, onde está localizada a área industrial, é o pátio

terminal do transporte de madeira para celulose; São Miguel, no km 36; Ponte Maria, no km

22; e Pacanari, no km 45. Estes são os principais pátios de carregamento dos vagões, local

onde são estocadas as madeiras oriundas das áreas de corte. Existem ao longo das linhas

alguns pontos intermediários onde eventualmente é estocada a madeira em função da

localização dos pátios principais em relação às áreas de corte. O fluxo do tráfego ferroviário é

regido pela necessidade de madeira na fábrica de celulose, ficando em média na ordem de três

viagens/dia, sendo as composições normalmente constituídas por vagões com madeira,

podendo chegar a 24 vagões, quando transporta-se bauxita refratária com madeira, não

utilizando-se unidades múltiplas, segundo TRANSPORTES (2001). O transporte atual

também contempla brita para uso na manutenção da via permanente e máquinas operatrizes

em vagões adaptados, conforme TAB. 2.7.

TAB. 2.7 Transporte 1997 – 2000 - EFJ

TU (milhões) TKU (bilhões) Mercadoria

1997 1998 1999 2000 1997 1998 1999 2000 Madeira 0,86

1,40

1,36

1,01

0,02

0,03

0,04

0,03

Outras 0,24

0,20

0,15

0,19

0,01

Total

1,10

1,60

1,51

1,20

0,03

0,04

0,05

0,04

Fonte: Ministério dos Transportes (2001).

2.2.8 ESTRADA DE FERRO DO AMAPÁ (EFA)

Em 1943, o território federal do Amapá foi criado, e seu governo iniciou campanhas para

procurar descobrir algum tipo de riqueza mineral na região que pudesse vir a gerar as divisas

ao novo território e sustentasse seu desenvolvimento. Foram oferecidos diversos incentivos

para que as pessoas “garimpassem” o território em busca de minerais ou jazidas, acabando por

ser descoberta uma jazida de manganês de alto teor na região da Serra do Navio.

O governo cedeu a jazida por meio de licitação pública, e o grupo vencedor obteve

parceiros nos Estados Unidos, os quais iniciaram prontamente os trabalhos de prospecção, que

duraram cerca de dois anos e cujos resultados foram satisfatórios a ponto de garantir o

investimento necessário do governo americano no projeto, até mesmo porque o advento da

Segunda Guerra Mundial obrigava aquele país a buscar novas jazidas de manganês, metal

muito utilizado pela indústria bélica.

O projeto constava da construção de uma vila em plena floresta - na área da mineração;

outra vila junto ao rio Amazonas - para embarque do minério - e uma ferrovia que interligasse

as duas vilas. Com tudo projetado, iniciaram-se as obras de infra-estrutura do projeto Indústria

e Comércio de Minério (ICOMI) no ano de 1947, construção realizada por empresas

americanas.

O distrito manganífero da Serra do Navio está situado às margens do rio Amapari, antigo

território e hoje Estado do Amapá. O acesso a esse distrito é feito atualmente a partir de

Macapá, capital do estado, por meio da Estrada de Ferro Amapá, num percurso de 193 Km.

Desse percurso, aproximadamente, 108 Km são de campos e 85 Km atravessando a mata.

A Estrada de Ferro do Amapá, cuja construção foi iniciada em março de 1954 e concluída

em fins de setembro de 1956, é destinada ao transporte de minério de manganês das jazidas de

Serra do Navio ao Porto de Santana, situado à montante da cidade de Macapá, na margem

esquerda do canal norte do Rio Amazonas, conforme a FIG. 2.10.

FIG. 2.10 Estrada de Ferro do Amapá Fonte: ANTT (2006b).

Em janeiro de 1957, a Estrada de Ferro do Amapá passou a operar regularmente, tendo

transportado, naquele ano, 678 mil toneladas de minério e carga geral. Em 1958, o transporte

de minério era feito na base de 258 vagões semanais, ou seja, 42 vagões diários.

Segundo TRANSPORTES (2003a), em 1997, a ferrovia transportou 84 mil passageiros e

1 milhão de toneladas de mercadorias (minério de manganês, ferro-silício, dormentes, areia,

explosivos, etc), equivalente a 194 milhões de TKU, conforme TAB. 2.8, com 40

empregados.

TAB. 2.8 Transporte 1997 – 2000 - EFA

TU (milhões) TKU (bilhões) Carga

1997 1998 1999 2000 1997 1998 1999 2000

Mercadorias 1,00

0,29

0,30

0,22

0,19

0,03

0,04

0,03

Total

1,00

0,29

0,30

0,22

0,19

0,03

0,04

0,03

Fonte: Ministério dos Transportes (2003a).

Atualmente, as minas ainda apresentam alguns veios de manganês, porém a eles

associados existe muita matéria inservível para tornar-se economicamente viável a prospecção

a céu aberto. As grandes montanhas existentes de minério em Serra do Navio apresentam o

teor de 36% de manganês, tornando-se uma grande montanha de rejeitos não padronizados de

minério, segundo TÁLAMO e MARTIRE (2006).

O movimento na ferrovia resume-se na remessa semanal de duas composições de 20

vagões de cromita, a qual é extraída a 40 Km de Cupixi, sendo transportada via rodovia para

essa cidade; ali é transferida para a ferrovia e levada ao terminal marítimo em Santana.

Do grande império de que a Estrada de Ferro Amapá fazia parte, vê-se ao longo de suas

linhas as tentativas de procura de uma alternativa; grandes clareiras na floresta atestam o

investimento sem retorno que foram as tentativas para a implantação do arroz, da mandioca,

da cana de açúcar e do óleo de dendê.

Somente a floresta artificial composta de Pinus e Eucalipto sobreviveu nos primeiros

quilômetros da ferrovia, e hoje o eucalipto é abatido, descascado e enviado a Santana, a fim

de tornar-se pequenos pedaços para a produção de celulose no Japão, para onde é transportado

via marítima em contêineres.

As operações na mina, que encontra-se fechada, na ferrovia e no porto de embarque de

minério, hoje estão divididas e terceirizadas, cabendo a ICOMI a fiscalização dos serviços.

Em março de 2006, o governador do Estado do Amapá assinou contrato de concessão da

ferrovia, com vigência de 20 anos, com a MMX Logística, que prevê, para os próximos dois

anos a recuperação das estações ferroviárias entre Santana e Serra do Navio, revitalização de

todo o leito da ferrovia com troca de trilhos, assim como modernização dos vagões dos trens,

dotando-os de poltronas confortáveis e sinalização moderna em todo o trajeto, conforme

AMAPÁ (2006).

Também está prevista no contrato a ampliação dos veículos ferroviários que servem à

população, com adequação de mais vagões para passageiros, assim como de vagões

cargueiros de melhores estruturas para transporte de minérios e produtos agrícolas.

2.2.9 ESTRADA DE FERRO TROMBETAS (EFT)

No final de 1971, a Alcan deu início à implantação do projeto Trombetas, mas logo

depois as obras foram suspensas, em função da depressão do alumínio no mercado mundial.

Em outubro de 1972, a Companhia Vale do Rio Doce (CVRD) e a Alcan iniciaram

entendimentos para constituir uma “joint-venture”, visando à retomada da implantação do

projeto. Em junho de 1974, foi assinado o acordo de acionistas da Mineração Rio do Norte

(MRN), atualmente composto pelas seguintes empresas: CVRD (40%), BHP Billiton Metais

(14,8%), Alcan (12%), CBA-Votorantim (10%), Alcoa Brasil (8,58%), Alcoa World Alumina

(5%), Norsk Hydro (5%) e Abalco (4,62%), conforme NORTE (2006a).

A construção do projeto foi retomada no primeiro trimestre de 1976, e as atividades de

lavra foram iniciadas em abril de 1979. Nesse mesmo ano, em 13 de agosto, foi realizado o

primeiro embarque de minério em um navio para o Canadá.

As operações da MRN, em Porto Trombetas, consistem na extração do minério,

beneficiamento, transporte ferroviário, secagem e embarque de navios, conforme FIG. 2.11. A

ferrovia está representa na FIG. 2.12.

FIG. 2.11 Operação da MRN Fonte: NORTE (2006b).

A capacidade inicial de produção da MRN foi de 3,35 milhões de toneladas de bauxita

anuais. O aumento da demanda de mercado e a grande aceitação do minério produzido pela

empresa nas refinarias de todo o mundo favoreceram o aumento gradativo dessa capacidade.

Com isso, ocorreu um aumento na produção da ferrovia, conforme a TAB. 2.9.

TAB. 2.9 Produção EFT

TU (milhões) Mercado

2001 2002 2003 2004 2005 Externo 3,80

2,60

4,30

7,00

7,40

Interno 7,10

7,30

9,80

9,50

10,40

Total

10,90

9,90

14,10

16,50

17,80

Fonte: NORTE (2006b).

FIG. 2.12 Estrada de Ferro Trombetas Fonte: ANTT (2006b).

A MRN está operando nas minas Saracá, Almeidas e Avisos. Nelas, o minério encontra-

se a uma profundidade média de 8m, coberto por uma vegetação densa e uma camada estéril

composta de solo orgânico, argila, bauxita nodular e laterita ferruginosa.

Para ser lavrada, a bauxita tem que ser decapeada, operação que se faz de modo

seqüencial, em faixas regulares, onde o estéril de cobertura escavado é depositado na faixa

adjacente, na qual o minério fora anteriormente lavrado.

Da lavra, o minério escavado é transportado em caminhões fora-de-estrada até as

instalações de britagem, onde é reduzido a uma granulometria de até três polegadas. De lá, ele

segue por meio de correias transportadoras para as instalações de lavagem, ciclonagem e

filtragem.

Do processo de beneficiamento, resultam aproximadamente 27% de massa sólida como

rejeito de bauxita, que é depositada nos reservatórios construídos em áreas já mineradas, no

platô Saracá.

Depois de beneficiado, o minério é transportado da área da Mina até o Porto, ao longo de

uma ferrovia de 28 km. Como a bauxita pode ser comercializada tanto úmida quanto seca, na

área do Porto, o minério pode ter dois destinos, antes de embarcar em navios: ou alimenta os

três fornos secadores ou segue úmido para o pátio de estocagem.

O porto tem calado para receber navios com capacidade aproximada de 60 mil toneladas.

2.2.10 FERROVIA DO AÇO

No início da década de 1970, foi feito um estudo preliminar pelo consórcio

Transcon/Engevix para o estabelecimento de uma ligação ferroviária moderna entre Belo

Horizonte e São Paulo. Os resultados desse estudo foram publicados com estardalhaço pela

imprensa em maio de 1973, recebendo então o nome de Ferrovia do Aço. Essa futura ligação

teria um ramal que, partindo de Jeceaba, alcançaria Volta Redonda; e além de estabelecer uma

ligação ferroviária direta entre duas das principais capitais do país, desafogaria a Linha do

Centro, que liga Belo Horizonte ao Rio de Janeiro, porque passaria a escoar o minério

requerido pela COSIPA e pela Companhia Siderúrgica Nacional, bem como poderia assumir

parte do volume destinado à exportação, conforme FIG. 2.13. Os padrões técnicos dessa

ligação, num total de 834 quilômetros, eram de Primeiro Mundo: via dupla, raio mínimo de

900 m, rampa máxima de 1% e eletrificação com corrente alternada a 25 kV, 60 Hz. O trem

típico teria 100 vagões tracionados por quatro locomotivas em tração múltipla, teria

comprimento de um quilômetro e peso de 12.000 toneladas. O custo do projeto também era

impressionante: 1,1 bilhões de dólares.

Apesar de gigantesco, o projeto até era justificável, considerando-se o destacável

desempenho econômico do Brasil no início da década de 1970, a famosa era do Milagre

Brasileiro. A economia crescera a taxas superiores a 10% anuais entre 1968 e 1974, e

imaginava-se que ia manter um crescimento não inferior a 8% até 1980. A demanda de

transporte em termos de TKU, na região servida pela Linha do Centro (Superintendência

Regional SR-3 da R.F.F.S.A.), crescera a 29,5% ao ano no quadriênio 1973-1976. Essa

evolução fez com que o Governo Federal temesse pelo estrangulamento da oferta de

transporte de minério de ferro, ameaçando o abastecimento das usinas siderúrgicas do sudeste

do país e o cumprimento dos compromissos assumidos com a exportação dessa matéria-

prima, segundo GORNI (2004).

Vários meses se passaram entre esse primeiro anúncio e as ações efetivas. Durante esse

período, decidiu-se cancelar a construção do trecho entre Itutinga e São Paulo, já que o ramal

de São Paulo da Central do Brasil tinha capacidade ociosa entre Volta Redonda e a capital

bandeirante. Apenas em outubro de 1974, foram iniciadas as obras no trecho entre Belo

Horizonte e Jeceaba. A 14 de março de 1975, era assinado um dos maiores contratos da época

entre a ENGEFER - Engenharia Ferroviária S.A. e 25 empresas da área ferroviária, no valor

de 9,42 milhões de cruzeiros, envolvendo o desenvolvimento dos projetos finais de

engenharia e a construção do primeiro trecho da Ferrovia do Aço: Belo Horizonte-Itutinga-

Saudade. A ENGEFER era uma empresa estatal, ligada à R.F.F.S.A., incumbida de

administrar a construção da Ferrovia do Aço. O início das obras nos demais trechos ocorreu a

30 de abril daquele ano, apesar de não se dispor dos projetos definitivos a serem executados.

Mesmo assim, o governo apelidou a obra de Ferrovia dos Mil Dias, uma vez que as obras

deveriam ficar prontas dentro desse prazo.

Em 1976, foi assinado formalmente o contrato das obras e equipamentos para a

eletrificação e sinalização da Ferrovia do Aço entre a ENGEFER e a GEC Transportation

Projects Ltd, no valor de 149 milhões de libras (ou 262 milhões de dólares). O objetivo inicial

era ter todas as locomotivas operacionais em dezembro de 1983, de modo que a tração elétrica

estivesse plenamente viabilizada, pelo menos entre Saudade-Bom Jardim de Minas, assim que

a ferrovia estivesse pronta, já que a tração elétrica nesse trecho teria importância fundamental.

Nesse mesmo ano, começaram os primeiros sintomas de crise econômica, com a

persistente elevação dos índices inflacionários. O controle da inflação tornou necessário

reduzir os gastos governamentais, inclusive na Ferrovia do Aço. O ritmo das obras, que era

muito intenso, foi bastante reduzido a partir de fevereiro de 1977, ficando impossível cumprir

o famoso prazo de mil dias para conclusão das obras. Na verdade era o fim da era do Milagre

Econômico, e o desempenho da economia brasileira jamais seria o mesmo. A situação

econômica foi gradativamente piorando, e as obras foram suspensas em 1978.

A chamada distensão política, na verdade o lento desmonte da ditadura militar iniciado

pelo general-presidente da época, Ernesto Geisel, propiciou um maior clima de liberdade de

expressão, o que fez com que no final desse ano a diretoria da R.F.F.S.A. emitisse um

documento oficial, no qual considerava a Ferrovia do Aço um empreendimento inviável

economicamente e que a melhor solução para aumentar a capacidade de transporte de minério

de ferro no eixo Belo Horizonte-Rio de Janeiro seria a duplicação e eventual eletrificação da

antiga Linha do Centro da Central do Brasil. A G.E.C. foi informada dessa alternativa, sendo

acertado na época que, na eventualidade de ser adotada essa nova opção, possíveis sobras do

contrato original seriam aplicadas na conversão do antigo sistema de eletrificação da Central

do Brasil entre Saudade e Japeri para 25 kV, corrente alternada, bem como a eletrificação, no

mesmo padrão, entre Japeri-Brisamar-Sepetiba. O novo governo do general-presidente João

Baptista Figueiredo ignorou o alerta dos técnicos e retomou as obras em julho de 1979,

demitindo a administração dissidente da R.F.F.S.A. Decidiu-se, contudo, adiar

indefinidamente a construção do trecho entre Belo Horizonte e Jeceaba, com 108 quilômetros.

O ritmo do empreendimento não era mais o mesmo, tornando-se extremamente lento a

partir de outubro de 1982. Ironicamente, nesse mesmo ano chegaram os primeiros lotes de

equipamentos para a eletrificação previstos no contrato de 1976 com a GEC. A grave crise

financeira de 1983 só agravou o quadro, levando à paralisação total da construção da Ferrovia

do Aço no ano seguinte, conforme NETO et al. (2003).

Viadutos inacabados, túneis inúteis e acampamentos de empreiteiras repletos de

máquinas abandonadas, tudo se degradando à ação do tempo, pontilhou a paisagem no sul de

Minas por vários anos ao longo das décadas de 1970 e 1980, ilustrando clamorosamente o

fracasso do empreendimento. Haviam sido gastos 1,9 bilhões de dólares, sendo cerca de meio

bilhão somente no contrato de eletrificação. Só então as críticas ao projeto da Ferrovia do Aço

começaram a aflorar, favorecidas pelo ambiente cada vez mais livre reinante no país, segundo

GORNI (2004).

A situação se encontrava mal parada há vários anos quando, em 1986, a direção da

R.F.F.S.A. desenvolveu um plano para tornar viável a Ferrovia do Aço, mais especificamente

o trecho entre Jeceaba e Saudade, com 319 quilômetros de extensão, onde a infra-estrutura

estava praticamente terminada. A nova abordagem previa diversas simplificações no projeto

da Ferrovia do Aço, como linha singela, menor altura de lastro (28 cm ao invés de 40 cm) e

operação com locomotivas diesel-elétricas. Além disso, o esquema de circulação dos trens

incluía a antiga Linha do Centro da Central do Brasil: os trens de minério circulariam cheios

de Minas Gerais para o Rio de Janeiro, pela Ferrovia do Aço, e voltariam vazios, pela Linha

do Centro, permitindo o transporte anual de 25 milhões de toneladas de minério de ferro. O

custo necessário para viabilizar esse plano era relativamente pequeno, da ordem de 136

milhões de dólares, incluindo ainda a adequação da via permanente entre Saudade - Barra

Mansa e Saudade - Manoel Feio, de modo a habilitar o ramal de São Paulo a receber a carga

adicional. A eletrificação da linha não foi descartada nessa ocasião, mas sim adiada

indefinidamente, uma vez que somente sua implantação requeriria um investimento superior a

um bilhão de dólares, o qual foi viabilizado por meio da participação da iniciativa privada no

projeto: mineradora MBR e a presença simbólica de outros usuários interessados, como a

Matsulfur, Cosigua, Cimento Paraíso, Ciminas, Cimento Tupi, Ferteco e Socicom. No dia 9

de fevereiro de 1987 era assinado o Acordo de Cooperação Mútua entre a ferrovia e a MBR;

no geral estabeleceu-se que o desembolso para o projeto seria feito como adiantamento para

fretes futuros. Os investimentos necessários foram distribuídos da seguinte maneira: MBR,

57%; BNDES, 22%; Governo Federal, 15%; R.F.F.S.A., 6%.

Pelo menos as obras da construção civil da Ferrovia do Aço retomaram o ritmo e

seguiram sem interrupções até seu término. No dia 14 de abril de 1989, as duas frentes de

obras se encontraram no km 138 + 965 m da ferrovia, no município mineiro de Madre Deus,

finalmente permitindo a circulação de trens na Ferrovia do Aço, após 14 anos de obras. A

chamada Ferrovia dos Mil Dias tinha se tornado, na verdade, a Ferrovia dos 5.098 Dias. A

conclusão da superestrutura e a entrada em operação comercial ocorreram no mês de julho

seguinte.

FIG. 2.13 Ferrovia do Aço e Linha do Centro. Fonte: TRANSPORTES (2006c) – adaptado.

Desde dezembro de 1996, a Ferrovia do Aço e a Linha do Centro estão sob administração

da MRS Logística, porque ambas pertenciam à Superintendência Regional 3 da RFFSA que

foi concessionada para a primeira.

2.3 REESTRUTURAÇÃO FERROVIÁRIA NO BRASIL

A Rede Ferroviária Federal S.A. (RFFSA) foi criada, em 1957, com o intuito de

administrar, conservar, ampliar e melhorar o transporte ferroviário brasileiro. Em 1992, a

RFFSA foi incluída no Programa Nacional de Desestatização (PND).

Até o início do processo de desestatização, a empresa detinha quase a totalidade da rede

de transporte ferroviário de cargas do país, com exceção da Ferrovia Paulista S.A. (Fepasa),

das ferrovias da Companhia Vale do Rio Doce (CVRD) e das estradas de ferro Vitória–Minas

e de Carajás.

Desajustes institucionais, econômico-financeiros e técnico-operacionais, em paralelo com

a baixa produtividade de seus recursos humanos, mais administrações ineficientes submetidas

quase sempre a interferências políticas tornaram os grandes sistemas ferroviários federal

(Rede Ferroviária Federal S.A. — RFFSA) e do estado de São Paulo (Ferrovia Paulista S.A.

— FEPASA) problemas para as finanças públicas, além de apresentarem baixa contribuição

social e econômica.

As malhas regionais foram definidas a partir de análises da situação da RFFSA, sob os

seguintes critérios, segundo MARQUES (1996):

estrutura organizacional no nível regional (superintendências regionais - SRs);

restrições de caráter técnico;

fluxos de transportes, atuais e potenciais;

existência de malhas isoladas;

viabilidade econômica dos investimentos necessários, motivados pelas restrições

existentes em toda a malha e que limitam sua capacidade de transporte.

A configuração resultante repartiu a RFFSA em seis malhas regionais, reagrupando as

SRs, conforme TAB. 2.10. As seguintes realidades circunscreveram as reuniões

recomendadas:

a) do restante da RFFSA, a FEPASA isola a SR-10 a oeste e as SR-5 e SR-6 ao sul;

b) a SR-9 está isolada no leste catarinense;

c) a malha sudeste compreende as SR-3 e SR-4 com bitola larga;

d) as demais SRs foram constituídas em dois conjuntos: a malha Centro-Leste e a

Nordeste, com intercâmbio de cargas pouco significativo.

TAB. 2.10 Malhas Regionais

Malha SR Concessionária

Nordeste 1, 11, e 12 CFN Centro-Leste 2, 7 e 8 FCA Sudeste 3 e 4 MRS Oeste 10 Ferroeste Sul 5 e 6 ALL E.F. Teresa Cristina 9 EFTC

Fonte: BNDES (2005).

Conforme MARQUES (1996), por outro lado, a diversidade e a heterogeneidade dos

mercados regionais de transportes acarretam distorções à economia do sistema ferroviário,

lembrando que linhas componentes de apenas 8% da extensão da malha são responsáveis por

80% de todo o transporte sobre os trilhos no Brasil, em 1994. Mesmo com a mudança

ocorrida no sistema ferroviário quanto à administração das empresas ficar a cargo da

iniciativa privada, em 2005, 12,30% da malha foram responsáveis por 81,95% da TU

transportada e 82,31% de toda a TKU movimentada sobre trilhos no Brasil, conforme TAB.

2.11.

TAB. 2.11 Comparação Malha com Transporte das Operadoras Ferroviárias do Brasil em 2005

Extensão TU TKU Operadora Km % Qtde % Qtde %

Novoeste - Ferrovia Novoeste S.A. 1.942

6,88

3,50

0,90

1,30

0,59

FCA - Ferrovia Centro-Atlântica S.A. 8.093

28,67

27,60

7,08

10,70

4,82

MRS - MRS Logísitca S.A. 1.674

5,93

108,10

27,71

44,40

20,01

FTC - Ferrovia Tereza Cristina S.A. 164

0,58

2,40

0,62

0,20

0,09

ALL - América Latina Logística do Brasil S.A. 7.225

25,60

21,70

5,56

15,40

6,94

Ferroeste / Ferropar 248

0,88

1,50

0,38

0,30

0,14

EFVM - Estrada de Ferro Vitória-Minas 905

3,21

131,00

33,58

68,70

30,97

EFC - Estrada de Ferro Carajás 892

3,16

80,60

20,66

69,50

31,33

CFN - Companhia Ferroviária do Nordeste S.A. 4.238

15,02

1,40

0,36

0,80

0,36

Ferroban - Ferrovias Bandeirantes S.A. 2.029

7,19

4,40

1,13

2,30

1,04

Ferronorte - Ferrovias Norte do Brasil 504

1,79

8,02

1,69

5,22

3,61

Valec - Estrada de Ferro Norte Sul 311

1,10

1,30

0,33

0,25

0,11

Total

28.225

390,10

221,85

Fonte: ANTT (2006b) e TRANSPORTES (2006b).

Embora o transporte ferroviário no Brasil esteja relacionado à atividade econômica (essa

vinculação é indicada estatisticamente por um coeficiente de correlação tráfego de cargas —

PIB, observado no período 1980-2005, com r2 = 0,57), conforme TAB. 2.12, ele se compõe

basicamente da movimentação de cinco produtos ou grupos de produtos (minérios de ferro,

granéis agrícolas para exportação, combustíveis, produtos siderúrgicos e cimento). Na maioria

dos sistemas ferroviários do mundo desenvolvido ou em desenvolvimento, existe grande

predominância de alguns produtos no total da carga. Entretanto, em nosso país há uma

concentração exagerada: os produtos citados alcançam 90% da carga, e somente o minério de

ferro representa 70% do volume transportado, MARQUES (1996).

TAB. 2.12 PIB e TKU Brasileiros

ANO

PIB (mil milhões de dólares)

TKU (bilhões)

1980

237.772 86,30 1981

258.553 79,50 1982

271.252 78,00 1983

189.459 74,90 1984

189.744 92,40 1985

211.092 100,20 1986

257.812 105,10 1987

282.357 109,70 1988

305.707 120,10 1989

415.916 125,00 1990

469.318 120,40 1991

405.679 121,40 1992

387.295 116,50 1993

429.685 124,90 1994

543.087 133,70 1995

705.449 130,02 1996

775.475 128,44 1997

807.814 138,35 1998

787.889 142,70 1999

536.554 140,03 2000

602.207 154,95 2001

509.797 162,23 2002

459.379 170,18 2003

506.784 182,64 2004

603.994 205,71 2005

796.284 221,60 Fonte: MARQUES (1996), ANTT (2006b) e BCB (2006).

Agregando-se aos produtos transportados por grandes setores de atividade, é significativa

a predominância de minérios (cerca de 49% do transporte e atendimento à quase totalidade da

demanda de minério de ferro) e a participação quase equilibrada dos combustíveis líquidos,

produtos agrícolas e produtos industriais de primeira transformação (cada grupo com

aproximadamente 16%).

No tocante às características físicas das mercadorias, destacam-se os granéis, sólidos ou

líquidos, os quais abrangem 80% do transporte. A participação dos granéis sólidos é superior

a 60%.

A concentração do tráfego em poucos segmentos do mercado de transportes ou em alguns

fluxos desses segmentos é salientada ainda pelo fato de apenas 20 clientes reunirem 70% da

produção e 72% da receita da RFFSA. Há ainda entre esses usuários alguns que, por suas

características institucionais, são estimulados ao uso do transporte ferroviário (como, ainda

hoje, os usuários do transporte de combustíveis líquidos).

Usuários e clientes potenciais têm atribuído a concentração apontada e a pequena

participação ferroviária no mercado de transporte à baixa confiabilidade da infra-estrutura

operacional do sistema: mesmo em corredores em que volumes e natureza das mercadorias,

distâncias de transportes e fretes poderiam favorecer à ferrovia, os custos adicionais gerados

pelas contingências dessa infra-estrutura poderiam elevar os custos totais para os usuários

(atribuíveis ao transporte na comercialização dos produtos e nos fretes rodoviários). De

qualquer modo, pelos problemas da infra-estrutura ou pela incompetência da organização nas

suas relações com o mercado, estudos e pesquisas da RFFSA caracterizaram, em 1992, a

existência de uma demanda insatisfatoriamente atendida (ou sem possibilidade de

atendimento), estimada em 10 milhões de toneladas, ou seja, 12% do total transportado nesse

ano, segundo MARQUES (1996).

A partir de 2000, o sistema ferroviário concedido ingressou em uma fase de

investimentos, que se caracterizou pelo aumento da capacidade instalada (aumento da oferta)

e pela assunção de serviços logísticos. Nesse período, foram ampliados os pátios de

manobras, aumentada a capacidade de suporte da via permanente, construídos terminais de

integração rodoferroviários e adquiridos novos materiais rodantes.

O sistema foi fortemente pressionado pelo aumento da demanda, segundo a ANTT

(2006b), notadamente o transporte de produtos, como granéis agrícolas de exportação (soja,

farelo e fertilizantes), minério de ferro, carvão, produtos siderúrgicos e combustíveis –

tradicionais produtos da ferrovia –, além de outras cargas, como materiais de construção

(cimento a granel e ensacados), açúcar, álcool e contêineres frigorificados, conforme TAB.

2.13. Em função do aumento da demanda, as concessionárias ferroviárias têm um programa

de investimento permanente para o atendimento desta, conforme TAB. 2.14.

TAB. 2.13 Mercadorias Transportadas em TU

Produto Agregado 2001 2002 2003 2004 Minério de Ferro 184.580.492

192.851.635

202.315.400

237.695.700

Indústria Siderúrgica 21.812.035

28.386.328

29.423.800

31.898.100

Cimento 5.559.784

5.236.490

4.801.300

4.812.100

Indústria Cimenteira e Construção Civil 1.774.514

1.734.794

950.000

567.200

Carvão/Coque 12.105.108

11.525.714

12.631.900

13.292.700

Granéis Minerais 5.447.245

6.336.784

8.349.200

10.200.700

Soja e Farelo de Soja 22.097.489

28.083.227

31.864.900

29.090.200

Produção Agrícola 9.777.245

7.487.715

8.738.300

10.209.000

Adubos e Fertilizantes 4.149.129

4.375.862

5.319.400

6.282.300

Extração Vegetal e Celulose 1.509.543

2.044.507

2.200.100

2.304.200

Combustíveis, Derivados de Petróleo e Álcool

7.466.538

8.433.036

7.684.400

7.806.600

Contêiner 8.439

88.133

42.600

533.400

Carga Geral - Não conteinerizada 332.628

153.284

132.000

653.800

Outras mercadorias 28.631.511

24.254.491

30.642.700

22.430.000

TOTAL

305.251.700

320.992.000

345.096.000

377.776.000

Fonte: ANTT (2006b).

TAB. 2.14 Investimentos em ferrovia no Brasil (em milhões de reais).

Concessionárias

1996

1997

1998

1999

2000

2001

2002

2003 2004 2005 Novoeste 8,8

7,3

7,6

10,9

7,5

3,1

9,9

33,5

FCA 61,4

60,3

53,9

89,7

151,0

86,6

117,0

472,0

572,4

MRS 44,1

108,6

82,4

75,9

105,7

84,3

70,9

113,8

277,2

398,0

FTC 2,5

2,6

3,5

1,6

1,3

2,7

3,8

4,9

ALL 59,7

40,2

93,2

82,3

76,4

64,6

74,1

89,1

392,7

Ferroeste 1,3

1,1

7,0

0,2

0,1

0,2

0,1

0,2

0,1

EFVM 87,4

78,3

54,9

44,6

126,7

108,6

144,7

521,2

494,1

1.036,0

EFC 22,7

32,4

55,0

29,8

75,6

165,1

78,0

152,2

396,6

754,9

CFN 4,4

10,1

7,9

-2,1

16,9

23,6

63,2

93,1

Ferroban 122,9

33,5

97,3

54,7

33,8

6,4

30,5

24,9

Ferronorte 118,2

76,4

160,1

119,8

56,8

53,0

67,2

Total

277,1

353,0

308,2

477,0

671,0

810,4

625,7

1.072,1

1.889,6

3.377,7

Fonte: ANTT (2006b).

A partir de um forte plano de investimentos visando à captação de novas cargas e clientes

e, especialmente à recuperação da capacidade operacional do sistema, a FCA objetiva

alcançar significativo crescimento no volume de mercadorias transportadas nos próximos

anos, especialmente de produtos químicos, na rota Camaçari (BA)-Paulínia (SP), e de carga

geral, com potencial de integrar a Bahia às regiões de grande dinamismo econômico do país,

segundo a BAHIAINVEST (2006).

Em função das perspectivas de crescimento do transporte ferroviário na Bahia, a FCA

estima que a demanda potencial no curto prazo é bastante promissora, alcançando os produtos

e os volumes anuais mostrados na tabela TAB. 2.15.

TAB. 2.15 Demanda Estimada na Bahia

Produto Quantidade / Ano

Gasolina 240 mil / m³

Adubo 36 mil t

Grãos 600 mil t

Contêineres 16 mil TEU

Escória 80 mil t

Cimento 60 mil t

Fonte: BAHIAINVEST (2006).

O horizonte para a economia do país projeta um crescimento do PIB real a taxas anuais

de 4,75% (2007), 5,00% (2008) e 5,25% (2009), segundo FEDERAL (2006), e, apesar da

persistência de fatores de instabilidade e de surtos recessivos em economias mais avançadas,

há previsões da continuidade da expansão da economia mundial.

As potencialidades do Brasil habilitam-no a ocupar espaços nesse prospecto, e o

atendimento a um mercado interno e de exportação intensamente ampliado, com redução dos

custos totais de transportes, é exigência do próprio desenvolvimento.

No país, o volume global dos transportes poderá ser multiplicado por 2,5 nos próximos

20 anos, ou seja, pode alcançar valor da ordem de grandeza de 1,5 trilhões de TKU. A

ferrovia poderia elevar sua participação nesse volume, tanto usando diretamente seus trilhos

quanto gerando elo nas cadeias multimodais de transportes, MARQUES (1996).

Entre as recentes oportunidades no comércio internacional, surgem destacadamente as

decorrentes da integração dos países do MERCOSUL e da intensificação das relações

comerciais com Bolívia, Chile e Peru. Atualmente, com a rápida abertura das economias

desses países, seus governos e empresas já assumem a integração da infra-estrutura física dos

transportes, em uma rede que considere os interesses comuns, como exigência de um novo

mercado em expansão.

Nesse contexto, a atenção pelo transporte ferroviário tem sido manifestada pelos

inúmeros projetos de ligações ferroviárias ou multimodais, ligações essas que levam em conta

a potencialidade da navegação fluvial; e pelas propostas de solução de problemas específicos

das conexões ferroviárias nas regiões fronteiriças daqueles países.

Tais observações, registrando a importância do crescimento da demanda global e do

possível aumento das distâncias médias de transporte, podem significar, para a iniciativa

privada, oportunidades de negócios na exploração das ferrovias brasileiras.

Para a ferrovia conseguir ampliar sua participação na matriz de transportes e atender ao

cliente de modo satisfatório, além de investimento em infra-estrutura e recursos humanos, é

necessário a otimização de ambos, e, para isso acontecer, uma das técnicas disponíveis é a

previsão de demanda, que será estuda no capítulo a seguir.

3 PREVISÃO DE DEMANDA

O planejamento e o controle das atividades de transporte dependem de estimativas

acuradas dos volumes de serviços a serem prestados pela empresa. Tais estimativas ocorrem

tipicamente na forma de planejamento e previsões, segundo BALLOU (2006).

3.1 TÉCNICAS DE PREVISÃO

Tais técnicas podem ser divididas em dois grupos principais de abordagem: quantitativo e

qualitativo, segundo MAKRIDAKIS et al. (1998). Na literatura, encontram-se inúmeras

propostas de subdivisões para classificar as técnicas de previsão, na tentativa de melhor

elucidá-las.

3.1.1 TÉCNICAS QUALITATIVAS DE PREVISÃO

As técnicas de previsão qualitativas, também chamadas de técnicas subjetivas ou

baseadas em critérios de juízo, são aquelas que utilizam primordialmente a capacidade

humana de estabelecer generalizações e extrapolações. Essas técnicas são pouco utilizadas, ou

simplesmente, não se utilizam, segundo PASSARI (2003).

Uma conclusão presente em vários estudos indica que, em geral, as empresas ficam mais

à vontade com essas técnicas do que com métodos quantitativos, segundo WHEELWRIGHT

e CLARKE (1976); MCHUGH e SPARKES (1983); MENTZER e COX (1984); FILDES e

HASTINGS (1994). Contudo, um estudo conduzido por SANDERS e MANRODT (1994)

sinaliza que a familiaridade com métodos quantitativos é crescente. Em sua pesquisa, 76%

dos respondentes afirmaram possuir familiaridade com pelo menos uma técnica quantitativa

para previsão de vendas contra 61% obtidos no estudo de MENTZER e COX (1984).

A familiaridade com métodos qualitativos deve-se ao fato de serem mais simples e

algumas vezes até intuitivos, fazendo com que sejam os métodos mais utilizados nas

empresas, segundo SANDERS e MANDRODT (1994); PETERSON e JUN, (1999). De fato,

a facilidade de uso e a capacidade de incorporar a experiência do gestor são os principais

argumentos utilizados para justificar o uso intensivo de técnicas de julgamento subjetivo nas

previsões, em detrimento de técnicas quantitativas, segundo WINKLHOFER et al. (1996).

Entretanto, diversos estudos mostraram que os métodos qualitativos oferecem baixa

acurácia (palavra de origem inglesa – accurate – com o significado de precisão) e, não raro, as

previsões subjetivas geram grandes erros, ocasionando distúrbios no planejamento e no

resultado final das operações corporativas, segundo LUXHOJ et al. (1996), ALIBAIG e

LILLY (1999), SUBRAHMANYAN (1998), SUBRAHMANYAN (2000), LAWRENCE et

al. (2000).

LAWRENCE et al. (2000) sugerem alguns motivos pelos quais as previsões subjetivas,

apesar de serem muitas vezes realizadas por analistas experientes e com informações

contextuais do mercado, não possuem bom desempenho:

as informações contextuais podem não ter valor preditivo;

enviesamento (tendenciosa a estimativa) e ineficiência na interpretação dos

relacionamentos podem mascarar as informações contextuais levadas em consideração;

excesso de dados a serem considerados pelo analista, fazendo com que ele ignore ou

atribua pesos errados às informações contextuais recebidas;

perturbações recentes na série temporal podem ser entendidas pelo analista como um

sinal de tendência, confundindo a interpretação das informações contextuais;

acurácia não é o critério mais importante nas previsões das empresas.

Para PASSARI (2003) e FREIRE (2005), as técnicas qualitativas são divididas em dois

grupos: técnicas exploratórias e técnicas de grupo. As principais técnicas exploratórias são

Pert-simplificado, teoria da utilidade e pesquisas de mercado. As principais técnicas de grupo

são o método Delphi, opiniões de júri executivo e composição de força de vendas.

Uma outra técnica qualitativa é o método AHP (Analytic Hierarchy Process) que

combina análise de decisão e planejamento de múltiplos critérios desenvolvida por Thomas L.

SAATY (1991).

A metodologia baseia-se no princípio de que, para a tomada de decisão, a experiência e o

conhecimento das pessoas são pelo menos tão valiosos quanto os dados utilizados. A

aplicação desse processo reduz o estudo de sistemas extremamente intricados a uma

seqüência de comparações aos pares de componentes adequadamente identificados.

3.1.2 TÉCNICAS QUANTITATIVAS DE PREVISÃO

Técnicas de previsão quantitativas são aquelas que usam dados históricos para calcular

matematicamente extrapolações dos dados futuros. A previsão com uso de técnicas

quantitativas pode ser aplicada quando, conforme MAKRIDAKIS et al. (1998):

1. as informações sobre o passado estejam disponíveis;

2. as informações possam ser quantificadas em termos matemáticos;

3. seja possível assumir que alguns aspectos do padrão verificado no passado continuarão

no futuro. Essa colocação é também chamada de pressuposto da continuidade.

O procedimento geral para estimar um padrão de relacionamento, seja causal ou de série

temporal, é por meio da aderência a uma forma funcional matemática qualquer, de modo a

minimizar o componente de erro. Exceção deve ser feita à modelagem baseada em redes

neurais artificiais, que pode ser usada tanto para modelos causais como de séries temporais,

porém não buscam a aderência a um modelo matemático explícito, segundo ANSUJ et al.

(1996).

A previsão causal, também chamada de explanatória, assume um relacionamento de

causa e efeito entre as entradas e saídas de um sistema. O sistema pode ser visto como a

economia nacional, o mercado de uma empresa e assim por diante. Já a previsão com uso de

séries temporais trata o sistema como uma “caixa-preta”, sem tentar descobrir os fatores que

causam os comportamentos observados.

A seguir as principais técnicas quantitativas de previsão são abordadas.

3.1.2.1 MODELOS DE ESCOLHA DISCRETA

Uma das técnicas possíveis para previsões quantitativas é a utilização de modelos de

escolha discreta, os quais têm sido aplicados principalmente na análise de participação de

mercado e também na área de transportes, para planejamento viário e de operações de

transporte, segundo PASSARI (2003). Entretanto, estes são, a rigor, modelos de classificação,

sendo que sua aplicabilidade para previsão de vendas é restrita. Por este motivo, essa

modelagem não será abordada neste trabalho.

3.1.2.2 ANÁLISES DE SÉRIES TEMPORAIS

Uma série temporal é uma seqüência de valores, ordenados no tempo, de uma variável de

interesse particular, segundo NEWBOLD (1995). Modelos de séries temporais realizam

previsões baseadas em uma série de dados observados em intervalos de tempo regulares,

buscando padrões no passado para prever o futuro. Esse tipo de modelagem é especialmente

útil quando há pouco conhecimento da base teórica sobre o processo em que os dados foram

gerados.

Segundo MAKRIDAKIS et al. (1998), existem duas razões básicas para tratar um

sistema como uma “caixa preta”:

1. o sistema não pode ser compreendido ou, mesmo que possa, é extremamente difícil

medir o relacionamento entre as variáveis que governam seu comportamento;

2. a preocupação pode ser simplesmente prever com algum grau de precisão o que vai

acontecer e não por quê.

É importante observar que as técnicas de análise de séries temporais desenvolveram-se de

modo paralelo à estatística convencional, isso porque praticamente todas as técnicas

estatísticas são baseadas no pressuposto de amostragem aleatória, ou seja, no pressuposto de

que os dados disponíveis são observações independentes do fenômeno de interesse. Esse

pressuposto raramente é verdadeiro para séries temporais, demandando, portanto, o

desenvolvimento de novas e específicas técnicas estatísticas.

Existem duas razões básicas para desconfiar do pressuposto de observações

independentes em séries temporais, segundo NEWBOLD (1995):

1. os fatores econômicos que contribuíram para a geração de um valor não mudam

repentinamente, tendendo-se a manter um nível próximo em períodos adjacentes. Por

exemplo, se os transportes de um mês foram altos, muito provavelmente os do mês

subseqüente também o serão, estando, portanto, os dados de transportes relacionados de

algum modo;

2. há geralmente a presença de sazonalidade, ou seja, de padrões de longo prazo,

constantes, repetitivos. O intervalo da sazonalidade vai depender da série em estudo, na

ferrovia, ela pode ser semanal, mensal ou anual.

Assim, o pressuposto de amostragem aleatória não é válido para séries temporais, e o uso

de técnicas convencionais leva a grandes erros nesse tipo de análise, segundo NEWBOLD

(1995). Pelo contrário, as técnicas de previsão a partir de séries temporais valem-se

justamente do fato de as observações serem bastante dependentes, possibilitando a inferência

de valores futuros a partir de dados históricos.

Apesar de sua grande aceitação, as técnicas de séries temporais possuem importantes

limitações. A principal delas é o fato de as causas que agem sobre as variáveis previstas serem

completamente ignoradas. Todas as forças externas, como fatores econômicos, esforços de

marketing, ações dos competidores, e assim por diante, são desprezadas. Outra deficiência é

que os padrões históricos que geraram as séries mudam com o tempo, e as técnicas podem não

detectar tais mudanças. Suas deficiências resultam em previsões com baixa acurácia,

especialmente no longo prazo, segundo GROSS e PETERSON (1983).

Como nessa classe de modelagem a preocupação é apenas com o comportamento da

variável de interesse no tempo - desprezando todos os fatores exógenos condicionantes de seu

comportamento - as técnicas quantitativas de previsão mais simples, e que demandam menor

esforço matemático-computacional, inserem-se nessa categoria. No entanto, dado o

desenvolvimento constante das técnicas, algumas delas são de fato bastante complexas e de

implementação difícil.

Apesar de todos os problemas verificados com as técnicas de análise de séries temporais,

elas continuam a ser extensivamente usadas e estudadas e, portanto, são brevemente

abordadas neste trabalho.

3.1.2.3 MÉTODOS DE AMORTECIMENTO POR MEIO DE MÉDIAS

Também chamada de “smooth”, em inglês, essa classe de métodos propicia um

amortecimento no gráfico da variável estudada, por meio de processos matemáticos

relativamente simples.

3.1.2.4 TÉCNICAS “NAIVE”

Talvez o mais simples método de amortecimento - e também de previsão - seja o

chamado método naive (“ingênuo”) não ajustado, que consiste simplesmente em considerar a

última observação conhecida da série como sua melhor expectativa para o futuro. Ou seja,

parte da idéia de que amanhã será, com grande chance, como hoje. Por mais simplória que

pareça, essa metodologia é freqüentemente usada para comparar o ganho em capacidade

preditiva ao se adotar uma técnica mais elaborada; e já foi mostrado que sua aplicação oferece

acurácia igual ou significativamente melhor que técnicas qualitativas, conforme LAWRENCE

et al. (2000).

Uma forma ligeiramente melhorada de técnica naive é a chamada naive ajustada, onde

também é utilizada a última observação para efeito de previsão, porém ela é antes

desazonalizada: o efeito da sazonalidade é minimizado por meio de técnicas de decomposição

- mostradas adiante - melhorando assim sua acurácia. Esse método também é usado para fins

de comparação entre capacidades preditivas.

3.1.2.5 TÉCNICAS “AVERAGING”

São as técnicas usualmente referenciadas como de amortecimento por meio de médias -

ou averaging - propriamente ditas, aplicando procedimentos matemáticos - especialmente o

cálculo sucessivo de médias - para extrapolar a série temporal no futuro.

O mais simples método dessa classe, conhecido como “simple average”, é o cálculo da

média das últimas observações como uma aproximação de seu valor no futuro. De fato, se

considerarmos um fenômeno que gere saídas constantes estacionárias, flutuando ao redor de

um ponto, a média é uma boa previsão. Entretanto, se a série contiver tendências ou

sazonalidades, a média deixará de ser efetiva. Mas outras técnicas utilizam mecanismos de

amortecimento dos dados por meio de médias, buscando incorporar tais características dos

dados em seus resultados.

A mais conhecida delas - presente em praticamente todos os livros de estatística aplicada

- é a de médias móveis, ou em inglês “moving averages”. A técnica consiste em tomar uma

média de um número fixo de observações que se move conforme se progride na série de

dados. Assim, para se ter a primeira observação em um “moving average”, que utiliza a média

de k observações, é necessário passar pelos k primeiros números, realizando sua média. A

segunda observação seria composta também pela média de k valores da série, mas iniciando

pelo segundo número e incluindo o próximo, e assim por diante.

Quanto maior o número de pontos tomados, mais estáveis as séries obtidas. Maior

estabilidade também pode ser conseguida por meio da aplicação do algoritmo de averaging

mais de uma vez, fazendo a média das médias. Surgiram, assim, as chamadas “double moving

averaging” e “triple moving averaging”, com a aplicação das médias duas, três ou mais vezes.

As técnicas averaging não são muito utilizadas para previsão, dada sua baixa acurácia.

De fato, seu uso mais freqüente é o utilizado na desazonalização dos dados, ou seja, na

tentativa de minimizar os efeitos da sazonalidade em dados que servirão de entrada a outras

técnicas, segundo PASSARI (2003).

3.1.2.6 MÉTODOS DE AMORTECIMENTO EXPONENCIAL

As técnicas de “moving averages” possuem alta estabilidade nas respostas fornecidas,

característica esta que é bastante desejável num sistema de previsão, para superar o problema

das grandes oscilações devido às alterações puramente aleatórias. Porém a taxa de resposta às

variações é de difícil modificação - baseia-se inerentemente no número de observações

tomadas. Outro problema grave dessas técnicas é sua baixa eficiência, isto é, baixo nível de

“aprendizado” ou correção dos erros com o tempo.

Na tentativa de sanar os problemas citados, foram desenvolvidas técnicas de

amortecimento exponencial, que envolvem a aplicação de pesos distintos aos dados históricos,

para dar maior importância às observações mais recentes. Nessas técnicas, a taxa de resposta

pode ser facilmente corrigida, dando maior flexibilidade aos modelos produzidos. Outra

vantagem é que elas utilizam menor número de dados da série, e, portanto, a necessidade de

registro histórico é menor.

A regra geral utilizada no desenvolvimento das técnicas de amortecimento exponencial é:

para se obter uma estimativa da demanda, adicione à estimativa do mês anterior uma fração

do erro verificado. Ou seja:

Nova estimativa = antiga estimativa + a (demanda - antiga estimativa).

Rearranjando:

1)1( tt PQP EQ. 3.1

onde:

P = valor previsto;

Q = demanda atual;

a = fator de peso.

Quanto maior o fator de peso, mais rápida a resposta das previsões às mudanças

observadas; ao contrário, quanto menor o parâmetro a, mais estáveis serão as previsões.

As principais técnicas desenvolvidas com base na idéia de amortecimento exponencial

são:

single exponential smoothing. Aplicação da EQ.3.1 uma única vez para cada período

previsto;

double exponential smooting. Aplicação do amortecimento exponencial duas vezes

sucessivas, utilizando o resultado da primeira iteração como entrada na segunda. Pode-se

empregar o mesmo parâmetro (conhecido como Método de Brown), usando, portanto, a

mesma equação duas vezes; ou aplicar dois parâmetros distintos nas iterações (método de

Holt);

triple exponential smoothing. Aplicação do amortecimento exponencial por três

vezes sucessivas. De modo semelhante ao “double exponential smooting”, pode-se utilizar um

(método de Brown quadrático) ou três parâmetros distintos (método de Winter);

adaptative parameter exponential smoothing (ARRSES). É, na verdade, um caso

típico de “single exponential smoothing”, porém o fator de peso é definido matematicamente

a partir dos valores de P e Q e desse modo passa a ter certa liberdade para variar conforme se

progride na série de dados. Essa característica aumenta a eficiência dos modelos, fazendo com

que possam adaptar-se melhor aos dados e diminuir os erros com o passar do tempo.

Outras equações podem ser geradas a partir da equação geral de amortecimento

exponencial, conforme EQ.3.1, como aquelas escritas a partir do modelo de classificação de

Pegel, segundo MAKRIDAKIS et al. (1998). Tais extrapolações não são, entretanto, muito

utilizadas na prática.

As maiores vantagens das técnicas de amortecimento exponencial são sua simplicidade e

baixo custo de desenvolvimento; elas podem facilmente ser aplicadas por meio de planilhas

de cálculo. Com dados estacionários, podem-se utilizar com sucesso as técnicas simples de

amortecimento exponencial. O método de Brown é indicado para dados não-estacionários sem

sazonalidade; principalmente, por requerer apenas um parâmetro. O método de Brown

quadrático também é bastante utilizado por sua simplicidade e boa capacidade de detectar

pontos de inflexão na tendência. Seu ponto falho é sua rápida reação (baixa estabilidade),

podendo indicar pontos de inflexão, onde na verdade há apenas pequenas variações aleatórias.

Para dados com sazonalidade, a única técnica largamente utilizada é a de Winter, segundo

MAKRIDAKIS et al. (1998). Essa técnica é normalmente preferida em detrimento das

técnicas averaging para previsão, por oferecer maior acurácia e necessitar de menor número

de dados históricos armazenados e computados.

3.1.2.7 MÉTODOS DE DECOMPOSIÇÃO

Ao contrário das técnicas de amortecimento, que tentam distinguir entre os padrões e os

erros nos dados por meio de uma medida média de valores anteriores, as técnicas de

decomposição buscam separar os componentes que possam estar presentes nos dados. Os

componentes usualmente citados na literatura são:

tendência (T). Envolve a expectativa de crescimento ou decaimento em um período

longo de tempo. Por exemplo, apesar de apresentar altos e baixos, o índice do Produto Interno

Bruto (PIB) de um país desenvolvido tende a aumentar com o tempo;

sazonalidade (I). São flutuações periódicas de amplitude constante. Muitas variáveis

econômicas possuem forte padrão anual, semestral ou trimestral, e outras variáveis podem ter

sazonalidades quaisquer; pode-se verificar facilmente um aquecimento da economia próximo

ao fim do ano, por exemplo;

componente cíclico (C). Compreende padrões oscilatórios, desconectados de

comportamentos sazonais repetitivos. Não é necessariamente regular, mas segue um certo

padrão ao longo do tempo, geralmente relacionado ao comportamento macroeconômico;

componente irregular (e). Agrega a multitude de fatores que influencia o

comportamento de uma série real, e cujo padrão parece ser imprevisível. Os modelos de

decomposição supõem que se pode escrever o padrão dos dados como:

Y = F(tendência, ciclo, sazonalidade) + e

Tal relação pode ser aditiva, do tipo:

Y = (T + C + I) + e

Ou multiplicativa, como:

Y = TCI + e

Todas as técnicas desse gênero, como a Decomposição Clássica ou a Decomposição

Censo II, envolvem a decomposição dos dados nos fatores acima (tendência, ciclo e

sazonalidade), segundo GROSS e PETERSON (1983).

3.1.2.8 MÉTODOS AUTO-REGRESSIVOS (ARIMA)

Os métodos Auto-Regressivos (Autoregressive Integrated Moving Average - ARIMA)

constituem uma classe genérica de métodos capazes de gerar modelos por meio da

combinação de três técnicas matemático-estatísticas: auto-regressão (regressão com base no

tempo); moving averages (para suavizar e dasazonalizar); e diferenciação (para incluir

processos não estacionários). BOX e JENKINS (1976) uniram à teoria de modelagem auto-

regressiva a capacidade de tratar dados não-estacionários, por meio de um processo de

diferenciação, criando a classe genérica de modelos ARIMA, que também passaram a ser

conhecidos como modelos Box-Jenkins.

As equações utilizadas no método ARIMA são normalmente referenciadas por ARIMA

(a,b,c), onde: a representa o grau de auto-regressão utilizado, b representa o grau de

diferenciação, e c representa o grau de moving average usado. Desse modo, são possíveis

inúmeras combinações, gerando um conjunto de equações que são escolhidas conforme as

características dos dados.

A metodologia proposta por BOX e JENKINS (1976) define três passos para a

construção do modelo de previsão:

1. identificação de um ou mais modelos que descrevam a série temporal adequadamente.

É feita utilizando ferramental estatístico, testando a estrutura de correlação da série, a partir da

classe genérica ARIMA (a,b,c);

2. estimação dos parâmetros dos modelos. É similar à estimação de parâmetros de

modelos de regressão, porém com uso de técnicas de estimação não-lineares;

3. condução do diagnóstico dos modelos. É realizada por meio da medição dos erros

provocados por cada modelo e seleção daquele com maior acurácia.

Apesar de seu apelo estatístico e teórico, esses modelos nunca foram muito utilizados na

prática, principalmente devido à sua complexidade matemática, que nem sempre se traduz em

melhoria na acurácia, segundo MAKRIDAKIS et al. (1998).

3.1.3 TÉCNICAS CAUSAIS

As técnicas de previsão baseadas em análises de séries temporais são especialmente úteis

quando há pouco conhecimento sobre a teoria envolvida no processo investigado. Por

exemplo, se houver total desconhecimento dos fatores que influenciam a demanda de um

determinado produto, ou se esses fatores não puderem ser mensurados, então o uso de uma

técnica de análise de séries temporais pode ser a mais adequada.

Porém o uso dessa abordagem resulta em previsões não explicativas e,

conseqüentemente, o gestor não é capaz de realizar simulações sobre o comportamento da

variável de interesse com mudanças em outros fatores, especialmente sobre os quais ele tem

controle. Por exemplo, a demanda de um produto é claramente influenciada pelo preço

praticado, e esse preço é um fator que está sob controle do gestor. Habilitar o gestor a simular

o comportamento da demanda com mudanças no preço é fornecer a ele uma ferramenta de

apoio à decisão, o que é um passo além de uma simples ferramenta de previsão de vendas.

As técnicas de previsão causais buscam descrever matematicamente as relações de causa

e efeito entre a variável que está sendo medida e seus fatores constituintes (explicativos). Um

modelo causal, conforme o descrito por uma equação de regressão, tem a vantagem de

permitir ao tomador de decisões explorar como mudanças nas variáveis explicativas alteram a

saída prevista.

3.1.4 MODELOS DE REGRESSÃO

Freqüentemente, o relacionamento entre duas ou mais variáveis de interesse pode ser bem

modelado por meio de uma equação matemática. O processo de adaptação de uma equação

matemática a um fenômeno envolvendo duas ou mais variáveis, de modo que uma delas seja

dependente das demais, é chamado de regressão, o qual gera modelos matemáticos que

buscam representar a relação de causa e efeito entre as variáveis consideradas.

Se existir uma associação entre duas variáveis quaisquer, diz-se que há covariância

positiva (ou negativa). Se não há associação entre as variáveis, a covariância é nula.

Entretanto esse valor depende da unidade de medida das variáveis. Para superar essa restrição,

foi definida a correlação, que é uma medida pura, independente de escala.

Quanto maior o coeficiente de correlação (em módulo), mais forte a associação entre as

variáveis. Todas as técnicas de regressão são baseadas na idéia de associação entre as

variáveis, demonstrada estatisticamente por meio da correlação.

A técnica mais simples de regressão é a Regressão Linear, que modela o relacionamento

entre uma variável dependente Y e uma variável independente X de modo linear. Assim:

XY EQ. 3.2

onde:

e = variável aleatória com média zero.

Por exemplo, se demanda for a variável dependente e ela tiver uma correlação linear com

o preço, escreve-se:

PQ EQ. 3.3

onde:

Q = demanda;

P = preço ofertado.

Na verdade, a regressão linear é um caso específico da técnica geral de análise de

Regressão Múltipla, que estabelece matematicamente a relação entre uma variável dependente

e uma ou mais variáveis independentes. Assim:

kk XXXY 2211 EQ. 3.4

No caso de previsão de vendas, por exemplo, pode-se relacionar a demanda do produto

(variável dependente) com a renda dos consumidores, o tamanho da população, o preço do

produto, o preço de seus substitutos e complementares, o nível de promoção, o crescimento

macroeconômico, entre outros.

Para que as equações possam ser efetivamente empregadas como modelos de previsão, é

necessária a determinação dos parâmetros a e ßk. A principal técnica para determinação dos

parâmetros de um modelo de regressão é a de mínimos quadrados, que se baseia no teorema

de Gauss-Markov. NEWBOLD (1995) mostra que a técnica de mínimos quadrados é não-

enviesada e ótima para modelos lineares, além de muito bem aplicada a modelos de regressão

múltipla. A qualidade de aderência do modelo aos dados é calculada em termo do erro

verificado, que é minimizado por meio da técnica de mínimos quadrados.

Um termo relevante nas análises de regressão é o coeficiente de determinação (R2), o qual

é interpretado como a proporção de variação total da variável dependente que é explicada pela

variação da variável independente.

Quanto maior o R2 (com valores entre 0 e 1), diz-se que a curva está mais ajustada aos

dados, portanto, o modelo representa bem os dados usados para construí-lo.

Comparativamente, os modelos de regressão requerem um esforço maior para construção

do que as técnicas de séries temporais, excetuando-se possivelmente os modelos ARIMA,

segundo PASSARI (2003). Além disso, eles requerem uma série de testes estatísticos para a

seleção das variáveis de entrada mais relevantes e exigem um conhecimento prévio da forma

funcional do relacionamento entre as variáveis. Em condições normais, tal determinação a

priori é difícil de ser obtida. Uma técnica usual é tentar diversas formais funcionais, a fim de

acarretar em uma família de equações, optando-se pela equação com maior aderência aos

dados. Mesmo nesse caso, deve-se decidir as formas funcionais a serem consideradas.

Freqüentemente, os analistas assumem hipóteses simplificadoras de linearidade na

estrutura dos dados, para que os modelos sejam construídos mais facilmente. Modelos

lineares, entretanto, têm performance ruim na determinação de pontos de inflexão. Como os

problemas em marketing sempre lidam com dados como vendas e preços, as séries de dados

estão inseparavelmente ligadas a pontos de inflexão, tendências e não-linearidades, e muitas

vezes podem ser até mesmo caóticas, conforme THALL (1992).

MAKRIDAKIS et al. (1998) desenvolveram uma metodologia para a escolha das

variáveis a serem utilizadas nos modelos de regressão múltipla, a qual envolve:

1. determinação de uma “lista longa” com todas as variáveis potenciais que possam ter

algum efeito sobre a variável dependente analisada, e baseada na opinião de especialistas, na

disponibilidade dos dados e no esforço e custo associado à aquisição dos dados;

2. redução para uma “lista curta”, empregando métodos variados na eliminação de

algumas das possíveis variáveis da lista longa. Os mais simples (e menos recomendados) são:

a) plotar cada variável contra Y, observando se há alguma relação visível;

b) observar as correlações entre todas as variáveis independentes potenciais, eliminando

as de grande correlação para evitar multicolineariedade;

c) efetuar uma regressão múltipla com todas as variáveis e eliminar aquelas com baixo t.

Os métodos mais sofisticados, segundo MAKRIDAKIS et al. (1998) são:

a) regressão stepwise (método iterativo de retirada de variáveis e testes de significância);

b) análise de componentes principais;

c) análise horizontal no tempo (lag analysis).

Já ACZEL (1993) sugere as seguintes abordagens:

testar todas as regressões possíveis. Assim, tendo k variáveis independentes, tem-se

2k possibilidades, já que cada variável pode estar ou não incluída no modelo. Aplica-se, então,

um critério de performance para seleção da melhor opção, que pode ser maior R2 ou menor

MSE (Erro Quadrado Médio);

seleção “para frente”. Começa com um modelo sem variáveis, testando uma de cada

vez e selecionando aquele com maior F estatístico (da análise de componentes principais). O

processo recomeça, adicionando mais uma variável e mantendo aquela pré-selecionada;

eliminação “para trás”. Funciona de maneira oposta à seleção para frente: começa

com um modelo com todas as possíveis k variáveis e é retirada aquela com menor F,

recomeçando o processo;

regressão stepwise. É na verdade uma mistura da seleção para frente e eliminação

para trás, que reavalia o nível de significância de todas as variáveis a cada passada - ao

contrário dos demais uma vez tomada a decisão de incluir ou excluir uma determinada

variável, ela não mais é revista.

Apesar das dificuldades na seleção das variáveis e construção dos modelos, HUSSEY e

HOOLEY (1995) mostraram que a análise de regressão é a técnica estatística mais utilizada

nas empresas européias, atingindo cerca de 18% dos respondentes. Essa popularidade deve-se

a pelo menos dois fatores, segundo GROSS e PETERSON (1983):

1. são técnicas de fácil compreensão, mesmo para aqueles sem profundos conhecimentos

matemáticos ou estatísticos;

2. resultam em boa acurácia para a maior parte das aplicações.

Certamente, os modelos de regressão são os que oferecem maior capacidade explicativa

para as variações nos dados, já que é possível enxergar a relação matemática entre as

variáveis explicitamente. Mas, de acordo com ZHOU (1999), eles nem sempre oferecem as

melhores previsões. A maior parte das limitações das regressões está relacionada aos

pressupostos que foram assumidos para a formulação das equações e determinação dos

parâmetros ideais. Os pressupostos assumidos ao se desenvolver um modelo de regressão

qualquer, com n pares de observações disponíveis, são, segundo NEWBOLD (1995):

1. os valores de xi são números fixos (determinados, por exemplo, por um experimento)

ou realizações de variáveis aleatórias Xi, que são independentes do erro e.

2. os termos de erro e são variáveis aleatórias com média zero.

3. as variáveis e têm a mesma variância.

4. as variáveis e não estão correlacionadas uma com a outra.

5. não é possível determinar um grupo de números c0 ... ck de modo que:

c + c1x1 + c2x2 + ... + ckxk = 0

(ou seja, as variáveis independentes não estão correlacionadas).

Para PASSARI (2003), as principais limitações da análise de regressão são decorrentes

dos pressupostos acima, e podem ser listadas como sendo:

1. relacionamento constante. As técnicas de regressão assumem um relacionamento

constante entre as variáveis, durante o período histórico compreendido pelos dados utilizados

na criação do modelo. Ou seja, todas as observações possuem o mesmo peso durante a

regressão; o que pode ser um problema sério ao se utilizar grande horizonte de dados

históricos ou ao analisar mercados altamente dinâmicos;

2. autocorrelação. Refere-se à condição onde o valor da variável prevista está relacionado

ao seu valor no período anterior. A análise de regressão assume valores aleatórios e não

ordenados (correlacionados) das variáveis previstas; problema que gera previsões enviesadas -

sub ou sobrestimadas constantemente;

3. multicolinearidade. Presente quando uma ou mais, e até mesmo todas as variáveis

independentes estão relacionadas entre si. A existência desta condição teoricamente invalida

as medidas de correlação e o procedimento de stepwise. Se existir multicolineariedade

perfeita numa regressão, a solução ótima baseada no método dos Mínimos Quadrados não

pode ser encontrada. No caso de multicolineariedades quase perfeitas, esta solução será

afetada por problemas de arredondamento nos computadores;

4. causalidade. A regressão assume uma relação de causalidade entre a variável

dependente e as variáveis independentes; porém essa relação não pode ser tida como certa.

Pode-se afirmar que duas variáveis estão estatisticamente correlacionadas (a mudança em uma

é acompanhada de uma mudança proporcional na segunda), contudo nada se pode afirmar em

respeito à relação de causalidade entre as duas;

5. linearidade. Refere-se à linearidade dos coeficientes e relata-se diretamente ao

desenvolvimento dos testes F e T. Em outras palavras, se for violada, os testes estatísticos não

são mais válidos;

6. independência dos residuais. Também se reflete nos testes F e T, tornando os

resultados destes não válidos. O teste Durbin-Watson é um modo de examinar se este

pressuposto está sendo respeitado;

7. homocedasticidade. Refere-se à variância dos erros, que deve ser constante. Mais uma

vez, o impacto está na validade dos testes F e T;

8. normalidade dos residuais. Se há forte violação da normalidade nos erros, os testes

estatísticos não são recomendados;

9. intervalo de confiança. Há um intervalo de confiança ao qual o modelo é aplicável, que

pode ser determinado matematicamente. O desrespeito ao intervalo de confiança gera

previsões errôneas.

3.1.5 MODELOS ECONOMÉTRICOS

Assim como a regressão linear simples é um caso especial da regressão múltipla, esta

última pode ser vista como um caso especial da modelagem econométrica. Os modelos

econométricos envolvem várias equações de regressão, com mais de uma variável

dependente. Vale ressaltar que alguns autores usam o termo “econométrico” para qualquer

modelo de regressão, seja simples, múltiplo ou de várias equações. Na verdade, as técnicas

econométricas surgiram efetivamente para prever índices econômicos, como o próprio nome

diz, e foram posteriormente adaptadas para previsões microeconômicas, segundo PASSARI

(2003).

A análise de regressão assume que cada uma das variáveis independentes seja

determinada por fatores externos, exógenos ao sistema. Esse pressuposto nem sempre é

verdadeiro na análise macroeconômica, onde as variáveis exibem comportamentos

interdependentes.

A maior vantagem dos modelos econométricos é sua habilidade em lidar com

interdependências, ou seja, em levar em consideração variáveis com efeito mútuo, onde não é

possível determinar uma relação de causa e efeito claros. Sua principal desvantagem é a

inexistência de um conjunto de regras que possam ser aplicadas em situações distintas, o que

torna o desenvolvimento dos modelos altamente dependente do problema específico,

solicitando sempre a presença de um analista experiente.

Por exemplo, se um governo quiser saber qual o impacto de uma redução de impostos em

uma economia em recessão, uma modelagem econométrica seria bem apropriada. Tal redução

afetaria a renda das pessoas e empresas e influenciaria toda a economia, incluindo nível de

preços, desemprego, capital circulante aplicado, e assim por diante. Todos esses fatores são

inter-relacionados, e uma equação de regressão múltipla não seria capaz de modelar esse

fenômeno eficazmente - tal problema seria mais bem expresso com o uso de um conjunto de

equações econométricas.

3.1.6 REDE NEURAL ARTIFICIAL (RNA)

As RNA são sistemas paralelos distribuídos compostos por unidades de processamento

simples, denominados neurônios, que calculam determinadas funções matemáticas

normalmente não-lineares. Tais unidades são dispostas em uma ou mais camadas e

interligadas por um grande número de conexões, geralmente unidirecionais. Na maioria dos

modelos estas conexões estão associadas a pesos, os quais armazenam o conhecimento

representado no modelo e servem para ponderar a entrada recebida por cada neurônio da rede.

O funcionamento destas redes é inspirado no cérebro humano, conforme HAYKIN (2001).

Para que uma rede neural possa realizar previsões, esta deve ter a capacidade de

memória. É de acordo com a maneira de aderir memória à rede que classificamos as redes

neurais de previsão em dois tipos: i) a rede considera entradas atrasadas no tempo; ii) a rede

tem laços de realimentação.

Os modelos de Redes Neurais comumente utilizados na previsão de séries temporais são

MultiLayer Perceptron, Redes com filtros FIR (Finite Impulse Response) e Redes de Elman,

conforme CALÔBA et al. (2002) e ARAÚJO e GOMES (2005). Maiores informações sobre a

RNA deve-se consultar o anexo 9.2.

3.1.7 LÓGICA FUZZY

A Lógica Fuzzy foi criada por L. A. Zadeh em 1965 e, segundo MENDEL (1995), tem

como objetivo modelar o modo aproximado de raciocínio, permitindo o desenvolvimento de

sistemas que imitem a habilidade humana de tomar decisões racionais em um ambiente de

incerteza e imprecisão. Deste modo, a lógica fuzzy é uma ferramenta capaz de capturar

informações imprecisas, em linguagem natural, e convertê-las em uma forma numérica.

Um sistema fuzzy para previsão de séries difere um pouco dos sistemas fuzzy para outras

aplicações. A extração das regras se faz a partir de dados numéricos (ocorrências temporais da

série), conforme MENDEL (1995), isto é, o conhecimento é adquirido diretamente da própria

série, que faz então o papel do especialista. Maiores informações sobre Lógica Fuzzy deve-se

consultar o anexo 9.3.

3.1.8 NEURO-FUZZY

Sistemas neuro-fuzzy (SNF), segundo MENDEL (1995), são sistemas híbridos, porque

utilizam mais de uma técnica de identificação de sistemas para a solução de um problema de

modelagem. Essa mistura de técnicas reflete na obtenção de um sistema mais poderoso (em

termos de interpretação, de aprendizado, de estimativa de parâmetros, de generalização, etc).

Os sistemas neuro-fuzzy combinam a capacidade de aprendizado das redes neurais artificiais

(RNAs) com o poder de interpretação lingüístico dos sistemas de inferência fuzzy (SIFs),

MENDEL (1995).

3.2 MÉTODOS DE PREVISÃO APLICADOS AO TRANSPORTE FERROVIÁRIO

A maior parte dos estudos de previsão de demanda aplicados ao transporte ferroviário se

refere ao transporte de passageiros, segundo COELI (2004). São poucos os que se aplicam ao

transporte ferroviário de carga. BABCOCK et al. (1999) analisaram a demanda por transporte

ferroviário de grãos nos EUA. Conscientes de que essa demanda é dependente de inúmeros

fatores, os autores desenvolveram um modelo de equilíbrio que explicita as principais

variáveis que influenciam a oferta e a demanda por transporte ferroviário.

Segundo BABCOCK et al. (1999), a demanda por transporte ferroviário depende de

fatores externos às ferrovias, relacionados à disponibilidade de produtos a serem

transportados, à demanda nos mercados de destino e à competitividade dos modos

concorrentes (preço e performance). Por outro lado, a oferta disponível está relacionada a

fatores internos, que determinam a competitividade na própria ferrovia.

No Brasil, ÁVILA (1999) desenvolveu um estudo em que procurava prever a demanda

por transporte de carga no Mercosul. Seu foco, portanto, não estava apenas no transporte

ferroviário, mas em todos os modos de transporte. Para a realização do estudo, o pesquisador

levou em conta aspectos políticos, econômicos e sociais dos países do bloco. Aplicou, então,

uma metodologia que usava como ponto de partida as séries históricas de dados sócio-

político-econômicos e de dados de transporte e utilizou a técnica econométrica e modelos de

regressão, a fim de incluir as variáveis que considerou relevantes para prever a demanda no

Mercosul.

No que se refere à escolha dos modos de transporte no escoamento da soja brasileira,

encontra-se o estudo de FAJARDO (2001). Tal estudo foca na escolha da alternativa mais

adequada para o transporte da soja produzida nos estados do Mato Grosso e Pará. Seu

objetivo final é observar a possibilidade de inversão do fluxo de transportes em direção aos

portos do Norte e Nordeste do país.

ALMEIDA (1992) realizou estudo semelhante, no qual procurou mostrar os benefícios da

utilização do rio Araguaia para o transporte de soja. Para isso, calculou o valor do

investimento em infra-estrutura para viabilização da hidrovia (derrocamento, dragagem e

sinalização, terminais portuários), identificou o modo pela qual o fluxo de cargas ocorreria ao

longo do rio, levando em conta os fatores que considerou relevantes (custos, tipo de comboio,

salários) e comparou com outras alternativas de transporte, concluindo que o transporte

hidroviário é mais vantajoso.

Outro estudo que segue essa mesma linha é o de NASCIMENTO (2000), cujo objetivo

foi analisar as alternativas de transporte hidroviário, mostrando os benefícios da utilização

desse modo de transporte para o aumento da competitividade da produção brasileira de grãos

frente à produção norte-americana.

3.2.1 PREVISÃO COM DATA MINING

Mineração de dados ou Data Mining é o processo de varrer grandes bases de dados à

procura de padrões, tais como: regras de associação, sequências temporais e dados para

classificação de itens ou agrupamento (clusterização). Maiores explicações serão dadas no

capítulo 4.

De uma maneira geral, a área de previsão é uma dentre aquelas de Data Mining que tem

sido pouco desenvolvida, segundo COELHO (2005); seu trabalho apresenta o algoritmo de

indução de modelos de previsão baseados em árvore chamado M5.5’, que é uma evolução do

algoritmo M5 proposto por QUINLAN (1992), e que são utilizados dentro de Data Mining.

Em SILVA (2006), estudam-se métodos de Data Mining como redes neurais e algoritmos

genéticos junto com ferramentas de modelagem de reservatórios para tentar produzir soluções

mais eficientes na predição e otimização da produção de petróleo. As soluções testadas se

mostraram eficientes na modelagem do problema, permitindo bons resultados de previsão de

produção tanto para curto, quanto longo prazo.

MOTA FILHO (2005) utiliza técnicas disponíveis em Data Mining para o planejamento

de circulação de trens em ferrovias, que consiste em determinar os melhores horários de

entrada e saída de cada trem em cada segmento do seu percurso, sendo que o objetivo

primordial a ser alcançado é reduzir ao máximo os atrasos sofridos pelos trens em

conseqüência dos conflitos que podem ocorrer durante a circulação deles na linha ferroviária.

MONTEIRO NETO (2002), em seu trabalho, propõe um sistema de informações a ser

utilizado pelos tomadores de decisão do Departamento de Estradas de Rodagem do Paraná,

em suas tarefas referentes ao gerenciamento da extensa malha rodoviária sob jurisdição direta

do Estado. Para tanto, ele utilizou os Sistemas de Apoio à Decisão; entre eles, o Data Mining.

WEIGANG et al. (2001) desenvolveram um Sistema de Transporte Inteligente (ITS), o

qual está sendo utilizado para otimizar a operação e elevar o nível de satisfação dos usuários

de transporte urbano. Para atingir os objetivos almejados, esse sistema utilizou tecnologias de

setores distintos, tais como: Sistema de Posicionamento Global (GPS); Sistema de

Informações Geográficas (GIS); Banco de Dados / Data Warehouse / Data Mining; Internet e

Telecomunicação; cujo objetivo é disponibilizar informações aos usuários de transporte

coletivo nas paradas de ônibus e posteriormente pela Web.

A General Accounting Office (GAO), agência do senado dos Estados Unidos que

acompanha a utilização de recursos públicos, em seu relatório de maio de 2004, informa que

há 199 projetos de Data Mining, sendo que 68 estão em fase de planejamento e 131 em

execução. A maioria dos projetos são para melhorar serviços ou analisar o desempenho dos

mesmos, passando por área como detecção de fraudes e atividades terroristas. Um dos

projetos em execução é na área ferroviária que consiste na utilização dos bancos de dados de

pagamento e dados dos empregados das ferrovias.

Outro trabalho que utiliza Data Mining na área de transporte é o de ICHIKAWA et al.

(2002), no qual utilizam-se as técnicas de árvore de decisão e classificação para se obterem

relações entre as características sócio-econômicas e padrões de viagens dos habitantes de São

Paulo, em 1987.

A escolha do Data Mining, para se fazer previsões de demanda com enfoque em

transporte ferroviário, deveu-se ao fato de ser uma ferramenta voltada para manipulação de

grandes volumes de dados e de não se encontrarem trabalhos sobre ferrovia de carga nessa

área.

4 DATA MINING

Os constantes avanços na área da Tecnologia da Informação têm viabilizado o

armazenamento de grandes e múltiplas bases de dados. Tecnologias como a internet, sistemas

gerenciadores de banco de dados, leitores de códigos de barras, dispositivos de memória

secundária de maior capacidade de armazenamento e de menor custo e sistemas de

informação em geral são alguns exemplos de recursos que têm proporcionado a proliferação

de inúmeras bases de dados de natureza comercial, administrativa, governamental e científica.

Atualmente, dados científicos em projetos de pesquisa, como missões espaciais da NASA

e o Projeto do Genoma Humano, têm alcançado proporções gigantescas. Empresas nos

Estados Unidos, tais como: FedEx, Wal-Mart e UPS, e, no Brasil: Banco do Brasil, Caixa

Econômica Federal e Sendas, possuem bases de dados da ordem de centenas de terabytes de

informações. Diante desse cenário, naturalmente surgem algumas questões: “O que fazer com

todos os dados armazenados?”, “Como utilizar o patrimônio digital em benefício das

instituições?”, “Como analisar e utilizar todo o volume de dados disponível?”, entre outras.

A análise de grandes quantidades de dados pelo homem é inviável sem o auxílio de

ferramentas computacionais apropriadas. Portanto, torna-se imprescindível o desenvolvimento

de ferramentas que auxiliem o homem, de modo automática e inteligente, na tarefa de

analisar, interpretar e relacionar esses dados para que se possam desenvolver e selecionar

estratégias de ação em cada contexto de aplicação.

Para atender a esse novo contexto, surgiu a área Descoberta de Conhecimento em Bases

de Dados (Knowledge Discovery in Databases – KDD), que vem despertando interesse junto

às comunidades científica, industrial e comercial. A expressão popular Mineração de Dados

(Data Mining em inglês) é, na realidade, uma das etapas da Descoberta de Conhecimento em

Bases de Dados. Ambas serão mais detalhadas adiante.

Para AZEVEDO e CÔRTES (2006), Mineração de Dados ou Data Mining (DM), em

inglês, é parte de um processo maior de pesquisa denominado KDD, o qual possui uma

metodologia própria para preparação e exploração dos dados, interpretação de seus resultados

e assimilação dos conhecimentos minerados. No entanto a Mineração de Dados, se tornou

mais conhecida do que o próprio processo de KDD em função de ser a etapa onde são

aplicadas as técnicas de busca de conhecimentos.

O termo KDD foi formalizado em 1989 em referência ao amplo conceito de procurar

conhecimento a partir de bases de dados. Uma das definições mais populares foi proposta em

1996 por um grupo de pesquisadores, segundo FAYYAD et al. (1996): “KDD é um processo,

de várias etapas, não trivial, interativo e iterativo, para identificação de padrões

compreensíveis, válidos, novos e potencialmente úteis a partir de grandes conjuntos de

dados”.

Na definição formal de KDD, o termo interativo indica a necessidade de atuação do

homem como responsável pelo controle do processo. O homem utiliza os recursos

computacionais disponíveis em função da análise e da interpretação dos fatos observados e

resultados obtidos ao longo do processo.

O termo iterativo, por outro lado, sugere a possibilidade de repetições integrais ou

parciais do processo de KDD, na busca de resultados satisfatórios, por meio de refinamentos

sucessivos.

A expressão não trivial alerta para a complexidade normalmente presente na execução de

processos de KDD.

Ainda considerando a definição de KDD, um padrão deve ser interpretado como um

conhecimento representado segundo as normas sintáticas de alguma linguagem formal,

segundo FAYYAD et al. (1996). Um padrão compreensível refere-se, portanto, a um padrão

representado em alguma maneira de representação do conhecimento que possa ser

interpretada pelo homem. A expressão padrão válido indica que o conhecimento deve ser

verdadeiro e adequado ao contexto da aplicação de KDD. Um padrão novo deve acrescentar

novos conhecimentos àqueles existentes no contexto da aplicação de KDD.

E, finalmente, um conhecimento útil é aquele que pode ser aplicado de modo a

proporcionar benefícios ao contexto da aplicação de KDD.

Além da definição de FAYYAD et. al. (1996), diversas outras definições de KDD podem

ser encontradas na literatura. Entre elas destacam-se as seguintes:

KDD é a busca de informações valiosas em grandes bancos de dados. É um esforço

de cooperação entre homens e computadores; os homens projetam bancos de dados,

descrevem problemas e definem seus objetivos; os computadores verificam dados e procuram

padrões que casem com as metas estabelecidas pelos homens, segundo WEIS e

INDURKHYA (1999);

KDD é a exploração e análise de dados, por meios automáticos ou semi-automáticos,

em grandes quantidades de dados, com o objetivo de descobrir regras ou padrões interessantes

, segundo BERRY e LINOFF (1997);

KDD, em poucas palavras, é a análise de dados indutiva, segundo MENA (1999);

KDD é o processo de proposição de várias consultas e extração de informações

úteis, padrões e tendências, freqüentemente desconhecidos, a partir de grande quantidade de

dados armazenada em bancos de dados, segundo THURAISINGHAM (1999);

KDD, de modo simples, é o processo de extração ou mineração de conhecimento em

grandes quantidades de dados, segundo HAN e KAMBER (2001).

Um conceito muito difundido e errado sobre mineração de dados é o que define os

sistemas de mineração de dados como sistemas que podem automaticamente minerar todos os

conceitos valiosos que estão escondidos em um grande banco de dados sem intervenção ou

direcionamento humano, segundo HAN e KAMBER (2001).

De uma maneira geral, a complexidade do processo de KDD está na dificuldade em

perceber e interpretar adequadamente inúmeros fatos observáveis durante o processo e na

dificuldade em conjugar dinamicamente tais interpretações de modo a decidir quais ações

devem ser realizadas em cada caso, segundo GOLDSCHMIDT (2003). Cabe ao analista

humano a árdua tarefa de orientar a execução do processo de KDD, que é multidisciplinar

conforme representação na FIG. 4.1.

FIG. 4.1 Assuntos envolvidos com mineração de dados

Fonte: HAN e KAMBER (2001) apud MOTTA (2004).

Com o propósito de melhor situar a área de KDD, a FIG. 4.2 apresenta uma taxonomia

das atividades na área da Descoberta de Conhecimento em Bases de Dados, segundo

GOLDSCHMIDT (2003). Essa taxonomia mostra a diversidade de atividades relacionadas ao

contexto de KDD.

FIG. 4.2 Taxonomia de Atividades na Área de KDD

Fonte: GOLDSCHMIDT e PASSOS (2005).

As atividades na área de KDD podem ser organizadas em três grandes grupos: voltadas

ao desenvolvimento tecnológico, à execução de processos de KDD e à aplicação de resultados

obtidos em processos de KDD. A seguir encontram-se comentados os itens dessa

classificação:

desenvolvimento tecnológico: esse item abrange todas as iniciativas de concepção,

aprimoramento e desenvolvimento de algoritmos, ferramentas e tecnologias de apoio que

possam ser utilizados na busca por novos conhecimentos em grandes bases de dados;

execução de KDD: esse item refere-se às atividades voltadas à busca efetiva de

conhecimento em bases de dados. As ferramentas produzidas pelas atividades de

desenvolvimento tecnológico são utilizadas na execução de processo de KDD;

aplicação de resultados: finalmente, uma vez obtidos modelos úteis de conhecimento

a partir de grandes bases de dados, as atividades se voltam à aplicação dos resultados no

contexto em que foi realizado o processo de KDD. Exemplos comuns de aplicação de

resultados são as alterações em estratégias de negócios que tenham como objetivo tirar

proveito do conhecimento obtido. Tais alterações podem variar desde o posicionamento de

produtos nas gôndolas de um mercado até políticas estratégicas corporativas, conforme

AGRAWAL et al. (1993); GOLDSCHMIDT e PASSOS (2000) e GODOY et al. (2003). O

desenvolvimento de sistemas que utilizem conhecimentos extraídos de bases de dados tem

propiciado valiosas ferramentas de apoio à decisão, segundo WEISS e INDURKHYA (1998).

4.1 HISTÓRICO

A Mineração de Dados, usualmente utilizada para referenciar a Descoberta de

Conhecimento em Bases de Dados, pode ser dividida em quatro gerações.

A primeira geração, segundo PIATETSKY-SHAPIRO (1999), apareceu nos anos 80 e

consistia em ferramentas de análise voltadas a uma única tarefa, sem suporte às demais etapas

do processo, que incluíam, em geral, a construção de classificadores usando ferramentas de

Indução de Regras (por exemplo, C4.5) ou de Redes Neurais (por exemplo,

BackPropagation), a descoberta de clusters (grupos) nos dados (por exemplo, K-Means), ou

ainda a visualização de dados. As técnicas aqui citadas estão detalhadas no anexo.

A segunda geração, segundo PIATETSKY-SHAPIRO (1999), apareceu em 1995 com o

desenvolvimento de ferramentas chamadas suites. Essas ferramentas eram dirigidas de acordo

com o processo de descoberta do conhecimento que requer múltiplos tipos de análise dos

dados. Os pacotes computacionais, tais como SPPS Clementine, Intelligent Miner e SAS

Enterprise Miner, permitiam ao usuário realizar diversas tarefas de descoberta (geralmente

classificação, clusterização e visualização) e suportavam transformação de dados.

Embora a segunda geração de sistemas de Mineração de Dados enfatize a análise de

dados, tais sistemas requerem conhecimento significativo da teoria estatística, não devendo

ser usados diretamente pelo usuário, sem o auxílio de especialistas em análise de dados.

Assim, surgiu a necessidade da terceira geração, conforme PIATETSKY-SHAPIRO (1999)

no final dos anos 90. Essas soluções são orientadas para a resolução de um problema

específico da empresa, como, por exemplo, detecção de fraudes em cartão de crédito. Nesta

geração, as interfaces são orientadas para o usuário e procuram esconder toda a complexidade

da Mineração de Dados. O HNC Software's Falcon, segundo RAINHO (2001), para detecção

de fraudes em cartão de crédito é um exemplo desse tipo de sistema.

A quarta geração compreende o desenvolvimento e a aplicação de técnicas e ferramentas

que auxiliem o homem na própria condução do complexo processo de KDD, surgida no início

do século 21, conforme GOLDSCHMIDT (2003).

4.2 ETAPAS DO PROCESSO DE KDD

O KDD é caracterizado como um processo composto por várias etapas operacionais. A

FIG. 4.3 apresenta um resumo pragmático das etapas operacionais executadas em processos

de KDD. A etapa de pré-processamento compreende as funções relacionadas à captação, à

organização e ao tratamento dos dados e tem como objetivo a preparação desses dados para os

algoritmos da etapa seguinte, a Mineração de Dados. Durante essa segunda etapa, é realizada

a busca efetiva por conhecimentos úteis no contexto da aplicação de KDD. Já a etapa de pós-

processamento abrange o tratamento do conhecimento obtido na Mineração de Dados, o qual

nem sempre é necessário e tem como objetivo viabilizar a avaliação da utilidade do

conhecimento descoberto, segundo FAYYAD et al. (1996).

FIG. 4.3 Etapas Operacionais do Processo de KDD

Fonte: GOLDSCHMIDT e PASSOS (2005).

4.2.1 PRÉ-PROCESSAMENTO

Essa etapa compreende as funções relacionadas à captação, à organização, ao tratamento

e à preparação dos dados para a etapa da Mineração de Dados, possuindo fundamental

relevância no processo de descoberta de conhecimento. Compreende desde a correção de

dados errados até o ajuste da formatação dos dados para os algoritmos de Mineração de Dados

a serem utilizados.

Para cada atividade de pré-processamento apresentada neste tópico, serão indicados e

discutidos alguns métodos.

Ainda, ao longo desta seção, serão apresentadas algumas heurísticas voltadas a

orientações sobre quando determinadas operações devem ser utilizadas. Em inteligência

computacional, denomina-se heurística todo conhecimento que pode ser utilizado na

simplificação de um problema, segundo GOLDSCHIMIDT e PASSOS (2005). Para CURY

(1999), heurística abrange todo método analítico para o descobrimento de verdades científicas

e congrega regras de decisão que contêm informações para a solução de problemas.

4.2.1.1 SELEÇÃO DE DADOS

Essa atividade compreende, em essência, a identificação de quais informações dentre as

bases de dados existentes devem ser efetivamente consideradas durante o processo de KDD,

segundo GOLDSCHMIDT e PASSOS (2005). Em geral, os dados encontram-se organizados

em bases de dados transacionais que sofrem constantes atualizações ao longo do tempo.

Assim sendo, recomenda-se que seja sempre feita uma cópia dos dados, a fim de que o

processo de KDD não interfira nas rotinas operacionais eventualmente relacionadas à base de

dados. Nos casos em que já exista uma estrutura de Data Warehouse (DW), deve-se verificar

a possibilidade de que esta seja utilizada no processo de KDD. Nos demais casos, é comum a

congregação dos dados em uma única tabela. Tal fato justifica-se porque a maioria dos

métodos de Mineração de Dados pressupõe que os dados estejam organizados em uma única,

possivelmente muito grande, estrutura tabular bidimensional. Percebe-se, portanto, que o

processo de KDD pode ocorrer independente da disponibilidade ou não de DW.

Para VELLASCO et al. (1999), a função de seleção de dados possui duas direções

(dimensões). A primeira são as colunas ou parâmetros, os quais serão parte do processo de

Data Mining. A segunda é a seleção de linhas ou registros, baseado nos valores dos atributos

individuais. O mecanismo usado para acessar todos os bancos de dados relacionais é o SQL.

Os passos para seleção de dados requerem algum conhecimento do domínio do problema

e do dado. Freqüentemente, o dado é armazenado em um banco de dados para ser manipulado

antes que a mineração de dados se inicie. Essa manipulação é descrita na próxima seção.

4.2.1.2 LIMPEZA

A etapa de pré-processamento envolve, dentre outras atividades, a limpeza dos dados. A

percepção sobre como os dados devem ser pré-processados, a fim de melhorar a qualidade dos

dados e, conseqüentemente, dos resultados da mineração constitui-se em uma questão de

grande relevância no processo de KDD. Em aplicações reais, é comum que os dados, dos

quais se deseja extrair algum conhecimento, estejam incompletos, ruidosos ou inconsistentes.

Conforme definição:

os dados são considerados incompletos se há informação ausente para determinados

atributos ou ainda se há dados pouco detalhados;

dados ruidosos são dados errados ou que contenham valores considerados dispersos,

em inglês outliers, do padrão normal esperado;

dados inconsistentes são aqueles que contêm algum tipo de discrepância semântica

entre si.

É importante perceber que a qualidade dos dados tem grande influência na qualidade dos

modelos de conhecimento a serem abstraídos a partir desses dados. Quanto pior for a

qualidade dos dados informados ao processo de KDD, pior será a qualidade dos modelos de

conhecimento gerados, ou seja, lixo entra, lixo sai (em inglês GIGO - garbage in, garbage

out).

A fase de limpeza dos dados envolve uma verificação da consistência das informações, a

correção de possíveis erros e o preenchimento ou a eliminação de valores desconhecidos e

redundantes, além da eliminação de valores não pertencentes ao domínio. A execução dessa

fase tem como objetivo, portanto, corrigir a base de dados, eliminando consultas

desnecessárias que poderiam ser executadas futuramente pelos algoritmos de Mineração de

Dados, afetando o desempenho desses algoritmos. Em geral, os métodos de limpeza dos

dados dependem do contexto da aplicação e pressupõem a caracterização dos domínios

envolvidos. Assim sendo, a participação dos especialistas em KDD e dos especialistas na área

da aplicação é essencial ao processo, segundo GOLDSCHMIDT e PASSOS (2005).

Sobre informações ausentes, HAN e KAMBER (2001) definem que estas se caracterizam

por existirem em diversos registros ou atributos (campos) que não possuem valores

armazenados, os quais podem ser importantes para o processo de KDD e apresentam métodos

para o tratamento da atividade de limpeza:

exclusão de casos: usualmente utilizada quando o conteúdo da variável está ausente -

null. Não é muito efetivo, a menos que o registro possua muitos atributos com valores

ausentes. É especialmente pobre quando o percentual de valores ausentes varia

consideravelmente;

preenchimento manual de valores: em geral essa abordagem consome muito tempo e

pode não ser possível em grandes bases de dados com muitos valores ausentes;

preenchimento com valores globais constantes: atualização de todos os valores

ausentes com um único valor constante. Embora simples, não é muito recomendado;

preenchimento com medidas estatísticas: utilizado quando o atributo é do tipo

numérico e seu significado é passível de utilização de uma medida estatística, cálculo do valor

médio do atributo em estudo (por exemplo, quantidade solicitada de transporte pelo cliente) e

atribuição desse valor a todos os valores ausentes do atributo;

preenchimento com métodos de DM: utilizam-se modelos preditivos para sugerir

valores mais prováveis com o objetivo de serem utilizados no preenchimento dos valores

ausentes.

Para valores inconsistentes, HAN e KAMBER (2001) definem que pode haver inúmeras

inconsistências nos dados armazenados e que existem dois métodos para a correção desse

problema:

exclusão de casos: elimina-se o registro que possui o valor inconsistente;

correção de erros: alguns dos dados inconsistentes podem ser corrigidos

manualmente, utilizando-se referências externas, como erros causados por entrada de dados

manuais. Ferramentas de software de engenharia de conhecimento podem também ser

utilizadas para detectar violações nas restrições de integridades dos dados, tais como funções

de dependência entre atributos. Podem também existir inconsistências causadas por

integrações de dados, onde um atributo pode possuir nomes diferentes em seus bancos de

dados.

Para valores não pertencentes ao domínio, GOLDSCHMIDT e PASSOS (2005) definem

que compreendem a identificação e a eliminação de valores que não pertençam ao domínio

dos atributos do problema e que existem dois métodos para a correção desse problema:

exclusão de casos: eliminam-se, do conjunto de dados original, os registros que

possuam pelo menos um valor fora do conjunto de valores válidos de cada atributo;

correção de erros: consiste em substituir os valores inválidos identificados no

conjunto de dados; pode envolver desde a correção manual até a atualização desses valores

em um lote predeterminado de registros utilizando comandos SQL.

4.2.1.3 CODIFICAÇÃO

Codificação de dados é atividade de pré-processamento responsável pelo modo como os

dados serão representados durante o processo de KDD. Trata-se de uma atividade criativa que

deve ser realizada repetidas vezes em busca de melhores representações, segundo

GOLDSCHMIDT e PASSOS (2005). É importante compreender que os dados devem ser

codificados de modo a atender às necessidades específicas dos algoritmos de Mineração de

Dados. Por exemplo, uma rede neural requer que os dados estejam em uma representação

numérica. Assim sendo, caso a base de dados a ser processada apresente valores nominais,

estes devem ser codificados antes de serem submetidos à rede.

A codificação de dados é potencialmente a atividade na qual há a necessidade de grande

habilidade no processo de KDD. Tipicamente essa atividade exige a experiência do analista

de dados e do seu conhecimento nos dados em questão. Embora o processo de KDD possa ser

executado sem essa fase, nota-se que, quando efetivada, os resultados obtidos são mais

intuitivos e valiosos, além de que, na maioria das vezes, facilita a construção do modelo,

segundo VELLASCO et al. (1999).

Em essência, a codificação pode ser: numérica – categórica, que divide valores de

atributos contínuos em intervalos codificados; ou categórica – numérica, que representa

valores de atributos categóricos por códigos numéricos, segundo GOLDSCHMIDT e

PASSOS (2005), e detalhadas abaixo:

Codificação: Numérica – Categórica:

o mapeamento direto: consiste na simples substituição dos valores numéricos por

valores categóricos; por exemplo: Sexo: 0 -> M e 1 -> F;

o mapeamento em intervalos: também denominada discretização, a representação

em intervalos pode ser obtida a partir de métodos que dividam o domínio de uma

variável numérica em intervalos.

Codificação: Categórica - Numérica:

o representação binária padrão (econômica): nessa representação, cada valor

categórico é associado a um valor de 1 a N e é representado por uma cadeia de

100

dígitos binários; por exemplo, se temos 5 possíveis valores, podemos representá-los

com cadeias binárias de comprimento 3, conforme TAB. 4.1;

TAB. 4.1 Codificação binária padrão

Valores Originais Representação Binária Padrão

Casado 001 Solteiro 010 Viúvo 100

Divorciado 011

Outro 110 Fonte: GOLDSCHMIDT e PASSOS (2005).

o representação binária 1-de-N: nessa representação, o código 1-N tem um

comprimento igual ao número de categorias discretas permitidas para a variável,

conforme TAB. 4.2;

TAB. 4.2 Codificação binária 1-de-N

Valores Originais Representação Binária 1-de-N

Casado 00001 Solteiro 00010 Viúvo 00100

Divorciado 01000

Outro 10000 Fonte: GOLDSCHMIDT e PASSOS (2005).

o representação binária por temperatura: essa representação é utilizada mais

freqüentemente quando os valores discretos estão relacionados de algum modo, ou

seja, existe uma graduação entre os valores, conforme TAB. 4.3;

TAB. 4.3 Codificação binária por temperatura

Valores Originais Representação Binária por

Temperatura

Fraco 0001 Regular 0011

Bom 0111 Ótimo 1111

Fonte: GOLDSCHMIDT e PASSOS (2005).

Segundo VELLASCO et al. (1999), as vantagens de se codificar um atributo são:

101

melhorar a compreensão do conhecimento descoberto;

reduzir o tempo de processamento para o algoritmo minerador, diminuindo o seu

espaço de busca;

facilitar o algoritmo a tomar decisões globais, já que os valores dos atributos foram

englobados em faixas.

Como desvantagem, cita-se a redução da medida de qualidade de um conhecimento

descoberto, perdendo, assim, detalhes relevantes sobre as informações extraídas, segundo

VELLASCO et al. (1999).

4.2.1.4 NORMALIZAÇÃO

Essa atividade consiste em atribuir uma nova escala a um atributo, de modo que os

valores possam cair na nova escala em um intervalo especificado, tais como de -1,0 a 1,0 ou

de 0,0 a 1,0. Tal ajuste faz-se necessário para evitar que alguns atributos, por apresentarem

uma escala de valores maior que outros, influenciem de maneira tendenciosa em determinados

métodos de Mineração de Dados.

Abaixo estão apresentados, de modo resumido, alguns métodos de normalização de

dados.

Normalização Linear:

também denominada normalização por interpolação linear, consiste em considerar os

valores mínimo e máximo de cada atributo no ajuste de escala. Mapeia os valores de um

atributo no intervalo fechado de 0 até 1. Mantém distâncias entre os dados normalizados que

sejam proporcionais às distâncias entre os dados originais. Recomenda-se a utilização deste

método somente nos casos em que exista a certeza de que o domínio do atributo está entre os

valores mínimo e máximo considerados, segundo GODLSCHMIDT e PASSOS (2005).

MinMax

MinAA' EQ. 4.1

onde:

A’ = valor normalizado;

102

A = valor do atributo a ser normalizado;

Min = valor mínimo do atributo a ser normalizado;

Max = valor máximo do atributo a ser normalizado.

Normalização por Desvio Padrão:

também denominada normalização Z-Score ou Zero Mean, considera a posição média

dos valores de um atributo, assim como os graus de dispersão desses valores em relação à

posição média. Esse método de normalização é útil quando os valores mínimo e máximo do

atributo são desconhecidos, segundo GODLSCHMIDT e PASSOS (2005).

XAA' EQ. 4.2

onde:

A’ = valor normalizado;

A = valor do atributo;

X = média entre os valores do atributo;

s = desvio padrão.

Normalização por Escala Decimal:

esse método realiza o processo de normalização por meio do deslocamento do ponto

decimal dos valores do atributo a ser normalizado. O número de casas decimais depende do

maior valor absoluto do atributo em questão, segundo GODLSCHMIDT e PASSOS (2005).

10' EQ. 4.3

onde:

A’ = valor normalizado;

A = valor do atributo;

j = menor inteiro tal que o maior valor absoluto normalizado seja inferior a 1.

Como exemplo de utilização dos métodos, tem-se na TAB. 4.4 o valor original de

despesa de determinados clientes e seus respectivos valores de despesas normalizadas, de

acordo com os métodos das EQ. 4.1, 4.2 e 4.3.

103

TAB. 4.4 Despesas de Clientes

Despesa Normalizada Nome Despesa

Linear

Desvio Padrão

Escala Decimal

José 1.000

0,14

-0,75

0,10

Maria 2.000

0,43

0,13

0,20

Ana 3.000

0,71

1,02

0,30

Pedro 1.500

0,29

-0,31

0,15

Mario 1.500

0,29

-0,31

0,15

Manoel

1.000

0,14

-0,75

0,10

Liza 3.000

0,71

1,02

0,30

Marisa 500

0,00

-1,19

0,05

Carlos 4.000

1,00

1,90

0,40

Paula 1.000

0,14

-0,75

0,10

Fonte: GODLSCHMIDT e PASSOS (2005).

4.2.1.5 ENRIQUECIMENTO

A atividade de enriquecimento consiste em conseguir agregar mais informações aos

registros existentes, a fim de que estes forneçam mais elementos para o processo de

descoberta de conhecimento. A seguir estão comentadas algumas das operações mais

usualmente utilizadas no processo de enriquecimento das bases de dados.

Pesquisas:

estão incluídas nessa operação todas as iniciativas de enriquecimento que envolvem a

captação de novas informações junto às fontes originais. Normalmente as pesquisas requerem

a inclusão de novos atributos ou mesmo de novas tabelas nas bases de dados existentes.

Diferem das operações de limpeza porque não estão restritas a preencher informações

ausentes. Buscam-se, no caso do enriquecimento, agregar novas informações. Muitas vezes

inviáveis devido ao alto custo de implementação, as pesquisas podem ser realizadas

considerando-se uma amostra do universo completo de casos. Recomenda-se uma especial

atenção ao processo de carga das informações captadas em pesquisas; nos casos de pesquisas

realizadas em papel, as interfaces para entrada de dados devem refletir os formulários

utilizados de maneira a facilitar a digitação. Adicionalmente, as devidas críticas de dados

devem estar implementadas nas interfaces de maneira a minimizar os esforços posteriores na

limpeza das informações.

Consultas a bases de dados externos:

104

a atividade de enriquecimento pode ser realizada mediante a incorporação de informações

fornecidas por outros sistemas. É muito comum a importação de informações advindas de

outras bases de dados.

Construção de Atributos:

essa operação consiste em gerar novos atributos denominados derivados a partir dos

existentes. Como exemplo, pode-se citar a criação da idade a partir da data de nascimento e da

data corrente do sistema. A importância desse tipo de operação é justificada, porque novos

atributos, além de expressarem relacionamentos conhecidos entre atributos existentes, podem

reduzir o conjunto de dados, simplificando o processamento dos algoritmos de Mineração de

Dados. A construção de atributos por meio da combinação daqueles já existentes pode

incorporar ao problema informações de relacionamentos entre os dados, que sejam úteis ao

processo de KDD. É conveniente enfatizar que é muito comum a substituição dos atributos

existentes pelos respectivos atributos derivados. Como exemplo de operadores para a

construção de atributos podem ser citados os operadores aritméticos (+, -, *, /).

Correção de prevalência:

essa operação é muitas vezes necessária em tarefas de classificação. Consiste em corrigir

um eventual desequilíbrio na distribuição de registros com determinadas características. Por

exemplo, suponha que em uma base de dados sobre crédito somente um dos clientes não

tenha quitado suas dívidas. Nesse caso, a descoberta de modelos de conhecimento voltados à

classificação de novos clientes pode ser influenciada pela pouca ocorrência de maus

pagadores. Um modo de solucionar esse problema é pelo método de Replicação Aleatória de

Registros, segundo GOLDSCHMIDT e PASSOS (2005), que consiste em selecionar

aleatoriamente registros das classes com menor quantidade de amostras, de modo a equilibrar

o volume de casos associados às diversas classes.

4.2.2 MINERAÇÃO DE DADOS

A Mineração de Dados é a principal etapa do processo de KDD, e nela ocorre a busca

efetiva por conhecimentos novos e úteis a partir dos dados. Por esse motivo, diversos autores,

tais como: FAYYAD et al. (1996), GOLDSCHMIDT e PASSOS (2005), CARVALHO

(2005) e BRAGA (2005), referem-se à Mineração de Dados e ao processo de KDD de

maneira indistinta, como se fossem sinônimos.

105

Para GRAEML (2004), a Mineração de Dados se utiliza de diversas ferramentas e

técnicas para permitir a produção de conhecimento a partir dos dados existentes nas bases de

dados analisadas.

De acordo com CHEN et al. (1996), diferentes critérios podem ser usados para classificar

os sistemas de mineração de dados, tais como:

tipos de base de dados. Os sistemas de mineração de dados podem ser classificados

de acordo com o tipo de base de dados em que estão sendo executados. Por exemplo, um

sistema é considerado um minerador de dados relacional, se o conhecimento descoberto

provir de uma base de dados relacional; ou um minerador orientado a objetos, se executado

sobre uma base de dados orientada a objetos;

tipos de conhecimento. Vários tipos de conhecimento podem ser descobertos pelos

sistemas de mineração de dados, incluindo regras de associação, regras de classificação,

clusterização (agrupamentos), entre outros. FELDENS (1997) aborda os tipos de

conhecimentos descobertos, acrescentando: correlação, dependência (regra curta), descrição

de conceitos, detecção de seqüências, detecção de desvios e regressão;

tipos de técnicas. A escolha da técnica a ser utilizada está diretamente relacionada

com o tipo de conhecimento que se pretende minerar. Para um tipo de conhecimento em

particular, têm-se diferentes abordagens, tais como, aprendizado de máquina, estatística e

orientada a grandes bases de dados, além da integração destas. Essas são comparadas e

utilizadas com ênfase nas questões de base de dados como eficiência e escalabilidade

computacional.

A execução da etapa de Mineração de Dados compreende a aplicação de algoritmos sobre

os dados procurando abstrair conhecimento. Conforme mencionado, esses algoritmos são

fundamentados em técnicas que procuram, segundo determinados paradigmas, explorar os

dados de modo a produzir modelos de conhecimento.

Todo processo de KDD deve ser norteado por objetivos, que compreendem a definição da

tarefa a ser executada e da expectativa que os conhecedores do domínio da aplicação tenham

com relação ao modelo de conhecimento a ser gerado. A partir dessas definições, o

106

especialista em KDD tem condições de delinear que tipos de padrões devem ser abstraídos a

partir dos dados, segundo GOLDSCHMIDT e PASSOS (2005).

Um outro fator que influencia na escolha dos algoritmos de Mineração de Dados a serem

utilizados em cada problema diz respeito aos tipos de variáveis envolvidas. Determinados

algoritmos possuem restrições quanto aos tipos de variáveis existentes no conjunto de dados.

Nesse caso, duas alternativas podem ser consideradas:

eliminam-se do conjunto de algoritmos de Mineração de Dados todos aqueles que

forem incompatíveis com os tipos de variáveis envolvidas no problema; ou opta-se por

utilizar um determinado algoritmo de Mineração de Dados e realizar todo o pré-

processamento sobre o conjunto de dados de modo a torná-lo compatível com o algoritmo

desejado.

Para AZEVEDO e CÔRTES (2006), Inteligência de Negócios ou Business Intelligence

(BI) é um conjunto de conceitos e metodologias que, fazendo uso de acontecimentos (fatos) e

sistemas baseados nos mesmos, apóia a tomada de decisões em negócios. Diversas

tecnologias têm sido usadas conjuntamente em Inteligência de Negócios, entre elas se

destacam as tecnologia de Data Warehousing (DW), de On-Line Analitical Processing

(OLAP), de Análise e Exploração de Dados (AED) e de Mineração de Dados. Sendo que a

última foi aclamada como uma das principais tecnologias para o futuro próximo e é

considerada, atualmente, o ponto mais alto na busca de conhecimentos para tomada de

decisões.

A FIG. 4.4 a seguir exibe as tecnologias que são utilizadas no contexto da inteligência de

negócios. A mineração de dados, atualmente, representa, em nível de informação, a principal

tecnologia para tomada de decisão. Nessa área, não basta apenas trabalhar com informação, é

cada vez mais importante ter conhecimento de seus negócios, conhecimentos esses que a

mineração de dados proporciona.

107

FIG. 4.4 Mineração de Dados no contexto da inteligência de negócios

Fonte: AZEVEDO e CÔRTES (2006).

4.2.2.1 PARTIÇÃO DO CONJUNTO DE DADOS

A etapa de Mineração de Dados é responsável pela abstração de modelos de

conhecimento a partir dos dados existentes, cuja qualidade precisa ser avaliada.

A avaliação de um modelo de conhecimento requer a confrontação deste com dados

visando à mensuração de algumas medidas que expressem sua qualidade. Para que essa

avaliação seja isenta, os dados utilizados na construção do modelo não devem ser os mesmos

utilizados na avaliação. Portanto, pelo menos dois conjuntos de dados devem ser utilizados no

processo de KDD, um de treinamento e um de testes, segundo GOLDSCHMIDT (2003).

o conjunto de treinamento deve conter os registros a serem utilizados na construção

do modelo de conhecimento;

o conjunto de testes, conforme o próprio nome indica, deve conter os registros a

serem utilizados na avaliação do modelo de conhecimento gerado.

Como o processo de KDD possui um conjunto de dados, a operação de partição do

conjunto de dados em treinamento e teste assume grande importância.

108

Para RIPLEY (1996), o conjunto de dados é dividido em até três partes:

treinamento é usado para treinar os modelos, isto é, para estimar os parâmetros do

modelo;

validação é usado para se fazer o ajuste fino e/ou selecionar o melhor modelo, ou

seja, baseado em algumas métricas é escolhido o modelo que melhor ajusta-se aos dados. Por

exemplo, o menor erro da previsão do quadrado médio é um critério que pode ser usado;

teste é usado para testar o desempenho do modelo selecionado. Depois que o melhor

modelo é selecionado e testado, pode ser usado na base de dados inteira.

Para RIPLEY (1996), o conjunto de validação é opcional e os demais obrigatórios, isto

ocorre dependendo da técnica e do algoritmo utilizados.

4.2.2.2 ABORDAGEM DE APRENDIZADO

As principais abordagens de aprendizado normalmente aplicadas no processo de KDD

são: aprendizado supervisionado e aprendizado não-supervisionado, segundo HAYKIN

(2001).

O aprendizado supervisionado compreende a abstração de um modelo de conhecimento a

partir dos dados apresentados na forma de pares ordenados (entrada, saída desejada). Por

entrada entenda-se o conjunto de valores das variáveis de entrada do algoritmo para um

determinado caso. A saída desejada corresponde ao valor que se espera que o algoritmo possa

produzir sempre que receber os valores especificados em entrada. O Back-Propagation e C4.5

são exemplos de algoritmos que utilizam a abordagem de aprendizado supervisionado,

segundo GOLDSCHMIDT e PASSOS (2005). Algoritmos desse tipo necessitam de pelo

menos dois conjuntos de dados: conjunto de treinamento e conjunto de teste. O modelo de

conhecimento é abstraído a partir do conjunto de treinamento e avaliado a partir do conjunto

de testes.

No aprendizado não-supervisionado não existe a informação da saída desejada. Os

algoritmos partem dos dados, procurando estabelecer relacionamentos entre eles. Como

109

exemplos clássicos de algoritmos que utilizam aprendizado não-supervisionado estão o K-

Means e o Apriori, segundo GOLDSCHMIDT e PASSOS (2005).

4.2.3 PÓS-PROCESSAMENTO

Essa etapa envolve a visualização, a análise e a interpretação do modelo de conhecimento

gerado pela etapa de Mineração de Dados. Em geral, é nessa etapa que o especialista em KDD

e o especialista no domínio da aplicação avaliam os resultados obtidos e definem novas

alternativas de investigação dos dados.

A obtenção do conhecimento não é o passo final do processo de KDD. O conhecimento

extraído pode ser utilizado na resolução de problemas da vida real, seja por meio de um

Sistema Inteligente ou de um ser humano como apoio a algum processo de tomada de decisão.

Para isso é importante que algumas questões sejam respondidas aos usuários, segundo LIU e

HSU (1996):

“o conhecimento extraído representa o conhecimento do especialista?”;

“de que maneira o conhecimento do especialista difere do conhecimento extraído?”;

“em que parte o conhecimento do especialista está correto?”.

No entanto, geralmente, não é fácil responder essas questões, já que os algoritmos de

extração de padrões podem gerar uma quantidade enorme de resultados, muitos dos quais

podem não ser importantes, relevantes ou interessantes para o usuário. Sabe-se também que

fornecer ao usuário uma grande quantidade de padrões descobertos não é produtivo, porque,

normalmente, ele procura uma pequena lista daqueles interessantes. Portanto, é de vital

importância desenvolver algumas técnicas de apoio no sentido de fornecer aos usuários

apenas os padrões mais interessantes, conforme SILBERSCHATZ e TUZHILIN (1995).

Diversas medidas para avaliação de conhecimento têm sido pesquisadas com a finalidade

de auxiliar o usuário no entendimento e na utilização do conhecimento adquirido e podem ser

divididas entre medidas de desempenho e medidas de qualidade.

110

Para LAVRAC et al. (1999), algumas medidas de desempenho são precisão, erro,

confiança negativa, sensitividade, especificidade, cobertura, suporte, satisfação, velocidade e

tempo de aprendizado.

As medidas de qualidade são necessárias, pois um dos objetivos do processo de Extração

de Conhecimento é que o usuário possa compreender e utilizar o conhecimento descoberto.

Entretanto, podem ocorrer casos em que os modelos são muito complexos ou não fazem

sentido para os especialistas, segundo PAZZANI (2000) e PAZZANI et al. (1997). Assim, a

compreensibilidade do conhecimento extraído é um aspecto bastante importante para o

processo de Extração de Conhecimento.

A compreensibilidade de um dado conjunto de regras está relacionada com a facilidade

de interpretação dessas regras por um ser humano; já a compreensibilidade de um modelo

pode ser estimada, por exemplo, pelo número de regras e número de condições por regra.

Nesse caso, quanto menor a quantidade de regras de um dado modelo e menor o número de

condições por regra, maior será a compreensibilidade das regras descobertas, segundo

FERTIG et al. (1999). Em PAZZANI (2000) e PAZZANI et al. (1997), é discutido que outros

fatores, além do tamanho do modelo, são importantes na determinação da compreensibilidade

de um conhecimento. Um fator citado é que os usuários especialistas possuem tendência a

compreender melhor os modelos que não contradizem seu conhecimento prévio.

A interessabilidade é uma maneira de avaliar a qualidade tentando estimar o quanto de

conhecimento interessante (ou inesperado) existe e deve combinar fatores numa medida que

reflita como o especialista julga o padrão, segundo PIATETSKY-SHAPIRO e MATHEUS

(1994).

As medidas de interessabilidade estão baseadas em vários aspectos, principalmente na

utilidade que as regras representam para o usuário final do processo de Extração de

Conhecimento, segundo DONG e LI (1998). Para SILBERSCHATZ e TUZHILIN (1995),

PIATETSKY-SHAPIRO e MATHEUS (1994) e FREITAS (1998), essas medidas podem ser

divididas em objetivas e subjetivas.

111

Medidas objetivas são aquelas que estão relacionadas somente com a estrutura dos

padrões e do conjunto de dados de teste. Elas não levam em consideração fatores específicos

do usuário nem do conhecimento do domínio para avaliar um padrão. Algumas medidas

objetivas de interessabilidade são: modelos de regras, cobertura de regras mínimas e custo da

classificação incorreta, segundo HORST (1999).

Como diferentes usuários finais do processo de Extração de Conhecimento podem ter

diferentes graus de interesse para um determinado padrão, medidas subjetivas são necessárias.

Essas medidas consideram que fatores específicos do conhecimento do domínio e de interesse

do usuário devem ser tratados ao selecionar um conjunto de regras interessantes ao usuário.

Algumas medidas subjetivas são inesperabilidade e utilidade, segundo SILBERSCHATZ e

TUZHILIN (1995).

Em um ambiente para avaliação de conhecimento, aspectos objetivos de interessabilidade

podem ser utilizados como um primeiro filtro para selecionar regras potencialmente

interessantes. Por outro lado os aspectos subjetivos podem ser utilizados como um filtro final

para selecionar regras realmente interessantes.

Após a análise do conhecimento, caso este não seja de interesse do usuário final ou não

cumpra com os objetivos propostos, o processo de extração pode ser repetido ajustando-se os

parâmetros ou melhorando o processo de escolha dos dados para a obtenção de resultados

melhores numa próxima iteração.

A seguir encontram-se indicadas as atividades do pós-processamento.

4.2.3.1 SIMPLIFICAÇÃO DE MODELO DE CONHECIMENTO

A simplificação de um modelo de conhecimento, conforme o próprio nome sugere,

consiste em remover detalhes deste de modo a torná-lo menos complexo, sem perda de

informação relevante.

A representação de conhecimento por meio de regras é muito utilizada em KDD.

Conjuntos com grandes quantidades de regras são de difícil interpretação, exigindo métodos

112

voltados ao corte de regras. Esses métodos se baseiam em medidas de qualidade das regras,

segundo HAN e KEMBER (2001).

No processo de KDD, é comum que o usuário estabeleça limites mínimos de acurácia e

abrangência para as regras, de tal maneira a excluir do modelo de conhecimento gerado todas

as regras que não satisfaçam a tais limites. O corte de atributos em determinadas regras

também constitui-se em uma alternativa para simplificação de modelos de conhecimento. O

ID3 ou sua versão mais recente C4.5 são algoritmos que eliminam atributos e conseqüente-

mente conjuntos de regras baseados no conceito de entropia da Teoria da Informação,

segundo QUINLAN (1993). De uma maneira simplificada, o grau de entropia de um conjunto

de atributos expressa o grau de complexidade da informação contida no referido conjunto.

Assim, quanto menor a entropia, menor a quantidade de informação codificada em um ou

mais atributos. Em contrapartida, quanto maior a entropia de um conjunto de atributos, maior

a relevância desses atributos na descrição do conjunto de dados. De modo análogo ao descrito

para regras, existem métodos de simplificação de modelos baseados na poda de árvores de

decisão. Para um melhor entendimento dessa classe de algoritmos, é necessário compreender

que existe uma correspondência entre regras e árvores de decisão, melhor comentada na

próxima seção.

4.2.3.2 ORGANIZAÇÃO E APRESENTAÇÃO DOS RESULTADOS

Conforme mencionado, os modelos de conhecimento podem ser representados de

diversos modos: árvores, regras, gráficos em duas ou três dimensões, planilhas, tabelas e

cubos de dados. Em geral, as técnicas de visualização de dados estimulam a percepção e a

inteligência humana, aumentando a capacidade de entendimento e associação de novos

padrões. Oferecem, portanto, subsídios para a escolha dos passos seguintes a serem realizados

no processo de KDD.

4.3 TAREFAS DE KDD

No processo de KDD cada etapa pode possuir uma interseção com as demais. Desse

modo, os resultados produzidos numa etapa podem ser utilizados para melhorar os resultados

das próximas etapas. Esse cenário indica que o processo de KDD é iterativo, buscando sempre

113

aprimorar os resultados a cada iteração. Na execução do processo de KDD o usuário analisa

as informações geradas em cada etapa e procura incorporar sua experiência de analista de

dados para obter, cada vez mais, melhores resultados.

A definição do problema é fundamental para o processo de KDD e requer que a pessoa

que solicita a tarefa de KDD entenda perfeitamente o problema existente e tenha um objetivo

bem especificado, ou seja, aquilo que se deseja conhecer ou extrair. Para isso, é necessário

uma interação com o solicitador da tarefa de modo que seja exposto tudo o que se relaciona

com o problema. Tendo sido definido o problema, pode-se fixar metas para os objetivos da

tarefa de KDD.

4.3.1 DESCOBERTA DE ASSOCIAÇÕES

A tarefa clássica de busca por regras de associação (também denominada de regras

associativas) foi introduzida em AGRAWAL et al. (1993). Intuitivamente essa tarefa consiste

em encontrar conjuntos de itens que ocorram simultaneamente e de modo freqüente em um

banco de dados.

Como exemplo de uma aplicação da descoberta de regras de associação, considere o

banco de dados da TAB. 4.5. Nesse exemplo a tarefa consiste em descobrir produtos que

sejam freqüentemente transportados de modo conjunto.

Abaixo estão indicados dois exemplos de regras de associação. São implicações que

indicam que a ocorrência do conjunto de itens do antecedente da regra tem propensão a levar

à compra do conjunto de itens do conseqüente. A regra (1) indica que o transporte de

vergalhão pode levar ao transporte de fio máquina. Segundo a regra (2), o transporte de fio

máquina e areia pode induzir ao transporte de madeira.

(1) Vergalhão -> Fio máquina

(2) Fio máquina /\ Areia -> Madeira

114

TAB. 4.5 Relação de transportes efetuados em um período

Transação Vergalhão

Madeira

Cimento

Fio

máquina

Areia Soja Açúcar

1 Não Sim Não Sim Sim Não Não

2 Sim Não Sim Sim Sim Não Não

3 Não Sim Não Sim Sim Não Não

4 Sim Sim Não Sim Sim Não Não

5 Não Não Sim Não Não Não Não

6 Não Não Não Não Sim Não Não

7 Não Não Não Sim Não Não Não

8 Não Não Não Não Não Não Sim

9 Não Não Não Não Não Sim Sim 10 Não Não Não Não Não Sim Não

Formalmente, uma regra de associação é uma implicação de modo X -> Y, onde X e Y

são conjuntos de itens tais que X n Y = 0. Convém destacar que a interseção vazia entre

antecedente e conseqüente das regras assegura que não sejam extraídas regras óbvias que

indiquem que um item está associado a ele próprio.

Transação é o nome atribuído ao elemento de ligação existente em cada ocorrência de

itens no banco de dados.

Uma associação é considerada freqüente se o número de vezes em que a união de

conjuntos de itens (X U Y) ocorrer em relação ao número total de transações do banco de

dados for superior a uma freqüência mínima (denominada suporte mínimo) que é estabelecida

em cada aplicação. Busca-se, por meio do suporte, identificar que associações surgem em

uma quantidade expressiva a ponto de ser destacada das demais existentes. No exemplo da

TAB. 4.5, as regras (1) e (2) possuem suporte 20% e 30%, respectivamente.

Uma associação é considerada válida se o número de vezes em que X U Y ocorrer em

relação ao número de vezes que X ocorrer for superior a um valor denominado confiança

mínima, e também estabelecido em cada aplicação. A medida de confiança procura expressar

a qualidade de uma regra, indicando o quanto a ocorrência do antecedente da regra pode

assegurar a ocorrência do conseqüente desta. As regras (1) e (2) possuem confiança 100% e

75%, respectivamente.

115

Denomina-se K-itemset todo conjunto de itens com exatamente K elementos. As regras

(1) e (2) apresentadas acima correspondem a 2-itemset e 3-itemset, respectivamente.

Assim sendo, a tarefa de Descoberta de Associações (Descoberta de Regras de

Associação) pode ser definida formalmente como a busca por regras de associação

freqüentes e válidas em um banco de dados, a partir da especificação dos parâmetros de

suporte e confiança mínimos.

Os valores desses parâmetros devem ser especificados pelo especialista em KDD em

conjunto com o especialista no domínio da aplicação.

Existem diversos algoritmos desenvolvidos especificamente para aplicação na tarefa de

descoberta de associações, dentre eles: Apriori, DHP (Direct Hashing and Pruning), Partition,

DIC (Dynamic Itemset Counting), Eclat, MaxEclat, Clique, MaxClique, Cumulate e

EstMerge, segundo GOLDSCHMIDT e PASSOS (2005). Existem versões desses algoritmos

para funcionamento em ambientes paralelos e distribuídos.

Todos os algoritmos mencionados, no entanto, possuem uma estrutura comum, inspirada

na estrutura do algoritmo Apriori. Baseiam-se na propriedade de antimonotonicidade do

suporte: “Um k-itemset somente pode ser freqüente se todos os seus (k-l)-subconjuntos forem

freqüentes”. É fácil observar que o suporte de um conjunto de itens nunca pode crescer

quando este é expandido para um conjunto com mais itens. Pode, na melhor hipótese,

permanecer igual ou simplesmente diminuir.

4.3.2 DESCOBERTA DE SEQÜÊNCIAS

É uma extensão da tarefa de descoberta de associações, que considera o aspecto temporal

entre as transações registradas no banco de dados.

Na descoberta de associações, os padrões a serem descobertos pertencem a cada

transação e são denominados padrões intratransação. No caso da descoberta de seqüências, os

padrões são denominados intertransação, pois diversas transações devem ser analisadas em

ordem cronológica de ocorrência. A busca por tais padrões é, evidentemente, mais complexa

116

do que a busca por padrões intratransação.

Como exemplos de aplicações de descoberta de seqüências podem ser citados:

a análise do histórico de itens comprados por consumidores ao longo de um período.

A descoberta de quais itens os consumidores compram ao longo do tempo pode ser utilizada

no marketing com a oferta de compras de maneira direcionada aos interesses sazonais de cada

consumidor ou de grupos de consumidores;

a análise do histórico contendo a ordem dos acessos às páginas de um site pelos

usuários da Internet, o que permite identificar páginas de interesse e atalhos de acesso. Com

base nessas informações, os sites podem ser reestruturados de acordo com os interesses das

pessoas que o acessam, tornando-os mais práticos e agradáveis.

Uma seqüência é uma lista ordenada de conjuntos de itens, caracterizada por objetos,

rótulos temporais e eventos. Cada registro armazena ocorrências de eventos sobre um objeto

em um instante de tempo particular. Notação: <S1, S2 ... Sn> onde Sy é um conjunto de itens.

O conjunto de itens Sy é também chamado de elemento da seqüência. Cada elemento da

seqüência é denotado por <X1, X2 ... Xn> onde Xy é um item ou evento.

No exemplo das compras do mercado, apresentado na TAB. 4.6:

117

TAB. 4.6 Relação das compras realizadas por cada cliente

Identificação do Cliente

Identificação da Transporte

Itens

114 A B 232 B 1

349 A B 150 A C 386 A B C

529 B 105 A 307 B 3

402 A 302 A B 447 A 4

596 B

os clientes correspondem aos objetos e servem de ligação entre os diversos eventos

temporais, que são as compras realizadas;

os itens transportados correspondem aos itens vinculados a cada evento temporal de

compra, realizado por um consumidor.

Uma seqüência <a1a2...an> é uma subseqüência (ou especialização) de outra seqüência

<b1b2...bn> se existirem inteiros i1 < i2 < ... < in, tais que a1

bi1 , a2

bi2, ... an

bin.

Exemplos:

< (3) (4,5) (8) > é uma subseqüência de < (7) (3,8) (9) (4,5,6) (8) >, pois (3)

(3,

8), (4,5) (4,5,6) e (8) (8);

a seqüência < (3) (5) > não é uma subseqüência de < (3, 5) > e vice-versa.

O suporte (ou freqüência) de uma seqüência a refere-se à proporção de objetos que

contêm a.

A seguir encontram-se citados alguns exemplos de seqüências observáveis na TAB. 4.6 e

seus respectivos suportes na TAB. 4.7:

118

TAB. 4.7 Seqüências descobertas

Seqüência Suporte (%) <(A)> 100

<(A) (A)> 100 <(B) (A)> 75

<(B)> 100 <(A , B)> 75 <(A) (B)> 100 <(B) (B)> 75

<(A , B) (B)> 75

Dado um limiar definido pelo usuário, denominado suporte mínimo, diz-se que uma

seqüência é freqüente se esta ocorrer mais do que o suporte mínimo. Uma k-seqüência é uma

seqüência com exatamente k elementos.

4.3.3 CLASSIFICAÇÃO

Uma das tarefas de KDD mais importantes e mais populares é a tarefa de classificação.

Informalmente, conforme mostra a FIG. 4.5, essa tarefa pode ser compreendida como a busca

por uma função que permita associar corretamente cada registro Xi de um banco de dados a

um único rótulo categórico, Yj, denominado classe. Uma vez identificada, essa função pode

ser aplicada a novos registros de modo a prever a classe em que tais registros se enquadram.

Com a finalidade de formalizar a tarefa de classificação, consideremos um par ordenado

da maneira (x, f(x)), onde x é um vetor de entradas n-dimensional, e f(x) a saída de uma função

f, desconhecida, aplicada a x. A tarefa de inferência indutiva consiste em, dada uma coleção

de exemplos de f, obter uma função h que se aproxime de f. A função h é chamada de hipótese

ou modelo de f.

119

FIG. 4.5 Associação entre registros de dados e classes

Fonte: GOLDSCHMIDT e PASSOS (2005).

Nos casos em que a imagem de f é formada por rótulos de classes, a tarefa de inferência

indutiva é denominada classificação, e toda hipótese h chamada de classificador. A

identificação da função h consiste em um processo de busca no espaço de hipóteses H, pela

função que mais se aproxime da função original f. Esse processo é denominado aprendizado ,

segundo RUSSELL e NORVIG (1995). Todo algoritmo que possa ser utilizado na execução

do processo de aprendizado é chamado algoritmo de aprendizado; o conjunto de todas as

hipóteses que podem ser obtidas a partir de um algoritmo de aprendizado L é representado por

HL e cada hipótese pertencente ao HL é representada por hL.

A acurácia da hipótese h retrata a qualidade ou a precisão de h em mapear corretamente

cada vetor de entradas x em f(x). O conjunto de pares (x, f(x)) utilizados na identificação da

função h é denominado conjunto de treinamento. Por outro lado, o conjunto de pares (x, f(x))

utilizados para avaliar a acurácia de h é denominado conjunto de testes. Assim, o algoritmo L

pode ser interpretado como uma função, tal que:

L: T -> HL, onde T é o espaço composto por todos os conjuntos de treinamento possíveis

para L.

120

Cada algoritmo possui um bias indutivo que direciona o processo de construção dos

classificadores. O bias indutivo de um algoritmo pode ser definido como o conjunto de

fatores que coletivamente influenciam na seleção de hipóteses, segundo UTGOFF (1986).

Em termos práticos, o bias de um algoritmo de aprendizado L afeta o processo de

aprendizado de dois modos: restringe o tamanho do espaço de hipóteses HL e impõe uma

ordem de preferência sobre as hipóteses em HL , conforme BENUSAN (1999).

Segundo o teorema NFL (No Free Lunch Theorem), WOLPERT (1996), não existe um

algoritmo de classificação que seja superior a todos os outros em qualquer problema de

classificação. Isso significa que, a cada nova aplicação envolvendo a tarefa de classificação,

os algoritmos disponíveis devem ser experimentados a fim de identificar aqueles que obtêm

melhor desempenho.

Como exemplos nos quais a tarefa de classificação é aplicável, podem ser citados: análise

de crédito, análise de risco em seguros, diagnóstico de doenças e prescrição de tratamento,

análise de defeitos em equipamentos, entre inúmeros outros.

Conforme mencionado anteriormente, uma medida de desempenho de classificador

comumente utilizada é a acurácia (Acc(h)), também denominada precisão do classificador:

)(1)( hErrhAcc EQ. 4.4

Onde:

Err(h): é denominada taxa de erro ou taxa de classificação incorreta e calculada do

seguinte modo.

ii ihy

nhErr

)(1

)( EQ. 4.5

Na equação acima:

o operador E retoma 1 se a expressão E for verdadeira e 0; caso contrário

121

n é o número de exemplos (registros da base de dados);

Yi é a classe real associada ao i-ésimo exemplo;

h(i) é a classe indicada pelo classificador para o i-ésimo exemplo.

Uma vez induzida uma hipótese (classificador), esta pode ser muito específica para o

conjunto de treinamento utilizado. Caso esse conjunto não seja suficientemente

representativo, o classificador pode ter bom desempenho no conjunto de treinamento, mas não

no de teste. Diz-se, nesse caso, que o classificador ajustou-se em excesso ao conjunto de

treinamento, ocorrendo fenômeno denominado overfitting.

Por outro lado, quando o classificador ajusta-se muito pouco ao conjunto de treinamento,

diz-se que ocorre um underfitting, fenômeno que costuma ocorrer em função de

parametrizações inadequadas do algoritmo de aprendizado; por exemplo, um número de

neurônios insuficiente em uma rede neural, ou uma tolerância de erro excessivamente alta.

A completude de um classificador se refere à capacidade deste em classificar (apresentar

uma resposta) a todos os exemplos da base de dados. A consistência, por outro lado, indica a

capacidade do classificador em classificar corretamente os exemplos disponíveis no banco de

dados.

Por ora, para fins ilustrativos, consideremos a base de dados da TAB. 4.8 que contém

dados sobre clientes e seu interesse por determinado tipo de literatura. O algoritmo de

aprendizado C4.5, aplicado a essa base, geraria um classificador representado pelo conjunto

de regras da TAB. 4.8.

122

TAB. 4.8 Clientes e suas compras em um tipo de literatura

Sexo País Idade Compra

M França 25 Sim M Inglaterra 21 Sim F França 23 Sim F Inglaterra 34 Sim F França 30 Não M Alemanha

21 Não M Alemanha

20 Não F Alemanha

18 Não F França 34 Não M França 55 Não

Se país = Alemanha então compra = Não Se país = lnglaterra então compra = Sim Se país = França e idade <= 25 então compra = Sim Se país = França e idade > 25 então compra = Não

4.3.4 SUMARIZAÇÃO

A tarefa de sumarização, também denominada descrição de conceitos, consiste em

identificar e apresentar, de modo conciso e compreensível, as principais características dos

dados contidos em um conjunto de dados.

Exemplos de aplicações envolvendo a tarefa de sumarização:

a) identificar as características dos assinantes de uma revista que residem na região

sudeste do Brasil: “são em grande maioria, assinantes com faixa salarial de X reais, nível

superior completo e que possuem residência própria”;

b) descrever o perfil dos meninos de rua da cidade do Rio de Janeiro: “são meninos que

se encontram predominantemente na faixa etária X, cujos pais utilizam drogas e possuem na

faixa de Y irmãos”.

Um conceito normalmente se refere a uma coleção de dados com pelo menos uma

característica em comum. Por exemplo: assinantes da revista XYZ na região Sudeste, meninos

de rua na cidade do Rio de Janeiro, clientes inadimplentes, pacientes cardiopatas, alunos de

123

graduação, locomotivas com defeitos, dentre muitos outros.

A sumarização dos dados não é uma simples enumeração destes. Busca gerar descrições

para caracterização resumida dos dados e possivelmente comparação (discriminação) entre

eles. Tais descrições são denominadas descrições de classe, quando o conceito a ser descrito

se refere a uma classe de objetos.

A descrição de conceitos pode ser interpretada como uma generalização dos dados a

partir das características mais relevantes dentre os registros analisados.

4.3.5 CLUSTERIZAÇÃO

A tarefa de Clusterização, também chamada de Agrupamento, é usada para particionar os

registros de uma base de dados em subconjuntos ou clusters, de tal maneira que elementos em

um cluster compartilhem um conjunto de propriedades comuns que os distingam dos

elementos de outros clusters. O objetivo dessa tarefa é maximizar similaridade intracluster e

minimizar similaridade intercluster. Diferente da classificação que tem rótulos predefinidos, a

clusterização precisa automaticamente identificar os rótulos; por essa razão, é também

denominada indução não-supervisionada. A clusterização pode ser definida como uma das

tarefas básicas da Mineração de Dados que auxilia o usuário a realizar agrupamentos naturais

de registros em um conjunto de dados.

A análise de clusters envolve, portanto, a organização de um conjunto de padrões

(usualmente representados na forma de vetores de atributos ou pontos em um espaço

multidimensional - espaço de atributos) em clusters, de acordo com alguma medida de

similaridade. Intuitivamente, padrões pertencentes a um dado cluster devem ser mais similares

entre si (compartilham um conjunto de propriedades comuns) do que em relação a padrões

pertencentes a outros clusters.

Em geral, o processo de clusterização requer que o usuário determine qual o número de

grupos a ser considerado. Com base nesse número, os registros de dados são então separados

de modo que registros similares fiquem nos mesmos grupos e registros diferentes em grupos

distintos. Uma vez tendo esses grupos, é possível fazer uma análise dos elementos que

124

compõem cada um deles, identificando as características comuns aos seus elementos e, dessa

maneira, podendo criar um rótulo que represente cada grupo.

A presença de dados distribuídos em um espaço de grande dimensionalidade (muitos

atributos) dificulta a detecção de clusters, porque estes podem estar imersos em algum

subespaço do espaço de dados original.

4.3.6 PREVISÃO DE SÉRIES TEMPORAIS

Para CARVALHO (2005), detectar regularidades em fenômenos que ocorrem ao longo

do tempo e poder prever tendências futuras são tarefas das mais importantes no mundo atual.

A previsão de séries temporais, como preços futuros em mercados livres, tendências nas

bolsas de valores e prognósticos de pacientes, não é uma atividade fácil, pois os parâmetros

envolvidos são muitos, e a descoberta de ciclos ou padrões de repetição nem sempre se faz de

maneira clara, porque as técnicas matemáticas têm seus limites diante de fenômenos da

dinâmica não-linear como o caos. Se no mundo de hoje o conhecimento significa dinheiro,

pode se imaginar o que dizer do conhecimento prévio.

Entre as várias tarefas de KDD, destaca-se a previsão de séries temporais, segundo

SERRA (2002), AMARAL (2001), CARVALHO (2005), GOLDSCHMIDT e PASSOS

(2005).

Uma série temporal é um conjunto de observações de um fenômeno ordenadas no tempo.

Citam-se como exemplos de séries temporais: o consumo mensal de energia elétrica de uma

casa, registrado durante um ano; as vendas diárias de um produto no decorrer de um mês e o

transporte solicitado pelos clientes da ferrovia; dentre muitos outros.

A análise de uma série temporal é o processo de identificação das características, dos

padrões e das propriedades importantes da série, utilizados para descrever em termos gerais o

seu fenômeno gerador. Dentre os diversos objetivos da análise de séries temporais, o maior

deles é a geração de modelos voltados à previsão de valores futuros, segundo

GOLDSCHIMIDT e PASSOS (2005).

125

Para DIAS (2001), a predição é o processo de escolher o melhor resultado possível

baseado na análise de dados históricos. O usuário deve analisar a informação descoberta de

acordo com sua tarefa de suporte à decisão e objetivos. Portanto, ele precisa ter um bom

entendimento sobre o negócio da empresa e sobre o conhecimento descoberto.

Dentre os modelos que se pode utilizar nessa análise, estão os que proporcionam a

classificação das observações; os que permitem prever comportamentos de novas

observações, com base em informações existentes a respeito de observações anteriores; os de

agrupamento e os de séries temporais, segundo GRAEML (2004).

4.3.7 DETECÇÃO DE DESVIOS

A tarefa de detecção de desvios tem como objetivo identificar mudanças em padrões

anteriormente percebidos. Sua aplicação vem crescendo de maneira significativa nos últimos

anos, sendo muito utilizada para detecção de fraudes em cartões de crédito, planos de saúde,

arrecadação, consumo de combustível de locomotivas, dentre outras.

Essa tarefa objetiva encontrar conjuntos de dados que não obedecem ao comportamento

ou modelo destes. Uma vez encontrados podem ser tratados ou descartados para utilização no

processo de KDD, o que torna essa avaliação nos dados importante no sentido de descobrir

probabilidades crescentes de desvios ou riscos associados aos vários objetivos traçados

inicialmente na mineração dos dados. Detectar esses desvios é muito análogo às técnicas

utilizadas em análises estatísticas, onde são aplicados testes de significância que assumem

uma distribuição, utilizando medidas estatísticas, como, por exemplo, a média aritmética e

desvio padrão para aferir essas diferenças, segundo HAN e KAMBER (2001), WEIS e

INDURKHYA (1999).

Diferentemente das demais tarefas de KDD, em que a repetição de padrões é uma

característica fundamental na busca por conhecimento, a detecção de desvios procura

identificar padrões com pouca incidência e que sejam suficientemente distintos dos valores

normalmente registrados, segundo GOLDSCHMIDT e PASSOS (2005).

126

Para PRADO (1997), a detecção de desvios ou padrões identifica elementos que se

encontram fora dos padrões esperados ou estabelecidos.

127

5 METODOLOGIA PROPOSTA

Segundo CARVALHO (2005), KDD pode ser realizado de três diferentes maneiras em

função do nível de conhecimento que se tenha do problema estudado:

Se nada se sabe sobre o comportamento do fenômeno, pode-se simplesmente deixar

que as técnicas de KDD procurem nos dados relações escondidas e que não poderiam ser

descobertas com facilidade. Chama-se esse método de descoberta não-supervisionada de

relações.

Quando se tem algum conhecimento sobre o campo de atuação da empresa ou

alguma idéia sobre que relação nova se está buscando, pode-se definir uma hipótese e

verificar sua confirmação ou refutação por meio da metodologia do KDD, denominada

testagem de hipótese.

Finalmente, quando se tem um nível maior de conhecimento da área e da relação que

se deseja estudar, procede-se com a metodologia de modelagem de dados.

São infinitas as possibilidades de ação em problemas de KDD. Diante desse cenário, este

capítulo tem como principal objetivo descrever um modo de trabalho que procure organizar

esforços e resultados em um processo tão vasto quanto ao de KDD. Aqui, são restringidas as

diretrizes que devem nortear a elaboração da metodologia para a previsão de demanda

ferroviária por meio de KDD. Chama-se metodologia uma coleção de métodos, técnicas e

ferramentas para se atingir um objetivo, segundo PMBOX (1996).

O desenvolvimento de um sistema de descoberta de conhecimento em banco de dados é

uma tarefa muito complexa, principalmente pela característica de indeterminismo desse tipo

de sistema. Portanto, é imprescindível o uso de uma metodologia completa e sistemática.

“Uma metodologia de engenharia de software é um processo para a

produção organizada de software, com utilização de uma coleção de

técnicas predefinidas e convenções notacionais. Uma metodologia

costuma ser apresentada como uma série de etapas, com técnicas e

notação associadas a cada etapa.”, RUMBAUGH (1994).

128

Os trabalhos que se propõem a apresentar uma metodologia para o processo de KDD não

incluem formalismo na especificação desses sistemas. Normalmente, as metodologias

propostas procuram solucionar questões relativas a determinadas etapas do processo de

desenvolvimento desses sistemas e não apresentam notação para representar as características

do sistema como um todo.

A complexidade do processo de KDD deve-se, basicamente, à dificuldade de percepção,

interpretação e conjugação adequada de inúmeros fatos que surgem durante o processo, aliada

à diversidade de alternativas de métodos e parametrizações possíveis de experimentação,

segundo GOLDSCHMIDT e PASSOS (2005).

Segundo o site especializado em KDD, KDnuggets, as principais metodologias usadas

por empresas estão representadas na TAB. 5.1.

TAB. 5.1 Metodologias usadas em KDD

2002 2004 Metodologia Qtde % Qtde %

CRISP-DM 96

50,79

42,35

SEMMA 22

11,64

10,00

Organização 13

6,88

6,47

Proprietária 43

22,75

28,24

Outras 8

4,23

5,88

Nenhuma 7

3,70

7,06

Total

189

170

Fonte: www.kdnuggets.com.

Observa-se na comparação entre 2002 e 2004, conforme a TAB. 5.1, uma redução na

participação das metodologias CRISP-DM e SEMMA, em relação às proprietárias e aos que

responderam que não usam metodologia.

A formulação dessa metodologia de realização de KDD não tem como objetivo

desenvolver ferramentas computacionais, mas preestabelecer conjuntos ordenados de regras e

tarefas a serem seguidas pelo homem, a fim de realizar processos de KDD e produzir

resultados satisfatórios, segundo BRACHMAN e ANAND (1996); WIRTH et al. (1997) e

KERBER et al. (1998), no processo de previsão de demanda ferroviária.

http://www.kdnuggets.com

129

Assim sendo, este capítulo procura fornecer algumas orientações práticas sobre a

condução dos processos de KDD. Para tanto, são indicados alguns modelos de documentação

que, apoiados em uma linha básica de raciocínio, subsidiem a escolha de procedimentos a

serem adotados diante da diversidade de situações e possibilidades.

A Metodologia para Previsão de Demanda Ferroviária utilizando Data Mining, ou

simplesmente MPDF-DM aqui proposta, está baseada em três metodologias disponíveis no

mercado, que são detalhadas nos tópicos 5.1 (CRISP-DM), 5.2 (Fayyad) e 5.3 (SEMMA).

5.1 CRISP-DM

O CRISP-DM (Cross Industry Standard Process for Data Mining) é uma metodologia

desenvolvida por um consórcio de empresas, lideradas por: DaimlerChrysler (uma das

maiores fabricantes de automóveis do mundo), SPSS (empresa com diversas ferramentas

computacionais na área de Data Mining) e NCR (empresa com soluções em hardware e

software para tornar mais fáceis as interações entre clientes e fornecedores), segundo o

consórcio CRISP-DM (2006). Consiste em um conjunto de fases e processos que tendem a

desenvolver projetos de KDD, independentemente da área de negócio e das ferramentas

usadas, de um modo estruturado e metódico. Procura ser uma aproximação padrão que

transforma necessidades de negócio em tarefas de KDD, que sugere transformações nos dados

e técnicas apropriadas da tecnologia, identificando métricas para avaliar a qualidade dos

resultados obtidos e documentar o projeto. As fases desta metodologia estão representadas na

FIG. 5.1 e descritas a seguir.

130

FIG. 5.1 Fases da metodologia CRISP-DM

Fonte: Consórcio CRISP-DM (2006).

Nesse modelo, o ciclo de vida do projeto de KDD consiste em seis fases, descritas dos

itens 5.1.1 ao 5.1.6. A seqüência dessas fases não é rigorosa, depende do resultado de cada

etapa ou de qual tarefa particular de uma fase precisa ser executada na próxima. As flechas

indicam as dependências mais importantes e freqüentes entre as fases.

O círculo externo na figura simboliza a natureza cíclica da mineração de dados. Um

processo de mineração de dados continua após uma solução ter sido descoberta, e os

subseqüentes se beneficiarão das experiências anteriores, segundo DIAS (2001).

5.1.1 ENTENDIMENTO DO NEGÓCIO

Identifica o âmbito, os objetivos e as necessidades de uma perspectiva de negócio e

converte esse conhecimento em uma tarefa de KDD.

131

Na determinação dos objetivos do negócio, o primeiro passo é a identificação das

necessidades do cliente, que podem ter objetivos concorrenciais e restrições que devem ser

conhecidas. O analista identifica fatores importantes que poderão influenciar os resultados, e

o fato de não se contemplar essa fase poderá implicar o risco de dispender tempo e esforço,

obtendo respostas corretas para as questões erradas. Essa subfase compreende ainda uma

descrição do background do cliente, dos seus objetivos de negócio e uma descrição dos

critérios utilizados para determinar o sucesso do seu empreendimento.

5.1.2 ENTENDIMENTO DOS DADOS

Compreende a identificação da informação que seja relevante para o estudo e a

familiarização com o seu conteúdo, descrição, qualidade e utilidade. A coleção inicial dos

dados tem como tarefa adquirir a informação com a qual se irá trabalhar, listando as suas

fontes, o procedimento de leitura e os problemas detectados.

A descrição dos dados expõe a maneira como estes foram adquiridos, listando o seu

formato, volume, significado e toda a informação relevante. Na análise exploratória, efetua-se

um primeiro estudo dos dados identificando-se questões que podem ser solucionadas com

queries, visualizações e relatórios. Inclui, por exemplo, distribuições de atributos chave, tais

como o atributo de saída em um estudo de previsão, relações entre pares ou pequenos

números de atributos, resultados de agregações simples, propriedades de subpopulações

significativas e análises estatísticas simples.

5.1.3 PREPARAÇÃO DE DADOS

Consiste em variadas atividades destinadas a obter o conjunto final dos dados, Data Set,

cujo objetivo é descrever o seu formato final para efeitos de modelagem dos dados e

validação dos mesmos. A seleção dos dados perfaz a escolha dos atributos que serão

incluídos em termos da análise. Os critérios de seleção vão desde os objetivos do KDD até a

sua correção e restrições de volume.

A integração representa a junção de dados provenientes de várias tabelas, para criar uma

só, onde esteja toda a informação necessária para a análise. Compreende a junção de tabelas e

132

a agregação de valores. A formatação dos dados pretende modificar o seu formato sem mudar

o seu significado, no sentido de estes refletirem as necessidades dos algoritmos de

aprendizagem.

5.1.4 MODELAGEM

Na fase de modelagem são selecionadas e aplicadas as técnicas de KDD mais

apropriadas, dependendo dos objetivos pretendidos.

Cria-se um modelo para testar a qualidade e validar os modelos que serão obtidos. Em

estudos supervisionados, é costume usar-se a taxa de erro como medida de qualidade do

modelo; para isso, será necessário separar o conjunto de dados em um conjunto de treino e em

outro de teste.

A criação do modelo representa a fase central, mais importante do KDD, significando

colocar uma técnica de modelagem sobre o conjunto de dados a analisar, para criar um ou

vários modelos. Inclui a parametrização das técnicas de modo a obter melhores resultados.

5.1.5 AVALIAÇÃO

Esta fase consiste na avaliação do modelo, revendo os passos seguidos e verificando se

foram alcançados os objetivos pretendidos na compreensão do negócio.

A estimação da qualidade e alcance dos resultados obtidos faz sua avaliação de acordo

com a perspectiva do negócio, ou seja, verifica se os resultados vão ao encontro dos objetivos

do negócio traçados inicialmente.

A revisão do processo tem como objetivo uma última confirmação da forma e tentativa

de encontrar fatores importantes que tenham sido omitidos até então.

A determinação das próximas tarefas a serem executadas pretende, de acordo com os

resultados obtidos e a revisão, decidir se o processo termina, devendo-se passar ao

133

desenvolvimento, ou se deverá efetuar correções no processo voltando a fases anteriores, ou

reiniciar um novo processo.

5.1.6 UTILIZAÇÃO

Conjunto de ações que conduzem à organização do conhecimento obtido e à sua

disponibilização, de modo que possa ser utilizado eficientemente pelo cliente.

O plano de desenvolvimento procura utilizar os resultados do KDD no negócio, tendo em

conta as avaliações dos resultados, que gera uma estratégia de desenvolvimento.

A produção do relatório final pretende criar, após o termino do processo, um relatório

para explicar os resultados obtidos e as experiências.

O plano de acompanhamento e manutenção do modelo gerado procura evitar utilizar

durante muito tempo resultados menos corretos. Dependendo do estudo e dos dados, poderá

ser necessária uma atualização periódica dos modelos.

A revisão do processo tem como objetivo uma verificação após o fim deste, para

determinar o que decorreu bem, o que não decorreu de acordo e o que poderá ser melhorado.

5.2 METODOLOGIA DE FAYYAD

Segundo FAYYAD et al. (1996), o processo de descoberta de conhecimento em base de

dados (DCBD) ou KDD, em inglês, é interativo e iterativo, envolvendo vários passos

seqüenciais, com muitas decisões sendo tomadas pelo usuário, podendo retornar a passos

anteriores buscando novos resultados. Resumidamente e de modo amplo, o processo envolve:

1. compreensão do domínio da aplicação e identificação do objetivo do processo de

KDD;

2. criação de um conjunto de dados alvos: seleção do conjunto de dados, nos quais a

descoberta será executada;

134

3. pré-processamento e limpeza dos dados: operações básicas como remoção de ruído (se

apropriado), coleta de informações necessárias para o modelo, verificação de campos de

dados ausentes;

4. projeção e redução dos dados: observação de características úteis para representar os

dados, dependendo do objetivo da tarefa, e utilização de métodos de redução ou

transformação para reduzir o número efetivo de variáveis;

5. combinação do objetivo do processo de KDD com um método particular de mineração

de dados, isto é, sumarização, classificação, regressão, clusterização, previsão etc;

6. escolha do algoritmo de mineração de dados: seleção do(s) método(s) a ser (em)

utilizado(s) para a busca de padrões nos dado;

7. aplicação do algoritmo de mineração de dados: busca por padrões interessantes

representados em uma maneira particular ou num conjunto de representações, como regras ou

árvores de classificação, regressão, clusterização, etc;

8. interpretação dos padrões minerados: possibilidade de retornar para qualquer um dos

passos anteriores para iterações adicionais. Esse passo pode também envolver o modo de

visualização dos padrões / modelos extraídos;

9. consolidação do conhecimento descoberto: incorporação desse conhecimento em outro

sistema para ações adicionais, ou simplesmente realização de sua documentação relatando

partes interessantes. Também inclui detecção e resolução de conflitos com o conhecimento

prévio do próprio usuário (especialista do domínio) ou do extraído.

135

FIG. 5.2 Processo KDD Fayyad

Fonte: FAYYAD et al. (1996).

FAYYAD et al. (1996) dividiram a metodologia em cinco etapas, vide a FIG. 5.2:

seleção;

pré-processamento;

transformação;

mineração de dados (Data Mining);

interpretação e avaliação.

O processo de KDD pode envolver diversas iterações e conter laços entre todas as etapas.

O fluxo básico das etapas é ilustrado na FIG. 5.2 e, segundo FAYYAD et al. (1996), a

maioria de trabalhos precedentes em KDD focaliza-se na etapa 4 - a mineração dos dados.

Entretanto, as outras etapas são de importância considerável para a aplicação bem sucedida na

prática.

136

Variantes das etapas do processo de KDD são encontradas em KLEMETTINEN et al.

(1997), conforme FIG. 5.3, e FELDENS et al. (1998), conforme FIG. 5.4, porém apenas com

algumas supressões e/ou aglutinações dessas etapas ou com sinônimos de nomenclatura.

FIG. 5.3 Processo de KDD – Klemettinen

Fonte: KLEMETTINEN et al. (1997).

FIG. 5.4 Processo de KDD – Feldens

Fonte: FELDENS et al. (1998).

137

A diferença entre a metodologia de Fayyad e suas variantes em relação à CRISP-DM é o

fato da primeira não fornecer apoio à documentação do processo de KDD.

5.2.1 SELEÇÃO

Tem por objetivo selecionar um conjunto de dados pertencentes a um domínio, para que,

a partir de um critério definido pelo especialista, estes possam ser analisados.

5.2.2 PRÉ-PROCESSAMENTO

Nessa etapa deverão ser realizadas tarefas que eliminem ou tratem os ruídos ou registros

com dados ausentes. Outra tarefa importante é a verificação de predominância de classes,

sendo que nesses casos, devem-se eliminar alguns registros da classe predominante ou

acrescentar registros das outras classes. O objetivo é balancear a base de dados de tal modo

que, no processo do aprendizado, uma classe não seja favorecida. Isso ocorre dependendo da

tarefa a ser escolhida.

Para que a base de dados possa se tornar consistente, faz-se necessário que os ruídos e os

dados ausentes sejam eliminados ou tratados, com o auxílio do especialista do domínio.

Ruídos referem-se a situações em que o atributo analisado possui valor não pertencente ao

universo desse atributo, por exemplo, um atributo altura com valor negativo. Já dados

ausentes correspondem a registros que não possuem todos os valores dos atributos

preenchidos. Em ambas as situações, os registros redundantes ou mal formados devem ser

eliminados ou modificados, de tal maneira que tenham a mesma classe ou todos os seus

valores preenchidos, respectivamente. A presença do especialista do domínio nesta etapa é

muito relevante.

5.2.3 TRANSFORMAÇÃO

Os dados são armazenados e formatados adequadamente para que os algoritmos de

aprendizado possam ser aplicados. Esta etapa, por algum tempo, foi considerada um

obstáculo, porque o usuário (engenheiro de conhecimento) tinha que ficar formatando os

dados, ou seja, adaptando-os em arquivos necessários para a execução de cada algoritmo de

138

aprendizado escolhido. Porém, hoje, esses algoritmos geralmente adotam um padrão de

entrada de dados único ou semelhante.

5.2.4 MINERAÇÃO DE DADOS (DATA MINING)

Envolve criação de modelos apropriados de representação dos padrões e relações

identificadas a partir dos dados. Os resultados desses modelos, depois de avaliados pelo

analista e/ou especialista, são empregados para predizer os valores de atributos definidos pelo

usuário final baseados em novos dados, segundo KERBER et al. (1995) e FAYYAD et al.

(1996b).

Os modelos gerados por data mining geralmente seguem os padrões estatísticos, neurais

ou simbólicos, de acordo com a técnica utilizada. Um modelo estatístico típico é gerado pelo

método de regressão e é representado por um sistema de equações. Um modelo neural é

representado como uma arquitetura de nós e conexões entre eles, além de ter uma função de

aprendizado. Já os modelos simbólicos são geralmente representados por regras do tipo

if...then ou árvores de decisão.

5.2.5 INTERPRETAÇÃO E AVALIAÇÃO

Durante essa etapa, o conhecimento adquirido (por exemplo, árvores de decisão e regras

de produção) é analisado. Para que esse exame seja feito corretamente, é fundamental que

essa etapa seja realizada em conjunto com o(s) especialista(s) do negócio.

5.3 SEMMA

Não há referencial bibliográfico sobre essa metodologia, além das informações

disponibilizadas pelo fabricante de software SAS, segundo SEMMA (2006).

A sigla SEMMA, do inglês Sample, Explore, Modify, Model e Assess, em português -

selecionar, explorar, modificar, modelar e avaliar – refere-se ao processo de conduzir o KDD.

Inicia-se com a escolha de uma amostra representativa de seus dados e, por meio da

metodologia, fica fácil a aplicação das técnicas estatísticas e de visualização, seleção e

139

transformação das variáveis mais significativas, modelando-as para predizer resultados e

confirmar a exatidão de um modelo.

Antes de examinar cada estágio da SEMMA, é importante dizer que se trata de referir-se

à SEMMA como uma metodologia de mineração de dados. SEMMA não é uma metodologia,

mas apenas uma organização lógica e funcional da ferramenta de mineração SAS Enterprise

Miner, e que abrange apenas a etapa de mineração dos dados e uma parte da etapa de pré-

processamento (atividade de seleção). O SAS Enterprise Miner pode ser usado como parte da

metodologia adotada pelo cliente. Naturalmente, as etapas de pré-processamento (formulação

do problema e a definição da origem dos dados) e pós-processamento (apresentação dos

resultados) são críticas para o sucesso total de todo o projeto de KDD.

A SEMMA é focalizada apenas nos aspectos do desenvolvimento da etapa de mineração

dos dados:

selecionar (Sample): os dados são extraídos de uma série muito grande e que

contenha informação significativa, podendo ser reduzida para que seja manipulada

rapidamente. Para otimizar o custo e o desempenho, a empresa SAS sugere definir uma

estratégia de amostragem, que utilize a estatística para extrair uma amostra representativa de

todos os dados disponíveis. Minerar uma amostra representativa, em vez do volume inteiro,

reduz o tempo de processamento necessário para começar a obter o conhecimento crucial do

negócio. Caso padrões gerais apareçam na maioria dos dados, estes serão representados em

uma amostra. Do contrário, ou seja, caso haja um nicho que tenha uma quantidade de dados

muito pequena e esta não for representada na amostra, devem-se utilizar técnicas de

reaplicação de dados de maneira que o nicho fique representado na amostra.

explorar (Explore): procura-se nos dados tendências e anomalias, a fim de ganhar a

compreensão e idéias. A exploração ajuda a refinar o processo da descoberta. Se a exploração

visual não revelar claramente tendências, podem-se explorar os dados com as técnicas

estatísticas incluindo a análise de fator, a análise da correspondência e agrupamento. Por

exemplo, minerar dados para uma campanha de mala direta, usando-se a técnica de

agrupamento pode revelar grupos de clientes com padrões requisitados distintos. Com isso,

criam-se oportunidades para desenvolvimento de promoções personalizadas;

140

modificar (Modify): criação, seleção e transformação das variáveis para focalizar o

processo de seleção do modelo. Baseado em suas descobertas na fase da exploração, o usuário

pode necessitar de:

manipular seus dados para incluir a informação, tal como a de agrupar os clientes

e subgrupos significativos, ou para introduzir variáveis novas;

procurar outliers e reduzir o número das variáveis, deixando as mais

significativas;

modificar dados, porque a mineração dos dados é um processo dinâmico,

iterativo, e podem-se atualizar métodos ou modelos de mineração de dados

quando a informação nova fica disponível;

modelar (Model): permiti-se que o software procure automaticamente por uma

combinação dos dados que predigam de modo confiante um resultado desejado; modelam-se

as técnicas de mineração dos dados que incluem: redes neurais, árvores de decisão, modelos

logísticos e outros modelos estatísticos - tais como a análise de séries temporais e de

componentes principais. Cada tipo de modelo tem forças particulares, é apropriado para

determinado tipo de tarefa, que também depende dos dados;

avaliar (Assess): os dados são avaliados por sua utilidade e a confiabilidade dos

resultados obtidos no processo de mineração de dados executado. Os meios comuns de

avaliação de um modelo são aplicados nas parcelas dos dados reservados durante o estágio da

amostragem. Se o modelo for válido, deve-se comparar a amostra de teste com a amostra de

treinamento usada para construir o modelo. Por exemplo, se em um arquivo de dados for

percebido que os clientes tiveram elevadas taxas de retenção e seu modelo predizer a

retenção, pode-se verificar se esse modelo seleciona os clientes corretamente. Além disso, as

aplicações práticas do modelo, tais como envios parciais em uma campanha de mala direta,

ajudam a provar sua validez.

Avaliando os resultados ganhos de cada estágio do processo de SEMMA, pode-se

determinar como modelar novas perguntas levantadas pelos resultados precedentes, e

prosseguir assim com uma nova fase de exploração dos dados para o refinamento do modelo.

Uma vez que se desenvolveu o modelo e que se obteve o melhor resultado esperado, por meio

da metodologia SEMMA, ele então necessita de ser distribuído ao cliente. O Enterprise Miner

pode gerar o código fonte do processo em linguagens de computador (C e Java) que poderão

ser anexadas a outros sistemas na empresa.

141

5.4 METODOLOGIA PROPOSTA PARA PREVISÃO DE DEMANDA FERROVIÁRIA (MPDF-DM)

A metodologia MPDF-DM é baseada nas metodologias CRISP-DM, SEMMA e

FAYYAD e será apresentada por meio de um conjunto de etapas que são detalhadas nas

seções seguintes.

Considerando a complexidade normalmente inerente a processos de descoberta de

conhecimento em bases de dados, esta metodologia utiliza como base princípios de

planejamento de atividades. Assim, em função dos objetivos de cada aplicação de KDD, os

passos do processo de descoberta de conhecimento são planejados antes do início de sua

execução. A aplicação da metodologia de KDD proposta divide-se em quatro etapas

detalhadas a partir do item 5.4.1.

A metodologia proposta sugere um processo iterativo e interativo, nos quais dependendo

dos resultados obtidos, os analistas de KDD podem retornar a qualquer etapa realizada

anteriormente em busca de melhores resultados. Para tanto, a metodologia requer uma

documentação detalhada das ações realizadas e dos resultados produzidos.

A documentação completa está disponível no anexo, item 9.6 do trabalho.

5.4.1 O MODELO GERAL PROPOSTO

O principal objetivo desta tese é definir um modelo de formalização do processo de

desenvolvimento de sistemas de descoberta de conhecimento em banco de dados, o qual é

representado na FIG. 5.6.

Assim, pode-se dizer que o processo de KDD consiste na descoberta de conhecimento

útil em dados; basicamente envolve várias etapas: a compreensão do domínio da aplicação

pelo usuário, a identificação do objetivo do processo, a seleção dos dados para a descoberta, a

preparação dos dados (eliminação de ruído, limpeza de erros), a transformação dos dados

(criação de classes e/ou discretização de atributos quantitativos), a aplicação de algoritmos de

mineração de dados (extração de padrões nos dados), até a interpretação ou avaliação dos

142

padrões descobertos (visualização, ordenação por algum critério, criação de relatórios,

validação do conhecimento descoberto por meio de algum método estatístico ou por um

especialista). No entanto, caso em algum momento o usuário perceba que os padrões gerados

não estão de acordo com o seu conhecimento ou que existem conflitos, ou que há necessidade

de se testar a geração de novos padrões, este por sua vez pode recorrer a etapas anteriores do

processo retomando a sua execução, caracterizando assim, a interatividade e a iteratividade do

processo.

A metodologia MPDF-DM é descrita na forma de modelo hierárquico de processos, que

consiste em um conjunto de tarefas descritas em três níveis de abstração (do geral para o mais

específico): etapas, atividades e detalhamento das atividades, conforme a FIG. 5.5.

FIG. 5.5 Níveis da Metodologia MPDF-DM

O primeiro nível da metodologia é organizado em etapas, que são divididas em

atividades, passando-se para o terceiro nível, com o detalhamento das atividades escolhidas

no nível anterior, conforme representado na FIG. 5.5.

143

FIG. 5.6 Metodologia MPDF-DM

Para tanto, são indicados modelos de documentação que, apoiados em uma linha básica

de raciocínio, subsidiam a escolha de procedimentos a serem adotados diante da diversidade

de situações e possibilidades, permitindo também uma documentação de todo o projeto.

A utilização de formulários deve-se à recomendação feita no trabalho de

GOLDSCHIMIDT e PASSOS (2005) e na metodologia CRISP-DM, que mantém toda a

documentação por meio de formulários.

Todos os documentos da metodologia têm o mesmo cabeçalho, FIG. 5.7, e rodapé, FIG.

5.8.

144

FIG. 5.7 Cabeçalho do documento

No cabeçalho, o título do documento está descrito acima da linha azul e, abaixo, tem-se o

campo nome do projeto, que é auto-explicativo e o campo atividade que deve ser preenchido

com um valor numérico seqüencial, iniciado por 1 e acrescido de 1 à medida que os

documentos forem utilizados.

FIG. 5.8 Rodapé do documento

O rodapé é comum a quase todos os documentos e deve ser preenchido com o nome do

responsável pelo planejamento da atividade referente ao documento e o nome do executante

da atividade do respectivo documento; para ambos os casos deve-se preencher o campo de

data. A exceção é o rodapé do documento de observação, que não tem o responsável pelo

planejamento, porque é uma continuação de uma atividade planejada em outro documento.

5.4.2 ANÁLISE DO SISTEMA

Essa primeira etapa da metodologia tem como principais objetivos: definir tipos de

investigações a serem realizadas com a aplicação de técnicas do processo de KDD e

identificar as fontes de dados necessárias nessas investigações.

As atividades são (FIG. 5.9):

1) definição dos atores;

2) descrição inicial do problema;

3) definição dos objetivos do sistema;

145

4) expectativas quanto ao modelo de conhecimento;

5) prazo.

FIG. 5.9 Atividades da Etapa Análise do Sistema

A documentação gerada nessa etapa é o Documento de Análise do Sistema, representado

na FIG. 5.10.

146

FIG. 5.10 Documento – Análise do Sistema

As principais definições encontram-se nos tópicos seguintes.

5.4.2.1 DEFINIÇÃO DOS ATORES

Identificar as pessoas e áreas envolvidas no processo de KDD é a primeira atividade

dessa etapa. Os atores são classificados em quatro tipos:

interessados (stakeholder, confome a metodologia PMI, PMBOX (1996)): é

qualquer um que esteja interessado na previsão de demanda gerada pelo projeto ou que seja

afetado por seus produtos, direta ou indiretamente. É importante entender os valores e

assuntos que os interessados têm, para focá-los e mantê-los unidos durante o projeto.

Exemplos de interessados: gerentes, patrocinadores e usuários do conhecimento;

patrocinador: é o indivíduo ou entidade que disponibiliza os recursos financeiros

para a execução do projeto de previsão de demanda e que pode ter algumas funções durante

147

esta, conforme PMBOX (1996), tais como: participar com a equipe na definição do escopo,

caracterizar a expectativa quanto ao modelo de conhecimento, aprovar o escopo definido e

suas alterações (mudanças) e promover as articulações com os participantes;

analista KDD: é o especialista em projetos de KDD e responsável pela condução do

projeto;

especialista ferroviário: é o indivíduo com domínio em ferrovia e na área onde será

realizado o projeto de KDD.

Segundo GOLDSCHMIDT e PASSOS (2005), os especialistas no domínio da aplicação,

a equipe de tecnologia da informação e os grupos de decisão que deverão aplicar os resultados

devem ser submetidos, sempre que necessário, a um treinamento em KDD que nivela o

conhecimento técnico na área.

5.4.2.2 DESCRIÇÃO INICIAL DO PROBLEMA

A segunda atividade da etapa de análise do sistema inicia-se com a descrição do

problema a ser solucionado dentro da tarefa de previsão de séries temporais. Na verdade, pode

não existir um problema real a ser solucionado, considerando que a mineração de dados pode

ser aplicada como um processo de descoberta, no qual nem sempre é feito algum tipo de

suposição antecipada.

Na descrição do problema, deve-se dar uma visão geral do funcionamento do(s)

sistema(s) em operação, pertencentes ao domínio do problema, e dos bancos de dados

existentes como, por exemplo, relação das tabelas e atributos de bancos de dados operacionais

e a periodicidade de sua atualização.

5.4.2.3 DEFINIÇÃO DOS OBJETIVOS DO SISTEMA

Após ser feita a descrição do problema, deve-se identificar a área de interesse para

estudo, definir os objetivos gerais e específicos que deverão ser alcançados com a previsão de

demanda e determinar como os resultados obtidos podem ser usados no suporte à tomada de

decisão na empresa.

148

Na definição dos objetivos, deve–se ter uma idéia sobre que tipos de informações seriam

estrategicamente interessantes de serem obtidas e sobre como o conhecimento descoberto

poderá ser aplicado na empresa.

5.4.2.4 EXPECTATIVAS QUANTO AO MODELO DE CONHECIMENTO

O analista de KDD deve listar todas as expectativas identificadas, bem como as métricas

de avaliação dos modelos gerados na previsão. Em seguida, deve validá-las junto aos

especialistas ferroviários. Uma vez validadas, o analista de KDD deve procurar agrupá-las em

função de sua natureza e de modo que expectativas em um grupo possam ser atendidas por

um mesmo modelo de conhecimento.

5.4.2.5 PRAZO

Deve-se informar o prazo previsto de execução do processo de KDD e, se possível,

alinhá-lo com outras metodologias de controle de projetos, visto que segundo MACHADO

(2002), um dos principais efeitos negativos dos projetos de software é o não atendimento ao

seu prazo.

5.4.3 PRÉ-PROCESSAMENTO

Essa etapa é responsável pela escolha do método utilizado, dos dados necessários, e de

sua padronização para a utilização na etapa de mineração de dados. Maiores detalhes podem

ser obtidos no item 4.2.1 e são representados na FIG. 5.11.

149

FIG. 5.11 Atividades da etapa Pré-processamento.

Nessa etapa são gerados cinco tipos de documentos, definidos nos itens abaixo.

5.4.3.1 ESCOLHA DA TÉCNICA CANDIDATA

Uma vez definidas as funcionalidades (resultados) a que se deseja chegar com o processo

de KDD, cabe agora escolher que técnicas podem ser utilizadas, que sejam mais aderentes

para a obtenção dos resultados, com uma melhor precisão. Por exemplo, a funcionalidade de

previsão pode ser feita utilizando-se a técnica de regressão linear ou regressão múltipla.

Entretanto, sabe-se que para uma estimativa de curtíssimo prazo e com poucas variáveis, a

150

regressão linear é mais fácil de ser utilizada e proporciona bons resultados. Para estimativas

de longo prazo essa regressão não é a mais indicada, segundo BALLOU (2006). A TAB. 5.2

mostra um conjunto parcial de técnicas que podem ser utilizadas em cada funcionalidade; o

formulário está representado na FIG. 5.12.

TAB. 5.2 Relação técnica de previsão e horizonte

Método Horizonte de tempo da previsão Box-Jenkins Curto – Médio Delphi Médio – Longo Lógica Fuzzy Curto – Médio Média Móvel Curto Modelo Econométrico Curto – Médio Ponderação Exponencial Curto Redes Neurais Curto – Médio Regressão de Poisson Curto – Médio Regressão Linear Curto – Médio Regressão Logística Curto – Médio Regressão Múltipla Curto – Médio Regressão não Linear Curto – Médio

Fonte: BALLOU (2006) e AZEVEDO e CORTES (2006).

151

FIG. 5.12 Documento – Pré-processamento para escolha da técnica

5.4.3.2 SELEÇÃO DOS DADOS

A atividade de seleção é obrigatória na etapa de pré-processamento, devido à necessidade

de informar qual é a origem da informação no processo de KDD, podendo ser transacional ou

data warehouse.

152

FIG. 5.13 Documento pré-processamento de seleção

O documento, representado na FIG. 5.13, deve ser preenchido seguindo os seguintes

critérios para os campos destacados:

campo 1: caso a origem da informação seja um banco de dados transacional, deve-se

preencher esse campo com o nome da tabela;

campo 2: caso a origem da informação seja um banco de dados transacional, deve-se

preencher esse campo com os nomes das colunas utilizadas na tabela definida no campo 1;

campo 3: se a origem da informação for um data warehouse, deve-se preencher esse

campo com o nome da tabela fato ou dimensão, que estão explicadas no item 9.1;

campo 4: se a origem da informação for um data warehouse, deve-se preencher esse

campo com os nomes dos atributos utilizados na tabela fato ou dimensão definida no campo

campo 5: deve-se informar a condição de união das tabelas, fatos e dimensões

definidas nos campos 1 e 3;

153

campo 6: deve-se informar o período utilizado para a seleção das informações

utilizadas no processo de KDD;

campo 7: caso seja necessário, comentar algo sobre a atividade de seleção.

Maiores informações sobre a atividade de seleção de dados encontram-se no item 4.2.1.1;

sobre data warehouse, tabelas fato e dimensão, no anexo.

5.4.3.3 LIMPEZA

A atividade de limpeza somente faz sentido quando se encontram no processo

informações ausentes, inconsistências e valores não pertencentes ao domínio; por isso, é uma

atividade opcional. Quando a origem da informação é um data warehouse, a possibilidade e a

necessidade da atividade de limpeza diminuem, visto que um dos processos para se fazer um

data warehouse é limpar a base de dados, conforme KIMBALL e ROSS (2002), e, caso a

origem seja um banco transacional, a possibilidade aumenta, conforme BRAGA (2005).

Essa atividade deve ser realizada para cada coluna ou atributo que tenha alguma

informação inconsistente.

154

FIG. 5.14 Documento pré-processamento de limpeza

O documento, representado na FIG. 5.14, deve ser preenchido seguindo os seguintes

critérios:

método: marcar o método utilizado;

critério: preencher o campo descrevendo o critério utilizado na atividade de limpeza;

observação: caso seja necessário, comentar algo sobre a atividade de limpeza.

Maiores informações sobre a atividade de seleção encontram-se no item 4.2.1.2.

5.4.3.4 CODIFICAÇÃO

A necessidade da atividade de codificação e sua utilização dependem do método

escolhido no item 5.4.3.1.

155

FIG. 5.15 Documento pré-processamento de codificação

O documento, representado na FIG. 5.15, deve ser preenchido seguindo as regras para os

campos:

método: marcar o método utilizado;

critério: preencher o campo descrevendo o critério utilizado na atividade de

codificação;

observação: caso seja necessário, comentar algo sobre a atividade de codificação.

Maiores informações sobre a atividade de seleção encontram-se no item 4.2.1.3.

5.4.3.5 NORMALIZAÇÃO

Essa atividade é opcional e sua utilização depende do método escolhido no item 5.4.3.1.

Algumas técnicas, como por exemplo Redes Neurais, obtêm melhor desempenho quando os

dados estão normalizados. Esse documento está representado conforme FIG. 5.17.

156

FIG. 5.16 Documento pré-processamento de normalização

O documento, representado na FIG. 5.16, deve ser preenchido seguindo as regras para os

campos:

método: marcar o método utilizado;

critério: preencher o campo descrevendo o critério utilizado na atividade de

normalização;

observação: caso seja necessário, comentar algo sobre a atividade de normalização.

Maiores informações sobre a atividade de normalização encontram-se no item 4.2.1.4.

157

5.4.3.6 ENRIQUECIMENTO

Essa atividade é opcional, porque às vezes a empresa que está fazendo o processo de

KDD possui todas as informações necessárias à geração do conhecimento em sua base de

dados. Esse documento está representado conforme FIG. 5.17.

FIG. 5.17 Documento pré-processamento de enriquecimento

O documento, representado na FIG. 5.17, deve ser preenchido seguindo as regras para os

campos destacados:

campo 1: informação pesquisada;

campo 2: nome da técnica utilizada na pesquisa;

158

campo 3: período a que se refere a pesquisa;

campo 4: nome da fonte da base de dados externa, banco de dados e tabela;

campo 5: informação selecionada da base de dados externa;

campo 6: período a que se referem os dados selecionados da base de dados externa;

campo 7: nome do(s) atributo(s) utilizado(s) na criação do novo atributo;

campo 8: nome do atributo derivado, ou seja, que está sendo criado;

campo 9: critério utilizado para a criação do novo atributo;

campo 10: caso seja necessário, comentário sobre a atividade de enriquecimento.

Maiores informações sobre a atividade de seleção encontram-se no item 4.2.1.5.

5.4.4 MINERAÇÃO DE DADOS

A mineração de dados é a principal etapa da metodologia proposta e onde ocorre a

descoberta do conhecimento. Maiores detalhes, podem ser obtidos no item 4.2.2 e são

representados na FIG. 5.18.

FIG. 5.18 Atividades da etapa de Mineração de Dados

Para a execução das atividades dessa etapa, é necessário o preenchimento de somente um

documento que está representado na FIG. 5.19.

159

FIG. 5.19 Documento de mineração de dados

O documento, representado na FIG. 5.19, deve ser preenchido seguindo as regras para os

campos destacados:

campo 1: seleção dos conjuntos de dados que serão utilizados nessa atividade e os

respectivos percentuais. REZENDE (2003) sugere que o conjunto de dados seja divido em 2/3

para treinamento e 1/3 para teste, quando são utilizados somente os dois conjuntos. Caso seja

necessária a utilização do conjunto de validação, o mesmo deverá ter aproximadamente 10%;

campo 2: escolha da ferramenta utilizada nessa atividade e a técnica, como, por

exemplo, para ferramenta: SAS Enterprise Miner, SAS Enterprise Guide, Matlab, Excel, etc; e

para a técnica: redes neurais, lógica fuzzy, regressão linear, regressão logística, etc. A técnica

160

é a definida na atividade de Escolha da Técnica na etapa de Pré-processamento, que deve ser

preenchida nesse campo novamente;

campo 3: parâmetros utilizados com a técnica para obtenção dos resultados

apresentados no campo 4;

campo 4: resultados obtidos com a técnica em cada conjunto de dados e a métrica

utilizada para a avaliação dos resultados;

campo 5: caso seja necessário, comentar algo sobre a atividade de mineração de

dados.

Maiores informações sobre a etapa atividade de mineração de dados encontram-se no

item 4.2.2.

5.4.5 PÓS-PROCESSAMENTO

A última etapa da metodologia tem como objetivo realizar as atividades da FIG. 5.20:

FIG. 5.20 Atividades da etapa de Pós-processamento

O documento gerado nessa etapa é o de pós-processamento, contendo informações sobre

as atividades de simplificação do modelo de conhecimento e da apresentação.

161

FIG. 5.21 Documento de pós-processamento

O documento, representado na FIG. 5.21, deve ser preenchido seguindo os seguintes

critérios para os campos destacados e vai depender da técnica utilizada na atividade de

mineração de dados:

campo 1: técnica utilizada na atividade mineração de dados;

campo 2: precisão da regra gerada na métrica definida na atividade de expectativa de

conhecimento;

campo 3: informação se a regra foi eliminada ou não, baseada na atividade de

Expectativa de Conhecimento da etapa de Análise do Sistema;

campo 4: data de conclusão / apresentação de todo o processo de KDD, alinhando

com outras metodologias de controle de projetos, conforme MACHADO (2002);

162

campo 5: caso seja necessário, comentar algo sobre a etapa de Pós-processamento ou

suas atividades.

Maiores informações sobre a etapa atividade de mineração de dados encontram-se no

item 4.2.3.

5.4.6 OBSERVAÇÃO

Esse documento, representado pela FIG. 5.22, deve ser preenchido somente quando em

alguma atividade o campo de observação for insuficiente.

FIG. 5.22 Documento de observação

163

5.5 CONSIDERAÇÕES FINAIS

A característica de indeterminismo presente no processo de previsão de demanda

ferroviária faz com que esse se diferencie de outros tipos de tarefas de KDD. Por isso, o uso

de metodologias clássicas de condução do processo de KDD torna-se inadequado, sendo

necessária a definição de metodologia específica, porque as primeiras têm atividades

desnecessárias ao processo de previsão de demanda e não possuem atividades específicas,

como por exemplo, a partição do conjunto de dados, presente na metodologia proposta.

A má especificação de qualquer tipo de produto de software pode levar a resultados

incorretos, que causem graves conseqüências. No caso dos processos de KDD, os resultados

incorretos possivelmente levam a tomadas de decisões também incorretas, as quais propiciam

grandes prejuízos financeiros à empresa.

A metodologia proposta define um processo completo e sistemático de desenvolvimento

de sistemas de KDD que aplicam técnicas de mineração de dados.

As etapas da metodologia MPDF-DM, se seguidas corretamente, levam a especificações

corretas, verificadas e validadas, contribuindo, assim, na construção de sistemas confiáveis e

de qualidade, no processo de KDD.

Deve-se ressaltar que a metodologia pode ser empregada para diversas técnicas de

previsão, diversos períodos, ou seja, curto, médio ou longo prazo, e utilizada

independentemente do software que executará a atividade de mineração de dados.

O próximo capítulo apresenta o estudo de caso com a aplicação da metodologia MPDF-

DM.

164

6 ESTUDO DE CASO

Este capítulo visa apresentar a aplicação da metodologia proposta, para avaliação do

desempenho do planejamento da solicitação de transporte pelos clientes da MRS Logística

S.A., empresa situada em Juiz de Fora / MG e que forneceu todos os dados necessários para

que a metodologia pudesse ser testada.

Para a execução dos métodos, foram utilizadas as ferramentas SAS Enterprise Miner,

SAS Enterprise Guide, MATLAB 7.1, Microsoft Excel 2003 e ferramenta Fuzzy Rules 2001,

desenvolvida por VALE e VELLASCO (2001).

6.1 MRS LOGÍSTICA

A MRS Logística é uma concessionária ferroviária privada que controla, opera e

monitora a Malha Sudeste da Rede Ferroviária Federal. A empresa atua no mercado de

transporte ferroviário desde 1996, quando foi constituída, interligando os estados do Rio de

Janeiro, Minas Gerais e São Paulo. São 1.674 Km de malha - trilhos que facilitam o processo

de transporte e distribuição de cargas numa região que concentra aproximadamente 65% do

produto interno bruto do Brasil e onde estão instalados os maiores complexos industriais do

país. Pela malha da MRS, também é possível alcançar os portos de Sepetiba e de Santos (o

mais importante da América Latina).

O foco das atividades da empresa está no transporte ferroviário de cargas gerais, como

minérios, produtos siderúrgicos acabados, cimento, bauxita, produtos agrícolas, coque verde e

contêineres e na logística integrada, que implica planejamento, multimodalidade e transit time

(tempo de trânsito entre a origem e o destino) definido, segundo MRS (2006).

Atualmente, os clientes da MRS solicitam o que vão transportar com um dia de antecedência e só

a partir desse momento é que se faz a programação da produção, o que causa transtorno, porque os

recursos materiais a serem alocados são escassos e disponibilizá-los no local correto demanda tempo,

provocando o atraso no atendimento do cliente.

165

6.2 SOFTWARES UTILIZADOS

Um dos motivos da escolha das ferramentas da SAS para a utilização nesta dissertação

foi o fato de ela ter um programa de apoio e incentivo a projetos acadêmicos chamado

Fellowship, que fornece todos os aplicativos necessários ao desenvolvimento da dissertação e

o acesso a sua base de conhecimento sobre o assunto; além do fato da SAS ser uma das

empresas líderes de mercado nos seguimentos em que atua.

Além dos softwares da SAS, foram utilizados o Matlab com o pacote ANFIS, o Microsoft

Excel e o Fuzzy Rules 2001. Todos estão descritos nos tópicos abaixo.

6.2.1 SAS ENTERPRISE MINER

A SAS define Data Mining como “o processo de Selecionar (Sample), Explorar

(Explore), Modificar (Modify), Modelar (Model) e Avaliar (Assess) – SEMMA – grandes

quantidades de dados, para descobrir padrões previamente desconhecidos”. O pacote

Enterprise Miner é um pacote integrado de Data Mining, que fornece uma interface amigável

ao processo SEMMA. Maiores detalhes podem ser consultados no item 5.3.

O processo é conduzido por um fluxograma, conforme a FIG. 6.1, que pode ser

modificado e gravado. Este é desenhado de modo que o analista do negócio, que tem poucos

conhecimentos de estatística, o possa utilizar para descobrir informação face a novos dados.

166

FIG. 6.1 SAS Enterprise Miner versão 5.2 – Janela de projeto

Enterprise Miner contém um conjunto de ferramentas de análise que podem ser

combinadas de modo a criar e comparar múltiplos modelos. Além destas, existem ferramentas

para preparação dos dados, nomeadamente para detecção de pontos isolados, transformação

de variáveis, amostragem e partição dos dados em conjuntos de treino, teste e de validação.

As suas ferramentas de visualização permitem uma análise rápida e fácil dos dados e

resultados obtidos.

6.2.2 SAS ENTERPRISE GUIDE

O Enterprise Guide tem uma interface intuitiva e fácil de usar, pois fornece um acesso

transparente aos dados sem olhar o local ou a maneira na qual se encontram os mesmos.

Nesse pacote é possível acessar uma grande variedade de ferramentas da empresa SAS.

Por meio dela é possível:

acesso transparente aos dados no formato SAS e em outros formatos;

tarefas interativas que conduzem o analista a produzir relatórios e análises;

facilidade de exportar os resultados para outras aplicações Windows e para a Web;

167

possibilidade de programar o projeto para funcionar em versões anteriores.

Com o SAS Enterprise Guide você pode produzir ótimos resultados em poucos minutos.

Sua aparência pode ser observada na FIG. 6.2.

FIG. 6.2 SAS Enterprise Guide – versão 4

6.2.3 MICROSOFT EXCEL

O Excel é um programa de planilha eletrônica desenvolvido pela Microsoft para

Windows, que pode ser utilizado a fim de calcular, armazenar e trabalhar com lista de dados,

criar relatórios e gráficos; sendo recomendado para planejamentos, previsões, análises

estatísticas e financeiras, simulações e manipulação numérica em geral.

Por meio das técnicas demonstradas por CHOPRA e MEINDL (2003) e com o

suplemento de análise de dados, foi possível utilizar o Excel nos métodos de Média Móvel,

Ponderação Exponencial, Holt e Regressão Linear, FIG. 6.3.

168

FIG. 6.3 Regressão no Excel

6.2.4 MATLAB

Matlab é um pacote de software que facilita a inserção de matrizes e vetores, além de

facilitar a manipulação deles. A interface segue uma linguagem que é projetada para parecer

com a notação usada na álgebra linear. Possui diversos pacotes extras, sendo um deles o

ANFIS que implementa o método Neuro-Fuzzy. Desenvolvido pela empresa MathWorks, foi

utilizada a versão 7.2.

A interface do pacote ANFIS é representada pela FIG. 6.4.

169

FIG. 6.4 Matlab ANFIS

6.2.5 FUZZY RULES 2001

Software desenvolvido por Vale e Vellasco tendo como técnica a utilização de Lógica

Fuzzy na área de controle e de previsões de séries temporais, representado pela FIG. 6.5.

170

FIG. 6.5 Fuzzy Rules 2001

O software baseia-se no método de Mendel para gerar uma base de regras fuzzy a partir

de dados numéricos e informações lingüísticas, dando suporte também a testes em cima dessa

base, a fim de observar o comportamento do sistema criado.

6.3 APLICAÇÃO DA METODOLOGIA

A MRS Logística forneceu os dados referentes à solicitação da Tonelada Útil (TU) –

unidade de peso utilizada em transporte ferroviário - por parte de seus clientes. Essa base tem

um total de 562.746 registros com as informações representadas na TAB. 6.1, para o período

entre 1° de dezembro de 2003 e 31 de outubro de 2006.

171

TAB. 6.1 Estrutura dos dados da MRS Logística

Coluna Descrição NU_FLUXO_TRPT Número do fluxo de transporte DT_DEMD_VAGAO Data da demanda de vagões QT_VAGAO_SLTD Quantidade de vagões solicitados para o transporte PS_TU_SLTD Peso em TU solicitado para o transporte DC_MERC_RSMD Mercadoria a ser transportada NM_ABRV_CLIE Nome abreviado do cliente SG_PATIO_FRVR_ORIG Sigla do pátio ferroviário de origem NM_PATIO_FRVR_ORIG

Nome do pátio ferroviário de origem SG_PATIO_FRVR_DEST Sigla do pátio ferroviário de destino NM_PATIO_FRVR_DEST

Nome do pátio ferroviário de destino DC_PROD Descrição do produto SG_TERM_CLIE Sigla do terminal de destino do cliente

NM_TERM_FRVR_CLIE Nome do terminal de destino do cliente Fonte: MRS Logística S.A. (2006).

Devido à metodologia ser iterativa, algumas atividades foram repetidas, porque técnicas

diferentes foram usadas. Todas as atividades realizadas são detalhadas abaixo.

A primeira atividade foi a identificação dos atores envolvidos no processo de KDD, e,

após discussões entre os interessados no estudo, ficou definido:

interessados:

Instituto Militar de Engenharia (IME): instituição responsável pelo aluno;

MRS: empresa fornecedora dos dados;

patrocinador:

CNPq: mantenedor da pesquisa;

analista de KDD:

Giovanni: conhecedor das técnicas e tarefas do processo de KDD;

Especialista ferroviário:

Marcelo Neder: especialista em Engenharia Ferroviária e engenheiro de

operações da MRS.

As atividades seguintes foram:

descrever o problema enfrentado pela MRS Logística;

172

definir o objetivo do processo de KDD;

informar as expectativas quanto ao modelo de conhecimento a ser gerado no

processo.

Para realizar todo o processo, foi importante definir o prazo de execução, de modo que

todos os envolvidos ficaram cientes de quando os resultados estariam disponíveis. Com isso

foi concluída a etapa de Análise do Sistema, que está representada na FIG. 6.6.

FIG. 6.6 Análise do Sistema

Em função de o modelo gerado ser para um dia à frente, as técnicas escolhidas são de

curto prazo, conforme BALLOU (2006):

Média Móvel;

173

Ponderação Exponencial;

Suavização Exponencial com Tendência (Método de Holt);

Regressão Linear;

Lógica Fuzzy;

Neuro-Fuzzy;

Redes Neurais.

Na expectativa quanto ao modelo de conhecimento gerado foi escolhida a métrica de

avaliação chamada Erro Médio Percentual, ou MAPE em inglês, que indica o valor médio do

erro percentual das previsões sobre todo o conjunto de teste.

Como foi definido que o objetivo era de prever o que os clientes iriam solicitar, gerou-se

uma nova base de dados com as informações representadas na TAB. 6.2 e o respectivo

gráfico, conforme FIG. 6.7. Essa base foi utilizada para as técnicas de Média Móvel,

Ponderação Exponencial, Método de Holt, Regressão Linear, Lógica Fuzzy, Neuro-Fuzzy e

Redes Neurais.

TAB. 6.2 Informações utilizadas na previsão

Coluna Descrição DT_DEMD_VAGAO Data da demanda de vagões PS_TU_SLTD Peso em TU solicitado para o transporte

Fonte: MRS Logística S.A. (2006).

174

TU Solicitada

050

100150200250300350400

01/12

/200

01/03

/200

01/06

/200

01/09

/200

01/12

/200

01/03

/200

01/06

/200

01/09

/200

01/12

/200

01/03

/200

01/06

/200

01/09

/200

Data

n x

mil

FIG. 6.7 TU Solicitada Diária

Fonte: MRS Logística S.A. (2006).

Com a visualização do gráfico, observou-se que havia um outlier na série e, consultando

a base, descobriu-se que era o dia 1º de janeiro de 2006 com 80.675 toneladas. Devido a isso,

o especialista do negócio confirmou que esse valor estava errado, e foi gerada uma atividade

de limpeza de inconsistência para esse dia, representada pela FIG. 6.8. O novo valor foi

apurado pela média dos sete dias anteriores a 1º de janeiro e passou a ser de 297.521

toneladas. Esse modo de apuração foi aprovado pelo especialista e descrito no documento da

FIG. 6.9.

175

FIG. 6.8: Atividade de limpeza dos dados.

176

FIG. 6.9 Atividade de observação

Os métodos de previsão de Média Móvel, Ponderação Exponencial, Método de Holt,

Regressão Linear e Lógica Fuzzy seguem o mesmo padrão de trabalho, ou seja, executam a

atividade de escolha do método, FIG. 6.10, e a de mineração de dados, FIG. 6.11.

177

FIG. 6.10 Atividade de escolha do método

A diferença no preenchimento dos formulários é quanto à escolha da técnica e à

justificativa da mesma.

178

FIG. 6.11 Atividade de mineração de dados

Na atividade de mineração, as diferenças que ocorreram no preenchimento do formulário

foram:

a ferramenta utilizada, que para Média Móvel, Ponderação Exponencial, Método de

Holt e Regressão Linear foi o Microsoft Excel 2003 e para Lógica Fuzzy, o Fuzzy Rules

2001;

o parâmetro, que é particular de cada método;

o resultado alcançado por cada um dos métodos.

179

Para a técnica de Média Móvel, foram utilizadas diversas combinações de quantidade de

períodos para se prever o período seguinte; o melhor resultado foi obtido com três períodos

anteriores para a previsão do quarto, conforme FIG. 6.11.

Para as técnicas de Ponderação Exponencial e de Holt, os parâmetros foram encontrados

por meio de tentativa de ajustes das constantes de suavização a para a primeira técnica e a e ß

para a segunda técnica.

O resultado para a técnica de Regressão Linear foi apurado lançando a série de dados

diretamente no Excel e aplicando a função de regressão do pacote de análise de dados.

Gerou-se um arquivo com as informações da TU Solicitada pelo cliente para o período de

estudo e lido pelo Fuzzy Rules 2001 para a execução da técnica de Lógica Fuzzy. Após,

foram ajustados os parâmetros de conjuntos por variável como 3, do mesmo modo que a

técnica de Média Móvel. Foram escolhidos três conjuntos para a variável, a fim de que fosse

gerado um conjunto menor de regras, e depois da geração das mesmas, eliminaram-se aquelas

que tinham menor peso, o que resultou em doze regras. Esse trabalho foi realizado para o

conjunto de treinamento, que representava 70% das ocorrências. Para o conjunto de teste, que

representava 30% das ocorrências, foram testadas as combinações referentes aos métodos de

interseção e implicação e ao processo de defuzzificação. O melhor resultado foi obtido com a

combinação de Interseção com a opção mínimo, Implicação com produto e Defuzzificação

com altura limite.

Para o método Neuro-Fuzzy, ocorreram atividades extras às realizadas para os métodos

anteriores; na atividade de Seleção de Dados, foram selecionados também os pesos defasados

em um dia e dois dias, e, na atividade de Normalização, FIG. 6.12, houve a necessidade de

normalizar os pesos, de modo que ocorresse um melhor desempenho da técnica. O software

utilizado para esse método foi o Matlab com o pacote ANFIS.

180

FIG. 6.12 Atividade de normalização

O último método usado foi o de Redes Neurais Artificiais (RNA) com o software SAS

Enterprise Miner, que utilizou todas as informações descritas na TAB. 6.1, com as

transformações necessárias para o melhor desempenho da técnica, sendo acrescentadas as

informações do valor médio diário do dólar de venda, valores diários da balança comercial de

importação e exportação, por meio das atividades de Enriquecimento e Normalização

conforme FIG. 6.13 e FIG. 6.14, respectivamente. Foi necessária a realização da atividade de

Codificação para a adequação dos atributos do nome do cliente, sigla dos pátios de origem e

destino ao método, representado pela FIG. 6.15. As demais atividades realizadas foram a de

Seleção de Dados e Mineração de Dados.

181

FIG. 6.13 Atividade de enriquecimento

182

FIG. 6.14 Atividade de normalização

183

FIG. 6.15 Atividade de codificação

Após a execução dos sete métodos, realizou-se a última etapa da metodologia MPDF-DM

que é a de Pós-processamento, onde foi feita a escolha do método vencedor por meio da

métrica MAPE, definida na atividade Expectativa do Modelo e representada na FIG. 6.16.

Os modelos gerados pelas técnicas consideradas no trabalho foram:

Média Móvel:

o 3

211

tttt

DDDF EQ. 6.1

o Onde:

o F: valor previsto para o período

o D: demanda no período

o t: período de tempo

Ponderação Exponencial:

184

o ttt FDF 58,042,01 EQ. 6.2

o Onde:

o F: valor previsto para o período

o D: demanda no período

o t: período de tempo

Suavização Exponencial com Tendência (Holt):

o 11111 55,0)(45,0)(77,023,0 ttttttt TLLTLDF EQ. 6.3

o Onde:

o F: valor previsto para o período

o L: nível do período

o T: tendência do período

o D: demanda no período

o t: período de tempo

Regressão Linear:

o ttF 34,9388,570.2551 EQ. 6.4

o Onde:

o F: valor previsto para o período

o t: período de tempo

Lógica Fuzzy: 12 regras geradas.

o Se [Peso Atual] igual a [Médio] e [Peso Mês Passado] igual a [Médio] e

[Peso Mês Retrasado] igual a [Baixo] então [Peso Mês Seguinte] igual a

[Médio]

o Se [Peso Atual] igual a [Médio] e [Peso Mês Passado] igual a [Baixo] e

[Peso Mês Retrasado] igual a [Médio] então [Peso Mês Seguinte] igual a

[Médio]

o Se [Peso Atual] igual a [Baixo] e [Peso Mês Passado] igual a [Médio] e

[Peso Mês Retrasado] igual a [Baixo] então [Peso Mês Seguinte] igual a

[Baixo]

o Se [Peso Atual] igual a [Médio] e [Peso Mês Passado] igual a [Baixo] e

[Peso Mês Retrasado] igual a [Baixo] então [Peso Mês Seguinte] igual a

[Médio]

185

o Se [Peso Atual] igual a [Baixo] e [Peso Mês Passado] igual a [Baixo] e

[Peso Mês Retrasado] igual a [Baixo] então [Peso Mês Seguinte] igual a

[Baixo]

o Se [Peso Atual] igual a [Baixo] e [Peso Mês Passado] igual a [Baixo] e

[Peso Mês Retrasado] igual a [Médio] então [Peso Mês Seguinte] igual a

[Baixo]

o Se [Peso Atual] igual a [Baixo] e [Peso Mês Passado] igual a [Médio] e

[Peso Mês Retrasado] igual a [Médio] então [Peso Mês Seguinte] igual a

[Médio]

o Se [Peso Atual] igual a [Médio] e [Peso Mês Passado] igual a [Médio] e

[Peso Mês Retrasado] igual a [Médio] então [Peso Mês Seguinte] igual a

[Médio]

o Se [Peso Atual] igual a [Médio] e [Peso Mês Passado] igual a [Alto] e

[Peso Mês Retrasado] igual a [Médio] então [Peso Mês Seguinte] igual a

[Médio]

o Se [Peso Atual] igual a [Alto] e [Peso Mês Passado] igual a [Médio] e

[Peso Mês Retrasado] igual a [Médio] então [Peso Mês Seguinte] igual a

[Médio]

o Se [Peso Atual] igual a [Médio] e [Peso Mês Passado] igual a [Alto] e

[Peso Mês Retrasado] igual a [Alto] então [Peso Mês Seguinte] igual a

[Alto]

o Se [Peso Atual] igual a [Alto] e [Peso Mês Passado] igual a [Alto] e [Peso

Mês Retrasado] igual a [Alto] então [Peso Mês Seguinte] igual a [Alto]

Neuro-Fuzzy:

o Conjuntos: 3 para cada uma das 3 variáveis, gerando 27 regras

o Formato do conjunto: gaussmf

o Tipo de saída: Constante

o Otimização: Híbrida

o Épocas: 20

Redes Neurais:

o Camada de entrada:

Peso (3 dias atrás) – 1

Peso (2 dias atrás) – 1

186

Peso (1 dia atrás) – 1

Dólar venda – 1

Balança comercial (importação) – 1

Balança comercial (exportação) – 1

Cliente – 8

Pátio origem – 7

Pátio destino – 7

o Camada intermediária

Automática, gerada pelo software SAS Enterprise Miner

o Camada de saída

Peso

187

FIG. 6.16 Etapa de pós-processamento

Após execução das atividades para todas as técnicas consideradas no trabalho, obteve-se

os resultados demonstrados na TAB. 6.3.

TAB. 6.3 Comparação dos Métodos de Previsão

Técnica MAPE

Holt 3,86 Lógica Fuzzy 4,05 Média Móvel 3,95 Neuro-Fuzzy 4,60 Ponderação Exponencial 3,87 Redes Neurais 2,17 Regressão Linear 10,09

Foram utilizadas sete técnicas de previsão para a solicitação de demanda de transporte

188

ferroviário. Dentre elas, a técnica de Redes Neurais alcançou resultado superior às demais,

baseado no que foi definido na atividade Expectativas Quanto ao Modelo de Conhecimento da

etapa Análise do Sistema, e por isto ele foi a escolhida.

Como o objetivo desse estudo de caso não é a comparação de desempenho das técnicas e

sim a utilização da metodologia, ocorreram mudanças nas variáveis de entrada dos modelos,

de modo que cada técnica obtivesse o melhor desempenho, com isso, não se pode dizer que

uma técnica é melhor do que a outra.

É importante destacar que dentre todas as etapas da MPDF-DM, a de Pré-processamento

foi a que consumiu a maior parte do tempo, aproximadamente 70%, visto que foi onde

ocorreu todo o processo de seleção e preparação dos dados, o que é independente da técnica

utilizada.

189

7 CONCLUSÕES E RECOMENDAÇÕES

7.1 CONCLUSÕES

A pesquisa teórica realizada mostrou que, apesar de existirem metodologias na área de

Descoberta de Conhecimento em Banco de Dados, ainda são encontradas dificuldades na

condução do processo, geralmente, devido à característica de indeterminismo desses sistemas

e devido à falta de uma metodologia específica para o desenvolvimento desses projetos que

seja completa e inclua formalismo visando à garantia de obtenção de sistemas confiáveis e de

qualidade.

Por serem fundamentadas em metodologias clássicas, as iniciativas de desenvolvimento e

aplicação de sistemas de descoberta de conhecimento não possuem formalização e, a fim de

suprir essas dificuldades, este trabalho propôs um modelo de formalização específico para a

tarefa de previsão de demanda ferroviária no processo de KDD. Este modelo engloba uma

metodologia rigorosa e sistemática para esses projetos, denominada MPDF-DM, que combina

o formalismo da metodologia CRISP-DM, com seus formulários, e as etapas da metodologia

de Fayyad.

Com o estudo de caso realizado, pode-se concluir que a metodologia MPDF-DM, seguida

etapa por etapa, leva ao desenvolvimento eficiente e eficaz do processo de KDD. O estudo de

caso serviu também para mostrar que a obtenção de projetos confiáveis e de qualidade pode

ser garantida com a inclusão de métodos formais e a utilização de formulários, no seu

processo de desenvolvimento.

A aplicação da metodologia, tomando como estudo de caso os dados da solicitação de

transportes dos clientes da MRS Logística, permitiu verificar a viabilidade e a utilidade

prática da metodologia proposta em um caso real. Além disso, os resultados do projeto

desenvolvido podem apoiar políticas organizacionais adotadas e elucidar características

relevantes de discussão no âmbito da empresa.

190

A utilização do SAS Enterprise Miner, software especialista em Data Mining, facilitou a

execução de todo o processo, porque diminuiu o tempo da etapa de mineração de dados,

devido à existência da técnica de redes neurais implementada. Na utilização das outras

técnicas, houve a necessidade de desenvolver os programas, tornando a etapa de mineração

mais demorada. Esse tempo extra pode ser utilizado para desenvolver novos modelos, o que

traz benefícios para a organização.

As conclusões do estudo de casos permitiram mostrar a relevância da metodologia

MPDF-DM na obtenção de resultados de mineração de dados, partindo-se de hipóteses

levantadas por usuários e buscando-se, passo a passo, meios de se chegar à prova verdadeira

ou falsa dessas hipóteses.

As dificuldades encontradas no decorrer desta pesquisa estão relacionadas à

diversificação de técnicas possíveis de serem empregadas na previsão de demanda ferroviária,

devido aos softwares, que têm poucas técnicas implementadas, ou seja, há necessidade de

utilizar mais de um software quando se empregam mais técnicas, como ocorreu no estudo de

caso.

As principais contribuições desta pesquisa são:

a criação de uma metodologia completa para o desenvolvimento de sistemas de

descoberta de conhecimento em banco de dados na área de previsão de demanda ferroviária,

incluindo formalismo, ou seja, a documentação de todo o processo por meio de formulários;

a descrição da evolução do transporte ferroviário brasileiro, baseado na ótica do

crescimento da demanda de transporte.

7.2 RECOMENDAÇÕES

Sugere-se a automatização da metodologia, por meio do desenvolvimento de um

software, o que facilitará o trabalho de preenchimento e acompanhamento das etapas.

Com a informatização da metodologia, recomenda-se o aprimoramento da atividade de

escolha de métodos a serem utilizados na atividade de mineração de dados, de modo que o

191

usuário responda algumas perguntas, e a própria metodologia informe alguns métodos

candidatos a serem utilizados. Desse modo, a utilização da metodologia torna-se-ia mais fácil

para pessoas que têm um menor conhecimento dos possíveis métodos utilizáveis.

Recomenda-se, também, a adaptação desta metodologia, de maneira que possa ser usada

em outras tarefas do processo de KDD, porque os formulários não possuem identificação de

qual tarefa está sendo realizada e algumas tarefas têm atividades não descritas na MPDF-DM.

192

8 BIBLIOGRAFIA

ACRE, Governo do Estado do. História do Acre. Disponível: http://www.ac.gov.br/ [capturado em 31/07/2006], 2006.

ACZEL, Amir D. Complete Business Statistics. Irwin Homewood, IL, 2a. ed, 1993.

AGRAWAL, R.; IMISLINSKI, T; SWAMI, A. Mining Association Rules Between Sets of Itens in Large Databases. ACM SIGMOD Conference Management of Data, 1993.

ALIBAIG, Shahbaz; LILLY, Bryan. Updating Your Forecasting System: Wisconsin Tissue's Experience. The Journal of Business Forecasting Methods & Systems, Fall, v. 18, n. 3, págs. 13-18, 1999.

ALL. Site da América Latina Logística. Disponível: http://www.all-logistica.com/port/index.asp [capturado em 06/09/2006].

ALMEIDA, Arnaldo B. Estudo do Transporte de Soja na Região de Influência do Rio Araguaia. Dissertação (Mestrado em Engenharia de Transportes) - Universidade Federal do Rio de Janeiro. Rio de Janeiro, 1992.

AMAPÁ. Site do Governo do Amapá. Disponível: http://www.amapa.gov.br/not-individual.php?id=3716&PHPSESSID=c364a996e86c9bc4a9105cebaccbf1cd [capturado em 08/09/2006].

AMARAL, Fernanda Cristina Naliato do. Data Mining – Técnicas e Aplicações para o Marketing Direto. Berkeley, São Paulo, 2001.

ANSUJ, A. P.; CAMARGO, M.E.; RADHARAMANAN, R.; PETRY, D.G. Sales Forecasting Using Time Series and Neural Networks. Computers and Industrial Engineering, Elsevier Science Ltda., v. 31, n. 1/2, págs. 421-425, 1996.

ANTT, Agência Nacional de Transportes Terrestres. Evolução Recente do Transporte Ferroviário. Disponível: www.antt.gov.br/concessaofer/EvolucaoFerroviaria20060614.pdf [capturado em 15/07/2006], 2006a.

ANTT, Agência Nacional de Transportes Terrestres. Estrada de Ferro Carajás. Disponível: http://www.antt.gov.br/concessaofer/estradaferrocarajas.asp [capturado em 03/08/2006], 2006b.

ANTT, Agência Nacional de Transportes Terrestres. Ferrovia Tereza Cristina S.A. Disponível: http://www.antt.gov.br/concessaofer/terezacristina.asp [capturado em 03/08/2006], 2006c.

http://www.ac.gov.br/

http://www.all-

logistica.com/port/index.asp

http://www.amapa.gov.br/not-

individual.php?id=3716&PHPSESSID=c364a996e86c9bc4a9105cebaccbf1cd

http://www.antt.gov.br/concessaofer/EvolucaoFerroviaria20060614.pdf

http://www.antt.gov.br/concessaofer/estradaferrocarajas.asp

http://www.antt.gov.br/concessaofer/terezacristina.asp

193

ARAÚJO, Bruno C.; GOMES, Herman M. Redes Neurais versus Métodos Estatísticos na Previsão de Séries Temporais. Universidade Federal de Campina Grande, Departamento de Sistemas e Computação, 2005.

ÁVILA, Giovani M. Contribuição ao Estudo da Previsão da Demanda por Transporte de Carga no Mercosul. Tese (Doutorado em Engenharia de Transportes) - Universidade Federal do Rio de Janeiro, Rio de Janeiro, 1999.

AZEVEDO, Hugo; CÔRTES, Sérgio. Data Mining – Conceitos, Técnicas, Ferramentas e Aplicações. Material distribuído, no curso de Data Mining, pela Coordenação Central de Cursos de Extensão. PUC – Rio, 2006.

BABCOCK, Michael W.; LU, Xiaohua; NORTON, Jerry. Time Series Forecasting of Quarterly Railroad Grain Carloadings. Transportation Research, Part E35, p. 43-57. 1999.

BAHIAINVEST. Porque investir na Bahia - Ferrovias. Disponível: http://www.bahiainvest.com.br/port/pq_investir/infra_ferrovias.asp?pai=2g [capturado em 09/08/2006], 2006

BALLOU, Ronald H. Gerenciamento da Cadeia de Suprimentos / Logística Empresarial. Porto Alegre, Bookman, 2006.

BARRETO, Jorge Muniz. Inteligência Artificial no Limiar do Século XXI. 2a. Ed., Duplic Edições, Florianopolis, 1999.

BERRY, Michel J. A.; LINOFF, Gordon. Data Mining Techniques for Marketing, Sales, and Customer Support. John Wiley & Sons, New York, 1997.

BCB, Banco Central do Brasil. Cotação e Boletins. Disponível: http://www5.bcb.gov.br/pec/taxas/port/ptaxnpesq.asp?id=txcotacao [capturado em 13/11/2006], 2006.

BENSUSAN, H. Automatic Bias Learning: Na Inquiry into Inductive Basis of Induction. Tese (Ph.D. em Ciência da Computação) – University of Sussex, 1999.

BISPO, Carlos Alberto Ferreira. Uma Análise da Nova Geração de Sistemas de Apoio à Decisão. Dissertação (Mestrado em Engenharia de Produção) - Universidade de São Paulo, São Carlos, São Paulo, 1998.

BNDES, Banco Nacional de Desenvolvimento Econômico e Social. BNDES aprova financiamento de R$ 500 milhões para CSN investir na ferrovia Transnordestina. Disponível: http://www.bndes.gov.br/noticias/not090_06.asp [capturado em 02/11/2006], 2006.

BNDES, Banco Nacional de Desenvolvimento Econômico e Social. Relatório Anual de 2005. Disponível: http://www.bndes.gov.br/empresa/desempenho/relatorio/default.asp [capturado em 31/07/2006], 2005.

http://www.bahiainvest.com.br/port/pq_investir/infra_ferrovias.asp?pai=2g

http://www5.bcb.gov.br/pec/taxas/port/ptaxnpesq.asp?id=txcotacao

http://www.bndes.gov.br/noticias/not090_06.asp

http://www.bndes.gov.br/empresa/desempenho/relatorio/default.asp

194

BORGES, Barsanufo Gomide. O despertar dos dormentes; estudo sobre a estrada de ferro de Goiás e seu papel nas formações das estruturas regionais: 1909-1922. Goiânia: Legraf, 1990.

BOX, G. E. P.; JENKINS, G. M. Time-Series Analysis, Forecasting and Control. Ed. San Francisco: Holden-Day, 1976.

BRACHMAN, R.J.; ANAND, T. The Process of Knowledge Discovery in Databases. The KDD Process for Extracting Useful Knowledge from Volumes of Data, p.37-57, 1996.

BRAGA, Luis Paulo Vieira. Introdução à Mineração de Dados. Rio de Janeiro, E-papers, 2005.

CALÔBA, Guilherme Marques; CALÔBA, Luiz Pereira; SALIBY, Eduardo. Cooperação entre Redes Neurais Artificiais e Técnicas ‘Clássicas’ para Previsão de Demanda de uma Série de Vendas de Cerveja na Austrália. Pesquisa Operacional, v. 22, n.3, p.345-358, 2002.

CAMPOS, Flávio; DOLHNIKOFF, Mirian. Atlas: história do Brasil. São Paulo: Scipione, 1994.

CARVALHO, Luís Alfredo Vidal de. Data Mining: A Mineração de Dados no Markenting, Medicina, Economia, Engenharia e Administração. Rio de Janeiro, editora Ciência Moderna, 2005.

CHEN, Ming-Syan; HAN, Jiawei; YU, Philip S. Data Mining: An Overview from Databases Perspective. Disponível: http://citeseer.nj.nec.com/5126.html [capturado em 25/05/2006], 1996.

CHOPRA, Sunil; MEINDL, Peter. Gerenciamento da Cadeia de Suprimentos. Estratégia, Planejamento e Operação. São Paulo, Prentice Hall, 2003.

COELHO, Paulo Sérgio de Souza. Um Sistema para Indução de Modelos de Predição baseados em Árvores. Tese (Doutorado em Engenharia Civil) - Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2005.

COELI, Carla Costa de Medina. Análise da Demanda por Transporte Ferroviário: O Caso do Transporte de Grãos e Farelo de Soja na Ferronorte. Dissertação (Mestrado em Administração) - Universidade Federal do Rio de Janeiro – Instituto COPPEAD, Rio de Janeiro, 2004.

CRISP-DM. Site da entidade criadora da metodologia de mineração de dados. Disponível: http://www.crisp-dm.org [capturado em 29/08/2006].

CURY, Marcus Vinícius Quintella. Modelo Heurístico Neuro-fuzzy para Avaliação Humanística de Projetos de Transporte Urbano. Tese (Doutorado em Engenharia de Produção) – Universidade Federal do Rio de Janeiro, Rio de Janeiro, 1999.

http://citeseer.nj.nec.com/5126.html

195

CVRD, Companhia Vale do Rio Doce. Ferrovias. Disponível: http://www.cvrd.com.br/cvrd/cgi/cgilua.exe/sys/start.htm?sid=64 [capturado em 04/08/2006].

DESENVOLVIMENTO, Ministério do. Balança Comercial Brasileira. Disponível: http://www.desenvolvimento.gov.br/ [capturado em 13/11/2006].

DIAS, Maria Madalena. Um Modelo de Formalização do Processo de Desenvolvimento de Sistemas de Descoberta de Conhecimento em Banco de Dados. Tese (Doutorado em Engenharia de Produção) - Universidade Federal de Santa Catarina, Florianópolis, 2001.

DNIT, Departamento Nacional de Infra-estrutura Terrestre. DNIT recomenda Transnordestina: Agora Vai. Disponível: http://www.dnit.gov.br/noticias/Transnordestina/view?searchterm=transnordestina [capturado em 02/11/2006], 2006.

DONG, Guozhu; LI, Jinyan. Interestingness of Discovered Association Rules in Terms of Neighborhood-based Unexpectedness. Lecture Notes in Artificial Intelligence, 1394, 72–86, 1998.

EXCEL. Microsoft. Site de ajuda do software. Disponível: http://office.microsoft.com/pt-br/excel/FX100646961046.aspx?CTT=96&Origin=CL100570551046 [capturado em 16/11/2006].

FAJARDO, Ana Paula C. Estudo do Transporte da Soja Produzida nos Estados do Pará e Mato Grosso. Dissertação (Mestrado em Engenharia de Transportes) - Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2001.

FAYYAD, Usama M.; PIATETSKY-SHAPIRO, Gregory; SMYTH, Padhraic; UTHURUSAMY, Ramasamy. Advances in Knowledge Discovery and Data Mining. Massachusetts, USA, editora The MIT Press, 1996.

FAYYAD, Usama; HAUSSLER, David; STOLORZ, Paul. KDD for Science Data Analysis: Issues and Examples. Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96), ed. Evangelos Simoudis and Jia Wei Han en Usama Fayyad, AAAI Press, pp.55-56, 1996 B.

FEDERAL, Governo. Lei de Diretrizes Orçamentárias de 2007. Disponível em http://www.senado.gov.br/sf/orcamento/ldo/LDO%202007%5C4%20-%20Projeto%20da%20LDO%202007%20encaminhado%20pelo%20Executivo%5CPLDO2007%20ANEXO%204.01.pdf [capturado em 02/11/2006], 2006.

FELDENS, Miguel Artur. Engenharia da Descoberta de Conhecimento em Base de Dados: Estudo e Aplicação na Área de Saúde. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal do Rio Grande do Sul, Porto Alegre, 1997.

FELDENS, Miguel Artur; MORAES, R.L.; PAVAN, A.; CASTILHO, J.M.V. Towards a methodology for the discovery of useful knowledge combining data mining, data warehousing and visualization. In: XXIV CLEI (Conferência Latino-Americana de

http://www.cvrd.com.br/cvrd/cgi/cgilua.exe/sys/start.htm?sid=64

http://www.desenvolvimento.gov.br/

http://www.dnit.gov.br/noticias/Transnordestina/view?searchterm=transnordestina

http://office.microsoft.com/pt-

br/excel/FX100646961046.aspx?CTT=96&Origin=CL100570551046

http://www.senado.gov.br/sf/orcamento/ldo/LDO%202007%5C4%20-

%20Projeto%20da%20LDO%202007%20encaminhado%20pelo%20Executivo%5CPL

DO2007%20ANEXO%204.01.pdf

196

Informática). Quito, Equador. Disponível: http://jacui.inf.ufrgs.br/~feldens/clei98.html [capturado em 22/10/2006], 1998.

FERTIG, Christina S.; FREITAS, Alex Alves; ARRUDA, Lúcia V. R.; KAESTNER Celso. A Fuzzy Beam Search Rule Induction Algorithm. In Proceedings of the Third European Conference (PKDD-99) Lecture Notes in Artificial Intelligence 1704, pp. 341–347, 1999.

FILDES, Roberts; Hastings, R. The Organization and Improvement of Market Forecasting. Journal of Operational Research Society, v. 45, págs. 1-16, 1994.

FORTULAN, Marcos Roberto; GONÇALVES FILHO, Eduardo Vila. Uma Proposta de Aplicação de Business Intelligence no Chão-de-Fábrica. Revista Gestão & Produção, v.12, nº 1, p. 55-66, 2005.

FREIRE, Mac Daves de Moraes. Métodos Estatísticos de Previsão de Vendas: Metodologia para Elaboração de Orçamento no Setor Energia Elétrica. Dissertação (Mestrado em Ciências Contábeis) - Universidade de Brasília, Brasília, 2005.

FREITAS, Alex Alves. A Multi-criteria Approach for the Evaluation of Rule Interestingness. In Proceedings of the International Conference on Data Mining, pp. 7–20, 1998.

FTC, Ferrovia Tereza Cristina. História da Estrada de Ferro. Disponível: http://www.ftc.com.br/ [capturado em 02/08/2006], 2006.

FURTADO, Celso. Formação Econômica do Brasil. Companhia Editora Nacional, 23ª edição, São Paulo, 1989.

GAO, General Accounting Office. Site da agência do senado dos Estados Unidos. Disponível: http://www.gao.gov/new.items/d04548.pdf [capturado em 05/07/2006].

GARGANO, Michael L. e RAGGAD, Bel G.. Data Mining – A Powerful Information Creating Tool. MCB University Press, 1999.

GODOY, R.; GOLDSCHMIDT, Ronaldo; PASSOS, Emmanuel. Mineração de Dados: Aplicação Prática em Pequenas e Médias Empresas. KM- Rio de Janeiro, 2003.

GOLDSCHMIDT, Ronaldo. Assistência inteligente à orientação do processo de descoberta de conhecimento em base de dados. Tese (Doutorado em Engenharia Elétrica) - Pontifícia Universidade Católica do Rio de Janeiro, Rio de Janeiro, 2003.

GOLDSCHMIDT, Ronaldo; PASSOS, Emmanuel. Data Mining – Um Guia Prático. Rio de Janeiro, editora Campus, 2005.

GOLDSCHMIDT, Ronaldo; PASSOS, Emmanuel. Utilização de Recursos de Banco de Dados Relacionais em Tarefas de Mineração de Regras Associativas. I Congresso de Lógica Aplicada à Tecnologia. São Paulo: SENAC, 2000.

http://jacui.inf.ufrgs.br/~feldens/clei98.html

http://www.ftc.com.br/

http://www.gao.gov/new.items/d04548.pdf

197

GORNI, Antônio Augusto. A Eletrificação das Ferrovias Brasileiras. (Ferrovia do Aço). Disponível: http://www.efbrasil.eng.br/electro/ferroaco.html [capturado em 21/11/2006], 2004.

GRAEML, Alexandre Reis. Os Impactos da Utilização da Internet e outras Tecnologias da Informação sobre o Setor Industrial. Tese (Doutorado em Administração de Empresas) - Fundação Getúlio Vargas, São Paulo, 2004.

GRAY, Paul; WATSON, Hugh J. The New DSS: Data Warehouses, OLAP, MDD and KDD. Disponível em: http://hsb.baylor.edu/ramsover/ais.ac.96/papers/graywats.htm [capturado em 20/03/2006], 1999.

GROSSBERG, Stephen. Neural Networks and Natural Intelligence. MIT Press, Cambridge, 1988.

GROSS, Charles W.; PETERSON, Robin T. Business Forecasting. Houghton Mifflin Co., Boston, 2a. ed, 1983.

GUIDE. SAS Enterprise. Site do software de mineração de dados. Disponível: http://www.sas.com/technologies/bi/query_reporting/guide/ [capturado em 06/09/2006].

HAN, Jiawei; KEMBER, Micheline. Data Mining: Concepts and Techniques. San Francisco: Morgan Kaufmann Publishers, 2001.

HARDING, J. A.; YU, B. Information-centred Enterprise Design Supported by a Factory Data Model and Data Warehousing. Computers in Industry, v. 40, n. 1, p. 23-36,1999.

HAYKIN, Simon. Redes Neurais: Princípios e Prática. Porto Alegre, Bookman, 2001.

HORST, Paulo Sérgio. Avaliação do conhecimento adquirido por algoritmos de aprendizado de máquina utilizando exemplos. Dissertação (Mestrado em Computação) – Universidade de São Paulo, São Carlos, São Paulo, 1999.

HUSSEY, Michael; HOOLEY, Graham. The Diffusion of Quantitative Methods into Marketing Management. Journal of Marketing Practice: Applied Marketing Science, MCB University Press, v. 1, n. 4, págs. 13-31, 1995.

IANNI, Octávio. Estado e Democracia. Ed. Brasiliense, 2ª edição, São Paulo, 1989.

IBGE, Instituto Brasileiro de Geografia e Estatística. Estimativas populacionais para municípios brasileiros. Disponível: http://www.ibge.gov.br/home/estatistica/populacao/estimativa2006/POP_2006_DOU.pdf [capturado em 03/10/2006], 2006.

ICHIKAWA, Sandra Matiko, PITOMBO, Cira Souza, KAWAMOTO, Eiji. Aplicação de Minerador de Dados na Obtenção de Relações entre Padrões de Viagens Encadeadas e Características Sócio-Econômicas. In: XVI ANPET – Congresso de Pesquisa e Ensino em Transporte. Anais eletrônicos (CD). Natal, 2002.

http://www.efbrasil.eng.br/electro/ferroaco.html

http://hsb.baylor.edu/ramsover/ais.ac.96/papers/graywats.htm

http://www.sas.com/technologies/bi/query_reporting/guide/

http://www.ibge.gov.br/home/estatistica/populacao/estimativa2006/POP_2006_DOU.pdf

198

JACOB, Chafic. Ferrovia, O Caminho Certo. Imprensa Oficial do Estado. São Paulo, 1982.

JORGE, Fauzi Timaço; MOREIRA, José Octávio de Campos. Economia – Notas Introdutórias. Editora Atlas, São Paulo, 1995.

KDNUGGETS. Site especializado em mineração de dados. Disponível: http://www.kdnuggets.com [capturado em 25/08/2006].

KERBER, Randy; BECK, H.; ANAND, T.; SMART, B. Active Templates: Comprehensive Support for the Knowledge Discovery Process. Proceedings of the International Conference on Knowledge Discovery and Data Mining, p 244-248, 1998.

KERBER, Randy; LIVEZEY, Brain; SIMOUND, Evangelos. A Hybrid System for Data Mining (Chapter 7). Itelligent Hybrid System, John Wiley & Sons Ltd, pp.121-141, 1995.

KIMBALL, Ralph, ROSS, Margy. The Data Warehouse Toolkit. Guia Completo para Modelagem Dimensional. Editora Campus. Rio de Janeiro, 2002.

KLEMETTINEN, M.; MANNILA, H.; TOIVONEN, H. A data mining methodology and its application to semi-automatic knowledge acquisition. In: DEXA Workshop, p. 670-677, 1997.

KOHONEN, Teuvo. Self-Organization and Associative Memory. Springler-Verlarg, Berlin, 1987.

LAVRAC, Nada; FLACH, Peter; ZUPAN, Blaz. Rule Evaluation Measures: A Unifying View. Ninth International Workshop on Inductive Logic Programming (ILP’99), Volume 1634 of Lecture Notes in Artificial Intelligence, pp. 174–185. Springer-Verlag. Disponível: http://link.springer.de/link/service/series/0558/papers/1634/16340174.pdf [capturado em 27/09/2006], 1999.

LAWRENCE, Michael; EDMUNDSON, Bob; O'CONNOR, Marcus. A Field Study of Sales Forecasting Accuracy and Processes. Amsterdam European Journal of Operational Research, Elsevier Science, B. V., Apr 1, Vol. 122, n. 1, págs. 151-160, 2000.

LIU, Bing; HSU,Wynne. Post-analysis of Learned Rules. AAAI 1, 828–834, 1996.

LUXHOJ, J. T.; RIIS, J. O.; STENSBALLE, B. A Hybrid Econometric-Neural Network Modeling Approach for Sales Forecasting. Amsterdam International Journal of Production Economics, Elsevier Science B. V., n. 43, págs. 175-192, 1996.

MACHADO, Cristina Ângela Filipak. A-RISK: Um Método para Identificar e Quantificar Risco de Prazo em Projetos de Desenvolvimento de Software. Dissertação (Mestrado em Informática Aplicada) - Pontifícia Universidade Católica do Paraná, Curitiba, 2002.

MAKRIDAKIS, Spyros; WHEELWRIGHT, Steven C.; HYNDMAN, Rob J. Forecasting: Methods and Application. John Wiley & Sons, New York, 3a. ed, 1998.

http://link.springer.de/link/service/series/0558/papers/1634/16340174.pdf

199

MARQUES, Sérgio de Azevedo. Privatização do Sistema Ferroviário Brasileiro. IPEA – Instituto de Pesquisa Econômica Aplicada, 1996.

MATLAB. Site da empresa. Disponível: http://www.mathworks.com/ [capturado em 16/11/2006].

MCHUGH, A. K.; SPARKES, J. R.. The Forecasting Dilemma. Management Accounting, n. 61, págs. 30-34, 1983.

MELO, L.; MEZZONATO, V. Ferrovias: Integração e Crescimento Econômico. Seminário: Ferrovias – Integração e Crescimento Econômico, São Paulo, p. 12 – 13, 2005.

MENA, Jesus. Data Mining Your Website. Digital Press, 1999.

MENDEL, J. M. Fuzzy Logic Systems for Engineering: A Tutorial. Proceedings of the IEEE, Vol. 83, nº 3, pp. 345-377, Março 1995.

MENDES, Judas Tadeu Grassi. Economia : Fundamentos e Aplicações. Prentice Hall, São Paulo, 2004.

MENTZER, J. T.; COX Jr., J. E. Familiarity, Application and Performance of Sales Forecasting Techniques. Journal of Forecasting, n. 3, págs. 27-36, 1984.

MINER. SAS Enterprise. Site do software de mineração de dados. Disponível: http://www.sas.com/technologies/analytics/datamining/miner/index.html [capturado em 06/09/2006].

MONTEIRO NETO, Júlio Pacheco. Um Modelo Teórico para Estruturação de um Sistema de Informações para Controle e Acompanhamento da Manutenção de uma Malha Rodoviária. Dissertação (Mestrado em Engenharia de Produção) - Universidade Federal de Santa Catarina, Florianópolis, Santa Catarina, 2002.

MOTA FILHO, Francisco Osvaldo Mendes. Aplicação de Modelos de Estimação de Fitness em Algoritmos Genéticos. Dissertação (Mestrado em Engenharia Elétrica) - Universidade Estadual de Campinas, Campinas, São Paulo, 2005.

MOTTA, Custódio Gouvêa Lopes da. Sistema Inteligente para Avaliação de Riscos em Vias de Transporte Terrestre. Dissertação (Mestrado em Engenharia de Transportes) – COPPE / UFRJ, Rio de Janeiro, 2004.

MRS. História da MRS Logística. Disponível: http://www.mrs.com.br/interna.php?nomPagina=aempresa/historia_da_ferrovia.php&IdSecao=0 [capturado em 03/11/2006].

NASCIMENTO, Marcos B. C. Uma Análise do Sistema Hidroviário e seu Impacto no Desenvolvimento da Agro-indústria Brasileira, Dissertação (Mestrado em Engenharia de Transportes) - Universidade Federal do Rio de Janeiro. Rio de Janeiro, 2000.

http://www.mathworks.com/

http://www.sas.com/technologies/analytics/datamining/miner/index.html

http://www.mrs.com.br/interna.php?nomPagina=aempresa/historia_da_ferrovia.php&IdS

200

NCR. Informações sobre a Empresa. Disponível: http://www.ncr.com/en/about_ncr/aboutncr.htm [capturado em 11/10/2006], 2006.

NETO, Aristóteles Teobaldo; OLIVEIRA, Ana Carolina de; CONCEIÇÃO, Vitória Helena Stacciarini da; BATISTA, Marcelo Martins; CLEPS, Geisa Daise Gumiero; CARVALHO; Renato Muniz Barreto de. O Transporte Rodoviário e Ferroviário na Cidade de Uberaba / MG. II Simpósio Regional de Geografia “Perspectivas para o Cerrado no Século XXI”. Universidade Federal de Uberlândia, 2003.

NEWBOLD, Paul. Statistics for Business & Economics. Prentice-Hall, Inc. Englewood Cliffs, N.J., 4a. ed, 1995.

NORTE, Mineração Rio do. Site. Disponível: http://www.mrn.com.br/index_1024.htm [capturado em 03/08/2006], 2006a.

NORTE, Mineração Rio do. História. Disponível: http://www.mrn.com.br/quem_somos/historia.html [capturado em 04/08/2006], 2006b.

NUNES, Ivanil. As Ferrovias em São Paulo. Disponível:. http://www.angelfire.com/ar/ufa/ferrovia.html [capturado em 25/07/2006], 1993.

PASSARI, Antônio Fabrizio Lima. Exploração de dados atomizados para previsão de vendas no varejo utilizando redes neurais. Dissertação (Mestrado em Administração) - Universidade de São Paulo, São Paulo, 2003.

PAZZANI, Michael J., MANI, S.; SHANKLE, W. Comprehensible Knowledge Discovery in Databases. In Proceedings of the Nineteenth Annual Conference of the Cognitive Science Society, Lawrence Erlbaum, pp. 596–601, 1997.

PAZZANI, Michael J. Knowledge Discovery from Data? IEEE Intelligent Systems 15(2), 10–13, 2000.

PETERSON, Robin T.; JUN, Minjoon. Forecasting Sales in Wholesale Industry. The Journal of Business Forecasting Methods & Systems, Summer, v. 18, n. 2, págs. 15-18, 1999.

PIATETSKY-SHAPIRO, Gregory; MATHEUS, Christopher J. The interestingness of deviations. In Proceedings of the International Conference on Knowledge Discovery and Data Mining (KDD-94), pp. 23–36, 1994.

PIATETSKY-SHAPIRO, Gregory. The Data Mining Industry Coming of Age. IEEE Intelligent Systems, p. 32-34, 1999.

PMBOX. A Guide to the Project Management Body of Knowledge. PMI, Upper Darby, Estados Unidos, 1996.

POE, Vidette; KLAUER, Patrícia; BROBST, Stephen. Building a Data Warehouse for Decision Support. 2 ed. Prentice-Hall, New Jersey, 1998.

http://www.ncr.com/en/about_ncr/aboutncr.htm

http://www.mrn.com.br/index_1024.htm

http://www.mrn.com.br/quem_somos/historia.html

http://www.angelfire.com/ar/ufa/ferrovia.html

201

PRADO, Hércules Antônio do. Conceitos de Descoberta de Conhecimento em Bancos de Dados. Tese (Doutorado em Ciência da Computação) – Universidade Federal do Rio Grande do Sul, Porto Alegre, 1997.

QUINLAN, John Ross. C4.5: Programs for Machine Learning. San Francisco: Morgan Kaufmann Publishers, 1993.

QUINLAN, John Ross. Learning With Continuous Classes. In Proceedings AI'92 (Adams Sterling, Eds), 343-348, Singapore: World Scientific, 1992.

RAINHO, P. S. Mineração de Dados: Conceitos, Técnicas e Aplicações. Rio de Janeiro. Trabalho de Graduação, Universidade Gama Filho, 2001.

REZENDE, Solange Oliveira. Sistemas Inteligentes: Fundamentos e Aplicações. São Paulo, Editora Manoele, 2003.

RIPLEY, Brain D. Pattern Recognition and Neural Networks, Cambridge University Press, Cambridge, 1996.

RUMBAUGH, James. Modelagem e projetos baseados em objetos. Editora Campus, 1994.

RUSSELL, S.; NORVIG, P. Artificial Intelligence: A Modern Approach. Prentice-Hall, New Jersey, 1995.

SAATY, Thomas L. Método de Análise Hierárquica. São Paulo, McGraw-Hill, 1991.

SANDERS, N. R.; MANRODT, K. Forecasting Practices in US Corporations: Survey Results. Interfaces, v. 24, págs. 92-100, 1994.

SANT’ANNA, José Alex. Rede Básica de Transportes na Amazônia. IPEA – Instituto de Pesquisa Econômica Aplicada. Brasíla, 1998.

SEMMA. Site da metodologia desenvolvida pela SAS. Disponível: http://www.sas.com/technologies/analytics/datamining/miner/semma.html [capturado em 28/08/2006].

SERRA, Laércio. A Essência do Business Intelligence. Berkeley, São Paulo, 2002.

SILBERSCHATZ, Abraham; TUZHILIN Alexander. On Subjective Measures of Interestingness in Knowledge Discovery. In Proceedings of the First International Conference on Knowledge Discovery and Data Mining 1, 275–281, 1995.

SILVA, Luiz Carlos Ferreira da. Inteligência Computacional na Predição de Produção de Reservatórios de Petróleo. Tese (Doutorado em Engenharia Civil) - Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2006.

SILVA, Christian Luiz; STEFANELO, Eugênio. Ambiente econômico. In: Economia Empresarial. 1.ed. Curitiba: Associação Franciscana de Ensino Senhor Bom Jesus, v.1, p. 1-13, 2002

http://www.sas.com/technologies/analytics/datamining/miner/semma.html

202

SILVEIRA, Márcio Rogério. A importância Geoeconômica das Estradas de Ferro no Brasil. Tese (Doutorado em Geografia) – Universidade Estadual Paulista, Presidente Prudente, São Paulo, 2003.

SINGH, Harry S. Data Warehouse. 1 ed. Macron Books, São Paulo, 2001.

SPSS. Informações sobre a Empresa. Disponível: http://www.spss.com.br/ [capturado em 11/10/2006], 2006.

SUBRAHMANYAN, Saroja. An Exploratory Empirical Study on How Pricing and Inventory Decisions are Made in a Simulated Environment. Research paper Series, Faculty of Business Administration, National University of Singapure, Maio, RPS, págs. 98-123, 1998.

SUBRAHMANYAN, Saroja. Using Quantitative Models for Setting Retail Prices. Journal of Product and Brand Management, MCB University Press, v. 9, n. 5, págs. 304-320, 2000.

TÁLAMO, Marcello; MARTIRE, Sérgio. História da Estrada de Ferro do Amapá. Disponível: http://www.geocities.com/e_f_amapa/ef-amapa.htm [capturado em 02/11/2006], 2006.

THALL, N. Neural Forecasts: A Retail Sales Booster. Discount Merchandiser, v. 32, n. 10, págs. 41-42, 1992.

THURAISINGHAM, Bhavani. Data Mining. CRC Press, 1999

TRANSPORTES, Ministério dos. Banco de Informações de Transportes - Estrada de Ferro do Amapá. Disponível: http://www.transportes.gov.br/bit/ferro/efa/inf-efa.htm [capturado em 02/11/2006], 2003a.

TRANSPORTES, Ministério dos. Banco de Informações de Transportes - Estrada de Ferro Jari. Disponível: http://www.transportes.gov.br/bit/ferro/efj-jari/inf-efj.htm [capturado em 02/11/2006], 2003b.

TRANSPORTES, Ministério dos. Estrada de Ferro Jari. Disponível: http://www.transportes.gov.br/bit/ferro/efj-jari/inf-efj.htm [capturado em 03/08/2006], 2006a.

TRANSPORTES, Ministério dos. Ferrovia Norte-Sul. Disponível: http://www.ferrovianortesul.com.br/index_fla.htm [capturado em 02/11/2006], 2006b.

TRANSPORTES, Ministério dos. Mapas Ferroviários. Disponível: http://www.transportes.gov.br/bit/mapas/mapdoc/ferro.html [capturado em 04/08/2006], 2006c.

http://www.spss.com.br/

http://www.geocities.com/e_f_amapa/ef-amapa.htm

http://www.transportes.gov.br/bit/ferro/efa/inf-efa.htm

http://www.transportes.gov.br/bit/ferro/efj-jari/inf-efj.htm

http://www.ferrovianortesul.com.br/index_fla.htm

http://www.transportes.gov.br/bit/mapas/mapdoc/ferro.html

203

TRANSPORTES, Ministério dos. O Crescimento do Brasil Passa por Aqui. Disponível: http://www.transportes.gov.br/ProPro/FolderFerrovias.pdf [capturado em 02/11/2006], 2006d.

TRANSPORTES, Ministério dos. Sistema de Carga e de Passageiros de Longo Percurso - EFJ - Estrada de Ferro Jari. Disponível: http://www.transportes.gov.br/bit/ferro/efj-jari/est-EFJ.htm [capturado em 02/11/2006], 2001.

UTGOFF, P. Shift of Bias for Inductive Concept Learning. Machine Learning: An Artificial Intelligence Approach, v. 3, São Francisco, 1986.

VALE, Marcos Neves do; VELLASCO, Marley Maria B. R. Fuzzy Rules 2001 – Sistema de Inferência Fuzzy com Geração Automática de Regras. Rio de Janeiro. Trabalho de Graduação, Universidade do Estado do Rio de Janeiro, 2001.

VALEC, Ferrovia Norte-Sul. Relatório Final de Gestão. Disponível: http://www.ferrovianortesul.com.br/contas.htm [capturado em 09/08/2006], 2006.

VELLASCO, Marley; PACHECO, Marco Aurélio, LOPES, Carlos Henrique. Introdução ao Data Mining. Laboratório de Inteligência Computacional Aplicada. PUC – Rio. Disponível em: http://www.ica.ele.puc-rio.br/cursos/index.asp [capturado em 13/04/2006], 1999.

WEIGANG, Li; YAMASHITA, Yaeko; SILVA, Osmar Quirino da; XIJUN, Deng; PRAZERES, Miguel Ângelo Trindade dos; OLIVEIRA, Daniel Cristino Silva de. Implementação do Sistema de Mapeamento de uma Linha de Ônibus para um Sistema de Transporte Inteligente. Disponível: http://www.cic.unb.br/~weigang/pub/itssemish2001.pdf [capturado em 07/06/2006], 2001.

WEISS, Sholom M.; INDURKHYA, Nitim. Predictive Data Mining: A Practical Guide. Morgan Kaufmann Publishers, San Francisco, 1998.

WEISS, Sholom M.; INDURKHYA, Nitim. Predict Data Mining. Morgan Kaufmann Publishers, 1999.

WESSELS,Walter. Microeconomia: Teoria e Aplicações. Saraiva, São Paulo, 2002.

WHEELWRIGHT, Steven C.; CLARKE, D. G. Corporate Forecasting: Promise and Reality. Harvard Business Review, v. 54, págs. 40-64, 1976.

WIDROW, Bernard; WINTER, Rodney. Neural Nets for Adaptive Filtering and Adaptive Pattern Recognition. IEEE An Introduction to Neural and Eletronic Networks, 1988.

WINKLHOFER, Heidi; WITT, Stephen F.; DIAMANTOPOULOS, Adamantios. Forecasting Practice: A Review of the Empirical Literature and an Agenda for Future Research. International Journal of Forecasting, Elsevier Science B. V., n. 12, págs. 193-221, 1996.

http://www.transportes.gov.br/ProPro/FolderFerrovias.pdf

http://www.transportes.gov.br/bit/ferro/efj-

jari/est-EFJ.htm

http://www.ferrovianortesul.com.br/contas.htm

http://www.ica.ele.puc-rio.br/cursos/index.asp

http://www.cic.unb.br/~weigang/pub/itssemish2001.pdf

204

WIRTH, R.; SHEARER, C.; GRIMMER, U.; REINARTZ, T.; SCHLOSSER, J.; BREITNER, C.; ENGELS, R.; LINDNER, G. Towards Process-Oriented Tool Support for Knowledge Discovery in Databases. Proceedings of the First European Symposium on Principles of Data Mining and Knowledge Discovery. Trondheim, 1997.

WOLPERT, D. The Lack of a Priori Distinctions Between Learning Algorithms and the Existence of a Priori Distinctions Between Learning Algorithms. Revista Neural Computations, v. 8, 1996.

ZHOU, Wei. Integration of Different Forecasting Models. The Journal of Business Forecasting Methods & Systems, Fall, v. 18, n. 3, págs. 26-29, 1999.

205

9 ANEXOS

206

9.1 DATA WAREHOUSE (DW)

À medida que a sociedade se automatiza, grandes quantidades de dados são geradas nas

mais diversas fontes e para os mais diferentes usos. Há alguns anos estimava-se que o volume

de dados eletronicamente armazenados dobrava a cada ano e meio; hoje, qualquer usuário da

Internet sabe o quanto os dados digitais crescem por dia.

Ao longo do tempo, os bancos de dados foram sendo desenvolvidos para fins de

processamentos de dados operacionais e analíticos, havendo maior ênfase no primeiro caso,

ainda que ambos tivessem usuários com diferentes necessidades. Uma vez compreendida essa

diferença, foram criados bancos de dados separados para fins analíticos, chamados de Data

Warehouse (DW), explicam GRAY e WATSON (1999). É inevitável a perda de

produtividade e confiabilidade quando os dados são retirados de diversas fontes em sistemas

desintegrados; assim, o conceito de Data Warehouse propicia integração e consolidação da

informação.

Conforme HARDING e YU (1999), o DW extrai, de uma maneira eficiente, informações

valiosas dos bancos de dados operacionais que estão espalhados por toda a empresa e que,

certamente, contêm dados duplicados ou parcialmente duplicados. Por isso, antes de povoar o

DW com os dados operacionais, estes precisam ser preparados para estarem aptos a serem

questionados, pesquisados, analisados e apresentarem conclusões. Nas aplicações de Business

Intelligence (BI), o foco está mais voltado para as tendências e agregações do que para cada

transação individual, portanto os dados armazenados devem oferecer níveis de agregação

apropriados.

GRAY e WATSON (1999) destacam como características desses bancos:

serem orientados para determinado assunto;

serem integrados;

não serem violáveis, ou seja, seus dados não são alterados, só incluídos;

representarem um histórico;

serem condensados;

representarem um longo período de tempo (de 5 a 10 anos);

207

não serem normalizados, ou seja, podem ter dados redundantes;

não serem baratos e terem implantação demorada; e

serem grandes e continuarem crescendo ao longo do tempo.

Para CARVALHO (2005), DW é o processo de reunir de modo organizado e eficiente dos

dados de diferentes fontes com o objetivo de auxiliar na sua análise.

KIMBAL e ROSS (2002) definem assim: é um conjunto de ferramentas e técnicas de

projeto, que quando aplicadas às necessidades específicas dos usuários e aos bancos de dados

específicos permitirá que planejem e construam um DW.

Em uma empresa que deseja analisar o conteúdo da massa de dados criada por suas

atividades, um processo de unificação precisa ser efetuado de maneira a possibilitar o acesso

de um indivíduo (analista) às múltiplas faces dessa informação. Para que o processo de KDD

seja realizado, é necessário o acesso a uma massa de dados limpa, consistente e unificada em

sua linguagem e lógica. Certamente que analistas vêm realizando o processo de KDD há

muitos anos, utilizando-se de ferramentas simples e bancos de dados separados; porém a

construção de um DW em muito facilita o processo de mineração de dados e de decisão,

segundo CARVALHO (2005).

Para o desenvolvimento de um DW, é utilizada a modelagem dimensional de banco de

dados, cuja representação se dá por meio do chamado esquema Estrela. Algumas vantagens

desse modelo de banco de dados sobre os modelos relacionais convencionais para aplicações

de DW são citadas por POE et al. (1998) e BISPO (1998), descritas abaixo:

permitir a criação de um projeto de banco de dados que fornecerá respostas rápidas,

com menos tabelas e índices;

permitir ao administrador do banco de dados trabalhar com projetos mais simples e

assim produzir melhores planos de execução; e

possuir uma estrutura mais intuitiva, assemelhando o projeto do banco de dados com

a maneira como o usuário final pensa e usa os dados.

208

O modelo dimensional é composto basicamente por dois tipos de tabelas: as de Fato e as

de Dimensão. As primeiras são grandes tabelas centrais, compostas basicamente das

ocorrências do negócio, por exemplo, vendas, produção e defeitos. Já as segundas armazenam

as descrições do negócio, como dados sobre o produto (marca, tamanho, categoria, preço), o

tempo (dia, mês, ano) ou o cliente (nome, endereço, classe social). Cada tabela de Dimensão

possui uma única chave primária, e o conjunto dessas chaves primárias formará a chave

composta da tabela de Fato. Cada negócio ou assunto possui sua tabela de Fato e suas

respectivas tabelas de Dimensão.

Uma variação do esquema Estrela é o Snowflake, que consiste em uma normalização do

primeiro. No esquema Snowflake, as tabelas de Dimensão são estruturadas de modo que

atendam à terceira forma normal, mantendo as tabelas de Fato em sua estrutura inicial. Vale

ressaltar que o uso do esquema Snowflake traz como desvantagem o aumento da

complexidade da estrutura de dados, dificultando a compreensão do modelo por parte de

usuários que trabalham diretamente com a estrutura física das tabelas. No entanto, seu uso

pode ser indispensável em alguns casos em que, por exemplo, o modelo desnormalizado

(Estrela) requeira muito espaço em disco ou suas tabelas dimensionais sejam muito grandes,

prejudicando o desempenho do sistema, segundo SINGH (2001) e POE et al. (1998). A FIG.

9.1 mostra o formato geral de um esquema Estrela e uma derivação Snowflake.

209

FIG. 9.1 Modelo dimensional de banco de dados utilizando esquema Estrela e Snowflake

Fonte: FORTULAN e GONÇALVES FILHO (2005).

Muito utilizados em projetos-pilotos, existem também os Data Marts, que, conforme

SINGH (2001) define, são subconjuntos do DW da empresa-inteira. Tipicamente

desempenham o papel de um DW departamental, regional ou funcional. Uma empresa pode

construir uma série de Data Marts ao longo do tempo e, eventualmente, vinculá-los por meio

de um DW lógico da empresa inteira.

9.2 REDES NEURAIS

Redes Neurais Artificiais (RNA) são técnicas computacionais que apresentam um modelo

matemático inspirado na estrutura neural de organismos inteligentes e que adquirem

conhecimento por meio da experiência. Uma grande rede neural artificial pode ter centenas ou

milhares de unidades de processamento; já o cérebro de um mamífero pode ter muitos bilhões

de neurônios.

210

9.2.1 HISTÓRICO

Um histórico resumido sobre Redes Neurais Artificiais deve começar por três das mais

importantes publicações iniciais, desenvolvidas por McCulloch e Pitts (1943), Hebb (1949) e

Rosemblatt (1958). Essas publicações introduziram o primeiro modelo de redes neurais

simulando “máquinas”, o modelo básico de rede de auto-organização e o modelo Perceptron

de aprendizado supervisionado, respectivamente.

Alguns históricos sobre a área costumam “pular” os anos 60 e 70 e apontar um reínicio da

área com a publicação dos trabalhos de Hopfield (1982) relatando a utilização de redes

simétricas para otimização, e de Rumelhart, Hinton e Williams que introduziram o poderoso

método Backpropagation.

Entretanto, para se ter um histórico completo, devem ser citados alguns pesquisadores

que realizaram, nos anos 60 e 70, importantes trabalhos sobre modelos de redes neurais em

visão, memória, controle e auto-organização, como: Amari, Anderson, Cooper, Cowan,

Fukushima, Grossberg, Kohonen, Von der Malsburg, Werbos e Widrow.

9.2.2 CARACTERÍSTICAS GERAIS

Uma RNA é composta por várias unidades de processamento, cujo funcionamento é

simples e geralmente, conectadas por canais de comunicação que estão associados a

determinado peso. As unidades fazem operações apenas sobre seus dados locais, que são

entradas recebidas pelas suas conexões. O comportamento inteligente de uma RNA vem das

interações entre as unidades de processamento da rede.

A operação de uma unidade de processamento, proposta por McCullock e Pitts em 1943,

FIG. 9.2, pode ser resumida da seguinte maneira:

sinais são apresentados à entrada;

cada sinal é multiplicado por um número ou peso, que indica a sua influência na

saída da unidade;

é feita a soma ponderada dos sinais que produz um nível de atividade;

211

se esse nível de atividade exceder um certo limite (threshold), a unidade produz uma

determinada resposta de saída.

FIG. 9.2 Esquema de unidade McCullock – Pitts

Suponha que tenhamos p sinais de entrada X1, X2, ..., Xp e pesos w1, w2, ..., wp e

limitador t; com sinais assumindo valores booleanos (0 ou 1) e pesos valores reais.

Nesse modelo, o nível de atividade a é dado por:

a = w1X1 + w2X2 + ... + wpXp

A saída y é dada por:

y = 1, se a >= t ou

y = 0, se a < t.

A maioria dos modelos de redes neurais possui alguma regra de treinamento, onde os

pesos de suas conexões são ajustados de acordo com os padrões apresentados. Em outras

palavras, elas aprendem por meio de exemplos.

Arquiteturas neurais são tipicamente organizadas em camadas, FIG. 9.3, com unidades

que podem estar conectadas às unidades da camada posterior.

212

FIG. 9.3 Organização em camadas da RNA

Usualmente as camadas são classificadas em três grupos:

camada de entrada: onde os padrões são apresentados à rede;

camadas intermediárias ou escondidas: onde é feita a maior parte do

processamento, por meio das conexões ponderadas. Podem ser consideradas como extratoras

de características;

camada de saída: onde o resultado final é concluído e apresentado.

Uma rede neural é especificada, principalmente pela sua topologia, pelas características

dos nós e pelas regras de treinamento. A seguir, serão analisados os processos de aprendizado.

9.2.3 PROCESSOS DE APRENDIZADO

A propriedade mais importante das redes neurais é a habilidade de aprender de seu

ambiente e com isso melhorar seu desempenho, o que é feito por meio de um processo

iterativo de ajustes aplicado a seus pesos, o treinamento. O aprendizado ocorre quando a rede

neural atinge uma solução generalizada para uma classe de problemas.

Denomina-se algoritmo de aprendizado um conjunto de regras bem definidas para a

solução de um problema de aprendizado. Existem muitos tipos de algoritmos de aprendizado

213

específicos para determinados modelos de redes neurais, os quais diferem entre si

principalmente pelo modo como os pesos são modificados.

Outro fator importante é a maneira pela qual uma rede neural se relaciona com o

ambiente. Nesse contexto, existem os seguintes paradigmas de aprendizado:

aprendizado supervisionado, quando é utilizado um agente externo que indica à

rede a resposta desejada para o padrão de entrada;

aprendizado não-supervisionado (auto-organização), quando não existe um agente

externo indicando a resposta desejada para os padrões de entrada;

reforço, quando um crítico externo avalia a resposta fornecida pela rede.

Denomina-se ciclo uma apresentação de todos os N pares (entrada e saída) do conjunto

de treinamento no processo de aprendizado. A correção dos pesos num ciclo pode ser

executado de dois modos:

1) modo padrão: a correção dos pesos acontece a cada apresentação à rede de um

exemplo do conjunto de treinamento. Cada correção de pesos baseia-se somente no erro do

exemplo apresentado naquela iteração. Assim, em cada ciclo ocorrem N correções.

2) modo batch: apenas uma correção é feita por ciclo. Todos os exemplos do conjunto

de treinamento são apresentados à rede, seu erro médio é calculado e a partir desse erro,

fazem-se as correções dos pesos.

9.2.4 TIPOS DE REDES NEURAIS

9.2.4.1 PERCEPTRON

O Perceptron foi proposto por Rosenblatt (1959) para reconhecimento de letras

maiúsculas do alfabeto. É uma rede direta consistindo de unidades binárias, que aprendem a

classificar padrões por meio de aprendizado supervisionado. Os perceptrons introduzem

formalmente uma lei de treinamento. Modelam o neurônio fazendo a soma ponderada de suas

entradas e enviando o resultado 1 se a soma for maior do que algum resultado inicial ajustável

(caso contrário, ele envia 0).

214

9.2.4.2 PERCEPTRONS MULTICAMADAS

O perceptron tem saída binária de cada neurônio. Entretanto, é comum chamar de

perceptron multicamada uma rede em que se distinguem neurônios de entrada, neurônios de

saída e neurônios internos, arrumados formando camadas; se bem que os neurônios não sejam

binários e tenham uma não linearidade do tipo função logística, tangente hiperbólica, ou outra

função qualquer. Muitas vezes, essa função é derivável e se emprega o algoritmo de retro

propagação (“backpropagation”), o que conduz a ambigüidades na denominação dessas redes

como sendo redes de retro propagação ou apenas, em inglês, redes backpropagation , segundo

BARRETO (1999). Estritamente falando o perceptron multicamada é uma rede direta

multicamada com neurônios binários.

Deve ser notado que, na rede direta multicamada, cada neurônio de uma camada se liga

somente a neurônios da camada vizinha.

A limitação do Perceptron foi superada pela implementação de redes multicamadas com

algoritmo de aprendizado de retropropagação.

9.2.4.3 ADALINE E MADALINE

Proposta por Widrow e Hoff em 1959, segundo WIDROW e WINTER (1988), é uma

rede linear onde as conexões são ajustadas, isto é, adaptativas. O neurônio tem uma saída

proporcional à soma ponderada das excitações sendo, portanto, utilizado o modelo linear que

foi chamado de Adaline (do inglês “ADAptiveLInear Element”). Mais tarde criaram uma

generalização multidimensional denominada MADALINE (Multiple ADALINE).

9.2.4.4 ADAPTIVE RESSONANCE THEORY (ART)

Os primeiros modelos foram propostos por Gail Carpenter & Stephen Grossberg em

1976. Eram destinados a reconhecimento de tarefas não familiares aos seres humanos, tais

como, reconhecimento de sinais de radares, impressão de voz, etc. Uma das limitações desses

modelos é sua sensibilidade a variações dos sinais de entrada, tais como, distorções e

mudanças de escala, conforme GROSSBERG (1988). O sistema consiste de duas camadas, F1

215

e F2, as quais são implementadas por mecanismos LTM (long-term memory) de classificação

e STM (short-term memory) de contraste.

9.2.4.5 REDES BAM

A memória bidirecional associativa (BAM) é uma rede heteroassociativa e conteúdo

endereçável, consistindo de duas camadas. Ela usa o fluxo de informação forward e backward

para produzir uma pesquisa associativa em resposta a um estímulo. Suas mais populares

aplicações são em processamento de imagem, controle e alocação de recursos na área

financeira.

9.2.4.6 REDES DE CONTRA-PROPAGAÇÃO

A rede de Contra-propagação (Counterpropagation) foi proposta por Robert Nielsen em

1987. É muito utilizada em classificação de padrões, aproximação de funções, análise

estatística e aplicações que requerem compressão de dados.

A primeira camada funciona com o aprendizado competitivo e a segunda com

aprendizado supervisionado. Segundo BARRETO (1999), o mais interessante é que esse

paradigma permite obter valores das conexões sinápticas de modo algorítmico, sem iterações.

Um vetor de entrada é aplicado na camada de entrada, pré-processado e propagado para a

camada intermediária. Na camada intermediária, cada neurônio calcula o seu net (produto

escalar de um vetor de entrada pelo vetor de pesos) e compete com outros neurônios da

mesma camada para ver quem tem o maior valor de net. Apenas a unidade vencedora é que

manda o seu sinal para os neurônios da camada de saída.

9.2.4.7 REDE DE HOPFIELD

A rede de Hopfield é uma rede binária, recursiva, ou seja, todas as saídas de cada unidade

realimentam as entradas de outras na mesma camada.

216

Essa rede possui uma única camada de processamento, e cada unidade de processamento

tem um valor de atividade ou “estado” que é binário - com um ou dois valores possíveis;

usualmente, a entrada é um vetor de “ 0 “ e “ 1”.

9.2.4.8 REDE DE KOHONEN

O pioneiro no desenvolvimento da teoria das Redes Competitivas foi Teuvo Kohonen, e

por essa razão, os neurônios de uma rede competitiva são muitas vezes chamados de

neurônios de Kohonen. Do mesmo modo, as redes auto-organizáveis são também conhecidas

como Redes de Kohonen ou Mapas topológicos de características auto-organizativas, nos

quais a característica do objeto a ser mapeado é preservado.

A rede de Kohonen é uma estrutura de duas camadas de neurônios. A primeira camada é

a de Entrada, e seus neurônios estão completamente interconectados aos neurônios da segunda

camada - denominada competitiva - que é organizada numa grade bidimensional ou em um

arranjo dependente do objeto a ser mapeado, segundo KOHONEN (1987).

9.2.5 APLICAÇÕES PARA REDES NEURAIS

As redes neurais artificiais podem ser aplicadas para resolver uma variedade de

problemas; um bom exemplo de aplicação são softwares de reconhecimento de voz, que

precisam aprender a conhecer a voz de determinadas pessoas. Redes neurais também são

usados em robôs que desarmam bombas. O uso de um scanner para retirar um texto de um

jornal, por exemplo, aplica o software de OCR, que precisa aprender a reconhecer caracteres

da imagem. Logo, ele certamente possui algoritmos de rede neural. Existem até alguns

softwares que aprendem a identificar SPAMs em e-mails e apagá-los (e conseguem uma boa

margem aceitável de acertos). Mas, no geral, as redes neurais são usadas principalmente em

aplicações mais complexas, como em usinas, mercado financeiro, etc.

Em aplicações reais, as RNAs se sobressaem nas seguintes tarefas:

aproximação de funções;

previsão de séries temporais;

217

classificações;

reconhecimento de padrões.

9.3 LÓGICA FUZZY

Usamos, no cotidiano, conceitos subjetivos para classificar ou considerar certas situações,

tais como:

siga em frente “alguns” metros;

o dia está “parcialmente” nublado;

preciso perder “alguns” quilos para ficar “bem”;

estamos com uma moeda “estável”.

Ou ainda:

a classificação de certos objetos como “largo”, “sujo”, etc;

a classificação de pessoas pela idade tal como “velho”, “jovem”, etc;

a descrição de características humanas como “saudável”, “alto”, etc.

Nos exemplos acima, os termos entre aspas são “fuzzy” no sentido de envolverem

imprecisões e serem conceitos vagos.

O conceito “fuzzy” pode ser entendido como uma situação onde não podemos responder

simplesmente “sim” ou “não”. Mesmo conhecendo as informações necessárias sobre a

situação, dizer algo entre “sim” e “não” como, por exemplo: “talvez”, “quase”, se torna mais

apropriado.

Considere, por exemplo, informações como “homens altos”, “dias quentes” ou “vento

forte”. Nada existe que determine exatamente qual a “altura”, “temperatura” ou “velocidade”

que podemos considerar como limites para tais informações. Se considerarmos como alto

todos os homens com mais de 1,90m, então um homem com 1,88m não seria “alto” e sim

“quase alto”.

218

9.3.1 HISTÓRICO

As primeiras noções da lógica dos conceitos “vagos” foi desenvolvida por um lógico

polonês Jan Lukasiewicz (1878-1956), em 1920, que introduziu conjuntos com graus de

pertinência sendo 0 , ½ e 1 e, mais tarde, expandiu para um número infinito de valores entre 0

e 1.

A primeira publicação sobre lógica “fuzzy” data de 1965, quando recebeu esse nome. Seu

autor foi Lotfi Asker Zadeh, professor em Berkeley, Universidade da Califórnia. Zadeh criou

a lógica “fuzzy” combinando os conceitos da lógica clássica e os conjuntos de Lukasiewicz e

definindo graus de pertinência.

Entre 1970 e 1980, as aplicações industriais da lógica “fuzzy” aconteceram com maior

importância na Europa e, após 1980, o Japão iniciou seu uso com aplicações na indústria.

Algumas das primeiras aplicações foram em um tratamento de água feito pela Fuji Electric

em 1983 e pela Hitachi em um sistema de metrô inaugurado em 1987. Por volta de 1990, é

que a lógica “fuzzy” despertou um maior interesse em empresas dos Estados Unidos.

Devido ao desenvolvimento, às inúmeras possibilidades práticas dos sistemas “fuzzy” e

ao grande sucesso comercial de suas aplicações, a lógica “fuzzy” é considerada hoje uma

técnica “standard” e tem uma ampla aceitação na área de controle de processos industriais.

9.3.2 CONJUNTOS “FUZZY”

Na teoria clássica, os conjuntos são denominados “crisp”, e um dado elemento do

universo em discurso (domínio) pertence ou não pertence ao referido conjunto.

Na teoria dos conjuntos “fuzzy”, existe um grau de pertinência de cada elemento a um

determinado conjunto. Por exemplo, considerados os conjuntos abaixo:

pessoas com alta renda.

pessoas altas.

219

Pode-se verificar que não existe uma fronteira bem definida para decidirmos quando um

elemento pertence ou não aos respectivos conjuntos dados acima.

Com os conjuntos “fuzzy”, podemos definir critérios e graus de pertinência para tais

situações.

A função característica (crisp sets) pode ser generalizada de modo que os valores

designados aos elementos do conjunto universo U pertençam ao intervalo de números reais de

0 a 1, inclusive este, isto é, [0,1].

1,0:A

Esses valores indicam o GRAU DE PERTINÊNCIA dos elementos do conjunto U em

relação ao conjunto A, ou seja, quanto é possível para um elemento x de U pertencer ao

conjunto A.

Tal função é chamada de FUNÇÃO DE PERTINÊNCIA, e o conjunto A é definido como

“CONJUNTO FUZZY”.

9.3.3 CONCEITOS IMPORTANTES

Dado o exemplo abaixo:

seja o conjunto universo U = {5,10,20,30,40,50,60,70,80}, e consideremos os seguintes

conjuntos “fuzzy” : A={crianças}, B={jovens}, C={adultos} e D={velhos}, para os quais

atribuímos os graus de pertinência dos elementos do conjunto U na seguinte tabela:

220

TAB. 9.1 Comparativo entre idade e grau de pertinência

IDADE Criança Jovem Adulto Velho 5 0 1 0 0

10 0 1 0 0 20 0 0,8 0,8 0,1 30 0 0,5 1 0,2 40 0 0,2 1 0,4 50 0 0,1 1 0,6 60 0 0 1 0,8 70 0 0 1 1

80 0 0 1 1

O SUPORTE de um conjunto fuzzy A no conjunto universo U é o conjunto clássico

que contém todos os elementos de U, os quais têm grau de pertinência maior do que zero (>0)

e indica-se: 0)(sup xUxA A

Exemplos:

o suporte do conjunto “fuzzy” “jovem” da tabela anterior é o conjunto clássico

sup (jovem) = { 5,10,20,30,40,50};

o conjunto vazio “fuzzy” tem um conjunto suporte vazio, isto é, o grau de

pertinência é 0.

Na TAB. 9.1 o suporte do conjunto “fuzzy” “crianças” é o conjunto vazio Ø.

A CARDINALIDADE de um conjunto “fuzzy” A sobre um conjunto universo finito

U é a soma dos graus de pertinência de todos os elementos de U em A e indica-se:

Ux A xA )(

Exemplo:

a cardinalidade do conjunto “fuzzy”“velho”da tabela anterior é:

|velho| = 0 + 0 + 0,1 + 0,2 + 0,4 + 0,6 + 0,8 + 1 + 1 = 4,1.

9.3.4 OPERAÇÕES ENTRE CONJUNTOS “FUZZY”

O conjunto “fuzzy” A é um SUBCONJUNTO de um conjunto “fuzzy” B se o grau

de pertinência de cada elemento do conjunto universo U, no conjunto A, é menor ou igual que

221

seu grau de pertinência no conjunto B; ou seja, para todo Ux , )()( xx BA , e indica-se

BA .

Exemplo: na TAB. 9.1, o conjunto “fuzzy” “velho” é um subconjunto do conjunto

“fuzzy” “adulto”, pois, para todo Ux , tem-se: )()( xx AdultoVelho .

Os conjuntos “fuzzy” A e B SÃO IGUAIS se )()( xx BA , para todo elemento

Ux , e indica-se A = B.

Os conjuntos “fuzzy” A e B NÃO SÃO IGUAIS se )()( xx BA , para no

mínimo um Ux , e indica-se BA .

O conjunto “fuzzy” A é um SUBCONJUNTO PRÓPRIO do conjunto “fuzzy” B

quando A é um subconjunto de B e BA ,isto é, )()( xx BA , para todo Ux , e

)()( xx BA , para no mínimo um Ux , e indica-se BA

se e somente se BA

BA .

Exemplo: na tabela anterior, o conjunto “fuzzy” “velho” é um subconjunto próprio do

conjunto “fuzzy” “adulto”, pois, para todo Ux , tem-se: )()( xx AdultoVelho

)()( xx AdultoVelho , para no mínimo um Ux .

O COMPLEMENTO de um conjunto “fuzzy” A em relação ao conjunto universo

U é indicado por A’, e a função de pertinência é definida como: )(1)( xx AA , para todo

Ux .

Exemplo: se um elemento Ux

tem grau de pertinência 0,8 no conjunto “fuzzy” A, seu

grau de pertinência em A’ será 0.2.

A UNIÃO de dois conjuntos “fuzzy” A e B é um conjunto “fuzzy” BA

tal que,

para todo Ux , seja )(),(max)( xxx BABA .

A INTERSECÇÃO de dois conjuntos “fuzzy” A e B é um conjunto “fuzzy” BA

tal que, para todo Ux , seja )(),(min)( xxx BABA .

222

9.4 OUTROS ALGORITMOS

9.4.1 APRIORI

O algoritmo Apriori é um dos mais conhecidos para encontrar grandes conjuntos de itens

em bancos de dados de transações. Ele utiliza os conjuntos de itens de tamanho k para gerar

os conjuntos de itens de tamanho (k + 1). O primeiro passo do algoritmo é encontrar os

conjuntos de itens com 1 item, que é denominado L1. O conjunto L1 é usado para gerar L2,

que representa os conjuntos de itens com 2 itens e, assim por diante, até que nenhum conjunto

de itens possa ser gerado.

Para reduzir o número de conjuntos de itens gerados, o algoritmo utiliza uma propriedade

dos grandes conjuntos de itens, que é baseada na seguinte observação. Por definição, se um

conjunto de itens I não satisfaz a condição de suporte mínimo, então I não é grande, isto é,

P(I) < minsupport. Se um item A é adicionado ao conjunto de itens I, então o conjunto de

itens resultante (I U A) não pode ocorrer mais freqüentemente que I. Portanto, I U A também

não é grande, ou seja, P(I U A) < minsupport.

O primeiro passo do algoritmo é realizar a contagem dos conjuntos de itens para

encontrar os grandes conjuntos de itens de tamanho unitário. Os passos seguintes consistem

em duas fases. Primeiro, os conjuntos de itens freqüentes Lk-1, encontrados no passo anterior

(k – 1) são utilizados para gerar os conjuntos de itens potencialmente grandes, os conjuntos de

itens candidatos (Ck). Na seqüência, é realizada uma nova busca no banco de dados,

contando-se o suporte de cada candidato em Ck.

A geração dos conjuntos de itens candidatos utiliza como argumento o conjunto Lk-1. Isso

retorna um superconjunto de itens com todos os conjuntos de itens de tamanho k acrescidos

de um item. Se um conjunto de itens X contém o conjunto de itens Y, diz-se que X é um

superconjunto de Y. O próximo passo é excluir todos os conjuntos de itens c U Ck, tal que os

conjuntos de itens de tamanho (k – 1) de c não estejam em Lk-1.

223

9.4.2 C 4.5

É uma evolução do algoritmo ID3 e um dos mais recentes algoritmos de árvore de

decisão disponíveis. Foi desenvolvido pelo pesquisador Australiano J. Ross Quinlan em 1993

e é encontrado em vários produtos comerciais. O algoritmo transforma a árvore de decisão em

um conjunto de regras ordenadas pela sua importância, permitindo ao usuário identificar, de

imediato, os fatores que mais direcionam seus negócios, segundo BERRY e LINOFF (1997).

O algoritmo produz uma árvore com um número variado de folhas por nó e assume os

valores das categorias como divisores, comportando-se diferentemente de algoritmos que

produzem uma árvore binária, como o CART. O prunning é executado examinando a taxa de

erro de cada folha, que somadas formam a taxa de erro da árvore.

Uma vez criado um conjunto de regras, o algoritmo agrupa as regras geradas para cada

classe e elimina as que não contribuem para a precisão do conhecimento a ser extraído. O

resultado final é um pequeno conjunto de regras de fácil entendimento, obtido pela

combinação das regras que levam à mesma classificação, conforme BERRY e LINOFF

(1997).

9.5 DOCUMENTOS DAS ATIVIDADES DA METODOLOGIA MPDF-DM

A metodologia é composta de nove formulários representados a seguir.

224

9.5.1 ANÁLISE DO SISTEMA

FIG. 9.4 Formulário – Análise do Sistema

225

9.5.2 PRÉ-PROCESSAMENTO - TÉCNICA

FIG. 9.5 Formulário – Pré-processamento - Técnica

226

9.5.3 PRÉ-PROCESSAMENTO - SELEÇÃO

FIG. 9.6 Formulário – Pré-processamento – Seleção

227

9.5.4 PRÉ-PROCESSAMENTO - LIMPEZA

FIG. 9.7 Formulário – Pré-processamento – Limpeza

228

9.5.5 PRÉ-PROCESSAMENTO - CODIFICAÇÃO

FIG. 9.8 Formulário – Pré-processamento – Codificação

229

9.5.6 PRÉ-PROCESSAMENTO - NORMALIZAÇÃO

FIG. 9.9 Formulário – Pré-processamento – Normalização

230

9.5.7 PRÉ-PROCESSAMENTO - ENRIQUECIMENTO

FIG. 9.10 Formulário – Pré-processamento – Enriquecimento

231

9.5.8 MINERAÇÃO DE DADOS

FIG. 9.11 Formulário – Mineração de Dados

232

9.5.9 PÓS-PROCESSAMENTO

FIG. 9.12 Formulário – Pós-processamento

233

9.5.10 OBSERVAÇÃO

FIG. 9.13 Formulário – Observação

234

9.6 PRODUTOS DE DATA MINING

Os parágrafos abaixo fornecem uma visão geral de algumas ferramentas de mineração de

dados disponíveis no mercado. Os sites são fornecidos para encontrar informações mais

detalhadas a respeito de cada produto.

AC2

Fabricante: ISoft.

URL: www.alice-soft.com/html/prodac2.htm

Tarefas: Clusterização, classificação, predição e segmentação.

Técnicas: Árvore de decisão.

Plataformas: Unix e Windows.

Comentários: é uma ferramenta de mineração de dados projetada para o

descobrimento de conhecimento pelos usuários, tem uma linguagem gráfica orientada a

objetos e bibliotecas para as linguagens C/C++.

Al Trilogy

Fabricante: Ward Systems Group.

URL: http://www.wardsystems.com/products.asp?p=aitrilogy

Tarefas: Classificação, previsão e predição.

Técnicas: Algoritmos genéticos e redes neurais.

Plataformas: Windows.

Comentários: o pacote computacional é composto de três produtos: Predictor,

Classificador e GeneHunter. Os tipos arquivos suportados são: ASCII, CSV e XLS.

Acompanha um plug-in que pode ser utilizado junto com o Excel.

Answer Tree

Fabricante: SPPS.

URL: http://www.spss.com/answertree

Tarefas: Classificação.

Técnicas: Árvore de decisão (CHAID, C&RT (uma variação do CART), QUEST).

Plataformas: Cliente (Windows), servidor (Solaris e Windows).

http://www.alice-soft.com/html/prodac2.htm

http://www.wardsystems.com/products.asp?p=aitrilogy

http://www.spss.com/answertree

235

Comentários: é um produto da SPSS usado para criar árvore de decisão. Como uma

ferramenta de mineração de dados ele separa os grupos de clientes pelo perfil, sendo uma

ferramenta útil para as áreas de marketing e vendas. Quatro algoritmos básicos de árvore da

decisão são usados, incluindo dois algoritmos de CHAID, ambos otimizados pela SPSS para

assegurar as variáveis dependentes categóricas.

Braincel

Fabricante: Jurik Research and Consulting.

URL: http://www.jurikres.com/catalog/ms_bcel.htm#top

Tarefas: Previsão.

Técnicas: Redes neurais (back propagation).

Comentários: este produto é um componente extra para a planilha Excel que realiza

previsões. Uma versão desenvolvida pelo fabricante do algoritmo back propagation é usada,

que o mesmo chama de back-percolation.

BrainMaker

Fabricante: California Scientific Software.

URL: http://www.calsci.com

Tarefas: Previsão.

Técnicas: Redes Neurais.

Plataformas: Windows e Macintosh.

Comentários: é um software que pode ser usado com diferentes fontes de dados,

incluindo Lótus, Excel, dBase, ASCII ou formato binário. É uma dos mais populares

softwares de redes neurais. Um pacote opcional, o Genetic Training Option (GTO), que usa

algoritmos genéticos para criar as possíveis redes neurais. Com diversas iterações, este pacote

opcional, escolhe a melhor rede possível.

Bramining

Fabricante: Graal.

URL: http://www.graal-corp.com.br

Tarefas: Classificação, regras de associação, regressão, sumarização.

Técnicas: Redes neurais (back propagation), C4.5, C-Means.

http://www.jurikres.com/catalog/ms_bcel.htm#top

http://www.calsci.com

http://www.graal-corp.com.br

236

Comentários: produto desenvolvido por pesquisadores da PUC-Rio e do IME. Com

interface simples facilita a utilização por usuários inexperientes na condução de projetos de

KDD.

CART

Fabricante: Salford Systems.

URL: http://www.salford-systems.com

Tarefas: Classificação.

Técnicas: Árvore de decisão (CART).

Plataformas: CMS, MVS, Unix (Linux) e Windows.

Comentários: CART é uma ferramenta de análise de arvores de decisão baseada no

algoritmo de nome homonimo. Possui uma interface com mais de 80 tipos formatos de

arquivos, incluindo Excel, Informix, Lotus, Oracle.

Clementine

Fabricante: SPSS.

URL: www.spss.com/clementine

Tarefas: Regras de associação, classificação, clusterização, análise de fatores, séries

temporais, predição, descobrimento de seqüência e detecção de desvios.

Técnicas: Apriori, BIRCH, CARMA, árvore de decisão (C5.0, C&RT uma variação

do CART), K-means clusterização, redes neurais (Kohonen, MLP, RBFN), regressão (linear,

logística) e regras de indução (C5.0, GRI)

Plataforma: HP/UX, IBM AIX, Sun Solaris, Windows.

Comentários: O Clementine possui uma estrutura de organização de dados própria

mas permite a importação de dados em diversos formatos, tais como: FoxPro, Access, DBase,

ASCII, XLS, Oracle e SQL Server. É um dos principais softwares de mineração de dados

disponível comercialmente.

Darwin

Fabricante: Thinking Machines.

URL: http://en.wikipedia.org/wiki/Thinking_Machines

Tarefas: Classificação.

http://www.salford-systems.com

http://www.spss.com/clementine

http://en.wikipedia.org/wiki/Thinking_Machines

237

Técnicas: Árvore de decisão, redes neurais, K-Nearst Neighbors.

Plataforma: Windows, Sun Solaris e HP-UX.

Comentários: Fornece uma interface simples, baseadas no modelo Windows, e

oferece também uma implementação de vários algoritmos de mineração de dados, que podem

ser executados paralelamente. Possui a flexibilidade para utilizar diversos algoritmos e

escolher o mais adequado para um dado problema.

DataEngine

Fabricante: Management Intelligenter Technologien.

URL: www.dataengine.de

Tarefas: Classificação, clusterização, árvore de decisão, previsão de séries

temporais.

Técnicas: Árvore de decisão, lógica fuzzy, K-means, redes neurais (MLP, Kohonen),

regressão (linear).

Plataforma: Windows.

Comentários: DataEngine suporta diferentes tipos de tarefas de mineração de dados

e métodos estatísticos. Por meio desta ferramenta é possível gera o código fonte de programas

em C ou DLLs para serem usados em outros sistemas.

DBMiner

Fabricante: DBMiner Technologies Inc.

URL: www.dbminer.com

Tarefas: Regras de associação, Classificação, clusterização.

Técnicas: Árvore de decisão, K-means.

Plataforma: Windows.

Comentários: DBMiner acessa diferentes tipos de fontes de dados, incluindo

Microsoft SQL Server, Excel, OLEDB, e outros bancos de dados relacionais por meio de

drivers ODBC.

DB2 Intelligent Miner

Fabricante: IBM.

URL: http://www-306.ibm.com/software/data/iminer/

http://www.dataengine.de

http://www.dbminer.com

http://www-306.ibm.com/software/data/iminer/

238

Tarefas: Regras de associação, clusterização, classificação, sumarização, padrões

seqüenciais, séries temporais.

Técnicas: Árvore de decisão (modificação do CART), K-means, redes neurais

(MLP, back-propagation, RBF), regressão (linear).

Plataforma: Windows, Solaris, AIX, OS/390, OS/400.

Comentários: É escalável e ofere suporte para várias plataformas, independente de

banco de dados e sistema operacional. Está apto a fornecer uma estrutura que suporta o

processo iterativo de descoberta de conhecimento.

Decider

Fabricante: Neural Technologies.

URL: www.neuralt.com

Tarefas: Classificação, predição, regras.

Técnicas: Redes neurais.

Comentários: É uma ferramenta que incorpora funcionalidades de mineração de

dados para identificar risco na concessão de crédito e fraudes.

Enterprise Miner

Fabricante: SAS Institute.

URL: www.sas.com/products/miner

Tarefas: Regras de associação, classificação, clusterização, predição, regressão e

séries temporais.

Técnicas: Árvore de decisão (CART, CHAID), regressão (linear, logística), redes

neurais (Kohonen, MLP, RBF, SOM).

Plataforma: Cliente (Windows), Servidor (Unix, Windows).

Comentários: Comentado no item Erro! Fonte de referência não encontrada..

KnowledgeSTUDIO

Fabricante: ANGOSS.

URL: http://www.angoss.com/products/studio.php

Tarefas: Classificação, clusterização, predição, regras.

http://www.neuralt.com

http://www.sas.com/products/miner

http://www.angoss.com/products/studio.php

239

Técnicas: Árvore de decisão (CHAID), K-means, redes neurais (MLP, RBF),

regressão (linear, logística).

Plataforma: Windows, Servidor (Solaris, Windows).

Comentários: KnowledgeSTUDIO executa as principais tarefas de mineração de

dados. Está pronta para importer dados dos principais pacotes de estatística e também importa

dados por meio de ODBC. Ele pode gerar código para as linguagens Visual Basic,

PowerBuilder, Delphi, C++, e Java.

KnowledgeSEEKER

Fabricante: ANGOSS.

URL: http://www.angoss.com/products/seeker.php

Tarefas: Classificação.

Técnicas: Árvore de decisão (CHAID, XAID).

Plataforma: Windows, Unix (AIX, HP-UX, IRIX, Digital Alpha, Sinux, Solaris,

SCO, LINUX).

Comentários: KnowledgeSEEKER tem uma interface baseada em GUI e grande

capacidade de visualização de árvores.

MarketMiner

Fabricante: MarketMiner.

URL: www.marketminer.com

Tarefas: Classificação, reconhecimento de padrões, predição, segmentação.

Técnicas: Árvore de decisão (C4.5), KNN, regressão (linear, logística), técnicas

estatísticas.

Plataforma: Windows.

Comentários: MarketMiner é composta de um conjunto de ferramentas de mineração

de dados voltadas para a análise de marketing e que são automatizadas, o que facilita a vida

dos usuários.

Oracle Data Mining

Fabricante: Oracle.

URL: www.oracle.com

http://www.angoss.com/products/seeker.php

http://www.marketminer.com

240

Tarefas: Classificação, regressão, associação, clusterização e mineração de texto.

Técnicas: Classificação bayesiana ingênua, mineração de texto e K-Means.

Plataforma: Windows, Unix e Linux.

Comentários: Integrado com o banco de dados da Oracle, o que facilita a

manipulação de dados por meio de comandos SQL..

PolyAnalyst

Fabricante: Megaputer Intelligence.

URL: www.megaputer.com/products/pa/index.php3

Tarefas: Regras de associação, classificação, clusterização, regressão, sumarização e

detecção de desvios.

Técnicas: Árvore de decisão, redes neurais.

Plataforma: Windows e Unix.

Comentários: PolyAnalyst pode acessar dados armazenados em banco de dados

relacionais usando a interface ODBC. Também pode acessar arquivos textos, Excel e arquivos

do tipo DBF. A interface de fácil utilização favorece o emprego do software..

See5

Fabricante: RuleQuest.

URL: www.rulequest.com/see5-info.html

Tarefas: Classificação.

Técnicas: Árvore de decisão, regras.

Plataforma: Windows, Unix (Linux, Solaris, Irix).

Comentários: O algoritmo de classificação C5.0 é implementado neste software. Que

gera código fonte em C para que possam ser inseridos nas aplicações.

Statistica Data Miner

Fabricante: StatSoft.

URL: http://www.statsoft.com/products/dataminer.htm

Tarefas: Classificação, clusterização, predição.

Técnicas: ARIMA, árvore de decisão (CART, CHAID), amortecimento exponencial,

redes neurais (Back-propagation, MLP, RBF, SOM), regressão.

http://www.megaputer.com/products/pa/index.php3

http://www.rulequest.com/see5-info.html

http://www.statsoft.com/products/dataminer.htm

241

Plataforma: Windows

Comentários: STATISTICA Data Miner oferece métodos avançados e fáceis para os

usuários, com geração de gráficos de alta qualidade. Há possibilidade de customização das

ferramentas disponibilizadas e ela também manipulação arquivos grandes eficientemente.

Weka

Fabricante: Universidade de Waikato.

URL: http://www.cs.waikato.ac.nz/ml/weka/

Tarefas: Classificação, regressão, regras de associação e previsão de séries

temporais.

Técnicas: Árvores de decisão, redes neurais, regras, regressão linear, regressão

logística.

Plataforma: Windows e Linux.

Comentários: É uma ferramenta de código aberto, flexível, desenvolvida na

linguagem Java. Há a possibilidade de inclusão ou remoção de novos métodos, o que torna a

ferramenta customizável e expansível.

WizRule

Fabricante: WizSoft.

URL: http://www.wizsoft.com

Tarefas: Classificação, sumarização e detecção de desvios.

Técnicas: Informação não disponível.

Plataforma: Windows.

Comentários: Desenvolvido para examinar e descrever conjuntos de dados,

detectando possíveis erros dentre os dados analisados.

http://www.cs.waikato.ac.nz/ml/weka/

This document was created with Win2PDF available at http://www.win2pdf.com.The unregistered version of Win2PDF is for evaluation or non-commercial use only.This page will not be added after purchasing Win2PDF.

http://www.win2pdf.com

Recommended