Click here to load reader
Upload
georham
View
59
Download
15
Embed Size (px)
DESCRIPTION
dis
Citation preview
UNIVERSIDADE FEDERAL DA PARABA
CENTRO DE CINCIAS EXATAS E DA NATUREZA DEPARTAMENTO DE INFORMTICA
PROGRAMA DE PS-GRADUAO EM INFORMTICA
MINERAO DE DADOS EM DATA WAREHOUSE PARA SISTEMA DE ABASTECIMENTO DE GUA
ROBERTA MACDO MARQUES GOUVEIA
Dissertao de Mestrado
Joo Pessoa-PB Maio-2009
ROBERTA MACDO MARQUES GOUVEIA
MINERAO DE DADOS EM DATA WAREHOUSE PARA SISTEMA DE ABASTECIMENTO DE GUA
Dissertao de mestrado apresentada ao Centro de Cincias Exatas e da Natureza da Universidade Federal da Paraba, como requisito parcial para obteno do ttulo de Mestre em Informtica (Sistemas de Computao). Orientadora: Professora Dra. Valria Gonalves Soares Elias Co-orientador: Professor Dr. Heber Pimentel Gomes
Joo Pessoa-PB Maio-2009
G719m Gouveia, Roberta Macdo Marques. Minerao de dados em data warehouse para sistema de abastecimento de gua / Roberta Macedo Marques Gouveia.
Joo Pessoa, 2009. 147f. : il. Orientadora: Valria Gonalves Soares Elias. Co-orientador: Heber Pimentel Gomes. Dissertao (Mestrado) UFPB/CCEN 1. Data warehouse Banco de dados. 2. Minerao de dados. 3. Tecnologias OLAP. UFPB/BC CDU: 004.65 (043)
AGRADECIMENTOS A Deus pelo dom da vida e pelas oportunidades concedidas em minha vida, permitindo-me
enveredar pelo caminho da cincia e do saber, e dando-me o alento necessrio para
prosseguir. Nossa aliana eterna!
Nossa Senhora, pelo seu grande exemplo de vida, mostrando-me o caminho da f,
superao, esperana, tolerncia, doao e principalmente, seu exemplo de amor.
Aos meus pais que tanto amo, Severino M. Gouveia e Ilsaira M. M. Gouveia, pelo
exemplo de dedicao, amizade, amor incondicional e investimento dispensado ao longo da
minha formao.
Ao Prof. Dr. Heber Pimentel Gomes um agradecimento muito especial pelas orientaes e
pela amizade conquistada ao longo desses dois anos juntos ao Laboratrio de Eficincia
Energtica e Hidrulica em Saneamento - LENHS. Seus ensinamentos e motivaes foram
significantes para a concluso deste trabalho.
Profa. Dra. Valria Gonalves Soares Elias pelas orientaes sugeridas, das quais foram
teis ao desenvolvimento desta pesquisa.
Aos meus irmos Bruno M. M. Gouveia e Rafael M. M. Gouveia pelo apoio e harmnica
convivncia, me incentivando a seguir em frente e fornecendo todo o sustentculo.
Ao meu amado Alexandre Magno Gurgel Fialho pelo amor, dedicao, apoio, carinho e
compreenso em todos os momentos.
Aos meus amigos e colegas da UFPB, em especial a toda equipe do LENHS dentre eles,
Moiss M. Salvino, Paulo Srgio O. Carvalho, Saulo B. de Tarso, Magno J. G. Silva e Wil L.
L. Camboim pelo auxlio, incentivo e companheirismo.
Ao Governo do Brasil, pelo apoio financeiro concedido atravs das Centrais Eltricas
Brasileiras S.A. (ELETROBRS), da Financiadora de Estudos e Projetos (FINEP) e do
Conselho Nacional de Desenvolvimento Cientfico (CNPq).
Companhia de gua e Esgotos da Paraba (CAGEPA), em nome dos engenheiros
Leonardo L. B. Montenegro e Jaqueline Pequeno, pela disponibilizao dos dados necessrios
ao estudo de caso do trabalho.
UFPB, instituio que, atravs de seus docentes e funcionrios, foi responsvel pela minha
formao acadmica. E aqueles que contriburam de alguma forma para a realizao deste
trabalho. Muito Obrigada!
RESUMO Esta dissertao se prope a utilizar tecnologias de Banco de Dados com a finalidade de
oferecer apoio deciso para os gestores do setor de saneamento, haja vista que os servios de
abastecimento de gua para uso da populao se constituem em um dos principais indicadores
da qualidade de vida da humanidade. A idia fundamental consiste em coletar os dados
operacionais, reduzi-los ao escopo de um problema, organiz-los em um repositrio de dados,
e finalmente aplicar as tecnologias OLAP e os algoritmos de Minerao de Dados, a fim de
obter resultados que proporcionem aos gestores um melhor entendimento do comportamento e
perfil da companhia. Para facilitar a aplicao de tcnicas de Minerao de Dados
necessrio que estes dados estejam armazenados apropriadamente. Neste sentido, uma das
alternativas para o aumento da eficincia no armazenamento, gesto e operao dos dados
para o suporte a deciso baseia-se no desenvolvimento do Data Warehouse. Este ambiente
constitui fontes de informaes estratgicas do negcio, gerando um diferencial competitivo
para a companhia. Diante deste contexto, se fez necessrio a implementao do repositrio de
dados, o Data Warehouse, para armazenar, integrar e realizar as consultas multidimensionais
sobre os dados extrados da companhia de abastecimento de gua. Portanto, esta dissertao
de mestrado tem como objetivos projetar um Data Warehouse Departamental referente ao
setor comercial, tambm conhecido como Data Mart; aplicar as tecnologias OLAP sobre os
cubos de dados multidimensionais; e executar algoritmos de Minerao de Dados visando a
gerao de um sistema de apoio deciso para minimizao das perdas aparentes no sistema
de abastecimento urbano de gua.
Palavras chave: Data Warehouse, OLAP, Data Mining, Sistemas de Abastecimento de gua e Perdas Aparentes.
ABSTRACT This work propose to use technologies of databases with the aim of providing decision
support for managers of sector of sanitation, given that the services of water supply for use of
the population are a key indicator of quality of life. The fundamental idea is to collect
operational data, reduce them to the scope of the problem, organize them into a repository of
data, and finally apply the techniques OLAP and Data Mining algorithms to obtain results that
give managers a better understanding of the behavior and profile of the company. To facilitate
the application of the techniques of Data Mining is necessary that the data are stored properly.
Accordingly, an alternative for increasing the efficiency in storage, management and
operation of data to support the decision based on the development of Data Warehouse. This
is source of strategic information of the business, creating a competitive differential for the
company. In this context, was required to implement the repository of data, Data Warehouse,
to store, integrate and carry out consultations on the multidimensional data from the company
of water supply. Therefore, this Master's thesis aims to design a Data Warehouse relating to
Departmental Business, also known as Data Mart; applied the technology on the OLAP
multidimensional cubes of data, and run the Data Mining algorithms to the generation of a
decision support system to minimize the apparent losses in the urban water supply system.
Keywords: Data Warehouse, OLAP, Data Mining, Water Supply Systems and Apparent Losses.
SUMRIO
CAPTULO 1 14
1 INTRODUO 14 1.1 OBJETIVOS 15 1.2 MOTIVAO DA PESQUISA 17 1.3 JUSTIFICATIVA DO TRABALHO 19 1.3.1 Perdas em Sistemas de Abastecimento de gua 19 1.4 ESTRUTURA DA DISSERTAO 21
CAPTULO 2 22
2 FUNDAMENTAO TERICA 22 2.1 SISTEMA DE APOIO DECISO 22 2.1.1 Descoberta de Conhecimento em Banco de Dados 24 2.2 DATA WAREHOUSE 25 2.2.1 Data Mart 27 2.2.2 Propriedades do Data Warehouse 29 2.2.3 Granularidade 31 2.2.4 Arquitetura do Data Warehouse 32 2.3 MODELAGEM DIMENSIONAL 35 2.3.1 Esquema Estrela 36 2.3.2 Esquema Floco de Neve 38 2.3.3 Esquema Constelao de Fatos 38 2.4 TECNOLOGIAS OLAP 39 2.4.1 Estrutura Multidimensional: Cubo de Dados 44 2.4.2 Conjunto de Operaes OLAP 46 2.5 DATA MINING 48 2.5.1 Metas do Data Mining 49 2.5.2 Aprendizado Indutivo 49 2.5.3 O Processo Iterativo do Data Mining 51 2.5.4 Principais Tarefas do Data Mining 52 2.5.5 Tcnicas de Data Mining 56 2.5.6 Viso Hierrquica do KDD 67 2.5.7 Ferramentas de Data Mining 68 2.5.8 Relao entre Data Warehouse, OLAP e Data Mining 70 2.6 TRABALHOS RELACIONADOS 71 2.7 CONSIDERAES FINAIS 75
CAPTULO 3 77
3 PROJETO E IMPLEMENTAO DO SAD 77 3.1 O ESTUDO DE CASO 80 3.2 PROCESSO DE EXTRAO DO CONHECIMENTO: FASE 1 85 3.2.1 Implementao do Data Warehouse 85 3.2.2 Pr-Processamento: Limpeza e Enriquecimento 86 3.2.3 Transformao, Seleo e Integrao dos Dados 87 3.2.4 Utilizao do Esquema Constelao de Fatos 89 3.2.5 Pentaho Schema Workbench Modelagem Dimensional 92 3.2.6 Pentaho Analysis View - OLAP 93 3.3 PROCESSO DE EXTRAO DO CONHECIMENTO: FASE 2 98 3.3.1 Utilizao do Data Mining 98 3.3.2 Modelagem Realizada 99 3.3.3 Abordagem do Data Mining Aplicada aos Hidrmetros 100 3.3.4 Construo das Tarefas de Minerao 102 3.4 CONSIDERAES FINAIS 104
CAPTULO 4 105
4 DATA MINING APLICADO AO ESTUDO DE CASO 105 4.1 ETAPA DE DATA MINING 105 4.1.1 Software de Data Mining: WEKA 106 4.2 RESULTADOS E DISCUSSES 107 4.2.1 Pr-Minerao do Modelo Perfil do Setor 107 4.2.2 Pr-Minerao do Modelo Perdas Aparentes 111 4.3 INTERPRETAO E AVALIAO DOS RESULTADOS 114 4.3.1 Execuo do Data Mining: Modelo Perfil do Setor 116 4.3.2 Execuo do Data Mining: Modelo Perdas Aparentes 122 4.4 CONSIDERAES FINAIS 130
CAPTULO 5 133
5 CONCLUSO 133
CAPTULO 6 137
6 BIBLIOGRAFIA 137
APNDICE 144
APNDICE A 145 APNDICE B 146
LISTA DE FIGURAS
Figura 2.1 - etapas do processo de KDD ............................................................................................................... 24
Figura 2.2 - os quatro nveis de dados do ambiente arquitetural de um data warehouse ...................................... 33
Figura 2.3 - exemplos de consultas referentes aos quatro nveis de dados ............................................................ 33
Figura 2.4 - exemplo geral do esquema estrela ..................................................................................................... 36
Figura 2.5 - exemplo geral do esquema floco de neve .......................................................................................... 38
Figura 2.6 - exemplo geral do esquema constelao de fatos ................................................................................ 39
Figura 2.7 - visualizao dos dados atravs de ferramenta OLAP pentaho analysis view .................................... 42
Figura 2.8 - visualizao dos dados atravs do software PgAdmin ....................................................................... 43
Figura 2.9 - (a) um cubo de dados com trs dimenses. (b) busca tridimensional de clulas no cubo .................. 44
Figura 2.10 - exemplo de cuboids (1-D), (2-D) e (3-D) para o esquema constelao de fatos .............................. 45
Figura 2.11 - Rede de cuboids para um cubo de trs dimenses ........................................................................... 46
Figura 2.12 - exemplo da operao slice, dice, drill-down, drill-up e rotate. ........................................................ 47
Figura 2.13 - taxonomia do data mining ............................................................................................................... 51
Figura 2.14 - exemplo de dados utilizados na tarefa de classificao ................................................................... 53
Figura 2.15 - exemplo de rvore de deciso .......................................................................................................... 57
Figura 2.16 - arvore de deciso gerada com os dados da Figura 2.14 ................................................................... 57
Figura 2.17 - classificao por rvore de deciso (pontos de utilizao versus fatura) ......................................... 59
Figura 2.18 - taxonomia do processo de descoberta do conhecimento em banco de dados .................................. 67
Figura 3.1 - componentes do ambiente de apoio deciso.................................................................................... 77
Figura 3.2 - criao dos cubos de dados pela ferramenta schema workbench ....................................................... 79
Figura 3.3 - tela inicial da ferramenta OLAP pentaho analysis view .................................................................... 79
Figura 3.4 - minerao de dados pela ferramenta WEKA ..................................................................................... 80
Figura 3.5 - sistemas de logradouros de Joo Pessoa - setor Miramar .................................................................. 81
Figura 3.6 - desenvolvimento da modelagem dimensional no SGBD postgresql ................................................. 85
Figura 3.7 - parte do esquema constelao de fatos para o setor de saneamento .................................................. 90
Figura 3.8 - consulta ao esquema constelao de fatos da Figura 3.7 ................................................................... 91
Figura 3.9 - criao do esquema constelao de fatos atravs da ferramenta schema workbench ........................ 92
Figura 3.10 - consulta sobre o perfil do consumidor de baixa renda quanto a inadimplncia ............................... 94
Figura 3.11 - exemplo de consulta ao esquema constelao de fatos da Figura 3.7 .............................................. 96
Figura 3.12 - consulta ao cubo de dados fato perfil do setor (cuboids 1-D) ...................................................... 97
Figura 3.13 - consulta ao cubo de dados fato perfil do setor (cuboids 2-D) ...................................................... 97
Figura 3.14 - intervalos de valores percentuais do faturamento no ltimo semestre ........................................... 101
Figura 4.1 - viso geral dos atributos do modelo perfil do setor. (A-C) .............................................................. 108
Figura 4.2 - viso geral dos atributos do modelo perfil do setor. (D-F) .............................................................. 109
Figura 4.3 - viso geral do perfil do setor 64 quanto inadimplncia. (A-C) ..................................................... 110
Figura 4.4 - viso geral do perfil do setor 64 quanto inadimplncia. (D-F) ...................................................... 110
Figura 4.5 - atributos do modelo perdas aparentes associados ao atributo classe deciso. (A-C)....................... 112
Figura 4.6 - atributos do modelo perdas aparentes associados ao atributo classe deciso. (D-F) ....................... 113
Figura 4.7 - atributos do modelo perda aparente associados ao atributo classe deciso. (G-I) ........................... 113
Figura 4.8 - atributos do modelo perdas aparentes associados ao atributo classe deciso. (J-M) ....................... 114
Figura 4.9 - seleo dos algoritmos de data mining pela ferramenta WEKA...................................................... 115
Figura 4.10 - rvore de deciso para o modelo perfil do setor ............................................................................ 119
Figura 4.11 - rvore de deciso para o modelo perda aparente ........................................................................... 126
Figura A.1 - modelagem dimensional do esquema constelao de fatos do data warehouse ..................... 145
LISTA DE TABELAS
Tabela 2.1 - diferenas entre data mart e data warehouse .................................................................................... 28
Tabela 2.2 - exemplo da modelagem dimensional em SGBDS ............................................................................. 36
Tabela 2.3 - comparativo entre as tabelas de fatos e dimenso ............................................................................. 37
Tabela 2.4 - diferenas entre OLAP e OLTP ........................................................................................................ 41
Tabela 2.5 - regras de classificao geradas (descobertas) com os dados da Figura 2.14 ..................................... 53
Tabela 2.6 - exemplo de dados para descoberta de regra de associao ................................................................ 55
Tabela 2.7 - descoberta de regras de associao com fs = 0.3 e fc = 0.8 ............................................................... 55
Tabela 2.8 - tcnicas, tarefas e algoritmos de data mining .................................................................................... 56
Tabela 2.9 - operaes de especializao e generalizao por induo de regras ................................................. 60
Tabela 2.10 - passos para construo da rvore de deciso atravs do ID-3 ......................................................... 61
Tabela 2.11 - exemplo de dados para classificao bayesiana .............................................................................. 63
Tabela 2.12 - clculo das probabilidades dos dados da Tabela 2.11 utilizando classificadores bayesianos .......... 64
Tabela 2.13 - exemplo de uso do algoritmo apriori .............................................................................................. 66
Tabela 2.14 - passos da execuo do algoritmo apriori ........................................................................................ 66
Tabela 2.15 - ferramentas de data mining - apoio KDD ..................................................................................... 68
Tabela 2.16 - avaliao comparativa entre as ferramentas de data mining ........................................................... 69
Tabela 3.1 - dicionrio de dados. Fonte: CAGEPA ............................................................................................... 82
Tabela 3.2 - matriz de confuso para a classificao com duas classes ............................................................... 102
Tabela 4.1 - algoritmo ID-3 aplicado ao modelo perfil do setor ......................................................................... 117
Tabela 4.2 - algoritmo J4.8 aplicado ao modelo perfil do setor .......................................................................... 118
Tabela 4.3 - algoritmo naivebayes aplicado ao modelo perfil do setor ............................................................... 120
Tabela 4.4 - algoritmo apriori aplicado ao modelo perfil do setor ...................................................................... 121
Tabela 4.5 - algoritmo ID-3 aplicado ao modelo perda aparente ........................................................................ 122
Tabela 4.6 - algoritmo J4.8 aplicado ao modelo perda aparente ......................................................................... 124
Tabela 4.7 - algoritmo naivebayes aplicado ao modelo perda aparente .............................................................. 127
Tabela 4.8 - algoritmo apriori aplicado ao modelo perda aparente ..................................................................... 129
Tabela 4.9 - comparativo entre os algoritmos de data mining aplicados ao modelos perfil do setor .................. 130
Tabela 4.10 - comparativo entre os algoritmos de data mining aplicados ao modelo perdas aparentes .............. 131
Tabela B.1 - arquivo arff do modelo de data mining perfil do setor ........................................................... 146
Tabela B.2 - arquivo arff do modelo de data mining perdas aparentes ...................................................... 147
LISTA DE ABREVIATURAS
BI Business Intelligence
CAGEPA Companhia de gua e Esgotos da Paraba
DW Data Warehouse
EIS Executive Information Systems
ETL Extraction, Transformation and Load
ID-3 Iterative Dichotomiser
JDBC Java Database Connectivety
KDD Knowledge Discovery in Databases
OLAM On-Line Analytical Mining
OLAP On-Line Analytical Processing
OLTP On-Line Transaction Processing
PNCDA Programa Nacional de Combate ao Desperdcio de gua
ROLAP Relational On-Line Analytical Processing
SAD Sistemas de Apoio Deciso
SGBD Sistema Gerenciador de Banco de Dados
SNIS Sistema Nacional de Informaes sobre Saneamento
SQL Structured Query Language
WEKA Waikato Environment for Knowledge Analysis
XML Extensible Markup Language
CAPTULO 1 Este captulo introdutrio descreve as principais motivaes para realizao do trabalho, apresenta os objetivos e a justificativa da pesquisa e, finaliza, expondo a estrutura e organizao da dissertao.
1 INTRODUO
Os sistemas informatizados coletam e armazenam enormes quantidades de dados em
seus bancos de dados, aumentando o nmero de corporaes que buscam alternativas para um
planejamento, controle e gesto mais eficiente das informaes armazenadas, com o
melhoramento dos processos de apoio tomada de deciso e sistemas inteligentes, baseados
em descobertas de conhecimento.
Nos dias atuais, com a necessidade de desenvolver sistemas para dar suporte a
decises gerenciais, vem sendo utilizado e aperfeioado o Data Warehouse (DW). O DW
um ambiente cuja finalidade extrair, integrar, limpar e dar consistncia aos dados
provenientes dos sistemas transacionais da companhia. Alm disso, o DW dimensiona e
consolida esses dados, organizando-os e melhorando a performance das consultas.
Os primeiros sistemas de suporte deciso ficaram conhecidos como Executive
Information Systems (EIS), e tornaram-se muito populares devido rapidez com que geravam
as informaes. Contudo, a falta de flexibilidade para realizar consultas ad hoc e a
necessidade de definio de frmulas e formatao de novos relatrios por parte do usurio,
fizeram com que os EIS ficassem restritos gerao de relatrios corporativos pr-
estabelecidos. Visando suprir as necessidades acima citadas surgiram as ferramentas OLAP
(On-Line Analytical Processing). Elas tornaram vivel a construo de um ambiente no qual
os analistas de negcio pudessem facilmente navegar pelos dados da companhia, realizando
consultas ad hoc, fazendo novos cruzamentos entre as dimenses de anlise.
Diante deste ambiente empresarial cada vez mais competitivo, a tecnologia da
informao, quando bem utilizada, torna-se um importante diferencial entre as empresas que
buscam excelncia na qualidade do servio prestado. Neste cenrio, surgem as tcnicas e
aplicaes de Minerao de Dados com intuito de descoberta de padres de comportamento e
Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 15
de novos conhecimentos sobre os dados armazenados. Portanto, a gesto aleatria baseada na
intuio d lugar a inteligncia de negcio.
O presente trabalho expe uma experincia do Processo de Descoberta do
Conhecimento em Banco de Dados, tambm conhecido com Knowledge Discovery in
Databases (KDD), a fim de observar a viabilidade e aplicabilidade de um caso real de apoio
deciso. O estudo segue sob a forma da pesquisa bibliogrfica, da criao e implementao do
Data Warehouse Departamental, do uso de tecnologias de anlise e recuperao de dados
teis ao processo decisrio, conhecidas como OLAP, e da aplicao de tcnicas e algoritmos
de Data Mining para descoberta de novos conhecimento e padres nos dados.
1.1 OBJETIVOS
Os servios de abastecimento de gua para uso da populao continuam sendo um dos
indicadores da qualidade de vida da populao, sendo de fundamental importncia sade e
alimentao. Estudos recentes comprovam que a gua est se tornando mais escassa, e que
menos de 1% (um por cento) da gua no mundo est diretamente acessvel ao homem. Cerca
de vinte pases, a maioria deles na frica e no Oriente Mdio, sofrem de escassez crnica de
gua, causando danos severos produo de alimentos e atraso no desenvolvimento
econmico (JAMES, et al., 2002).
O estudo proposto por esta dissertao pretende provocar o interesse em pesquisadores
envolvidos com a produo, implantao, manuteno, gerncia e utilizao de Sistemas de
Informaes Gerenciais ou de Apoio Deciso. Assim, o resultado desse trabalho ter sua
validade para todos aqueles profissionais envolvidos, de alguma forma, em projetos de Data
Warehouse e Data Mining.
Os objetivos gerais do trabalho so:
Projetar e desenvolver um Sistema de Apoio Deciso (SAD); Aplicar as tecnologias de Banco de Dados voltadas para projetos de suporte a deciso
(modelagem multidimensional);
Organizar os dados do setor do sistema de abastecimento de gua em um Data Warehouse, para que eles possam ser analisados por tecnologias OLAP;
Encontrar padres e conhecimentos nos dados do setor analisado atravs dos algoritmos de Data Mining.
Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 16
De acordo com as peculiaridades do setor, os objetivos especficos so:
Determinar o perfil do setor e do consumidor, por meio da verificao dos consumos de gua, valores faturados (conta de gua) e pontos de utilizao de gua;
Verificar e diagnosticar a situao dos medidores (hidrmetros) presentes nos imveis; Encontrar respostas para as anormalidades e irregularidades praticadas pelos
consumidores da qual a empresa de abastecimento de gua desconhece;
Avaliar as inadimplncias dispostas no setor selecionado para o estudo de caso.
Este trabalho visa contribuir para o uso racional e eficiente dos recursos hdricos, para
isso so aplicadas tecnologias de Banco de Dados como Data Warehouse, OLAP e Data
Mining. Tais tecnologias se propem em fornecer entidade gestora de um sistema de
abastecimento de gua um controle maior do comportamento dos consumidores e imveis,
proporcionando tomadas de decises eficientes que buscam a reduo de perdas de gua e das
perdas econmicas da companhia de saneamento.
Neste trabalho h a necessidade de conhecimentos envolvendo os dados histricos, tais
como o tempo em que o cliente se encontra inadimplente junto operadora de abastecimento
de gua; dados histricos das contas e consumos de gua e esgoto, histrico do hidrmetro
(dados relativos troca do hidrmetro), etc. Os algoritmos de Data Mining com dados que
variam com o tempo (sries temporais) so utilizados neste trabalho para prever novos
conhecimentos a partir dos dados histricos da srie. Tais algoritmos analisam a quantidade
de dados existentes e fornecem uma previso do que pode acontecer nos prximos perodos,
levando em considerao os dados passados da base temporal.
As tecnologias de Data Warehouse sero utilizadas como parte do processo de
descoberta de conhecimento na base de dados do setor de saneamento da cidade de Joo
Pessoa-PB. O ambiente de Data Warehouse organizar e disponibilizar os dados, visando
facilitar os comandos e execues OLAP e as consultas para o processo de Data Mining.
O termo Data Warehouse Departamental sinnimo de Data Mart. J o termo Data
Warehouse Corporativo distinto de ambos. Desta forma, ao longo da dissertao sero
encontrados os termos Data Warehouse, Data Warehouse Departamental ou Data Mart,
ambos indicando o mesmo conceito, ou seja, um armazm de dados para o setor de
saneamento urbano da cidade de Joo Pessoa - Paraba.
Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 17
O uso das tecnologias OLAP proporcionar as agregaes e sumarizaes dos dados
contidos no Data Warehouse, gerando informaes teis ao processo decisrio e oferecendo
uma anlise mais detalhada do setor. A ferramenta OLAP utilizada neste trabalho foi Pentaho
Analysis View, que por sua vez utiliza a ferramenta Pentaho Schema Workbench, ambas sero
apresentadas no captulo 3.
A aplicao do Data Mining visa encontrar os consumidores em potencial que
apresentam algumas ou todas as caractersticas daqueles que j cometeram algum tipo de
fraude e/ou inadimplncia na rede de distribuio de gua, assim como detectar erros e
anormalidades na medio do consumo de gua por meio dos hidrmetros. Ao constatar tais
irregularidades e anormalidades nos consumos e faturas, aes podero ser tomadas por parte
da companhia para elimin-las, reduzindo o alto ndice de perdas de gua e consequentemente
o alto percentual de perdas de faturamento.
Os resultados obtidos com o Data Mining sero utilizados a fim de detectar padres,
descobrir regras significativas e estabelecer relaes entre os ndices de inadimplncias e
anormalidades das ligaes de gua e esgoto dos consumidores, na tentativa de reduzir os
ndices de perdas aparentes na distribuio de gua.
Os dados sero extrados do Data Warehouse Departamental para em seguida alguns
algoritmos de Data Mining sero aplicados sobre esses dados pelo software Pentaho WEKA.
Os resultados sero analisados com o propsito de obter medidas corretivas e preventivas para
minimizar o problema das perdas aparentes nos sistemas de abastecimento de gua. Sero
utilizados e comparados entre si trs algoritmos de minerao de dados do Aprendizado
Indutivo Supervisionado. Quanto ao Aprendizado Indutivo No-Supervisionado ser aplicado
um algoritmo que servir como complemento no processo de descoberta do conhecimento dos
dados contidos no Data Warehouse (Os tipos de Aprendizado Indutivo sero explanados na
seo 2.5.2).
1.2 MOTIVAO DA PESQUISA
As companhias de saneamento no Brasil perdem em mdia 44,18% da gua que corre
no seu sistema de abastecimento, de acordo com o Programa Nacional de Combate ao
Desperdcio de gua (PNCDA), (MARCKA, et al., Reviso 2004). Boa parte desta gua se
perde antes mesmo de chegar aos imveis e atender a populao, isto , a gua que se perde
entre as estaes de tratamento (ETA) e a rede de distribuio do consumidor final.
Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 18
Segundo o Ministrio das Cidades, alm dos impactos negativos que as perdas hdricas
provocam nos custos operacionais, ampliando a necessidade de investimento em novas
instalaes de produo e tratamento, elas tambm causam danos natureza, pelo aumento da
demanda, e geram prejuzos distribuio regional, principalmente para reas do Nordeste,
onde h escassez de recursos hdricos, e tambm do Sudeste, cuja regio concentra a maior
parte da populao.
O problema das perdas aparentes em sistemas de abastecimento de gua um assunto
que est sempre em foco, visto que o uso correto e consciente da gua pela populao e pela
companhia significante para o desenvolvimento da humanidade. A deteco das perdas
aparentes tem sido de grande interesse para diversas companhias de abastecimento de gua,
uma vez que representam um fator negativo, tanto financeiro quanto ambiental. Foi desta
forma que surgiu o interesse de aprofundar nesta rea e desenvolver este trabalho de
mestrado.
Portanto, a motivao da presente dissertao surge do interesse de investigar mais
detalhadamente se as perdas aparentes de gua esto distribudas proporcionalmente pela
cidade ou se esto concentradas em reas especficas, como por exemplo, nos setores onde o
poder aquisitivo dos consumidores baixo. Para o estudo de caso, sero utilizados dados de
um setor do saneamento da cidade de Joo Pessoa - Estado da Paraba.
A Companhia de Abastecimento de gua da Paraba (CAGEPA) disponibilizou o
setor 64, na cidade de Joo Pessoa-PB, para o estudo de caso da presente pesquisa. Este setor
corresponde ao sistema de abastecimento urbano de gua do bairro e comunidade de Miramar
e suas proximidades. Ele apresenta realidades sociais distintas, contemplando populao de
classe alta, mdia e a populao de baixa renda (habitaes populares), alm de dispor de
diversos tipos de estabelecimentos (comercial, pblico, industrial, residencial, etc.). Este setor
possui aproximadamente 17.800 pontos de utilizao e 1.300 consumidores.
A soluo desenvolvida nesta dissertao poder ser aplicada para os demais setores
da cidade, trazendo como resultado futuro, uma viso geral dos consumidores de todo o setor
de saneamento de Joo Pessoa. A idia fundamental desta pesquisa de mestrado traar e
analisar o perfil dos consumidores e dos imveis quanto medio e s perdas aparentes em
um determinado perodo de referncia contnuo.
Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 19
1.3 JUSTIFICATIVA DO TRABALHO
As perdas de gua em sistema de abastecimento de gua correspondem ao volume de
gua retirado dos mananciais, e que se encontra na Estao de Tratamento de gua (ETA),
subtrado dos volumes de gua medidos nos hidrmetros. As aes que visam o controle e a
reduo de perdas de gua delineiam-se na melhoria da qualidade da operao e gesto dos
sistemas de abastecimento de gua e, consequentemente, inserem-se no contexto do uso
racional da gua.
1.3.1 Perdas em Sistemas de Abastecimento de gua
Segundo (MARQUES, et al., 2006), o volume de gua computado pela companhia de
abastecimento de gua que no foi faturado corresponde ao ndice de perda do sistema. Estas
perdas podem ser geradas por vazamentos nas tubulaes da rede de distribuio, erros de
medio, fraudes nos hidrmetros, erros cadastrais, inadimplncias ligaes clandestinas de
gua etc. As perdas so de dois tipos: Reais e Aparentes.
1.3.1.1 Perdas Reais
Segundo (GOMES, et al., 2007), as perdas fsicas de gua, tambm chamadas de
Perdas Reais, ocorrem em todo o sistema de abastecimento, desde o ponto de captao at os
de consumo, passando pela estao de tratamento, de bombeamento, reservatrios, rede de
distribuio e ligaes prediais. Elas representam a gua que efetivamente no chega ao
consumidor, em decorrncia de vazamentos nas redes de distribuio e seus ramais
provocados por deficincia nos equipamentos, envelhecimento das tubulaes e conexes, e
operao e manuteno inadequada em todo o sistema.
1.3.1.2 Perdas Aparentes
De acordo com a International Water Association (IWA), as Perdas Aparentes,
tambm chamadas de Perdas No Fsicas ou Comerciais, referem-se a toda gua que no
medida ou que no tenha o seu uso definido. Ocorre com a gua que tratada e fornecida pela
companhia, e consumida pelos clientes, porm no corretamente medida e, portanto no
faturada, nem gera arrecadao correspondente. Esto relacionadas s ligaes clandestinas
e/ou irregulares, fraudes nos hidrmetros, erros de micro e macromedio, poltica tarifria,
erro cadastral (desatualizao do cadastro, inatividade em ligao ativa, ligao no
cadastrada por descuido), erro de leitura, etc.
Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 20
Para (JAMES, et al., 2002), algumas das causas para as Perdas Aparentes so os erros
e desatualizaes no cadastro de clientes; Fraudes, violao ou danificao de medio nos
hidrmetros1; e Ligaes Clandestinas ou Ligaes no Cadastradas.
Segundo estima (QUEYROI, 2007), metade dos problemas no segmento de
saneamento esto ligados a vazamento, ou seja, perdas fsicas, e a outra metade so
decorrentes de falhas na medio, ou seja, perdas aparentes.
De acordo com (SNIS, 2007), as regies Norte e Nordeste so as reas onde h maior
perda de faturamento e so tambm onde predominam as menores rendas per capta no pas.
Isto aponta para dois aspectos possveis de situaes de perdas: um relacionado ao baixo
poder de consumo destas populaes, altos ndices de inadimplncia e consequentemente
lucros menores e outro relacionado s grandes potencialidades de irregularidades nas redes,
com perdas de volumes de gua tratada em funo das ligaes clandestinas.
No que se refere aos dados do (SNIS, 2007), o valor mdio das perdas de faturamento
para todo o conjunto de prestadores de servios foi de 39,8%. Ressalta-se, segundo o
relatrio, que os prestadores com maiores perdas concentraram-se nas regies Norte (53,4%)
seguida do Nordeste (45,1%). A regio Sudeste possui ndices de perdas em torno de 39,8%,
Centro-Oeste de 39,2% e Sul de 26,6%.
A Companhia de gua e Esgotos da Paraba (CAGEPA), utilizada no estudo de caso,
obteve um intervalo de perdas de faturamento entre 40,1 e 50,0 %. Este alto ndice reflete-se
de forma negativa para o Estado, visto que as perdas de faturamento esto diretamente ligadas
s perdas reais e aparentes. Estas, por sua vez, acarretam problemas estruturais, ambientais e
sociais para toda a populao.
importante reduzir as perdas aparentes para elevar a eficincia do sistema de
abastecimento de gua. Na tentativa de minimizar e evitar tais desperdcios, este trabalho
empenha-se em investigar e detectar perdas aparentes, e para alcanar este objetivo, utilizou-
se o processo de descoberta do conhecimento em base de dados, com nfase no Data Mining.
1 Por exemplo: rompimento do lacre e inverso do hidrmetro; execuo de by pass (i.e., desvio feito no aparelho, evitando que ele mea corretamente o volume consumido); colocao de arame para travar a turbina do hidrmetro etc.
Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 21
A anlise de grande volume de dados permitir que se observem tendncias, que se
detectem regies onde as perdas aparentes e inadimplncias dos consumidores so mais
freqentes; quais so categorias de consumo mais suscetveis s perdas, entre outras aes.
1.4 ESTRUTURA DA DISSERTAO
A presente dissertao est organizada em 7 captulos, incluindo este introdutrio. O
Captulo 2 configura o estado da arte da pesquisa e tem como objetivo apresentar os principais
conceitos envolvidos com o tema da dissertao, sob forma de uma reviso bibliogrfica.
O captulo 3 apresenta e caracteriza a companhia de abastecimento de gua envolvida
no estudo de caso; e relaciona a teoria exposta no captulo 2 sob a forma de um estudo de caso
real. Nele sero discutidas as tecnologias de banco de dados aplicadas ao setor de saneamento,
alm de descrever os mecanismo de criao e implementao do Data Warehouse; a
utilizao das tecnologias OLAP e de Data Mining, apresentando suas principais funes,
vantagens e aplicabilidade.
O captulo 4 apresenta os resultados e discusses do estudo de caso, apresentado as
comparaes dos algoritmos de Data Mining quanto ao seu tipo de aprendizado indutivo.
O captulo 5 retoma as discusses gerais do trabalho de forma conclusiva, finalizando
a dissertao com os resultados e contribuies relevantes, dificuldades encontradas e as
indicaes para trabalhos futuros. O ltimo captulo expe as referncias bibliogrficas
consultadas.
CAPTULO 2 Este captulo configura o estado da arte da dissertao e empenha-se em discutir os assuntos e requisitos relacionados aos Sistemas de Apoio Deciso, Data Warehouse, OLAP e Data Mining. So apresentados os principais conceitos, o histrico e importncia de cada um no processo decisrio, mostrando sua relevncia para o atual mercado competitivo e tecnolgico do Business Intelligence.
2 FUNDAMENTAO TERICA
2.1 SISTEMA DE APOIO DECISO
Os Sistemas de Apoio Deciso (SAD), ou Decision Support Systems (DSS), visam
proporcionar uma avaliao crtica das informaes dos negcios, auxiliando a gerncia a
definir tendncias, apontar problemas e absorver decises inteligentes.
De acordo com (DATE, 2004), o processo de tomada de deciso com auxlio de
computadores iniciou na dcada de 70, onde os processos comearam a ser informatizados e
as informaes passaram a ser pr-definidas e selecionadas por meio dos Executive
Information Systems (EIS). Na fase atual, os processos de tomada de deciso so totalmente
informatizados e o gestor define os atributos mais importantes ao processo decisrio,
recebendo subsdios e informaes processadas pelos Sistemas de Apoio Deciso, atravs de
ferramentas OLAP, que ser discutida na seo 2.4.
Nas dcadas anteriores, o foco estava voltado ao crescente aumento da quantidade de
informao armazenada em formato eletrnico. Segundo (ZARUR, 2005), estima-se que a
quantidade de dados duplica a cada um ano e meio e que o tamanho e nmero de bases de
dados crescem a um ritmo ainda mais elevado. Este grande aumento deve-se essencialmente
constante diminuio do custo de armazenamento dos dados e ao efetivo aumento da
eficincia dos computadores em manuse-los.
De acordo com (ELMASRI, et al., 2005), os Bancos de Dados de apoio deciso
costumam ser extensos, fortemente indexados e envolver uma grande quantidade de
Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 23
redundncia, em especial, sob a forma de replicao e de tabelas de totalizao. As chaves
costumam envolver um componente temporal e as consultas costumam ser complexas.
Certos aspectos dos sistemas de BD para apoio deciso os distinguem dos sistemas
de BD tradicionais, sendo o principal deles o fato dos BD para apoio deciso serem quase
que exclusivamente para leitura/consultas, e dificilmente para atualizaes. Como
consequncia, observa-se as dificuldades em se trabalhar na prtica com um grande nmero
de variveis, que so os atributos do BD, e a grande quantidade de dados histricos. Em
virtude desta complexidade, opta-se por extrair apenas as informaes mais relevantes da base
de dados transacional.
O bom processamento de extrao dos dados a principal razo para o sucesso na
tomada de deciso. Esta extrao corresponde cpia dos dados desejveis do ambiente
operacional para o processamento subsequente. Significa que os usurios podem operar sobre
os dados extrados da maneira como desejarem, sem interferncia no ambiente operacional.
Aps tantos anos de concentrao na obteno de dados, o problema, agora, passa a
ser o aproveitamento deste precioso recurso. Reconheceu-se que estes dados propiciam aos
indivduos responsveis pelas decises, o planejamento das aes, a definio de estratgias e
a eficcia em suas decises.
O apoio deciso se utiliza de vrias tecnologias, dentre elas, Data Warehouse, Data
Mart, Sistema Gerenciadores de Banco de Dados, Processamento Analtico On-line (OLAP),
Banco de Dados Multidimensionais, Minerao de Dados (Data Mining) etc.
As Ferramentas de Apoio Deciso (FAD) fazem parte do conceito de Business
Intelligence (BI), ou Inteligncia de Negcios, e correspondem ao conjunto de tecnologias
que permitem o cruzamento de informaes e suporte a anlise dos indicadores de
desempenho de um negcio (COLAO, 2004).
Estas ferramentas so softwares desenvolvidos com objetivo de apresentar
graficamente (e no apenas numericamente) as informaes do negcio, auxiliando a
simulao de ocorrncias, fornecendo maior capacidade de anlise para o descobrimento de
novos conhecimentos e padres.
Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 24
2.1.1 Descoberta de Conhecimento em Banco de Dados
O processo de descoberta de conhecimento em banco de dados se prope em encontrar
e interpretar padres atravs das anlises nas fontes de dados. O objetivo extrair de grandes
bases de dados, sem nenhuma formulao prvia de hipteses, as informaes desconhecidas,
vlidas e acionveis, que podero ser teis para a tomada de deciso.
Ficou mais conhecido pelo acrnimo KDD, que em ingls significa Knowledge
Discovery in Database. O processo de KDD foi proposto para determinar as etapas que
produzem conhecimentos a partir dos dados e, principalmente, definir a etapa de Data Mining
(Minerao de Dados), que a fase que transforma dados em conhecimento (FAYYAD, et al.,
1996).
Como ilustra a Figura 2.1, cada fase da execuo do processo KDD possui uma
interseo com as demais. Deste modo, os resultados produzidos em uma fase podem ser
utilizados para melhorar os resultados das prximas fases. Este cenrio revela um processo
iterativo, que busca sempre aprimorar os resultados a cada iterao.
Figura 2.1 - etapas do processo de KDD
Fonte: (Adaptao) (SYMEONIDIS, et al., 2005 p. 14)
O processo de KDD envolve trs etapas iniciais: seleo, (pr) processamento e
transformao, as quais compem a preparao dos dados. Em seguida vem a fase de Data
Mining, considerada essencial ao processo e foco principal deste trabalho. Por fim, o
conhecimento gerado analisado e assimilado, por meio da etapa de anlise e interpretao
dos resultados, que se encontra no topo do processo.
Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 25
2.2 DATA WAREHOUSE
Os Data Warehouses podem ser traduzidos como Armazns de Dados e so tipos
especiais de banco de dados que se tornaram conhecidos e bastante utilizados a partir da
dcada de 90. Ser utilizado o termo em ingls neste trabalho, visto que a maioria dos autores
utiliza-o por considerarem mais intuitivo. De acordo com (INMON, 2005), o termo definido
como um depsito de dados orientado por assunto, integrado, no voltil, varivel com o
tempo, para apoiar as decises da gerncia. Onde no voltil significa que, uma vez
inseridos, os dados no podem ser alterados, embora possam ser excludos. O conceito de
armazm de dados surgiu por duas razes: primeiro, pela necessidade de fornecer uma origem
de dados nica, limpa e consistente para fins de apoio deciso; segundo, pela necessidade de
faz-lo sem causar impacto sobre os sistemas operacionais.
O processo de desenvolver e gerenciar repositrios de dados a partir de vrias fontes
com o propsito de obter uma viso detalhada e singular de parte ou todo um negcio,
conhecido como Data Warehousing. De acordo com (GARDNER, 1998), a concretizao do
Data Warehousing considerada um dos primeiros passos para tornar factvel a anlise de
grande quantidade de dados no apoio ao processo decisrio.
Segundo (PONNIAH, 2001), o Data Warehousing no um software ou produto de
hardware que se adquire para fornecer informaes estratgicas. , sim, um ambiente
computacional onde os usurios so colocados diretamente em contato com os dados que
necessitam para tomar as melhores decises.
O produto principal obtido de um projeto de Data Warehousing o seu Data
Warehouse (DW), e cujo objetivo bsico gerar um repositrio que contenha dados limpos,
agregados e consolidados, podendo este ser analisado por ferramentas do tipo OLAP (On-Line
Analytical Processing) e Data Mining (assuntos abordados nas sees 2.4 e 2.5,
respectivamente).
As bases de dados convencionais (relacionais) possuem algumas caractersticas, tais
como dinamismo, redundncias, incompletude e rudos, tornando-as confusas e no viveis
extrao de informaes delas prprias. O Data Warehouse surgiu com o objetivo de fornecer
os subsdios necessrios para a transformao de uma base de dados que utiliza On-Line
Transaction Processing (OLTP) para On-Line Analytical Processing (OLAP). A primeira
significa os processamentos que executam as operaes do dia-a-dia da organizao e a
Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 26
ltima, os processamentos que suportam a tomada de decises. Os termos OLTP e OLAP
sero detalhados na seo 2.4.
Alguns problemas so apontados por (KIMBALL, et al., 2002; IMHOFF, et al., 2003)
quanto ao uso do modelo relacional pra a realizao de consultas complexas. A manipulao
dos dados, incluindo as consultas, muito mais rpida e intuitiva no modelo multidimensional
em comparao ao modelo relacional.
Enquanto uma busca no modelo relacional exige a navegao entre diversas tabelas,
no modelo multidimensional isto no necessrio, o que o torna mais eficiente e com melhor
desempenho. Devido ao grande nmero de tabelas normalizadas do modelo relacional, torna-
se invivel a realizao das consultas, j que preciso fazer um grande nmero de conexes
(inner join) entre as mesmas.
Os benefcios da modelagem multidimensional que ela torna os esquemas de dados
mais compreensveis para os usurios finais, e por outro lado, ela permite usar
armazenamento especfico e tcnicas de acesso que melhoram o desempenho de queries. A
maneira para obter estes benefcios a simplificao dos esquemas de dados, de forma que
eles s contenham as coisas essenciais (i.e. um fato para ser analisado e suas dimenses de
anlise).
Constantemente h atualizao na base de dados e consequentemente as informaes
histricas so perdidas. Na projeo de bases de dados para Data Warehouses, deve-se
quebrar o paradigma dos modelos de dados normalizados utilizados nos BD tradicionais, e
buscar armazenamento histrico/temporal. Ao desnormalizar as tabelas, o projetista do DW
busca ganhar desempenho nas consultas, contudo, no se deve introduzir redundncia em
qualquer lugar do modelo.
A idia dos Data Warehouses geralmente se destina a fornecer uma nica origem aos
dados para todas as atividades de apoio deciso. O propsito de construir uma espcie de
warehouse limitado e de uso especial, adaptado finalidade imediata, uma soluo aos
problemas encontrados com os Data Warehouses coorporativos, visto que desta forma
possvel o acesso mais rpido aos dados, ao contrrio se eles tivessem que ser sincronizados
com todos os outros dados a serem carregados no warehouse completo. Essas consideraes
levaram ao conceito de Data Marts, que ser apresentado no prximo Item.
Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 27
Existem trs tipos principais de processamentos usados com o Data Warehouses (HAN, et al.,
2006):
Processamento de Informao: suporta consultas, anlises estatsticas e relatrios; Processamento Analtico: ferramentas OLAP e suas operaes; Processamento de Minerao de Dados: descoberta de conhecimento automatizada,
encontrando padres escondidos nos dados. Pode-se realizar visualizaes dos dados,
assim como classificaes e predies atravs das tcnicas de Data Mining.
2.2.1 Data Mart
De acordo com (KIMBALL, et al., 2002 p. 36):
Um Data Mart um Data Warehouse de menor capacidade e
complexidade usado para atender a uma unidade especfica de
negcios. Portanto, so tipicamente mais fceis de construir e
manter.
Um Data Mart, segundo (INMON, 2005) uma coleo de assuntos organizados para
dar suporte tomada de deciso e esto baseados nas necessidades de um determinado
departamento. geralmente descrito como um subconjunto dos dados extrado para um
ambiente separado. Eles so teis nas seguintes condies:
Os dados devem estar segregados para melhorar o desempenho do sistema do ponto de vista do usurio.
Deve existir uma cpia dos dados onde apenas pessoas com autorizao podem ter o privilgio de acess-las.
Em um ambiente corporativo, importante fortalecer o conceito de propriedade dentro do banco de dados. Diferentes setores (Financeiro, Marketing, Vendas, etc.) sero
responsveis por diferentes Data Marts.
Um Data Mart representa uma rea especfica a partir de um nico processo
empresarial, sendo considerado a parte de um todo. por isso que o Data Mart, que uma
abordagem descentralizada do conceito de Data Warehouse, no um pequeno Data
Warehouse, mas sim uma unidade lgica de um DW, podendo ser qualificado como um
Data Warehouse Departamental. A Tabela 2.1 relaciona algumas diferenas entre o ambiente
de Data Mart e o ambiente de Data Warehouse.
Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 28
Tabela 2.1 - diferenas entre data mart e data warehouse
Data Mart Data Warehouse Departamental (nica rea); Corporativo (mltiplas reas); Nvel ttico; Nvel estratgico;
Otimizado para acesso e anlise; Otimizado para armazenamento e gerenciamento de grandes volumes de dados;
Poucas fontes de dados; Muitas fontes de dados;
Pequenos estgios de implementao (menor tempo)
Mltiplos estgios de implementao (maior tempo);
Fonte: (INMON, 2005)
Observa-se que as principais diferenas entre Data Mart e Data Warehouse esto
relacionadas ao tamanho e o escopo do problema a ser resolvido. Enquanto um Data Mart
trata de problema departamental ou local, um Data Warehouse envolve o esforo de toda a
companhia para que o suporte decises atue em todos os nveis da organizao. Desta
forma, o desenvolvimento de um Data Warehouse requer tempo, dados e investimentos
gerenciais muito maiores que um Data Mart.
De acordo com (INMON, 2005), um dos assuntos em pauta para a rea de TI nos
ltimos anos decidir qual ambiente de apoio deciso desenvolver primeiro, o Data
Warehouse ou os Data Marts. A escolha entre um nico Data Warehouse Corporativo e uma
arquitetura consistindo de muitos Data Marts um ponto de algumas controvrsias entre os
pesquisadores. Uma boa parte dos especialistas defende a implementao de Data Marts
como passo inicial e existe uma unanimidade de especialistas alertando ao usurio que em
momento algum ele pode esquecer o modelo corporativo, sob o risco de obter srios
prejuzos.
Aps o levantamento e definio do conjunto de atributos e dados necessrios para
realizao desta pesquisa, optou-se por implementar um Data Warehouse Departamental, ou
seja, um Data Mart do departamento comercial A escolha se deu em virtude dos dados
adquiridos corresponderem s informaes comerciais dos consumidores e imveis de um
setor da companhia de abastecimento de gua. Os resultados obtidos com aplicao das
ferramentas OLAP e Data Mining sobre o Data Warehouse Comercial visam criao de um
novo ambiente computacional com o propsito de fornecer informao estratgica para a
companhia de saneamento.
Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 29
A presena de vrios Data Marts em uma mesma companhia oferece alto risco de
redundncia dos dados. Esses ambientes de armazenamento e anlises de dados fisicamente
distintos trazem benefcios e facilidades, entretanto, existe um preo a se pagar. Desta forma,
ao construir Data Marts deve-se sempre ter a preocupao de compartilhamento de dados,
tabelas e relatrios em comum entre os demais departamentos, consequentemente entre os
demais Data Marts. Afinal, relatrios em comum no podem possuir valores diferentes entre
os departamento.
A separao fsica dos dados em diferentes grupos, pela presena de vrios Data
Marts em uma nica companhia, diminui a habilidade de organizao das informaes. A
dificuldade em evitar a inconsistncia dos dados pode ir contra o paradigma de um Data
Warehouse. Afinal, uma das principais motivaes para o surgimento do DW foi eliminar as
inconsistncias dos dados e agrup-los em um nico ambiente de apoio deciso.
2.2.2 Propriedades do Data Warehouse
De acordo com (INMON, 2005), o DW deve seguir quatro propriedades fundamentais,
so elas: Orientado por Temas, Integrado, Variante no Tempo e No Voltil.
A propriedade Orientado por Tema, (INMON, 2005) refere-se importncia de
organizar as informaes pelos temas principais. Para o setor de saneamento, que caracteriza
o estudo de caso deste trabalho, os principais temas so: perfil dos consumidores e imveis,
servio prestado e perdas aparentes.
Cada tema pode envolver vrias tabelas e atributos e podem existir dados
acumulativos e detalhados. Para o tema perfil dos consumidores, por exemplo, os atributos
podem ser os dados cadastrais (nome, endereo, telefone, e-mail), dados das contas e
consumos de gua, etc. Como exemplo de dados acumulativos tem-se a consulta que retorna o
somatrio dos consumos descendentes, agrupados por clientes no perodo de 2007 a 2008.
A propriedade Integrado presente em um DW mostra a necessidade de acoplar
dados de diferentes formatos. Os dados precisam seguir uma conveno padro para que desta
forma eles possam fornecer significados nicos. Um sistema do setor comercial pode
codificar o indicativo de medidor como SIM ou NO. Onde SIM se refere ao consumidor
que possui hidrmetro para medio do consumo de gua e NO caracteriza o consumidor
que no possui hidrmetro para medio. Outro setor da companhia de abastecimento pode
Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 30
codificar 0 (Tem Hidrmetro) e 1 (No tem Hidrmetro), assim como S (Tem Hidrmetro) e
N (No tem Hidrmetro). Desta forma, necessrio definir uma nica codificao dos dados
extrados para o Data Warehouse.
A terceira propriedade Variante no Tempo em um ambiente de Data Warehouse
determina que os dados no sejam atualizveis e que eles possam ser comparados ao longo do
tempo. Os dados so atribudos como retratos da base de dados operacional atual, onde cada
ocorrncia e cada mudana so consideradas como um novo registro, pois a informao
histrica no perdida.
Contudo, em um Ambiente Transacional2 a atualizao dos dados ocorre em virtude
das mudanas ocorridas. Os dados retornados em consultas correspondem informao no
momento da consulta, e neste caso as consultas histricas no so consideradas3.
Supondo que desejamos recuperar a quantidade de pontos de consumo do consumidor.
Em 2007 o consumidor possua 20 pontos de consumo em sua residncia, j em 2008 passou
para 23 pontos de consumo. A consulta retornar apenas a estado atual dos pontos de
consumo, ou seja, 23. A informao histrica anterior perdida. Entretanto, no DW ao
consultar os pontos de acesso do cliente em 2007, do exemplo acima, o resultado
corresponder ao valor 20.
A ltima propriedade proposta por (INMON, 2005), que a no volatilidade dos
dados, se verifica em banco de dados que disposto fisicamente para otimizaes de
incluses e consultas. Ou seja, no deve ser um banco preparado para atualizaes.
O DW consiste em fornecer apenas acessibilidade aos dados, no permitindo
atualizaes ou alteraes. Ele concede apenas a carga inicial e consulta (acessos) aos dados.
Ao contrrio, a volatilidade uma propriedade bastante observada em ambientes operacionais
tradicionais, pois os registros dos dados so atualizados constantemente.
2 Conhecido tambm por Ambiente Operacional. O termo mais utilizado nesta dissertao Ambiente Transacional. 3 Neste caso no esto sendo mencionados os ambientes que utilizam Banco de Dados Temporais (BDT), apenas os que utilizam Banco de Dados Relacionais.
Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 31
2.2.3 Granularidade
A questo da granularidade um dos mais importantes aspectos no projeto de Data
Warehouse. Corresponde ao nvel no qual os dados esto sumarizados no Data Warehouse, ou
seja, refere ao nvel de detalhamento das informaes armazenadas. Quanto mais detalhados
os dados, menor a granularidade do DW (granularidade fina ou baixa). Quanto maior o nvel
de granularidade, menor ser os detalhes dos dados (granularidade grossa ou alta).
Segundo (PONNIAH, 2001 p. 23), a granularidade est diretamente ligada ao volume
de informaes armazenadas e aos tipos de consultas que podem ser realizadas pelo usurio
de um DW. Ao definir um nvel muito detalhado, o usurio poder ver a informao em
qualquer nvel de agregao e maior ser o detalhamento das consultas. Contudo, a escolha de
um nvel baixo demais poder ocasionar em um aumento do volume de dados armazenado e,
consequentemente, afetar a performance do sistema. Por outro lado, ao definir um nvel
pouco detalhado, o usurio ficar impossibilitado de realizar consultas mais detalhadas, visto
que o volume de informaes armazenadas menor, porm, permite maior desempenho e
rapidez nas respostas das consultas.
Portanto, quanto mais alto o nvel de granularidade, menor o volume de dados e o
nmero de ndices e, indiretamente, menor o processamento necessrio. O problema existente
que o nvel de granularidade tambm inversamente proporcional ao nmero de consultas
que podem ser atendidas.
A utilizao de apenas um nvel de granularidade em projetos de Data Warehouse no
recomendada como soluo eficiente. Afinal, o nvel de granularidade inversamente
proporcional quantidade de consultas atendidas e/ou desempenho do processamento. O
modelo dimensional (ver item 2.3) o mais utilizado nas aplicaes de DW, e este utiliza
tcnicas de nveis duais de granularidade.
O desenvolvimento de um ambiente com nveis duais de granularidade consiste em ter
dados de um mesmo assunto em granularidades diferentes. A opo pelo uso de nveis duais
tem como finalidade baixos tempos de resposta nas consultas de granularidade alta e anlise
dos dados em maior detalhe nas consultas com nveis de granularidade baixa.
A razo pela qual a granularidade a principal questo de projetos de Data
Warehouses consiste no fato de que ela afeta profundamente o volume de dados, ao mesmo
Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 32
tempo afeta no tipo de consulta que pode ser atendida. O volume de dados residentes no DW
deve ser balanceado de acordo com o nvel de detalhe de uma consulta.
2.2.4 Arquitetura do Data Warehouse
Em um ambiente projetado de Data Warehouse h duas espcies de dados: Dados
Primitivos (operacionais ou atmicos) e Dados Derivados (de apoio deciso ou
sumarizados). Os dados primitivos consistem em valores referentes ao momento presente, e
so baseados em aplicaes, podem ser atualizados, so detalhados, e processados
repetitivamente. Enquanto que os dados derivados so geralmente valores histricos, baseados
em assuntos ou negcios, so resumidos, ou refinados, no so atualizados, representam
valores de momentos j decorridos ou instantneos e so processados de forma heurstica
(INMON, 2005).
A escolha de dados primitivos para o armazenamento em um DW proporciona vrios
benefcios, porm gera algumas desvantagens. O maior benefcio est na possibilidade de se
pesquisar em base de dados mais rica, proporcionando uma anlise mais aprofundada e
cuidadosa nos dados, o que permite a verificao do histrico, de tendncias, de previses e
de elaborao de cenrios. A principal desvantagem a necessidade de um espao muito
maior nos dispositivos de armazenamento, assim como uma maior capacidade de
processamento para que no haja baixa performance nas consultas e anlises dos dados.
A escolha de dados derivados para o armazenamento em DW tambm traz benefcios
e desvantagens. O maior benefcio que os dados j esto sumarizados, ou seja, j esto
resumidos e armazenados em um formato no qual so mais consultados. Ocupam menos
espao nos dispositivos de armazenamento e a performance das consultas e das anlises dos
dados mais rpida. A desvantagem que o armazenamento dos dados sumarizados limita
bastante a capacidade de pesquisa e de anlise. A maioria das empresas opta pelas duas
formas de armazenamento simultaneamente. Desta forma, somam-se as vantagens e reduzem-
se as desvantagens de ambas.
Segundo (INMON, 2005), com estas diferenas nos dados, tem-se a projeo de
quatro nveis do ambiente arquitetural de um DW, so eles: Nvel Operacional (ou
Transacional), Nvel Atmico (ou Data Warehouse), Nvel Departamental (ou Data Mart) e
Nvel Individual, como mostra a Figura 2.2.
Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 33
Figura 2.2 - os quatro nveis de dados do ambiente arquitetural de um data warehouse
Fonte: Adaptao de (INMON, 2005)
O nvel Operacional de dados detm apenas a aplicao orientada a dados primitivos e
atende comunidade de processamento de transaes de alta performance. O nvel de Data
Warehouse contm dados primitivos que no so atualizados, alm de alguns dados
derivados. O nvel Departamento contm quase que exclusivamente dados derivados. Este
nvel moldado pelas necessidades dos usurios finais adaptadas s necessidades do
departamento. E o nvel individual de dados onde muitas das anlises heursticas so
realizadas. Segue a Figura 2.3 com exemplos dos quatro nveis de dados.
Figura 2.3 - exemplos de consultas referentes aos quatro nveis de dados
Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 34
O Nvel Operacional retornar a mdia na medio de consumo de gua do cliente
Joo (nome e endereo fictcio) na ltima medio efetuada, ou seja, em Abril de 2008 e que
corresponde a 24 m3de gua. O registro neste nvel contm os valores recentes do cliente,
onde para se conhecer a situao atual dele, acessado o registro existente neste nvel. Para
alterao dos dados de Joo, o registro do nvel operacional ser alterado, com o objetivo de
refletir os novos dados atualizados.
O segundo nvel, nvel de Data Warehouse, resulta no histrico de consumo do
consumidor Joo, isto : 10,3 m3 entre Maio e Agosto de 2007, 10,5 m3 entre Setembro e
Dezembro de 2007 e mdia de volume de 17,0 m3 entre Janeiro e Abril de 2008. Neste nvel
existem vrios registros do Joo, apresentando o histrico das informaes sobre ele. No h
sobreposio nos registros existentes no ambiente de DW. Quando houve mudana de
endereo do consumidor (da Rua Iolanda para Rua Miramar), foi gerado um novo registro no
DW, refletindo as datas do perodo que Joo residiu naquele local.
O terceiro nvel, nvel de Data Mart, permitir ao executor extrair informaes de
maior complexidade e especfico do negcio, facilitando as tomadas de decises. Um
exemplo seria uma lista com todos os clientes por categoria, sendo o consumidor Joo
includo nesse resumo de cada quadrimestre. Como consulta do nvel 3 tem-se: O volume de
gua em m3 do setor analisado est aumentando ao longo do tempo (relatrio
quadrimestral)?. O retorno desta consulta so as mdias de consumo agrupadas por
quadrimestre (Maio a Agosto de 2007; Setembro a Dezembro de 2007 e Janeiro a Abril de
2008).
Por fim tem-se o nvel Individual, que possibilita a previso de informaes,
fornecendo vises futuras por meio das anlises heursticas. Os dados neste nvel so,
geralmente, temporrios e de pequenas propores.
No exemplo apresentado na Figura 2.3, ao analisar o setor observou-se que a maioria
dos consumidores inadimplentes possui hidrmetros instalados a mais de 10 anos e com
capacidade de vazo de at 3 m3. Ainda no nvel Individual, verificou-se que
aproximadamente metade dos consumidores est com consumo de gua igual a zero, o que
representa hidrmetro parado. Estes resultados indicam casos onde uma inspeo tcnica
poderia ser realizada, afinal os equipamentos de medio podem estar defasados e/ou
Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 35
danificados, gerando perdas aparentes no sistema. Na seo 3.3.3 proposto um modelo de
Minerao de Dados aplicado inspeo e troca de hidrmetros.
2.3 MODELAGEM DIMENSIONAL
A modelagem dimensional4 uma metodologia que possibilita que os dados sejam
modelados visando aperfeioar o desempenho de consultas e oferecer facilidades de utilizao
a partir de um grupo de eventos simples de medio. A viso dimensional facilita o
entendimento e visualizao de problemas tpicos de sistemas de apoio deciso, mais
intuitiva e eficaz para o processamento analtico e utilizada pelas tecnologias OLAP
(discutidas na seo 2.4).
Trs conceitos esto envolvidos com a modelagem dimensional, so eles: fatos,
dimenses e mtricas (medidas ou atributos). De acordo com (BALLARD, et al., 1998), um
fato uma coleo de itens de dados que consiste de mtricas e do contexto do negcio. A
dimenso uma coleo de itens do mesmo tipo que representa as vises do negcio. A
mtrica definida como um atributo numrico de um fato, e representa o comportamento do
negcio para as dimenses.
Os fatos so reunidos na tabela de fatos. Segundo (KIMBALL, 1997), as tabelas de
fatos normalmente contm dados numricos e somatrios. Como os Data Warehouses
geralmente recuperam muitos registros em uma nica consulta, uma tendncia agrupar os
dados para anlise, pois esta compactao proporciona ganhos de performance. Cada
dimenso possui uma tabela de dimenso associada que armazena as descries textuais das
dimenses do negcio. Cada tabela de dimenso tem uma chave primria que corresponde
exatamente a um dos componentes da chave composta da tabela de fatos.
A Tabela 2.2 a seguir apresenta o modelo dimensional implementado em SGBD
Multidimensional e SGBD Relacional. Os dados da tabela correspondem s mdias de
consumo em m3 das quadras 010, 015, 020 e 025, agrupadas por categoria de consumo
durante o perodo de 2007 a 2008.
4 Os termos modelagem dimensional e modelagem multidimensional so utilizados na literatura para expressar o mesmo conceito. No h uma definio padro que indique uma diferena precisa entre os dois termos.
Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 36
Tabela 2.2 - exemplo da modelagem dimensional em SGBDS Categoria
Comercial Industrial Residencial
Qua
dra Quadra_010 190.0 - -
Quadra_015 34.3 23.5 114.0 Quadra_020 38.2 - 88.8 Quadra_025 - - 19.8
Modelagem Dimensional em SGBD
Multidimensional Modelagem Dimensional em SGBD
Relacional (PostgreSQL)
A principal vantagem na utilizao de SGBDs Multidimensionais que eles
implementam fisicamente o modelo dimensional. Contudo, uma das desvantagens a
esparsidade, ou seja, clulas que ocupam espaos em disco, mas no contm dados
cadastrados, como caso das quadras 010, 020 e 025. Outra desvantagem considerada
quando o modelo dimensional possui um grande nmero de dimenses, pois traz como
consequncias, problemas de desempenho e tempo maior de processamento das consultas. Os
SGBDs Relacionais possuem uma maior aceitao e utilizao, entretanto, exigem
adaptaes, visto que eles no implementam fisicamente o modelo dimensional.
Existem trs esquemas utilizados para modelagem dimensional dos dados, so eles:
Esquema Estrela (Star Schema), Esquema Floco de Neve (Snowflake Schema) e Esquema
Constelao de Fatos (Facts Constallation Schema).
2.3.1 Esquema Estrela
Idealizado e criado por Ralph Kimball, o Esquema Estrela uma forma de dispor as
tabelas do modelo relacional para o modelo dimensional, podendo ser implementado em BD
relacionais e principalmente, em BD multidimensional (KIMBALL, et al., 2002).
Figura 2.4 - exemplo geral do esquema estrela
Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 37
Conforme ilustra a Figura 2.4, o Esquema Estrela uma estrutura com tabelas e
ligaes bem definidas, baseado no formato de uma estrela. formado por uma tabela central,
denominada tabela de fatos, a qual possui os dados principais da viso da anlise, ou seja, o
assunto que est sendo analisado, por exemplo, o consumo, as quantidades de inadimplentes, as
quantidades de consumidores, etc. Nela ficam ligadas as tabelas de dimenso, que possuem os
aspectos pelos quais se deseja observar as medidas relativas ao processo que se est
analisando.
De acordo com (HAN, et al., 2006), as tabelas dimensionais so desnormalizadas para
aumentar o desempenho das consultas. A consulta ocorre inicialmente nas tabelas de
dimenso e em seguida na tabela de fatos, assegurando a preciso dos dados atravs de uma
estrutura completa de chaves onde no preciso percorrer todas as tabelas. Isso garante um
acesso mais eficiente e um melhor desempenho.
Ao contrrio das tabelas de dimenso, a tabela de fatos armazena grandes quantidades
de dados histricos, normalmente numricos, obtidos a partir da interseo de todas as
dimenses do Esquema Estrela. Ela tambm armazena os indicadores de desempenho
(medidas) do negcio. Para cada dimenso h uma chave primria que corresponde a um dos
campos, chave estrangeira, da chave da tabela de fatos.
A Tabela 2.3 apresenta um comparativo entre os dois tipos de tabelas do Esquema
Estrela, mostrando as diferenas entre elas.
Tabela 2.3 - comparativo entre as tabelas de fatos e dimenso
Tabela de Fatos Tabela de Dimenso Grande volume de dados Volume comparativamente menor Chave composta Chave simples Referencia cada tabela de dimenso Descrevem os fatos
Histrica Atributos usados como filtro nas consultas Agiliza consultas, pois os fatos (variveis) so usualmente numricos e tipicamente aditivos Desnormalizada (redundncias)
Fonte: (KIMBALL, et al., 2002)
Apesar do Esquema Estrela apresentar desvantagens em termos de espao de
armazenamento devido redundncia dos dados e, principalmente, fazer com que o
desempenho diminua nas operaes de atualizao dos dados, no qual o custo para manter a
Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 38
integridade muito alto, esta caracterstica no possui importncia em um Data Mart por se
tratar de uma estrutura de dados que sofre pouca ou nenhuma atualizao.
2.3.2 Esquema Floco de Neve
O Esquema Floco de Neve uma extenso do Esquema Estrela e consiste na
decomposio de uma ou mais dimenses, formando hierarquias nas dimenses, isto ,
normalizando-as. Esse tipo de esquema utilizado quando se tem dimenses grandes que so
estticas ou semi-estticas. A Figura 2.5 ilustra um exemplo geral deste tipo de esquema, nele
as dimenses 2 e 4 foram normalizadas.
Figura 2.5 - exemplo geral do esquema floco de neve
A vantagem do seu uso est na diminuio do volume de dados trazido para a
memria, alm dos inner join com a tabela normalizada ser mais facilmente resolvido. No
Esquema Floco de Neve o nmero de relacionamentos entre as tabelas maior, fazendo com
que o tempo de execuo das consultas aumente devido necessidade de operaes de juno.
Durante a especificao das tabelas do Data Mart importante levar em considerao estas
caractersticas de forma a normalizar as tabelas somente nos casos em que no haja uma
grande perda de desempenho. Em geral, recomenda-se utilizar o Esquema Estrela ou o
Esquema Constelao de Fatos, pois ambos possuem dimenses desnormalizadas.
2.3.3 Esquema Constelao de Fatos
O Esquema Constelao de Fatos constitudo de duas ou mais tabelas de fatos que
compartilham uma ou mais dimenses. Esse tipo de esquema pode ser visto como uma
coleo de esquemas estrelas, conforme ilustra a Figura 2.6, na qual a tabela Dimenso 2 e
Dimenso 4 so compartilhadas pela Tabela de Fatos 1 e 2.
Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 39
Figura 2.6 - exemplo geral do esquema constelao de fatos
Para Data Warehouses (ou Data Marts), o esquema de Constelao de Fatos mais
comumente utilizado, visto que ele pode modelar assuntos mltiplos e inter-relacionados.
Desta forma, o Esquema Constelao de Fatos foi o que apresentou mais adequao para a
modelagem dimensional do Data Mart implementado para este trabalho, visto que algumas
tabelas de dimenso precisaram ser compartilhadas entre as tabelas de fatos. O captulo 1.3,
item 3.2.4, apresenta um exemplo de consulta SQL ao Esquema Constelao de Fatos
modelado para o estudo de caso proposto por este trabalho, e apresenta tambm a tabela
resultante com os valores obtidos da consulta.
Na Figura A.1 do APNDICE A encontra-se a modelagem completa do Esquema
Constelao de Fatos para o Perfil do Setor e das Perdas Aparentes da Companhia de
Abastecimento de gua e Esgoto da Paraba. A Figura A.1 representa a tabela de fatos Perfil
do Setor e suas 11 dimenses, juntamente com a tabela de fatos Perdas Aparentes
associada a suas 12 dimenses. Quatro dimenses (Quadra, Matrcula, Inadimplncia e
Referncia de Consumo) so compartilhadas pelas duas tabelas de fatos.
2.4 TECNOLOGIAS OLAP
Inicialmente, surgiram as tecnologias conhecidas como On-Line Transaction
Processing (OLTP) que atendem s necessidades de operaes transacionais. Elas denotam as
movimentaes tradicionais que acessam registros pequenos e individuais. As principais
operaes neste tipo de processo so alterao, incluso, excluso e consultas. Estas
operaes ocorrem muitas vezes em um mesmo dia e podem ser requisitadas ao sistema
simultaneamente por muitos usurios, o que demanda uma resposta quase imediata do
sistema. (AURLIO, et al., 2000)
Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 40
As tecnologias On-Line Analytical Processing (OLAP), por sua vez, so projetadas
para apoiar anlises e consultas, alm de auxiliar seus usurios a sintetizar informaes
atravs de comparaes, vises personalizadas e anlises histricas. As tecnologias OLAP
tm como caracterstica principal permitir uma viso mais fcil e intuitiva dos dados
multidimensionais, por meio de anlises em diferentes perspectivas (INMON, 2005).
De acordo com (HAN, et al., 2006), OLAP faz parte do processo que habilita usurios
a explorar os dados do Data Warehouse, fornecendo funcionalidades para anlise interativa de
dados em diferentes dimenses e granularidades.
Alguns tipos de informaes podem ser interessantes ao gerente de uma companhia de
abastecimento, como por exemplo: Qual a quantidade de consumidores, pontos de utilizao
e quantidade de inadimplncias da subcategoria FAVELA, agrupados pelas categorias de
consumo (Comercial, Industrial, Pblico e Residencial), situaes da ligao de gua
(Cortada, Ligada, Suprimida parcial e Suprimida total) e estado de inadimplncia
(Inadimplncia e Adimplncia) dos consumidores?, ou ainda, Qual a mdia de faturamento
das quadras agrupadas pela categoria de consumo comercial e semestres de referncia
(primeiros seis meses e ltimos seis meses de medio)?. Estas e outras consultas utilizando
tecnologias OLAP so apresentadas em detalhes a partir da seo 3.2.6, pgina 93.
O processamento analtico necessrio em diversas situaes no qual se deseja obter
informaes referentes evoluo histrica. Tecnologias OLAP permitem esses tipos de
consultas e melhoram o desempenho de tempo em relao quelas feitas em BD
convencionais, ou seja, BD relacionais.
O On-line Analytical Processing (OLAP), ou Processamento Analtico On-Line,
surgiu pela necessidade de minerar conhecimento e padres em diferentes nveis de abstrao
atravs de anlises multidimensionais dos dados, ou seja, uma viso lgica dos dados. uma
anlise interativa dos dados, atravs de agregaes em todas as intersees de dimenses
necessrias. Permite obter informaes sumarizadas e mostr-las em tabelas 1-D (planilhas),
2-D (dimenses em xy), 3-D (dimenses em xyz), mapas e grficos, com suporte para
modificaes dos eixos. Alm disso, compe anlises estatsticas (razes, mdias, somatrios,
mnimos, mximos, contagens, varincias, etc.) envolvendo quaisquer medidas ou dados
numricos entre muitas dimenses. A Tabela 2.4 mostra as diferenas entre as duas
abordagens, OLTP versus OLAP.
Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 41
Tabela 2.4 - diferenas entre OLAP e OLTP
OLAP OLTP - Relevncia para dados histricos; - Mantm usualmente a situao corrente; - Necessidade de ver o dado sob diferentes perspectivas: aplicaes dinmicas;
- Voltado para velocidade e automao de funes repetitivas;
- Atualizaes quase inexistentes, apenas novas inseres; - Atualizaes em grande nmero;
- Baseado em dados histricos, consolidados e frequentemente totalizados; - Baseado em transaes;
- Operaes de agregao e cruzamentos. - Alto nvel de detalhe.
Fonte: (COLAO, 2004)
De acordo com (GONZALES, 2003), o termo OLAP tambm usado para descrever
a estrutura de armazenamento dos dados e os mtodos utilizados para acess-los. OLAP
representa diversos tipos de tecnologias que variam no mtodo de
acesso. H trs adaptaes de mtodos de acesso OLAP, que so: OLAP Multidimensional
(MOLAP); OLAP Relacional (ROLAP); OLAP Hbrido (HOLAP).
Os mtodos de acesso do tipo MOLAP utilizam a estrutura de dados multidimensional
e permitem a navegao pelos nveis de detalhamento em tempo real. Utiliza SGBDs
Multidimensionais otimizados ao mximo para as consultas OLAP e com tratamento
dimensional nativo. Requer migrao dos dados do SGBD Relacional para o armazenamento
multidimensional e a sua constante atualizao. Teoricamente, a melhor arquitetura de
acesso a ambientes multidimensionais, mas na prtica deixa a desejar pela falta de SGBDs
Multidimensionais mais consolidados, dificultando sua aplicao.
Os mtodos de acesso do tipo ROLAP a soluo mais utilizada hoje e surgiram em
decorrncia do uso consagrado dos SGBDs Relacionais nos BDs operacionais (transacionais),
com todas as vantagens da tecnologia aberta e padronizada da linguagem SQL. Os dados
obtidos dos bancos fontes so armazenados em SGBDs Relacionais, formando o Data
Warehouse com tabelas implementadas em estruturas relacionais clssicas. O mtodo de
acesso ROLAP foi a soluo adotada neste trabalho.
uma tendncia dos SGBDs Relacionais modernos adicionarem uma arquitetura
multidimensional para prover facilidades ambientes de suporte a deciso. Tal conceito fez
surgir os mtodos de acesso do tipo HOLAP, isto , mistura do ROLAP com o MOLAP, que
proporciona o desempenho e flexibilidade de um BD Multidimensional e mantm a
gerenciabilidade, escalabilidade, confiabilidade e acessibilidade conquistadas pelos BDs
Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 42
Relacionais. A idia armazenar dados de maior granularidade do DW em estruturas
relacionais normalizadas e os dados agregados de granularidade inferior em estruturas
dimensionais nativas.
A visualizao multidimensional dos dados atravs das tecnologias OLAP favorece a
anlise de vrias dimenses em nica tela, em virtude da estrutura conceitual conhecida por
cubos de dados. A visualizao se d atravs de configuraes tridimensionais de linhas,
colunas, operaes Slice and Dice e grficos, como mostra a Figura 2.7. Os cubos de dados e
operaes Slice and Dice sero discutidos nas sees 2.4.1 e 2.4.2, respectivamente.
Figura 2.7 - visualizao dos dados atravs de ferramenta OLAP pentaho analysis view5
Fonte: Dados do setor de saneamento de Joo Pessoa.
Os dados da Figura 2.7 foram obtidos atravs de uma consulta ao Esquema
Constelao de Fatos implementado para o estudo de caso deste trabalho. O retorno desta
consulta corresponde s mdias de consumo de gua em m3 e mdias da fatura dos
5 A ferramenta OLAP Pentaho Analysis View ser discutida com mais detalhes na seo 3.2.6 (pgina 119).
Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 43
consumidores adimplentes6 agrupadas por quadra (010, 015, 020 e 025) e por categoria de
consumo durante o perodo de 2007 a 2008.
A Figura 2.8 ilustra a mesma consulta executada acima, contudo, utilizando o software
pgAdmin III (desenvolvido para dar suporte ao SGBD PostgreSQL).
Figura 2.8 - visualizao dos dados atravs do software PgAdmin
A principal vantagem em utilizar uma ferramenta OLAP ao invs de uma ferramenta
puramente de Banco de Dados, a facilidade proporcionada pela ferramenta OLAP quanto
visualizao e manipulao do modelo dimensional (tabelas de fatos e dimenses). Outra
vantagem que o analista no precisa escrever as queries SQL, como ocorre em ambientes
puramente de BD, pois a ferramenta OLAP dispe de interface grfica para d o suporte a
6 Inadimplncia igual a NAO significa que a conta de gua foi quitada pelo consumidor junto companhia de distribuio de gua.
Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 44
realizao das consultas. Neste trabalho optou-se por utilizar a ferramenta OLAP Pentaho
Analysis View, que apresentada no Captulo 3, item 3.2.6.
2.4.1 Estrutura Multidimensional: Cubo de Dados
A principal caracterstica das tecnologias OLAP permitir uma viso conceitual
multidimensional dos dados de uma empresa. Um cubo de dados uma estrutura que
armazena os dados em formato dimensional. Uma dimenso uma unidade de anlise com
dados agrupados.
Por exemplo, a dimenso tempo tem os dados agregados por meses, quadrimestres e
semestres. A dimenso categoria tem os dados agregados em comercial, industrial, pblico e
residencial, etc. A Figura 2.9 apresenta os dados modelados numa estrutura conhecida por
Cubo, onde cada Dimenso (D1, D2 e D3) representa um tema importante da companhia para
realizao de anlises e comparaes. O cubo da Figura 2.9 Fato Perfil do Setor e suas
dimenses so Categoria, Status da gua e Status do Esgoto.
Figura 2.9 - (a) um cubo de dados com trs dimenses. (b) busca tridimensional de clulas no cubo
Fonte: Adaptao de (RAINARDI, 2008).
A partir da modelagem do Esquema Estrela, Floco de Neve ou Constelao de Fatos
pode-se construir os cubos de dados e realizar buscas nesse espao multidimensional. Os
cubos de dados so vises lgicas multidimensionais dos dados com referncia hierrquica.
As tecnologias OLAP fornecem funcionalidades para anlise interativa de dados em
diferentes vises e granularidades, permitindo visualizar as hierarquias e navegar pelas
dimenses (THOMSEN, 2002).
Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 45
As operaes sobre os cubos de dados foram introduzidas por (GRAY, et al., 1996)
visando suportar mltiplas agrega