Dissertacao Roberta

UNIVERSIDADE FEDERAL DA PARABA

CENTRO DE CINCIAS EXATAS E DA NATUREZA DEPARTAMENTO DE INFORMTICA

PROGRAMA DE PS-GRADUAO EM INFORMTICA

MINERAO DE DADOS EM DATA WAREHOUSE PARA SISTEMA DE ABASTECIMENTO DE GUA

ROBERTA MACDO MARQUES GOUVEIA

Dissertao de Mestrado

Joo Pessoa-PB Maio-2009

ROBERTA MACDO MARQUES GOUVEIA

MINERAO DE DADOS EM DATA WAREHOUSE PARA SISTEMA DE ABASTECIMENTO DE GUA

Dissertao de mestrado apresentada ao Centro de Cincias Exatas e da Natureza da Universidade Federal da Paraba, como requisito parcial para obteno do ttulo de Mestre em Informtica (Sistemas de Computao). Orientadora: Professora Dra. Valria Gonalves Soares Elias Co-orientador: Professor Dr. Heber Pimentel Gomes

Joo Pessoa-PB Maio-2009

G719m Gouveia, Roberta Macdo Marques. Minerao de dados em data warehouse para sistema de abastecimento de gua / Roberta Macedo Marques Gouveia.

Joo Pessoa, 2009. 147f. : il. Orientadora: Valria Gonalves Soares Elias. Co-orientador: Heber Pimentel Gomes. Dissertao (Mestrado) UFPB/CCEN 1. Data warehouse Banco de dados. 2. Minerao de dados. 3. Tecnologias OLAP. UFPB/BC CDU: 004.65 (043)

AGRADECIMENTOS A Deus pelo dom da vida e pelas oportunidades concedidas em minha vida, permitindo-me

enveredar pelo caminho da cincia e do saber, e dando-me o alento necessrio para

prosseguir. Nossa aliana eterna!

Nossa Senhora, pelo seu grande exemplo de vida, mostrando-me o caminho da f,

superao, esperana, tolerncia, doao e principalmente, seu exemplo de amor.

Aos meus pais que tanto amo, Severino M. Gouveia e Ilsaira M. M. Gouveia, pelo

exemplo de dedicao, amizade, amor incondicional e investimento dispensado ao longo da

minha formao.

Ao Prof. Dr. Heber Pimentel Gomes um agradecimento muito especial pelas orientaes e

pela amizade conquistada ao longo desses dois anos juntos ao Laboratrio de Eficincia

Energtica e Hidrulica em Saneamento - LENHS. Seus ensinamentos e motivaes foram

significantes para a concluso deste trabalho.

Profa. Dra. Valria Gonalves Soares Elias pelas orientaes sugeridas, das quais foram

teis ao desenvolvimento desta pesquisa.

Aos meus irmos Bruno M. M. Gouveia e Rafael M. M. Gouveia pelo apoio e harmnica

convivncia, me incentivando a seguir em frente e fornecendo todo o sustentculo.

Ao meu amado Alexandre Magno Gurgel Fialho pelo amor, dedicao, apoio, carinho e

compreenso em todos os momentos.

Aos meus amigos e colegas da UFPB, em especial a toda equipe do LENHS dentre eles,

Moiss M. Salvino, Paulo Srgio O. Carvalho, Saulo B. de Tarso, Magno J. G. Silva e Wil L.

L. Camboim pelo auxlio, incentivo e companheirismo.

Ao Governo do Brasil, pelo apoio financeiro concedido atravs das Centrais Eltricas

Brasileiras S.A. (ELETROBRS), da Financiadora de Estudos e Projetos (FINEP) e do

Conselho Nacional de Desenvolvimento Cientfico (CNPq).

Companhia de gua e Esgotos da Paraba (CAGEPA), em nome dos engenheiros

Leonardo L. B. Montenegro e Jaqueline Pequeno, pela disponibilizao dos dados necessrios

ao estudo de caso do trabalho.

UFPB, instituio que, atravs de seus docentes e funcionrios, foi responsvel pela minha

formao acadmica. E aqueles que contriburam de alguma forma para a realizao deste

trabalho. Muito Obrigada!

RESUMO Esta dissertao se prope a utilizar tecnologias de Banco de Dados com a finalidade de

oferecer apoio deciso para os gestores do setor de saneamento, haja vista que os servios de

abastecimento de gua para uso da populao se constituem em um dos principais indicadores

da qualidade de vida da humanidade. A idia fundamental consiste em coletar os dados

operacionais, reduzi-los ao escopo de um problema, organiz-los em um repositrio de dados,

e finalmente aplicar as tecnologias OLAP e os algoritmos de Minerao de Dados, a fim de

obter resultados que proporcionem aos gestores um melhor entendimento do comportamento e

perfil da companhia. Para facilitar a aplicao de tcnicas de Minerao de Dados

necessrio que estes dados estejam armazenados apropriadamente. Neste sentido, uma das

alternativas para o aumento da eficincia no armazenamento, gesto e operao dos dados

para o suporte a deciso baseia-se no desenvolvimento do Data Warehouse. Este ambiente

constitui fontes de informaes estratgicas do negcio, gerando um diferencial competitivo

para a companhia. Diante deste contexto, se fez necessrio a implementao do repositrio de

dados, o Data Warehouse, para armazenar, integrar e realizar as consultas multidimensionais

sobre os dados extrados da companhia de abastecimento de gua. Portanto, esta dissertao

de mestrado tem como objetivos projetar um Data Warehouse Departamental referente ao

setor comercial, tambm conhecido como Data Mart; aplicar as tecnologias OLAP sobre os

cubos de dados multidimensionais; e executar algoritmos de Minerao de Dados visando a

gerao de um sistema de apoio deciso para minimizao das perdas aparentes no sistema

de abastecimento urbano de gua.

Palavras chave: Data Warehouse, OLAP, Data Mining, Sistemas de Abastecimento de gua e Perdas Aparentes.

ABSTRACT This work propose to use technologies of databases with the aim of providing decision

support for managers of sector of sanitation, given that the services of water supply for use of

the population are a key indicator of quality of life. The fundamental idea is to collect

operational data, reduce them to the scope of the problem, organize them into a repository of

data, and finally apply the techniques OLAP and Data Mining algorithms to obtain results that

give managers a better understanding of the behavior and profile of the company. To facilitate

the application of the techniques of Data Mining is necessary that the data are stored properly.

Accordingly, an alternative for increasing the efficiency in storage, management and

operation of data to support the decision based on the development of Data Warehouse. This

is source of strategic information of the business, creating a competitive differential for the

company. In this context, was required to implement the repository of data, Data Warehouse,

to store, integrate and carry out consultations on the multidimensional data from the company

of water supply. Therefore, this Master's thesis aims to design a Data Warehouse relating to

Departmental Business, also known as Data Mart; applied the technology on the OLAP

multidimensional cubes of data, and run the Data Mining algorithms to the generation of a

decision support system to minimize the apparent losses in the urban water supply system.

Keywords: Data Warehouse, OLAP, Data Mining, Water Supply Systems and Apparent Losses.

SUMRIO

CAPTULO 1 14

1 INTRODUO 14 1.1 OBJETIVOS 15 1.2 MOTIVAO DA PESQUISA 17 1.3 JUSTIFICATIVA DO TRABALHO 19 1.3.1 Perdas em Sistemas de Abastecimento de gua 19 1.4 ESTRUTURA DA DISSERTAO 21

CAPTULO 2 22

2 FUNDAMENTAO TERICA 22 2.1 SISTEMA DE APOIO DECISO 22 2.1.1 Descoberta de Conhecimento em Banco de Dados 24 2.2 DATA WAREHOUSE 25 2.2.1 Data Mart 27 2.2.2 Propriedades do Data Warehouse 29 2.2.3 Granularidade 31 2.2.4 Arquitetura do Data Warehouse 32 2.3 MODELAGEM DIMENSIONAL 35 2.3.1 Esquema Estrela 36 2.3.2 Esquema Floco de Neve 38 2.3.3 Esquema Constelao de Fatos 38 2.4 TECNOLOGIAS OLAP 39 2.4.1 Estrutura Multidimensional: Cubo de Dados 44 2.4.2 Conjunto de Operaes OLAP 46 2.5 DATA MINING 48 2.5.1 Metas do Data Mining 49 2.5.2 Aprendizado Indutivo 49 2.5.3 O Processo Iterativo do Data Mining 51 2.5.4 Principais Tarefas do Data Mining 52 2.5.5 Tcnicas de Data Mining 56 2.5.6 Viso Hierrquica do KDD 67 2.5.7 Ferramentas de Data Mining 68 2.5.8 Relao entre Data Warehouse, OLAP e Data Mining 70 2.6 TRABALHOS RELACIONADOS 71 2.7 CONSIDERAES FINAIS 75

CAPTULO 3 77

3 PROJETO E IMPLEMENTAO DO SAD 77 3.1 O ESTUDO DE CASO 80 3.2 PROCESSO DE EXTRAO DO CONHECIMENTO: FASE 1 85 3.2.1 Implementao do Data Warehouse 85 3.2.2 Pr-Processamento: Limpeza e Enriquecimento 86 3.2.3 Transformao, Seleo e Integrao dos Dados 87 3.2.4 Utilizao do Esquema Constelao de Fatos 89 3.2.5 Pentaho Schema Workbench Modelagem Dimensional 92 3.2.6 Pentaho Analysis View - OLAP 93 3.3 PROCESSO DE EXTRAO DO CONHECIMENTO: FASE 2 98 3.3.1 Utilizao do Data Mining 98 3.3.2 Modelagem Realizada 99 3.3.3 Abordagem do Data Mining Aplicada aos Hidrmetros 100 3.3.4 Construo das Tarefas de Minerao 102 3.4 CONSIDERAES FINAIS 104

CAPTULO 4 105

4 DATA MINING APLICADO AO ESTUDO DE CASO 105 4.1 ETAPA DE DATA MINING 105 4.1.1 Software de Data Mining: WEKA 106 4.2 RESULTADOS E DISCUSSES 107 4.2.1 Pr-Minerao do Modelo Perfil do Setor 107 4.2.2 Pr-Minerao do Modelo Perdas Aparentes 111 4.3 INTERPRETAO E AVALIAO DOS RESULTADOS 114 4.3.1 Execuo do Data Mining: Modelo Perfil do Setor 116 4.3.2 Execuo do Data Mining: Modelo Perdas Aparentes 122 4.4 CONSIDERAES FINAIS 130

CAPTULO 5 133

5 CONCLUSO 133

CAPTULO 6 137

6 BIBLIOGRAFIA 137

APNDICE 144

APNDICE A 145 APNDICE B 146

LISTA DE FIGURAS

Figura 2.1 - etapas do processo de KDD ............................................................................................................... 24

Figura 2.2 - os quatro nveis de dados do ambiente arquitetural de um data warehouse ...................................... 33

Figura 2.3 - exemplos de consultas referentes aos quatro nveis de dados ............................................................ 33

Figura 2.4 - exemplo geral do esquema estrela ..................................................................................................... 36

Figura 2.5 - exemplo geral do esquema floco de neve .......................................................................................... 38

Figura 2.6 - exemplo geral do esquema constelao de fatos ................................................................................ 39

Figura 2.7 - visualizao dos dados atravs de ferramenta OLAP pentaho analysis view .................................... 42

Figura 2.8 - visualizao dos dados atravs do software PgAdmin ....................................................................... 43

Figura 2.9 - (a) um cubo de dados com trs dimenses. (b) busca tridimensional de clulas no cubo .................. 44

Figura 2.10 - exemplo de cuboids (1-D), (2-D) e (3-D) para o esquema constelao de fatos .............................. 45

Figura 2.11 - Rede de cuboids para um cubo de trs dimenses ........................................................................... 46

Figura 2.12 - exemplo da operao slice, dice, drill-down, drill-up e rotate. ........................................................ 47

Figura 2.13 - taxonomia do data mining ............................................................................................................... 51

Figura 2.14 - exemplo de dados utilizados na tarefa de classificao ................................................................... 53

Figura 2.15 - exemplo de rvore de deciso .......................................................................................................... 57

Figura 2.16 - arvore de deciso gerada com os dados da Figura 2.14 ................................................................... 57

Figura 2.17 - classificao por rvore de deciso (pontos de utilizao versus fatura) ......................................... 59

Figura 2.18 - taxonomia do processo de descoberta do conhecimento em banco de dados .................................. 67

Figura 3.1 - componentes do ambiente de apoio deciso.................................................................................... 77

Figura 3.2 - criao dos cubos de dados pela ferramenta schema workbench ....................................................... 79

Figura 3.3 - tela inicial da ferramenta OLAP pentaho analysis view .................................................................... 79

Figura 3.4 - minerao de dados pela ferramenta WEKA ..................................................................................... 80

Figura 3.5 - sistemas de logradouros de Joo Pessoa - setor Miramar .................................................................. 81

Figura 3.6 - desenvolvimento da modelagem dimensional no SGBD postgresql ................................................. 85

Figura 3.7 - parte do esquema constelao de fatos para o setor de saneamento .................................................. 90

Figura 3.8 - consulta ao esquema constelao de fatos da Figura 3.7 ................................................................... 91

Figura 3.9 - criao do esquema constelao de fatos atravs da ferramenta schema workbench ........................ 92

Figura 3.10 - consulta sobre o perfil do consumidor de baixa renda quanto a inadimplncia ............................... 94

Figura 3.11 - exemplo de consulta ao esquema constelao de fatos da Figura 3.7 .............................................. 96

Figura 3.12 - consulta ao cubo de dados fato perfil do setor (cuboids 1-D) ...................................................... 97

Figura 3.13 - consulta ao cubo de dados fato perfil do setor (cuboids 2-D) ...................................................... 97

Figura 3.14 - intervalos de valores percentuais do faturamento no ltimo semestre ........................................... 101

Figura 4.1 - viso geral dos atributos do modelo perfil do setor. (A-C) .............................................................. 108

Figura 4.2 - viso geral dos atributos do modelo perfil do setor. (D-F) .............................................................. 109

Figura 4.3 - viso geral do perfil do setor 64 quanto inadimplncia. (A-C) ..................................................... 110

Figura 4.4 - viso geral do perfil do setor 64 quanto inadimplncia. (D-F) ...................................................... 110

Figura 4.5 - atributos do modelo perdas aparentes associados ao atributo classe deciso. (A-C)....................... 112

Figura 4.6 - atributos do modelo perdas aparentes associados ao atributo classe deciso. (D-F) ....................... 113

Figura 4.7 - atributos do modelo perda aparente associados ao atributo classe deciso. (G-I) ........................... 113

Figura 4.8 - atributos do modelo perdas aparentes associados ao atributo classe deciso. (J-M) ....................... 114

Figura 4.9 - seleo dos algoritmos de data mining pela ferramenta WEKA...................................................... 115

Figura 4.10 - rvore de deciso para o modelo perfil do setor ............................................................................ 119

Figura 4.11 - rvore de deciso para o modelo perda aparente ........................................................................... 126

Figura A.1 - modelagem dimensional do esquema constelao de fatos do data warehouse ..................... 145

LISTA DE TABELAS

Tabela 2.1 - diferenas entre data mart e data warehouse .................................................................................... 28

Tabela 2.2 - exemplo da modelagem dimensional em SGBDS ............................................................................. 36

Tabela 2.3 - comparativo entre as tabelas de fatos e dimenso ............................................................................. 37

Tabela 2.4 - diferenas entre OLAP e OLTP ........................................................................................................ 41

Tabela 2.5 - regras de classificao geradas (descobertas) com os dados da Figura 2.14 ..................................... 53

Tabela 2.6 - exemplo de dados para descoberta de regra de associao ................................................................ 55

Tabela 2.7 - descoberta de regras de associao com fs = 0.3 e fc = 0.8 ............................................................... 55

Tabela 2.8 - tcnicas, tarefas e algoritmos de data mining .................................................................................... 56

Tabela 2.9 - operaes de especializao e generalizao por induo de regras ................................................. 60

Tabela 2.10 - passos para construo da rvore de deciso atravs do ID-3 ......................................................... 61

Tabela 2.11 - exemplo de dados para classificao bayesiana .............................................................................. 63

Tabela 2.12 - clculo das probabilidades dos dados da Tabela 2.11 utilizando classificadores bayesianos .......... 64

Tabela 2.13 - exemplo de uso do algoritmo apriori .............................................................................................. 66

Tabela 2.14 - passos da execuo do algoritmo apriori ........................................................................................ 66

Tabela 2.15 - ferramentas de data mining - apoio KDD ..................................................................................... 68

Tabela 2.16 - avaliao comparativa entre as ferramentas de data mining ........................................................... 69

Tabela 3.1 - dicionrio de dados. Fonte: CAGEPA ............................................................................................... 82

Tabela 3.2 - matriz de confuso para a classificao com duas classes ............................................................... 102

Tabela 4.1 - algoritmo ID-3 aplicado ao modelo perfil do setor ......................................................................... 117

Tabela 4.2 - algoritmo J4.8 aplicado ao modelo perfil do setor .......................................................................... 118

Tabela 4.3 - algoritmo naivebayes aplicado ao modelo perfil do setor ............................................................... 120

Tabela 4.4 - algoritmo apriori aplicado ao modelo perfil do setor ...................................................................... 121

Tabela 4.5 - algoritmo ID-3 aplicado ao modelo perda aparente ........................................................................ 122

Tabela 4.6 - algoritmo J4.8 aplicado ao modelo perda aparente ......................................................................... 124

Tabela 4.7 - algoritmo naivebayes aplicado ao modelo perda aparente .............................................................. 127

Tabela 4.8 - algoritmo apriori aplicado ao modelo perda aparente ..................................................................... 129

Tabela 4.9 - comparativo entre os algoritmos de data mining aplicados ao modelos perfil do setor .................. 130

Tabela 4.10 - comparativo entre os algoritmos de data mining aplicados ao modelo perdas aparentes .............. 131

Tabela B.1 - arquivo arff do modelo de data mining perfil do setor ........................................................... 146

Tabela B.2 - arquivo arff do modelo de data mining perdas aparentes ...................................................... 147

LISTA DE ABREVIATURAS

BI Business Intelligence

CAGEPA Companhia de gua e Esgotos da Paraba

DW Data Warehouse

EIS Executive Information Systems

ETL Extraction, Transformation and Load

ID-3 Iterative Dichotomiser

JDBC Java Database Connectivety

KDD Knowledge Discovery in Databases

OLAM On-Line Analytical Mining

OLAP On-Line Analytical Processing

OLTP On-Line Transaction Processing

PNCDA Programa Nacional de Combate ao Desperdcio de gua

ROLAP Relational On-Line Analytical Processing

SAD Sistemas de Apoio Deciso

SGBD Sistema Gerenciador de Banco de Dados

SNIS Sistema Nacional de Informaes sobre Saneamento

SQL Structured Query Language

WEKA Waikato Environment for Knowledge Analysis

XML Extensible Markup Language

CAPTULO 1 Este captulo introdutrio descreve as principais motivaes para realizao do trabalho, apresenta os objetivos e a justificativa da pesquisa e, finaliza, expondo a estrutura e organizao da dissertao.

1 INTRODUO

Os sistemas informatizados coletam e armazenam enormes quantidades de dados em

seus bancos de dados, aumentando o nmero de corporaes que buscam alternativas para um

planejamento, controle e gesto mais eficiente das informaes armazenadas, com o

melhoramento dos processos de apoio tomada de deciso e sistemas inteligentes, baseados

em descobertas de conhecimento.

Nos dias atuais, com a necessidade de desenvolver sistemas para dar suporte a

decises gerenciais, vem sendo utilizado e aperfeioado o Data Warehouse (DW). O DW

um ambiente cuja finalidade extrair, integrar, limpar e dar consistncia aos dados

provenientes dos sistemas transacionais da companhia. Alm disso, o DW dimensiona e

consolida esses dados, organizando-os e melhorando a performance das consultas.

Os primeiros sistemas de suporte deciso ficaram conhecidos como Executive

Information Systems (EIS), e tornaram-se muito populares devido rapidez com que geravam

as informaes. Contudo, a falta de flexibilidade para realizar consultas ad hoc e a

necessidade de definio de frmulas e formatao de novos relatrios por parte do usurio,

fizeram com que os EIS ficassem restritos gerao de relatrios corporativos pr-

estabelecidos. Visando suprir as necessidades acima citadas surgiram as ferramentas OLAP

(On-Line Analytical Processing). Elas tornaram vivel a construo de um ambiente no qual

os analistas de negcio pudessem facilmente navegar pelos dados da companhia, realizando

consultas ad hoc, fazendo novos cruzamentos entre as dimenses de anlise.

Diante deste ambiente empresarial cada vez mais competitivo, a tecnologia da

informao, quando bem utilizada, torna-se um importante diferencial entre as empresas que

buscam excelncia na qualidade do servio prestado. Neste cenrio, surgem as tcnicas e

aplicaes de Minerao de Dados com intuito de descoberta de padres de comportamento e

Minerao de Dados em Data Warehouse para Sistema de Abastecimento de gua 15

de novos conhecimentos sobre os dados armazenados. Portanto, a gesto aleatria baseada na

intuio d lugar a inteligncia de negcio.

O presente trabalho expe uma experincia do Processo de Descoberta do

Conhecimento em Banco de Dados, tambm conhecido com Knowledge Discovery in

Databases (KDD), a fim de observar a viabilidade e aplicabilidade de um caso real de apoio

deciso. O estudo segue sob a forma da pesquisa bibliogrfica, da criao e implementao do

Data Warehouse Departamental, do uso de tecnologias de anlise e recuperao de dados

teis ao processo decisrio, conhecidas como OLAP, e da aplicao de tcnicas e algoritmos

de Data Mining para descoberta de novos conhecimento e padres nos dados.

1.1 OBJETIVOS

Os servios de abastecimento de gua para uso da populao continuam sendo um dos

indicadores da qualidade de vida da populao, sendo de fundamental importncia sade e

alimentao. Estudos recentes comprovam que a gua est se tornando mais escassa, e que

menos de 1% (um por cento) da gua no mundo est diretamente acessvel ao homem. Cerca

de vinte pases, a maioria deles na frica e no Oriente Mdio, sofrem de escassez crnica de

gua, causando danos severos produo de alimentos e atraso no desenvolvimento

econmico (JAMES, et al., 2002).

O estudo proposto por esta dissertao pretende provocar o interesse em pesquisadores

envolvidos com a produo, implantao, manuteno, gerncia e utilizao de Sistemas de

Informaes Gerenciais ou de Apoio Deciso. Assim, o resultado desse trabalho ter sua

validade para todos aqueles profissionais envolvidos, de alguma forma, em projetos de Data

Warehouse e Data Mining.

Os objetivos gerais do trabalho so:

Projetar e desenvolver um Sistema de Apoio Deciso (SAD); Aplicar as tecnologias de Banco de Dados voltadas para projetos de suporte a deciso

(modelagem multidimensional);

Organizar os dados do setor do sistema de abastecimento de gua em um Data Warehouse, para que eles possam ser analisados por tecnologias OLAP;

Encontrar padres e conhecimentos nos dados do setor analisado atravs dos algoritmos de Data Mining.


De acordo com as peculiaridades do setor, os objetivos especficos so:

Determinar o perfil do setor e do consumidor, por meio da verificao dos consumos de gua, valores faturados (conta de gua) e pontos de utilizao de gua;

Verificar e diagnosticar a situao dos medidores (hidrmetros) presentes nos imveis; Encontrar respostas para as anormalidades e irregularidades praticadas pelos

consumidores da qual a empresa de abastecimento de gua desconhece;

Avaliar as inadimplncias dispostas no setor selecionado para o estudo de caso.

Este trabalho visa contribuir para o uso racional e eficiente dos recursos hdricos, para

isso so aplicadas tecnologias de Banco de Dados como Data Warehouse, OLAP e Data

Mining. Tais tecnologias se propem em fornecer entidade gestora de um sistema de

abastecimento de gua um controle maior do comportamento dos consumidores e imveis,

proporcionando tomadas de decises eficientes que buscam a reduo de perdas de gua e das

perdas econmicas da companhia de saneamento.

Neste trabalho h a necessidade de conhecimentos envolvendo os dados histricos, tais

como o tempo em que o cliente se encontra inadimplente junto operadora de abastecimento

de gua; dados histricos das contas e consumos de gua e esgoto, histrico do hidrmetro

(dados relativos troca do hidrmetro), etc. Os algoritmos de Data Mining com dados que

variam com o tempo (sries temporais) so utilizados neste trabalho para prever novos

conhecimentos a partir dos dados histricos da srie. Tais algoritmos analisam a quantidade

de dados existentes e fornecem uma previso do que pode acontecer nos prximos perodos,

levando em considerao os dados passados da base temporal.

As tecnologias de Data Warehouse sero utilizadas como parte do processo de

descoberta de conhecimento na base de dados do setor de saneamento da cidade de Joo

Pessoa-PB. O ambiente de Data Warehouse organizar e disponibilizar os dados, visando

facilitar os comandos e execues OLAP e as consultas para o processo de Data Mining.

O termo Data Warehouse Departamental sinnimo de Data Mart. J o termo Data

Warehouse Corporativo distinto de ambos. Desta forma, ao longo da dissertao sero

encontrados os termos Data Warehouse, Data Warehouse Departamental ou Data Mart,

ambos indicando o mesmo conceito, ou seja, um armazm de dados para o setor de

saneamento urbano da cidade de Joo Pessoa - Paraba.


O uso das tecnologias OLAP proporcionar as agregaes e sumarizaes dos dados

contidos no Data Warehouse, gerando informaes teis ao processo decisrio e oferecendo

uma anlise mais detalhada do setor. A ferramenta OLAP utilizada neste trabalho foi Pentaho

Analysis View, que por sua vez utiliza a ferramenta Pentaho Schema Workbench, ambas sero

apresentadas no captulo 3.

A aplicao do Data Mining visa encontrar os consumidores em potencial que

apresentam algumas ou todas as caractersticas daqueles que j cometeram algum tipo de

fraude e/ou inadimplncia na rede de distribuio de gua, assim como detectar erros e

anormalidades na medio do consumo de gua por meio dos hidrmetros. Ao constatar tais

irregularidades e anormalidades nos consumos e faturas, aes podero ser tomadas por parte

da companhia para elimin-las, reduzindo o alto ndice de perdas de gua e consequentemente

o alto percentual de perdas de faturamento.

Os resultados obtidos com o Data Mining sero utilizados a fim de detectar padres,

descobrir regras significativas e estabelecer relaes entre os ndices de inadimplncias e

anormalidades das ligaes de gua e esgoto dos consumidores, na tentativa de reduzir os

ndices de perdas aparentes na distribuio de gua.

Os dados sero extrados do Data Warehouse Departamental para em seguida alguns

algoritmos de Data Mining sero aplicados sobre esses dados pelo software Pentaho WEKA.

Os resultados sero analisados com o propsito de obter medidas corretivas e preventivas para

minimizar o problema das perdas aparentes nos sistemas de abastecimento de gua. Sero

utilizados e comparados entre si trs algoritmos de minerao de dados do Aprendizado

Indutivo Supervisionado. Quanto ao Aprendizado Indutivo No-Supervisionado ser aplicado

um algoritmo que servir como complemento no processo de descoberta do conhecimento dos

dados contidos no Data Warehouse (Os tipos de Aprendizado Indutivo sero explanados na

seo 2.5.2).

1.2 MOTIVAO DA PESQUISA

As companhias de saneamento no Brasil perdem em mdia 44,18% da gua que corre

no seu sistema de abastecimento, de acordo com o Programa Nacional de Combate ao

Desperdcio de gua (PNCDA), (MARCKA, et al., Reviso 2004). Boa parte desta gua se

perde antes mesmo de chegar aos imveis e atender a populao, isto , a gua que se perde

entre as estaes de tratamento (ETA) e a rede de distribuio do consumidor final.


Segundo o Ministrio das Cidades, alm dos impactos negativos que as perdas hdricas

provocam nos custos operacionais, ampliando a necessidade de investimento em novas

instalaes de produo e tratamento, elas tambm causam danos natureza, pelo aumento da

demanda, e geram prejuzos distribuio regional, principalmente para reas do Nordeste,

onde h escassez de recursos hdricos, e tambm do Sudeste, cuja regio concentra a maior

parte da populao.

O problema das perdas aparentes em sistemas de abastecimento de gua um assunto

que est sempre em foco, visto que o uso correto e consciente da gua pela populao e pela

companhia significante para o desenvolvimento da humanidade. A deteco das perdas

aparentes tem sido de grande interesse para diversas companhias de abastecimento de gua,

uma vez que representam um fator negativo, tanto financeiro quanto ambiental. Foi desta

forma que surgiu o interesse de aprofundar nesta rea e desenvolver este trabalho de

mestrado.

Portanto, a motivao da presente dissertao surge do interesse de investigar mais

detalhadamente se as perdas aparentes de gua esto distribudas proporcionalmente pela

cidade ou se esto concentradas em reas especficas, como por exemplo, nos setores onde o

poder aquisitivo dos consumidores baixo. Para o estudo de caso, sero utilizados dados de

um setor do saneamento da cidade de Joo Pessoa - Estado da Paraba.

A Companhia de Abastecimento de gua da Paraba (CAGEPA) disponibilizou o

setor 64, na cidade de Joo Pessoa-PB, para o estudo de caso da presente pesquisa. Este setor

corresponde ao sistema de abastecimento urbano de gua do bairro e comunidade de Miramar

e suas proximidades. Ele apresenta realidades sociais distintas, contemplando populao de

classe alta, mdia e a populao de baixa renda (habitaes populares), alm de dispor de

diversos tipos de estabelecimentos (comercial, pblico, industrial, residencial, etc.). Este setor

possui aproximadamente 17.800 pontos de utilizao e 1.300 consumidores.

A soluo desenvolvida nesta dissertao poder ser aplicada para os demais setores

da cidade, trazendo como resultado futuro, uma viso geral dos consumidores de todo o setor

de saneamento de Joo Pessoa. A idia fundamental desta pesquisa de mestrado traar e

analisar o perfil dos consumidores e dos imveis quanto medio e s perdas aparentes em

um determinado perodo de referncia contnuo.


1.3 JUSTIFICATIVA DO TRABALHO

As perdas de gua em sistema de abastecimento de gua correspondem ao volume de

gua retirado dos mananciais, e que se encontra na Estao de Tratamento de gua (ETA),

subtrado dos volumes de gua medidos nos hidrmetros. As aes que visam o controle e a

reduo de perdas de gua delineiam-se na melhoria da qualidade da operao e gesto dos

sistemas de abastecimento de gua e, consequentemente, inserem-se no contexto do uso

racional da gua.

1.3.1 Perdas em Sistemas de Abastecimento de gua

Segundo (MARQUES, et al., 2006), o volume de gua computado pela companhia de

abastecimento de gua que no foi faturado corresponde ao ndice de perda do sistema. Estas

perdas podem ser geradas por vazamentos nas tubulaes da rede de distribuio, erros de

medio, fraudes nos hidrmetros, erros cadastrais, inadimplncias ligaes clandestinas de

gua etc. As perdas so de dois tipos: Reais e Aparentes.

1.3.1.1 Perdas Reais

Segundo (GOMES, et al., 2007), as perdas fsicas de gua, tambm chamadas de

Perdas Reais, ocorrem em todo o sistema de abastecimento, desde o ponto de captao at os

de consumo, passando pela estao de tratamento, de bombeamento, reservatrios, rede de

distribuio e ligaes prediais. Elas representam a gua que efetivamente no chega ao

consumidor, em decorrncia de vazamentos nas redes de distribuio e seus ramais

provocados por deficincia nos equipamentos, envelhecimento das tubulaes e conexes, e

operao e manuteno inadequada em todo o sistema.

1.3.1.2 Perdas Aparentes

De acordo com a International Water Association (IWA), as Perdas Aparentes,

tambm chamadas de Perdas No Fsicas ou Comerciais, referem-se a toda gua que no

medida ou que no tenha o seu uso definido. Ocorre com a gua que tratada e fornecida pela

companhia, e consumida pelos clientes, porm no corretamente medida e, portanto no

faturada, nem gera arrecadao correspondente. Esto relacionadas s ligaes clandestinas

e/ou irregulares, fraudes nos hidrmetros, erros de micro e macromedio, poltica tarifria,

erro cadastral (desatualizao do cadastro, inatividade em ligao ativa, ligao no

cadastrada por descuido), erro de leitura, etc.


Para (JAMES, et al., 2002), algumas das causas para as Perdas Aparentes so os erros

e desatualizaes no cadastro de clientes; Fraudes, violao ou danificao de medio nos

hidrmetros1; e Ligaes Clandestinas ou Ligaes no Cadastradas.

Segundo estima (QUEYROI, 2007), metade dos problemas no segmento de

saneamento esto ligados a vazamento, ou seja, perdas fsicas, e a outra metade so

decorrentes de falhas na medio, ou seja, perdas aparentes.

De acordo com (SNIS, 2007), as regies Norte e Nordeste so as reas onde h maior

perda de faturamento e so tambm onde predominam as menores rendas per capta no pas.

Isto aponta para dois aspectos possveis de situaes de perdas: um relacionado ao baixo

poder de consumo destas populaes, altos ndices de inadimplncia e consequentemente

lucros menores e outro relacionado s grandes potencialidades de irregularidades nas redes,

com perdas de volumes de gua tratada em funo das ligaes clandestinas.

No que se refere aos dados do (SNIS, 2007), o valor mdio das perdas de faturamento

para todo o conjunto de prestadores de servios foi de 39,8%. Ressalta-se, segundo o

relatrio, que os prestadores com maiores perdas concentraram-se nas regies Norte (53,4%)

seguida do Nordeste (45,1%). A regio Sudeste possui ndices de perdas em torno de 39,8%,

Centro-Oeste de 39,2% e Sul de 26,6%.

A Companhia de gua e Esgotos da Paraba (CAGEPA), utilizada no estudo de caso,

obteve um intervalo de perdas de faturamento entre 40,1 e 50,0 %. Este alto ndice reflete-se

de forma negativa para o Estado, visto que as perdas de faturamento esto diretamente ligadas

s perdas reais e aparentes. Estas, por sua vez, acarretam problemas estruturais, ambientais e

sociais para toda a populao.

importante reduzir as perdas aparentes para elevar a eficincia do sistema de

abastecimento de gua. Na tentativa de minimizar e evitar tais desperdcios, este trabalho

empenha-se em investigar e detectar perdas aparentes, e para alcanar este objetivo, utilizou-

se o processo de descoberta do conhecimento em base de dados, com nfase no Data Mining.

1 Por exemplo: rompimento do lacre e inverso do hidrmetro; execuo de by pass (i.e., desvio feito no aparelho, evitando que ele mea corretamente o volume consumido); colocao de arame para travar a turbina do hidrmetro etc.


A anlise de grande volume de dados permitir que se observem tendncias, que se

detectem regies onde as perdas aparentes e inadimplncias dos consumidores so mais

freqentes; quais so categorias de consumo mais suscetveis s perdas, entre outras aes.

1.4 ESTRUTURA DA DISSERTAO

A presente dissertao est organizada em 7 captulos, incluindo este introdutrio. O

Captulo 2 configura o estado da arte da pesquisa e tem como objetivo apresentar os principais

conceitos envolvidos com o tema da dissertao, sob forma de uma reviso bibliogrfica.

O captulo 3 apresenta e caracteriza a companhia de abastecimento de gua envolvida

no estudo de caso; e relaciona a teoria exposta no captulo 2 sob a forma de um estudo de caso

real. Nele sero discutidas as tecnologias de banco de dados aplicadas ao setor de saneamento,

alm de descrever os mecanismo de criao e implementao do Data Warehouse; a

utilizao das tecnologias OLAP e de Data Mining, apresentando suas principais funes,

vantagens e aplicabilidade.

O captulo 4 apresenta os resultados e discusses do estudo de caso, apresentado as

comparaes dos algoritmos de Data Mining quanto ao seu tipo de aprendizado indutivo.

O captulo 5 retoma as discusses gerais do trabalho de forma conclusiva, finalizando

a dissertao com os resultados e contribuies relevantes, dificuldades encontradas e as

indicaes para trabalhos futuros. O ltimo captulo expe as referncias bibliogrficas

consultadas.

CAPTULO 2 Este captulo configura o estado da arte da dissertao e empenha-se em discutir os assuntos e requisitos relacionados aos Sistemas de Apoio Deciso, Data Warehouse, OLAP e Data Mining. So apresentados os principais conceitos, o histrico e importncia de cada um no processo decisrio, mostrando sua relevncia para o atual mercado competitivo e tecnolgico do Business Intelligence.

2 FUNDAMENTAO TERICA

2.1 SISTEMA DE APOIO DECISO

Os Sistemas de Apoio Deciso (SAD), ou Decision Support Systems (DSS), visam

proporcionar uma avaliao crtica das informaes dos negcios, auxiliando a gerncia a

definir tendncias, apontar problemas e absorver decises inteligentes.

De acordo com (DATE, 2004), o processo de tomada de deciso com auxlio de

computadores iniciou na dcada de 70, onde os processos comearam a ser informatizados e

as informaes passaram a ser pr-definidas e selecionadas por meio dos Executive

Information Systems (EIS). Na fase atual, os processos de tomada de deciso so totalmente

informatizados e o gestor define os atributos mais importantes ao processo decisrio,

recebendo subsdios e informaes processadas pelos Sistemas de Apoio Deciso, atravs de

ferramentas OLAP, que ser discutida na seo 2.4.

Nas dcadas anteriores, o foco estava voltado ao crescente aumento da quantidade de

informao armazenada em formato eletrnico. Segundo (ZARUR, 2005), estima-se que a

quantidade de dados duplica a cada um ano e meio e que o tamanho e nmero de bases de

dados crescem a um ritmo ainda mais elevado. Este grande aumento deve-se essencialmente

constante diminuio do custo de armazenamento dos dados e ao efetivo aumento da

eficincia dos computadores em manuse-los.

De acordo com (ELMASRI, et al., 2005), os Bancos de Dados de apoio deciso

costumam ser extensos, fortemente indexados e envolver uma grande quantidade de


redundncia, em especial, sob a forma de replicao e de tabelas de totalizao. As chaves

costumam envolver um componente temporal e as consultas costumam ser complexas.

Certos aspectos dos sistemas de BD para apoio deciso os distinguem dos sistemas

de BD tradicionais, sendo o principal deles o fato dos BD para apoio deciso serem quase

que exclusivamente para leitura/consultas, e dificilmente para atualizaes. Como

consequncia, observa-se as dificuldades em se trabalhar na prtica com um grande nmero

de variveis, que so os atributos do BD, e a grande quantidade de dados histricos. Em

virtude desta complexidade, opta-se por extrair apenas as informaes mais relevantes da base

de dados transacional.

O bom processamento de extrao dos dados a principal razo para o sucesso na

tomada de deciso. Esta extrao corresponde cpia dos dados desejveis do ambiente

operacional para o processamento subsequente. Significa que os usurios podem operar sobre

os dados extrados da maneira como desejarem, sem interferncia no ambiente operacional.

Aps tantos anos de concentrao na obteno de dados, o problema, agora, passa a

ser o aproveitamento deste precioso recurso. Reconheceu-se que estes dados propiciam aos

indivduos responsveis pelas decises, o planejamento das aes, a definio de estratgias e

a eficcia em suas decises.

O apoio deciso se utiliza de vrias tecnologias, dentre elas, Data Warehouse, Data

Mart, Sistema Gerenciadores de Banco de Dados, Processamento Analtico On-line (OLAP),

Banco de Dados Multidimensionais, Minerao de Dados (Data Mining) etc.

As Ferramentas de Apoio Deciso (FAD) fazem parte do conceito de Business

Intelligence (BI), ou Inteligncia de Negcios, e correspondem ao conjunto de tecnologias

que permitem o cruzamento de informaes e suporte a anlise dos indicadores de

desempenho de um negcio (COLAO, 2004).

Estas ferramentas so softwares desenvolvidos com objetivo de apresentar

graficamente (e no apenas numericamente) as informaes do negcio, auxiliando a

simulao de ocorrncias, fornecendo maior capacidade de anlise para o descobrimento de

novos conhecimentos e padres.


2.1.1 Descoberta de Conhecimento em Banco de Dados

O processo de descoberta de conhecimento em banco de dados se prope em encontrar

e interpretar padres atravs das anlises nas fontes de dados. O objetivo extrair de grandes

bases de dados, sem nenhuma formulao prvia de hipteses, as informaes desconhecidas,

vlidas e acionveis, que podero ser teis para a tomada de deciso.

Ficou mais conhecido pelo acrnimo KDD, que em ingls significa Knowledge

Discovery in Database. O processo de KDD foi proposto para determinar as etapas que

produzem conhecimentos a partir dos dados e, principalmente, definir a etapa de Data Mining

(Minerao de Dados), que a fase que transforma dados em conhecimento (FAYYAD, et al.,

1996).

Como ilustra a Figura 2.1, cada fase da execuo do processo KDD possui uma

interseo com as demais. Deste modo, os resultados produzidos em uma fase podem ser

utilizados para melhorar os resultados das prximas fases. Este cenrio revela um processo

iterativo, que busca sempre aprimorar os resultados a cada iterao.

Figura 2.1 - etapas do processo de KDD

Fonte: (Adaptao) (SYMEONIDIS, et al., 2005 p. 14)

O processo de KDD envolve trs etapas iniciais: seleo, (pr) processamento e

transformao, as quais compem a preparao dos dados. Em seguida vem a fase de Data

Mining, considerada essencial ao processo e foco principal deste trabalho. Por fim, o

conhecimento gerado analisado e assimilado, por meio da etapa de anlise e interpretao

dos resultados, que se encontra no topo do processo.


2.2 DATA WAREHOUSE

Os Data Warehouses podem ser traduzidos como Armazns de Dados e so tipos

especiais de banco de dados que se tornaram conhecidos e bastante utilizados a partir da

dcada de 90. Ser utilizado o termo em ingls neste trabalho, visto que a maioria dos autores

utiliza-o por considerarem mais intuitivo. De acordo com (INMON, 2005), o termo definido

como um depsito de dados orientado por assunto, integrado, no voltil, varivel com o

tempo, para apoiar as decises da gerncia. Onde no voltil significa que, uma vez

inseridos, os dados no podem ser alterados, embora possam ser excludos. O conceito de

armazm de dados surgiu por duas razes: primeiro, pela necessidade de fornecer uma origem

de dados nica, limpa e consistente para fins de apoio deciso; segundo, pela necessidade de

faz-lo sem causar impacto sobre os sistemas operacionais.

O processo de desenvolver e gerenciar repositrios de dados a partir de vrias fontes

com o propsito de obter uma viso detalhada e singular de parte ou todo um negcio,

conhecido como Data Warehousing. De acordo com (GARDNER, 1998), a concretizao do

Data Warehousing considerada um dos primeiros passos para tornar factvel a anlise de

grande quantidade de dados no apoio ao processo decisrio.

Segundo (PONNIAH, 2001), o Data Warehousing no um software ou produto de

hardware que se adquire para fornecer informaes estratgicas. , sim, um ambiente

computacional onde os usurios so colocados diretamente em contato com os dados que

necessitam para tomar as melhores decises.

O produto principal obtido de um projeto de Data Warehousing o seu Data

Warehouse (DW), e cujo objetivo bsico gerar um repositrio que contenha dados limpos,

agregados e consolidados, podendo este ser analisado por ferramentas do tipo OLAP (On-Line

Analytical Processing) e Data Mining (assuntos abordados nas sees 2.4 e 2.5,

respectivamente).

As bases de dados convencionais (relacionais) possuem algumas caractersticas, tais

como dinamismo, redundncias, incompletude e rudos, tornando-as confusas e no viveis

extrao de informaes delas prprias. O Data Warehouse surgiu com o objetivo de fornecer

os subsdios necessrios para a transformao de uma base de dados que utiliza On-Line

Transaction Processing (OLTP) para On-Line Analytical Processing (OLAP). A primeira

significa os processamentos que executam as operaes do dia-a-dia da organizao e a


ltima, os processamentos que suportam a tomada de decises. Os termos OLTP e OLAP

sero detalhados na seo 2.4.

Alguns problemas so apontados por (KIMBALL, et al., 2002; IMHOFF, et al., 2003)

quanto ao uso do modelo relacional pra a realizao de consultas complexas. A manipulao

dos dados, incluindo as consultas, muito mais rpida e intuitiva no modelo multidimensional

em comparao ao modelo relacional.

Enquanto uma busca no modelo relacional exige a navegao entre diversas tabelas,

no modelo multidimensional isto no necessrio, o que o torna mais eficiente e com melhor

desempenho. Devido ao grande nmero de tabelas normalizadas do modelo relacional, torna-

se invivel a realizao das consultas, j que preciso fazer um grande nmero de conexes

(inner join) entre as mesmas.

Os benefcios da modelagem multidimensional que ela torna os esquemas de dados

mais compreensveis para os usurios finais, e por outro lado, ela permite usar

armazenamento especfico e tcnicas de acesso que melhoram o desempenho de queries. A

maneira para obter estes benefcios a simplificao dos esquemas de dados, de forma que

eles s contenham as coisas essenciais (i.e. um fato para ser analisado e suas dimenses de

anlise).

Constantemente h atualizao na base de dados e consequentemente as informaes

histricas so perdidas. Na projeo de bases de dados para Data Warehouses, deve-se

quebrar o paradigma dos modelos de dados normalizados utilizados nos BD tradicionais, e

buscar armazenamento histrico/temporal. Ao desnormalizar as tabelas, o projetista do DW

busca ganhar desempenho nas consultas, contudo, no se deve introduzir redundncia em

qualquer lugar do modelo.

A idia dos Data Warehouses geralmente se destina a fornecer uma nica origem aos

dados para todas as atividades de apoio deciso. O propsito de construir uma espcie de

warehouse limitado e de uso especial, adaptado finalidade imediata, uma soluo aos

problemas encontrados com os Data Warehouses coorporativos, visto que desta forma

possvel o acesso mais rpido aos dados, ao contrrio se eles tivessem que ser sincronizados

com todos os outros dados a serem carregados no warehouse completo. Essas consideraes

levaram ao conceito de Data Marts, que ser apresentado no prximo Item.


Existem trs tipos principais de processamentos usados com o Data Warehouses (HAN, et al.,

2006):

Processamento de Informao: suporta consultas, anlises estatsticas e relatrios; Processamento Analtico: ferramentas OLAP e suas operaes; Processamento de Minerao de Dados: descoberta de conhecimento automatizada,

encontrando padres escondidos nos dados. Pode-se realizar visualizaes dos dados,

assim como classificaes e predies atravs das tcnicas de Data Mining.

2.2.1 Data Mart

De acordo com (KIMBALL, et al., 2002 p. 36):

Um Data Mart um Data Warehouse de menor capacidade e

complexidade usado para atender a uma unidade especfica de

negcios. Portanto, so tipicamente mais fceis de construir e

manter.

Um Data Mart, segundo (INMON, 2005) uma coleo de assuntos organizados para

dar suporte tomada de deciso e esto baseados nas necessidades de um determinado

departamento. geralmente descrito como um subconjunto dos dados extrado para um

ambiente separado. Eles so teis nas seguintes condies:

Os dados devem estar segregados para melhorar o desempenho do sistema do ponto de vista do usurio.

Deve existir uma cpia dos dados onde apenas pessoas com autorizao podem ter o privilgio de acess-las.

Em um ambiente corporativo, importante fortalecer o conceito de propriedade dentro do banco de dados. Diferentes setores (Financeiro, Marketing, Vendas, etc.) sero

responsveis por diferentes Data Marts.

Um Data Mart representa uma rea especfica a partir de um nico processo

empresarial, sendo considerado a parte de um todo. por isso que o Data Mart, que uma

abordagem descentralizada do conceito de Data Warehouse, no um pequeno Data

Warehouse, mas sim uma unidade lgica de um DW, podendo ser qualificado como um

Data Warehouse Departamental. A Tabela 2.1 relaciona algumas diferenas entre o ambiente

de Data Mart e o ambiente de Data Warehouse.


Tabela 2.1 - diferenas entre data mart e data warehouse

Data Mart Data Warehouse Departamental (nica rea); Corporativo (mltiplas reas); Nvel ttico; Nvel estratgico;

Otimizado para acesso e anlise; Otimizado para armazenamento e gerenciamento de grandes volumes de dados;

Poucas fontes de dados; Muitas fontes de dados;

Pequenos estgios de implementao (menor tempo)

Mltiplos estgios de implementao (maior tempo);

Fonte: (INMON, 2005)

Observa-se que as principais diferenas entre Data Mart e Data Warehouse esto

relacionadas ao tamanho e o escopo do problema a ser resolvido. Enquanto um Data Mart

trata de problema departamental ou local, um Data Warehouse envolve o esforo de toda a

companhia para que o suporte decises atue em todos os nveis da organizao. Desta

forma, o desenvolvimento de um Data Warehouse requer tempo, dados e investimentos

gerenciais muito maiores que um Data Mart.

De acordo com (INMON, 2005), um dos assuntos em pauta para a rea de TI nos

ltimos anos decidir qual ambiente de apoio deciso desenvolver primeiro, o Data

Warehouse ou os Data Marts. A escolha entre um nico Data Warehouse Corporativo e uma

arquitetura consistindo de muitos Data Marts um ponto de algumas controvrsias entre os

pesquisadores. Uma boa parte dos especialistas defende a implementao de Data Marts

como passo inicial e existe uma unanimidade de especialistas alertando ao usurio que em

momento algum ele pode esquecer o modelo corporativo, sob o risco de obter srios

prejuzos.

Aps o levantamento e definio do conjunto de atributos e dados necessrios para

realizao desta pesquisa, optou-se por implementar um Data Warehouse Departamental, ou

seja, um Data Mart do departamento comercial A escolha se deu em virtude dos dados

adquiridos corresponderem s informaes comerciais dos consumidores e imveis de um

setor da companhia de abastecimento de gua. Os resultados obtidos com aplicao das

ferramentas OLAP e Data Mining sobre o Data Warehouse Comercial visam criao de um

novo ambiente computacional com o propsito de fornecer informao estratgica para a

companhia de saneamento.


A presena de vrios Data Marts em uma mesma companhia oferece alto risco de

redundncia dos dados. Esses ambientes de armazenamento e anlises de dados fisicamente

distintos trazem benefcios e facilidades, entretanto, existe um preo a se pagar. Desta forma,

ao construir Data Marts deve-se sempre ter a preocupao de compartilhamento de dados,

tabelas e relatrios em comum entre os demais departamentos, consequentemente entre os

demais Data Marts. Afinal, relatrios em comum no podem possuir valores diferentes entre

os departamento.

A separao fsica dos dados em diferentes grupos, pela presena de vrios Data

Marts em uma nica companhia, diminui a habilidade de organizao das informaes. A

dificuldade em evitar a inconsistncia dos dados pode ir contra o paradigma de um Data

Warehouse. Afinal, uma das principais motivaes para o surgimento do DW foi eliminar as

inconsistncias dos dados e agrup-los em um nico ambiente de apoio deciso.

2.2.2 Propriedades do Data Warehouse

De acordo com (INMON, 2005), o DW deve seguir quatro propriedades fundamentais,

so elas: Orientado por Temas, Integrado, Variante no Tempo e No Voltil.

A propriedade Orientado por Tema, (INMON, 2005) refere-se importncia de

organizar as informaes pelos temas principais. Para o setor de saneamento, que caracteriza

o estudo de caso deste trabalho, os principais temas so: perfil dos consumidores e imveis,

servio prestado e perdas aparentes.

Cada tema pode envolver vrias tabelas e atributos e podem existir dados

acumulativos e detalhados. Para o tema perfil dos consumidores, por exemplo, os atributos

podem ser os dados cadastrais (nome, endereo, telefone, e-mail), dados das contas e

consumos de gua, etc. Como exemplo de dados acumulativos tem-se a consulta que retorna o

somatrio dos consumos descendentes, agrupados por clientes no perodo de 2007 a 2008.

A propriedade Integrado presente em um DW mostra a necessidade de acoplar

dados de diferentes formatos. Os dados precisam seguir uma conveno padro para que desta

forma eles possam fornecer significados nicos. Um sistema do setor comercial pode

codificar o indicativo de medidor como SIM ou NO. Onde SIM se refere ao consumidor

que possui hidrmetro para medio do consumo de gua e NO caracteriza o consumidor

que no possui hidrmetro para medio. Outro setor da companhia de abastecimento pode


codificar 0 (Tem Hidrmetro) e 1 (No tem Hidrmetro), assim como S (Tem Hidrmetro) e

N (No tem Hidrmetro). Desta forma, necessrio definir uma nica codificao dos dados

extrados para o Data Warehouse.

A terceira propriedade Variante no Tempo em um ambiente de Data Warehouse

determina que os dados no sejam atualizveis e que eles possam ser comparados ao longo do

tempo. Os dados so atribudos como retratos da base de dados operacional atual, onde cada

ocorrncia e cada mudana so consideradas como um novo registro, pois a informao

histrica no perdida.

Contudo, em um Ambiente Transacional2 a atualizao dos dados ocorre em virtude

das mudanas ocorridas. Os dados retornados em consultas correspondem informao no

momento da consulta, e neste caso as consultas histricas no so consideradas3.

Supondo que desejamos recuperar a quantidade de pontos de consumo do consumidor.

Em 2007 o consumidor possua 20 pontos de consumo em sua residncia, j em 2008 passou

para 23 pontos de consumo. A consulta retornar apenas a estado atual dos pontos de

consumo, ou seja, 23. A informao histrica anterior perdida. Entretanto, no DW ao

consultar os pontos de acesso do cliente em 2007, do exemplo acima, o resultado

corresponder ao valor 20.

A ltima propriedade proposta por (INMON, 2005), que a no volatilidade dos

dados, se verifica em banco de dados que disposto fisicamente para otimizaes de

incluses e consultas. Ou seja, no deve ser um banco preparado para atualizaes.

O DW consiste em fornecer apenas acessibilidade aos dados, no permitindo

atualizaes ou alteraes. Ele concede apenas a carga inicial e consulta (acessos) aos dados.

Ao contrrio, a volatilidade uma propriedade bastante observada em ambientes operacionais

tradicionais, pois os registros dos dados so atualizados constantemente.

2 Conhecido tambm por Ambiente Operacional. O termo mais utilizado nesta dissertao Ambiente Transacional. 3 Neste caso no esto sendo mencionados os ambientes que utilizam Banco de Dados Temporais (BDT), apenas os que utilizam Banco de Dados Relacionais.


2.2.3 Granularidade

A questo da granularidade um dos mais importantes aspectos no projeto de Data

Warehouse. Corresponde ao nvel no qual os dados esto sumarizados no Data Warehouse, ou

seja, refere ao nvel de detalhamento das informaes armazenadas. Quanto mais detalhados

os dados, menor a granularidade do DW (granularidade fina ou baixa). Quanto maior o nvel

de granularidade, menor ser os detalhes dos dados (granularidade grossa ou alta).

Segundo (PONNIAH, 2001 p. 23), a granularidade est diretamente ligada ao volume

de informaes armazenadas e aos tipos de consultas que podem ser realizadas pelo usurio

de um DW. Ao definir um nvel muito detalhado, o usurio poder ver a informao em

qualquer nvel de agregao e maior ser o detalhamento das consultas. Contudo, a escolha de

um nvel baixo demais poder ocasionar em um aumento do volume de dados armazenado e,

consequentemente, afetar a performance do sistema. Por outro lado, ao definir um nvel

pouco detalhado, o usurio ficar impossibilitado de realizar consultas mais detalhadas, visto

que o volume de informaes armazenadas menor, porm, permite maior desempenho e

rapidez nas respostas das consultas.

Portanto, quanto mais alto o nvel de granularidade, menor o volume de dados e o

nmero de ndices e, indiretamente, menor o processamento necessrio. O problema existente

que o nvel de granularidade tambm inversamente proporcional ao nmero de consultas

que podem ser atendidas.

A utilizao de apenas um nvel de granularidade em projetos de Data Warehouse no

recomendada como soluo eficiente. Afinal, o nvel de granularidade inversamente

proporcional quantidade de consultas atendidas e/ou desempenho do processamento. O

modelo dimensional (ver item 2.3) o mais utilizado nas aplicaes de DW, e este utiliza

tcnicas de nveis duais de granularidade.

O desenvolvimento de um ambiente com nveis duais de granularidade consiste em ter

dados de um mesmo assunto em granularidades diferentes. A opo pelo uso de nveis duais

tem como finalidade baixos tempos de resposta nas consultas de granularidade alta e anlise

dos dados em maior detalhe nas consultas com nveis de granularidade baixa.

A razo pela qual a granularidade a principal questo de projetos de Data

Warehouses consiste no fato de que ela afeta profundamente o volume de dados, ao mesmo


tempo afeta no tipo de consulta que pode ser atendida. O volume de dados residentes no DW

deve ser balanceado de acordo com o nvel de detalhe de uma consulta.

2.2.4 Arquitetura do Data Warehouse

Em um ambiente projetado de Data Warehouse h duas espcies de dados: Dados

Primitivos (operacionais ou atmicos) e Dados Derivados (de apoio deciso ou

sumarizados). Os dados primitivos consistem em valores referentes ao momento presente, e

so baseados em aplicaes, podem ser atualizados, so detalhados, e processados

repetitivamente. Enquanto que os dados derivados so geralmente valores histricos, baseados

em assuntos ou negcios, so resumidos, ou refinados, no so atualizados, representam

valores de momentos j decorridos ou instantneos e so processados de forma heurstica

(INMON, 2005).

A escolha de dados primitivos para o armazenamento em um DW proporciona vrios

benefcios, porm gera algumas desvantagens. O maior benefcio est na possibilidade de se

pesquisar em base de dados mais rica, proporcionando uma anlise mais aprofundada e

cuidadosa nos dados, o que permite a verificao do histrico, de tendncias, de previses e

de elaborao de cenrios. A principal desvantagem a necessidade de um espao muito

maior nos dispositivos de armazenamento, assim como uma maior capacidade de

processamento para que no haja baixa performance nas consultas e anlises dos dados.

A escolha de dados derivados para o armazenamento em DW tambm traz benefcios

e desvantagens. O maior benefcio que os dados j esto sumarizados, ou seja, j esto

resumidos e armazenados em um formato no qual so mais consultados. Ocupam menos

espao nos dispositivos de armazenamento e a performance das consultas e das anlises dos

dados mais rpida. A desvantagem que o armazenamento dos dados sumarizados limita

bastante a capacidade de pesquisa e de anlise. A maioria das empresas opta pelas duas

formas de armazenamento simultaneamente. Desta forma, somam-se as vantagens e reduzem-

se as desvantagens de ambas.

Segundo (INMON, 2005), com estas diferenas nos dados, tem-se a projeo de

quatro nveis do ambiente arquitetural de um DW, so eles: Nvel Operacional (ou

Transacional), Nvel Atmico (ou Data Warehouse), Nvel Departamental (ou Data Mart) e

Nvel Individual, como mostra a Figura 2.2.


Figura 2.2 - os quatro nveis de dados do ambiente arquitetural de um data warehouse

Fonte: Adaptao de (INMON, 2005)

O nvel Operacional de dados detm apenas a aplicao orientada a dados primitivos e

atende comunidade de processamento de transaes de alta performance. O nvel de Data

Warehouse contm dados primitivos que no so atualizados, alm de alguns dados

derivados. O nvel Departamento contm quase que exclusivamente dados derivados. Este

nvel moldado pelas necessidades dos usurios finais adaptadas s necessidades do

departamento. E o nvel individual de dados onde muitas das anlises heursticas so

realizadas. Segue a Figura 2.3 com exemplos dos quatro nveis de dados.

Figura 2.3 - exemplos de consultas referentes aos quatro nveis de dados


O Nvel Operacional retornar a mdia na medio de consumo de gua do cliente

Joo (nome e endereo fictcio) na ltima medio efetuada, ou seja, em Abril de 2008 e que

corresponde a 24 m3de gua. O registro neste nvel contm os valores recentes do cliente,

onde para se conhecer a situao atual dele, acessado o registro existente neste nvel. Para

alterao dos dados de Joo, o registro do nvel operacional ser alterado, com o objetivo de

refletir os novos dados atualizados.

O segundo nvel, nvel de Data Warehouse, resulta no histrico de consumo do

consumidor Joo, isto : 10,3 m3 entre Maio e Agosto de 2007, 10,5 m3 entre Setembro e

Dezembro de 2007 e mdia de volume de 17,0 m3 entre Janeiro e Abril de 2008. Neste nvel

existem vrios registros do Joo, apresentando o histrico das informaes sobre ele. No h

sobreposio nos registros existentes no ambiente de DW. Quando houve mudana de

endereo do consumidor (da Rua Iolanda para Rua Miramar), foi gerado um novo registro no

DW, refletindo as datas do perodo que Joo residiu naquele local.

O terceiro nvel, nvel de Data Mart, permitir ao executor extrair informaes de

maior complexidade e especfico do negcio, facilitando as tomadas de decises. Um

exemplo seria uma lista com todos os clientes por categoria, sendo o consumidor Joo

includo nesse resumo de cada quadrimestre. Como consulta do nvel 3 tem-se: O volume de

gua em m3 do setor analisado est aumentando ao longo do tempo (relatrio

quadrimestral)?. O retorno desta consulta so as mdias de consumo agrupadas por

quadrimestre (Maio a Agosto de 2007; Setembro a Dezembro de 2007 e Janeiro a Abril de

2008).

Por fim tem-se o nvel Individual, que possibilita a previso de informaes,

fornecendo vises futuras por meio das anlises heursticas. Os dados neste nvel so,

geralmente, temporrios e de pequenas propores.

No exemplo apresentado na Figura 2.3, ao analisar o setor observou-se que a maioria

dos consumidores inadimplentes possui hidrmetros instalados a mais de 10 anos e com

capacidade de vazo de at 3 m3. Ainda no nvel Individual, verificou-se que

aproximadamente metade dos consumidores est com consumo de gua igual a zero, o que

representa hidrmetro parado. Estes resultados indicam casos onde uma inspeo tcnica

poderia ser realizada, afinal os equipamentos de medio podem estar defasados e/ou


danificados, gerando perdas aparentes no sistema. Na seo 3.3.3 proposto um modelo de

Minerao de Dados aplicado inspeo e troca de hidrmetros.

2.3 MODELAGEM DIMENSIONAL

A modelagem dimensional4 uma metodologia que possibilita que os dados sejam

modelados visando aperfeioar o desempenho de consultas e oferecer facilidades de utilizao

a partir de um grupo de eventos simples de medio. A viso dimensional facilita o

entendimento e visualizao de problemas tpicos de sistemas de apoio deciso, mais

intuitiva e eficaz para o processamento analtico e utilizada pelas tecnologias OLAP

(discutidas na seo 2.4).

Trs conceitos esto envolvidos com a modelagem dimensional, so eles: fatos,

dimenses e mtricas (medidas ou atributos). De acordo com (BALLARD, et al., 1998), um

fato uma coleo de itens de dados que consiste de mtricas e do contexto do negcio. A

dimenso uma coleo de itens do mesmo tipo que representa as vises do negcio. A

mtrica definida como um atributo numrico de um fato, e representa o comportamento do

negcio para as dimenses.

Os fatos so reunidos na tabela de fatos. Segundo (KIMBALL, 1997), as tabelas de

fatos normalmente contm dados numricos e somatrios. Como os Data Warehouses

geralmente recuperam muitos registros em uma nica consulta, uma tendncia agrupar os

dados para anlise, pois esta compactao proporciona ganhos de performance. Cada

dimenso possui uma tabela de dimenso associada que armazena as descries textuais das

dimenses do negcio. Cada tabela de dimenso tem uma chave primria que corresponde

exatamente a um dos componentes da chave composta da tabela de fatos.

A Tabela 2.2 a seguir apresenta o modelo dimensional implementado em SGBD

Multidimensional e SGBD Relacional. Os dados da tabela correspondem s mdias de

consumo em m3 das quadras 010, 015, 020 e 025, agrupadas por categoria de consumo

durante o perodo de 2007 a 2008.

4 Os termos modelagem dimensional e modelagem multidimensional so utilizados na literatura para expressar o mesmo conceito. No h uma definio padro que indique uma diferena precisa entre os dois termos.


Tabela 2.2 - exemplo da modelagem dimensional em SGBDS Categoria

Comercial Industrial Residencial

Qua

dra Quadra_010 190.0 - -

Quadra_015 34.3 23.5 114.0 Quadra_020 38.2 - 88.8 Quadra_025 - - 19.8

Modelagem Dimensional em SGBD

Multidimensional Modelagem Dimensional em SGBD

Relacional (PostgreSQL)

A principal vantagem na utilizao de SGBDs Multidimensionais que eles

implementam fisicamente o modelo dimensional. Contudo, uma das desvantagens a

esparsidade, ou seja, clulas que ocupam espaos em disco, mas no contm dados

cadastrados, como caso das quadras 010, 020 e 025. Outra desvantagem considerada

quando o modelo dimensional possui um grande nmero de dimenses, pois traz como

consequncias, problemas de desempenho e tempo maior de processamento das consultas. Os

SGBDs Relacionais possuem uma maior aceitao e utilizao, entretanto, exigem

adaptaes, visto que eles no implementam fisicamente o modelo dimensional.

Existem trs esquemas utilizados para modelagem dimensional dos dados, so eles:

Esquema Estrela (Star Schema), Esquema Floco de Neve (Snowflake Schema) e Esquema

Constelao de Fatos (Facts Constallation Schema).

2.3.1 Esquema Estrela

Idealizado e criado por Ralph Kimball, o Esquema Estrela uma forma de dispor as

tabelas do modelo relacional para o modelo dimensional, podendo ser implementado em BD

relacionais e principalmente, em BD multidimensional (KIMBALL, et al., 2002).

Figura 2.4 - exemplo geral do esquema estrela


Conforme ilustra a Figura 2.4, o Esquema Estrela uma estrutura com tabelas e

ligaes bem definidas, baseado no formato de uma estrela. formado por uma tabela central,

denominada tabela de fatos, a qual possui os dados principais da viso da anlise, ou seja, o

assunto que est sendo analisado, por exemplo, o consumo, as quantidades de inadimplentes, as

quantidades de consumidores, etc. Nela ficam ligadas as tabelas de dimenso, que possuem os

aspectos pelos quais se deseja observar as medidas relativas ao processo que se est

analisando.

De acordo com (HAN, et al., 2006), as tabelas dimensionais so desnormalizadas para

aumentar o desempenho das consultas. A consulta ocorre inicialmente nas tabelas de

dimenso e em seguida na tabela de fatos, assegurando a preciso dos dados atravs de uma

estrutura completa de chaves onde no preciso percorrer todas as tabelas. Isso garante um

acesso mais eficiente e um melhor desempenho.

Ao contrrio das tabelas de dimenso, a tabela de fatos armazena grandes quantidades

de dados histricos, normalmente numricos, obtidos a partir da interseo de todas as

dimenses do Esquema Estrela. Ela tambm armazena os indicadores de desempenho

(medidas) do negcio. Para cada dimenso h uma chave primria que corresponde a um dos

campos, chave estrangeira, da chave da tabela de fatos.

A Tabela 2.3 apresenta um comparativo entre os dois tipos de tabelas do Esquema

Estrela, mostrando as diferenas entre elas.

Tabela 2.3 - comparativo entre as tabelas de fatos e dimenso

Tabela de Fatos Tabela de Dimenso Grande volume de dados Volume comparativamente menor Chave composta Chave simples Referencia cada tabela de dimenso Descrevem os fatos

Histrica Atributos usados como filtro nas consultas Agiliza consultas, pois os fatos (variveis) so usualmente numricos e tipicamente aditivos Desnormalizada (redundncias)

Fonte: (KIMBALL, et al., 2002)

Apesar do Esquema Estrela apresentar desvantagens em termos de espao de

armazenamento devido redundncia dos dados e, principalmente, fazer com que o

desempenho diminua nas operaes de atualizao dos dados, no qual o custo para manter a


integridade muito alto, esta caracterstica no possui importncia em um Data Mart por se

tratar de uma estrutura de dados que sofre pouca ou nenhuma atualizao.

2.3.2 Esquema Floco de Neve

O Esquema Floco de Neve uma extenso do Esquema Estrela e consiste na

decomposio de uma ou mais dimenses, formando hierarquias nas dimenses, isto ,

normalizando-as. Esse tipo de esquema utilizado quando se tem dimenses grandes que so

estticas ou semi-estticas. A Figura 2.5 ilustra um exemplo geral deste tipo de esquema, nele

as dimenses 2 e 4 foram normalizadas.

Figura 2.5 - exemplo geral do esquema floco de neve

A vantagem do seu uso est na diminuio do volume de dados trazido para a

memria, alm dos inner join com a tabela normalizada ser mais facilmente resolvido. No

Esquema Floco de Neve o nmero de relacionamentos entre as tabelas maior, fazendo com

que o tempo de execuo das consultas aumente devido necessidade de operaes de juno.

Durante a especificao das tabelas do Data Mart importante levar em considerao estas

caractersticas de forma a normalizar as tabelas somente nos casos em que no haja uma

grande perda de desempenho. Em geral, recomenda-se utilizar o Esquema Estrela ou o

Esquema Constelao de Fatos, pois ambos possuem dimenses desnormalizadas.

2.3.3 Esquema Constelao de Fatos

O Esquema Constelao de Fatos constitudo de duas ou mais tabelas de fatos que

compartilham uma ou mais dimenses. Esse tipo de esquema pode ser visto como uma

coleo de esquemas estrelas, conforme ilustra a Figura 2.6, na qual a tabela Dimenso 2 e

Dimenso 4 so compartilhadas pela Tabela de Fatos 1 e 2.


Figura 2.6 - exemplo geral do esquema constelao de fatos

Para Data Warehouses (ou Data Marts), o esquema de Constelao de Fatos mais

comumente utilizado, visto que ele pode modelar assuntos mltiplos e inter-relacionados.

Desta forma, o Esquema Constelao de Fatos foi o que apresentou mais adequao para a

modelagem dimensional do Data Mart implementado para este trabalho, visto que algumas

tabelas de dimenso precisaram ser compartilhadas entre as tabelas de fatos. O captulo 1.3,

item 3.2.4, apresenta um exemplo de consulta SQL ao Esquema Constelao de Fatos

modelado para o estudo de caso proposto por este trabalho, e apresenta tambm a tabela

resultante com os valores obtidos da consulta.

Na Figura A.1 do APNDICE A encontra-se a modelagem completa do Esquema

Constelao de Fatos para o Perfil do Setor e das Perdas Aparentes da Companhia de

Abastecimento de gua e Esgoto da Paraba. A Figura A.1 representa a tabela de fatos Perfil

do Setor e suas 11 dimenses, juntamente com a tabela de fatos Perdas Aparentes

associada a suas 12 dimenses. Quatro dimenses (Quadra, Matrcula, Inadimplncia e

Referncia de Consumo) so compartilhadas pelas duas tabelas de fatos.

2.4 TECNOLOGIAS OLAP

Inicialmente, surgiram as tecnologias conhecidas como On-Line Transaction

Processing (OLTP) que atendem s necessidades de operaes transacionais. Elas denotam as

movimentaes tradicionais que acessam registros pequenos e individuais. As principais

operaes neste tipo de processo so alterao, incluso, excluso e consultas. Estas

operaes ocorrem muitas vezes em um mesmo dia e podem ser requisitadas ao sistema

simultaneamente por muitos usurios, o que demanda uma resposta quase imediata do

sistema. (AURLIO, et al., 2000)


As tecnologias On-Line Analytical Processing (OLAP), por sua vez, so projetadas

para apoiar anlises e consultas, alm de auxiliar seus usurios a sintetizar informaes

atravs de comparaes, vises personalizadas e anlises histricas. As tecnologias OLAP

tm como caracterstica principal permitir uma viso mais fcil e intuitiva dos dados

multidimensionais, por meio de anlises em diferentes perspectivas (INMON, 2005).

De acordo com (HAN, et al., 2006), OLAP faz parte do processo que habilita usurios

a explorar os dados do Data Warehouse, fornecendo funcionalidades para anlise interativa de

dados em diferentes dimenses e granularidades.

Alguns tipos de informaes podem ser interessantes ao gerente de uma companhia de

abastecimento, como por exemplo: Qual a quantidade de consumidores, pontos de utilizao

e quantidade de inadimplncias da subcategoria FAVELA, agrupados pelas categorias de

consumo (Comercial, Industrial, Pblico e Residencial), situaes da ligao de gua

(Cortada, Ligada, Suprimida parcial e Suprimida total) e estado de inadimplncia

(Inadimplncia e Adimplncia) dos consumidores?, ou ainda, Qual a mdia de faturamento

das quadras agrupadas pela categoria de consumo comercial e semestres de referncia

(primeiros seis meses e ltimos seis meses de medio)?. Estas e outras consultas utilizando

tecnologias OLAP so apresentadas em detalhes a partir da seo 3.2.6, pgina 93.

O processamento analtico necessrio em diversas situaes no qual se deseja obter

informaes referentes evoluo histrica. Tecnologias OLAP permitem esses tipos de

consultas e melhoram o desempenho de tempo em relao quelas feitas em BD

convencionais, ou seja, BD relacionais.

O On-line Analytical Processing (OLAP), ou Processamento Analtico On-Line,

surgiu pela necessidade de minerar conhecimento e padres em diferentes nveis de abstrao

atravs de anlises multidimensionais dos dados, ou seja, uma viso lgica dos dados. uma

anlise interativa dos dados, atravs de agregaes em todas as intersees de dimenses

necessrias. Permite obter informaes sumarizadas e mostr-las em tabelas 1-D (planilhas),

2-D (dimenses em xy), 3-D (dimenses em xyz), mapas e grficos, com suporte para

modificaes dos eixos. Alm disso, compe anlises estatsticas (razes, mdias, somatrios,

mnimos, mximos, contagens, varincias, etc.) envolvendo quaisquer medidas ou dados

numricos entre muitas dimenses. A Tabela 2.4 mostra as diferenas entre as duas

abordagens, OLTP versus OLAP.


Tabela 2.4 - diferenas entre OLAP e OLTP

OLAP OLTP - Relevncia para dados histricos; - Mantm usualmente a situao corrente; - Necessidade de ver o dado sob diferentes perspectivas: aplicaes dinmicas;

- Voltado para velocidade e automao de funes repetitivas;

- Atualizaes quase inexistentes, apenas novas inseres; - Atualizaes em grande nmero;

- Baseado em dados histricos, consolidados e frequentemente totalizados; - Baseado em transaes;

- Operaes de agregao e cruzamentos. - Alto nvel de detalhe.

Fonte: (COLAO, 2004)

De acordo com (GONZALES, 2003), o termo OLAP tambm usado para descrever

a estrutura de armazenamento dos dados e os mtodos utilizados para acess-los. OLAP

representa diversos tipos de tecnologias que variam no mtodo de

acesso. H trs adaptaes de mtodos de acesso OLAP, que so: OLAP Multidimensional

(MOLAP); OLAP Relacional (ROLAP); OLAP Hbrido (HOLAP).

Os mtodos de acesso do tipo MOLAP utilizam a estrutura de dados multidimensional

e permitem a navegao pelos nveis de detalhamento em tempo real. Utiliza SGBDs

Multidimensionais otimizados ao mximo para as consultas OLAP e com tratamento

dimensional nativo. Requer migrao dos dados do SGBD Relacional para o armazenamento

multidimensional e a sua constante atualizao. Teoricamente, a melhor arquitetura de

acesso a ambientes multidimensionais, mas na prtica deixa a desejar pela falta de SGBDs

Multidimensionais mais consolidados, dificultando sua aplicao.

Os mtodos de acesso do tipo ROLAP a soluo mais utilizada hoje e surgiram em

decorrncia do uso consagrado dos SGBDs Relacionais nos BDs operacionais (transacionais),

com todas as vantagens da tecnologia aberta e padronizada da linguagem SQL. Os dados

obtidos dos bancos fontes so armazenados em SGBDs Relacionais, formando o Data

Warehouse com tabelas implementadas em estruturas relacionais clssicas. O mtodo de

acesso ROLAP foi a soluo adotada neste trabalho.

uma tendncia dos SGBDs Relacionais modernos adicionarem uma arquitetura

multidimensional para prover facilidades ambientes de suporte a deciso. Tal conceito fez

surgir os mtodos de acesso do tipo HOLAP, isto , mistura do ROLAP com o MOLAP, que

proporciona o desempenho e flexibilidade de um BD Multidimensional e mantm a

gerenciabilidade, escalabilidade, confiabilidade e acessibilidade conquistadas pelos BDs


Relacionais. A idia armazenar dados de maior granularidade do DW em estruturas

relacionais normalizadas e os dados agregados de granularidade inferior em estruturas

dimensionais nativas.

A visualizao multidimensional dos dados atravs das tecnologias OLAP favorece a

anlise de vrias dimenses em nica tela, em virtude da estrutura conceitual conhecida por

cubos de dados. A visualizao se d atravs de configuraes tridimensionais de linhas,

colunas, operaes Slice and Dice e grficos, como mostra a Figura 2.7. Os cubos de dados e

operaes Slice and Dice sero discutidos nas sees 2.4.1 e 2.4.2, respectivamente.

Figura 2.7 - visualizao dos dados atravs de ferramenta OLAP pentaho analysis view5

Fonte: Dados do setor de saneamento de Joo Pessoa.

Os dados da Figura 2.7 foram obtidos atravs de uma consulta ao Esquema

Constelao de Fatos implementado para o estudo de caso deste trabalho. O retorno desta

consulta corresponde s mdias de consumo de gua em m3 e mdias da fatura dos

5 A ferramenta OLAP Pentaho Analysis View ser discutida com mais detalhes na seo 3.2.6 (pgina 119).


consumidores adimplentes6 agrupadas por quadra (010, 015, 020 e 025) e por categoria de

consumo durante o perodo de 2007 a 2008.

A Figura 2.8 ilustra a mesma consulta executada acima, contudo, utilizando o software

pgAdmin III (desenvolvido para dar suporte ao SGBD PostgreSQL).

Figura 2.8 - visualizao dos dados atravs do software PgAdmin

A principal vantagem em utilizar uma ferramenta OLAP ao invs de uma ferramenta

puramente de Banco de Dados, a facilidade proporcionada pela ferramenta OLAP quanto

visualizao e manipulao do modelo dimensional (tabelas de fatos e dimenses). Outra

vantagem que o analista no precisa escrever as queries SQL, como ocorre em ambientes

puramente de BD, pois a ferramenta OLAP dispe de interface grfica para d o suporte a

6 Inadimplncia igual a NAO significa que a conta de gua foi quitada pelo consumidor junto companhia de distribuio de gua.


realizao das consultas. Neste trabalho optou-se por utilizar a ferramenta OLAP Pentaho

Analysis View, que apresentada no Captulo 3, item 3.2.6.

2.4.1 Estrutura Multidimensional: Cubo de Dados

A principal caracterstica das tecnologias OLAP permitir uma viso conceitual

multidimensional dos dados de uma empresa. Um cubo de dados uma estrutura que

armazena os dados em formato dimensional. Uma dimenso uma unidade de anlise com

dados agrupados.

Por exemplo, a dimenso tempo tem os dados agregados por meses, quadrimestres e

semestres. A dimenso categoria tem os dados agregados em comercial, industrial, pblico e

residencial, etc. A Figura 2.9 apresenta os dados modelados numa estrutura conhecida por

Cubo, onde cada Dimenso (D1, D2 e D3) representa um tema importante da companhia para

realizao de anlises e comparaes. O cubo da Figura 2.9 Fato Perfil do Setor e suas

dimenses so Categoria, Status da gua e Status do Esgoto.

Figura 2.9 - (a) um cubo de dados com trs dimenses. (b) busca tridimensional de clulas no cubo

Fonte: Adaptao de (RAINARDI, 2008).

A partir da modelagem do Esquema Estrela, Floco de Neve ou Constelao de Fatos

pode-se construir os cubos de dados e realizar buscas nesse espao multidimensional. Os

cubos de dados so vises lgicas multidimensionais dos dados com referncia hierrquica.

As tecnologias OLAP fornecem funcionalidades para anlise interativa de dados em

diferentes vises e granularidades, permitindo visualizar as hierarquias e navegar pelas

dimenses (THOMSEN, 2002).


As operaes sobre os cubos de dados foram introduzidas por (GRAY, et al., 1996)

visando suportar mltiplas agrega

Documents

Dissertacao Roberta