Metodologia para Implantação de Data Warehouse

Embed Size (px)

Citation preview

  • 8/14/2019 Metodologia para Implantao de Data Warehouse

    1/32

    METODOLOGIA

    PARA

    IMPLEMENTAO DE PROJETOS

    DE

    DATA WAREHOUSE

    Autor: Felipe Ferreira

    E-mail:[email protected]

    [email protected]

    Rio de Janeiro, 6 de dezembro de 2004

    mailto:[email protected]:[email protected]:[email protected]:[email protected]:[email protected]:[email protected]:[email protected]
  • 8/14/2019 Metodologia para Implantao de Data Warehouse

    2/32

    ii

    RESUMO

    Motivado pelo interesse nas diversas tecnologias e ferramentas de apoio

    deciso, este trabalho foi desenvolvido com o objetivo de organizar uma metodologiaeficiente no desenvolvimento evolutivo de data warehouse, baseado nos conceitos e

    tcnicas existentes.

    Implementar um data warehouse est longe de ser uma tarefa fcil, mesmo

    considerando o desenvolvimento por assuntos (Data Marts). Faz-se necessria uma

    ateno especial para o mtodo de desenvolvimento. Este trabalho apresenta as fases do

    projeto de implementao do data warehouse: levantamento, modelagem, extrao,

    modelagem multidimensional, anlise de resultados, vises pr-definidas e segurana.

  • 8/14/2019 Metodologia para Implantao de Data Warehouse

    3/32

    iii

    SUMRIO

    Resumo ii

    1. Introduo 12. Tecnologias 3

    3. Infra-estrutura 5

    4. Metodologia 9

    4.1. Levantamento 9

    4.2. Modelagem 11

    4.3. Extrao de dados 14

    4.4. Modelagem Multidimensional 17

    4.5. Anlise de Resultados 19

    4.6. Vises Pr-definidas 20

    4.7. Segurana da Informao 21

    6. Estudo de Caso 24

    7. Concluso 27

    8. Lista de Abreviaes e Siglas 28

    9. Referncias Bibliogrficas 29

  • 8/14/2019 Metodologia para Implantao de Data Warehouse

    4/32

    1. INTRODUO

    Com o advento da computao, surgiram os primeiros programas para

    transformao de dados em informao. Junto vieram alguns complicadores, como:

    tempo de processamento, volume de dados, formas de acesso, meios fsicos etc. As

    tecnologias evoluram, porm o conceito permanece. Transformar dados em informao

    a principal razo da existncia da informtica.

    Os primeiros programas comerciais foram criados para auxiliar os processos

    organizacionais, tais como folhas de pagamento, contabilizao e controles de estoque.

    Apesar da evoluo das tecnologias estes aplicativos ainda so to essenciais quanto os

    sistemas especialistas.

    Com o passar do tempo muitos aplicativos foram desenvolvidos para

    automatizar os processos. Como conseqncia o volume de dados crescia ainda mais,

    dificultando a obteno de informaes para anlise e tomada de deciso.

    Na dcada de 80 surgiram os primeiros sistemas comerciais para auxlio

    tomada de deciso. Tinham como objetivo resumir os dados essncias e organiz-los. O

    crescente volume e a complexidade para obter os dados, de diferentes fontes, tornaram

    estes aplicativos ineficientes medida que no disponibilizavam as informaes

    necessrias para tomada de deciso em tempo hbil. Observa-se que no importa ter

    apenas os dados se a informao no est disponibilizada em momentos decisivos.

    Surgiram na dcada seguinte os sistemas integrados (ERP) que agilizaram

    processos, otimizando recursos. Como promessa destes mega-sistemas, todas as

    informaes necessrias seriam obtidas a partir deles. Porm, outros sistemas

    especialistas ainda permaneciam por serem estratgicos e mais eficientes. Permanecia

    tambm o problema da disponibilizao da informao no momento certo. Aconcorrncia de transaes da operao das empresas com busca de informaes em

    altos volumes de dados comearam a comprometer o ambiente. Ficando bem

    caracterizado a que se destinavam os sistemas integrados: otimizar as transaes das

    empresas.

    A evoluo das tecnologias de busca de informao para tomada de deciso e a

    necessidade de organizar os dados motivaram o estudo cientfico do problema. Segundo

    INMON Um data warehouse um conjunto de dados baseado em assuntos, integrado,

  • 8/14/2019 Metodologia para Implantao de Data Warehouse

    5/32

    2

    no voltil e varivel em relao ao tempo, de apoio s decises. (1997, pg 33) Ele

    demonstra em sua obra as principais tcnicas para construo de um data warehouse.

    A integrao dos dados, associadas a tcnicas e ferramentas, no data warehouse

    proporcionam um ambiente de dados organizados por assuntos para obteno deinformaes para tomada de deciso. Imagina-se ento que o DW seja um ambiente

    onde todas as informaes, para tomada de deciso, so obtidas.

    Construir um DW est longe de ser uma tarefa fcil. As tcnicas e as

    ferramentas no so suficientes para garantir o xito na construo. necessria uma

    metodologia capaz de levar sua implementao. INMON acrescenta que a tentativa

    de aplicar ferramentas e tcnicas de desenvolvimento inadequadas conduz apenas a

    desperdcio e confuso. Por exemplo, no mundo CASE predomina a anlise baseada emrequisitos. Tentar aplicar as ferramentas e tcnicas CASE ao mundo do Data warehouse

    no aconselhvel e vice-versa. (1997, pg 24) No ciclo de vida do DW predominam

    os dados e a informao resultante da organizao da base de dados.

    Mesmo considerando seu desenvolvimento em partes (Data Marts) deve-se ter

    a viso do todo para garantir a integrao das informaes. O armazm de dados (DW)

    no pode ser apenas um repositrio, onde os dados de diferentes aplicaes esto na

    mesma base de dados centralizada. Os dados devem estar organizados para refletir aviso do negcio de forma integrada.

    A metodologia descrita a seguir tem como objetivo uma orientao para

    desenvolvimento evolutivo do data warehouse. Dividida em fases bem caracterizadas

    pelo agrupamento das principais tcnicas relacionadas. Ela descreve a finalidade de

    cada fase, identificando os pontos crticos e descrevendo sucintamente as principais

    tcnicas.

    As fases do projeto de implementao do data warehouse, por assunto, so:

    levantamento de dados, modelagem de dados, extrao de dados, modelagem

    multidimensional, anlise de resultados, vises pr-definidas e segurana da

    informao. Alm da descrio das fases do projeto tambm so abordadas neste

    trabalho as tecnologias relacionadas ao data warehouse, a infra-estrutura necessria e

    administrao do data warehouse.

    Numa definio singular, para este trabalho, o data warehouse considerado

    como: o repositrio de dados para tomada de deciso.

  • 8/14/2019 Metodologia para Implantao de Data Warehouse

    6/32

    3

    2. TECNOLOGIAS

    Em parte o data warehouse a evoluo de algumas tecnologias. Outras que

    surgiram em paralelo ao conceito de DW tambm evoluram e possuem grandes

    benefcios se estiverem integradas. Tambm existe um grupo de tecnologias mais

    recente que foram influenciadas pela deficincia ou amadurecimento do conceito. A

    seguir so definidas algumas das tcnicas e ferramentas relacionadas com o data

    warehouse.

    Os Sistemas de Informaes Gerenciais (SIGs) foram uma das primeiras

    tentativas de criao de um ambiente nico de informaes para tomada de deciso.

    Eles foram desenvolvidos para disponibilizar relatrios que atendessem ao corpo

    gerencial das organizaes. Porm, estes sistemas ainda no utilizavam tcnicas de

    organizao de dados especficas que suportassem um ambiente com crescimento

    escalar.

    Como evoluo dos SIGs os Executive Information Systems (EIS) foram

    desenvolvidos para melhorar a interface com os executivos e solucionar alguns

    problemas de performance. De acordo com INMON por meio dos EIS o analista

    executivo pode localizar problemas com preciso e detectar tendncias que so de vital

    importncia para a gerncia.(1997, pg 237) Estes sistemas tambm eram suportados

    pela tecnologia OLAP.

    A tecnologia OLAP (On-Line Analytical Process) constitui um sistema de

    armazenamento de dados agregados. Determinadas informaes so obtidas a partir de

    dados pr-calculados disponveis para consulta direta, sem a necessidade da pesquisa

    dos dados elementares e consolidao em tempo de execuo, otimizando assim o

    processo de consulta de dados. Estes sistemas tambm so conhecidos como

    multidimensionais ou cubos, por permitirem a consulta de informaes por mltiplas

    vises.

    O armazm de dados (DW), em si, suportado por um Sistema Gerenciador de

    Banco de Dados (SGBD), onde os dados extrados dos sistemas transacionais so

    armazenados. O DW tambm utiliza a tecnologia OLAP para permitir as consultas

    analticas On-Line.

  • 8/14/2019 Metodologia para Implantao de Data Warehouse

    7/32

    4

    importante contextualizar algumas tecnologias que so influenciadas ou

    dependentes do DW para preparao de um ambiente que suporte de forma eficaz tais

    tecnologias.

    Atualmente os EISs, associados com o data warehouse, podem serconsiderados como sistemas de BI (Business Intelligence). Outras tecnologias como

    Data Mining tambm influenciam o BI, na descoberta de conhecimento.

    Obter informao de uma grande base de informaes (DW) pode se tornar

    uma tarefa difcil, mesmo que organizada por assuntos. Explorar as informaes, por

    meio de ferramentas analticas, pode no ser eficaz quando no se tem a certeza do que

    se est procurando. A tecnologia de Data Mining, com seus algoritmos e tcnicas pode

    ser facilitada se existir uma fonte de dados organizada. CARVALHO relata que emuma empresa que deseja analisar o contedo da massa de dados criada por suas

    atividades, um processo de unificao precisa ser efetuado de forma a possibilitar o

    acesso de um indivduo (analista) s mltiplas faces desta informao. Para que o data

    mining seja realizado, necessrio o acesso a uma massa de dados limpa, consistente e

    unificada em sua linguagem e lgica. Certamente que analistas vm realizando data

    mining h muitos anos, utilizando ferramentas simples e bancos de dados separados,

    porm a construo de um data warehouse em muito facilita o processo de minerao dedados e de deciso. (2001, pg 193)

    SWIFT define que CRM totalmente dependente de um local centralizado de

    dados detalhados sobre clientes, seus comportamentos e suas preferncias, incluindo

    detalhes especficos sobre privacidade de dados: o data warehouse. (2001, pg 65)

    Analisar as informaes contidas no data warehouse, com crescente volume de

    dados, pode no ser eficiente com relatrios, books, grficos etc. So muitas

    informaes a serem analisadas. Algumas corporaes esto adotando o Balanced

    Scorecard (BSC) como uma metodologia de gesto, onde so definidos indicadores de

    performance. Para estes indicadores so definidas metas e aes dentro da organizao.

    Sistemas de BSC disponveis no mercado tm maior eficincia se integrados ao data

    warehouse, caso contrrio tero que buscar os dados para os indicadores diretamente

    nos sistemas transacionais.

    Outro sistema relacionado ao BSC o de Performance Management (PM),

    tambm conhecido como Business (BPM), Corporate (CPM) ou Enterprise Performance

  • 8/14/2019 Metodologia para Implantao de Data Warehouse

    8/32

    5

    Management (EPM), que definem as metas dos indicadores. Estes sistemas, muitas

    vezes, utilizam o histrico dos indicadores como fonte para clculo das metas.

    Fica evidente assim que a construo do data warehouse deve levar em

    considerao como as informaes sero utilizadas e integradas a outros sistemas eprocessos das instituies.

    A metodologia de implementao de data warehouse, por assuntos, descrita

    neste trabalho pelas fases de:

    Definio da infra-estrutura

    Levantamento de dados

    Modelagem de dados

    Extrao de dados

    Modelagem multidimensional

    Anlise de resultados

    Vises pr-definidas

    Segurana da informao

    Administrao

    3. INFRA-ESTRUTURA

    A infra-estrutura dever suportar o ambiente projetado, com alto crescimento

    de dados, consultas complexas e no previstas (ad-hoc), diversidade de integrao,

    diferentes tipos de tecnologias etc. O produto final do DW sero os dados, organizados

    e de fcil entendimento.As ferramentas a serem utilizadas para a construo do data warehouse sejam,

    talvez, uma das menores preocupaes que o arquiteto tenha. Integrar os sistemas,

    organizar os dados e disponibilizar as informaes sero preocupaes constantes.

    Desta forma, no importa muito qual o fornecedor ou marca devemos escolher, porm

    algumas caractersticas devem ser levadas em considerao.

    Como dito anteriormente, a principal ferramenta de um data warehouse o

    Banco de dados (SGBD), onde os dados extrados dos sistemas transacionais ficaro

  • 8/14/2019 Metodologia para Implantao de Data Warehouse

    9/32

    6

    armazenados. Ele dever suportar: grandes volumes de dados, alta performance para

    carga de dados e consulta de informaes, flexibilidade para alterao de estruturas,

    fcil administrao e operao, baixo custo por usurio, integrao com diferentes

    plataformas e sistemas, etc. Devem-se evitar utilizar caractersticas que dificultem a

    migrao para outra plataforma. Em longo prazo, por questes de custo, pode ser

    necessria uma mudana de plataforma. Com tanta integrao e a utilizao do DW por

    toda organizao o custo de licena de uso, por usurio, deve ser considerado desde o

    incio como um fator crtico. Sendo os dados o mais importante, a estrutura de

    organizao dos dados deve ser muito bem conhecida, documentada e de fcil acesso.

    Para suportar consultas complexas e no previstas (ad-hoc) necessrio que

    tanto dados detalhados quanto totalizadores, frmulas e conjuntos de dados possam serconsultados com o menor tempo de resposta possvel. A infra-estrutura do data

    warehouse deve possuir uma ferramenta que suporte este tipo de consulta. As

    ferramentas OLAP possuem tais caractersticas, simplificando assim o trabalho de

    agregao e visualizao das informaes.

    THOMSEN define que os conceitos de OLAP incluem a noo ou idia de

    mltiplas dimenses hierrquicas e podem ser usados por qualquer um para que se

    pense mais claramente a respeito do mundo, seja o mundo material da escala atmica escala galctica, o mundo econmico dos micros agentes macro economias, ou o

    mundo social dos relacionamentos interpessoais aos internacionais. Em outras palavras,

    mesmo sem qualquer tipo de linguagem formal, til apenas sermos capazes de pensar

    em termos de um mundo multidimensional e com mltiplos nveis, independentes da

    sua posio na vida.

    Outras linguagens formais, incluindo Data Definition Language (DDL), Data

    Manipulation Language (DML), Data Representation Language (DRL) e seusanalisadores associados (e compiladores opcionais), poderia ser usada para qualquer

    modelagem descritiva, seja ela transacional ou de suporte tomada de deciso. Em

    outras palavras, a associao de OLAP com suporte tomada de deciso mais uma

    funo das caractersticas fsicas de otimizao dos produtos OLAP do que quaisquer

    caractersticas inerentes das construes de linguagem do OLAP.

    As camadas de produto do OLAP normalmente residem em cima dos bancos

    de dados relacionais e geram SQL como sada da combinao. O armazenamento e oacesso aos dados so tratados pelo banco de dados.

  • 8/14/2019 Metodologia para Implantao de Data Warehouse

    10/32

    7

    Produtos OLAP completos, que precisam incluirum compilador e mtodos de

    armazenamento e acesso, so otimizados para acesso a dados e clculos rpidos, sendo

    usados para a modelagem descritiva de dados, derivada de sistemas de suporte tomada

    de deciso (DSS Decision Support Systems). A fronteira entre linguagens e produtos

    OLAP no demarcada com clareza.(2002, pg 5)

    Resumidamente, as ferramentas OLAP fazem parte da infra-estrutura do Data

    Warehouse para consolidao de dados (agregao), aplicao de regras de negcio,

    clculos (frmulas) e disponibilizar a viso multidimensional.

    Para obter os dados do ambiente operacional para o data warehouse, podem ser

    utilizadas vrias linguagens, formas de acesso, conectores de dados e meios fsicos

    diferentes (discos, fitas, rede etc). Segundo INMON, primeira vista, quando os dadosso movidos do ambiente herdado para o ambiente do data warehouse, parece que nada

    alm de simples extraes de dados de um local para o prximo est ocorrendo. Em

    virtude dessa enganosa simplicidade, muitas empresas comearam a construir seus data

    warehouses manualmente. O programador olha para a movimentao de dados do

    antigo ambiente operacional para o novo data warehouse e declara: Eu posso fazer

    isso! Munido de lpis e formulrio de codificao, nos trs primeiros minutos do

    projeto e desenvolvimento do data warehouse, o programador ansiosamente mergulhana criao do cdigo.

    Contudo, primeiras impresses podem ser muito enganadoras. O que em um

    primeiro momento parece ser nada mais do que a movimentao de dados de um local

    para outro transforma-se, rapidamente, em uma grande e complexa tarefa muito maior

    e mais complexa do que o programador negociou.(1997, pg 115)

    Como veremos adiante, em detalhes, no tpico de extrao de dados, so

    necessrias algumas tcnicas para esta tarefa. verdade que, por meio de programao,

    a extrao de dados possa ser feita. Sendo assim a extrao de dados uma das camadas

    da arquitetura do data warehouse. O fato da extrao de dados poder ser executada por

    programao no significa que seja a mais eficiente. O alto volume de dados, a

    diversidade de tecnologias envolvidas e a complexidade de transformaes podem

    dificultar a manuteno dos extratores e o tempo de desenvolvimento comprometido.

    Para atender a esta camada algumas empresas fornecedoras de software

    desenvolveram ferramentas de ETL (Extract Transform and Load), facilitando em muito

  • 8/14/2019 Metodologia para Implantao de Data Warehouse

    11/32

    8

    a integrao e operacionalizao. Considerando que a fase de extrao pode consumir

    cerca de 70% do tempo de desenvolvimento do projeto. Abrir mo de uma ferramenta

    de ETL pode ser um grande risco para o projeto e compromet-lo. Investir numa

    ferramenta, que garanta a integrao e atenda aos requisitos da extrao de dados, no

    mnimo aconselhvel. Alm disso, usualmente os fornecedores no cobram por

    conectores ou pontos de integrao e sim como um pacote, portanto investir mais nestas

    ferramentas no ir aumentar os custos medida que o data warehouse se expandir.

    Para que a arquitetura do data warehouse esteja completa necessrio uma

    ltima camada. A consulta, anlise e visualizao das informaes compem esta

    camada. Apesar dos bancos de dados possurem formas de acesso e as ferramentas

    OLAP vises multidimensionais, necessrio que os usurios possam acessar asinformaes de forma integrada ao seu ambiente de trabalho. Como requisito mnimo

    para a arquitetura do data warehouse deve-se considerar uma ferramenta que acesse os

    dados armazenados e de forma exploratria possam analisar os dados. Outra forma de

    acesso, de forma orientada, so os portais de informao, que so constitudos por

    vises pr-definidas, consultas e relatrios pr-formatados.

    Nas quatro camadas descritas acima (armazenamento, extrao, consolidao e

    anlise) devemos considerar o alto volume de dados, mltiplos acessos simultneos ealta disponibilidade. Esta preocupao garantir a escalabilidade do ambiente do data

    warehouse.

    Outro fator muito importante est na flexibilidade que o ambiente deve possuir

    para atender as constantes mudanas de viso do negcio. Uma empresa que opera com

    apenas um produto pode passar a comercializar outros, assim como uma empresa pode

    se tornar uma grande organizao composta por diferentes unidades de negcio. No

    necessrio que estas mudanas estejam previstas no data warehouse, porm aimplementao delas no pode ser inviabilizada pela arquitetura utilizada.

    INMON observou que outra importante diferena entre os ambientes

    operacionais e de data warehouse so os padres de utilizao de hardware que ocorrem

    em cada ambiente. (1997, pg 25) No processamento operacional h picos e plats no

    processamento, mas h uma constante de utilizao elevada e estvel. No DW h uma

    utilizao binria, ou seja, totalmente utilizado ou simplesmente no est. INMON

    acrescenta que esta diferena fundamental consiste em mais uma razo para o fato deque tentar combinar os dois ambientes na mesma mquina e ao mesmo tempo no

  • 8/14/2019 Metodologia para Implantao de Data Warehouse

    12/32

  • 8/14/2019 Metodologia para Implantao de Data Warehouse

    13/32

    10

    A principal abordagem para construo do DW pela implementao de Data

    Marts, que so assuntos especficos das reas das empresas. Os Data Marts tm sua

    origem na construo de cubos, pela utilizao da tecnologia OLAP. Esta abordagem

    considerada por alguns autores como ineficiente por no considerar a integrao com

    outras bases de dados dentro do data warehouse. Outra caracterstica dos Data Marts, a

    ser considerada, a implementao em partes para se chegar ao todo (Bottom-Up).

    Mesmo considerando a construo do DW por partes, alguns Data Marts

    podem ser muito complexos. Os Data Marts podem ter como origem mais de uma base

    de dados e cada uma com dezenas ou centenas de tabelas. Como orientao para o

    trabalho de levantamento de dados outras fontes devem ser analisadas.

    Analisando as principais questes, referentes ao assunto, pode-se observar queexistir a carncia por algum tipo de informao especfica ou que a informao atual

    no confivel, conflitante com dados de outra rea da empresa ou fora do tempo para

    tomada de deciso. Desta forma so identificados problemas analticos que no so

    solucionados pelos sistemas transacionais, como exemplo a anlise de comportamento

    dos clientes ao longo do tempo. Caso o sistema transacional tente solucionar este tipo de

    questo ele pode se tornar ineficaz para as transaes ou gerar a informao fora do

    tempo.O direcionamento para as principais questes pode ser dado pelos gestores e

    executivos da organizao, desta forma possvel traar um alinhamento com a viso

    estratgica da empresa. A equipe coordenadora do Data Warehouse deve ter acesso ao

    plano estratgico da empresa, bem como ter o pleno entendimento da viso da empresa.

    Numa anlise mais ampla devem-se revisar os processos das reas relacionadas

    com o assunto, onde so observadas as regras de negcio. Estas regras podem dar

    origem s transformaes na fase de extrao de dados. Em geral as transformaes

    podem ocorrer por questes tcnicas, mudanas de formatos ou uma viso de negcio.

    As transformaes por viso de negcio acontecem em geral por adaptao dos

    processos das empresas aos sistemas, normalmente em casos de implantao de ERPs.

    Outra fonte que pode auxiliar nesta fase de levantamento de dados so

    relatrios gerenciais, que muitas vezes so improvisados em planilhas eletrnicas a

    partir da coleta de dados de vrias fontes. comum encontrar nestes relatrios os

    principais indicadores monetrios e fsicos (quantitativos).

  • 8/14/2019 Metodologia para Implantao de Data Warehouse

    14/32

    11

    A anlise das bases de dados dos sistemas transacionais pode ser iniciada pela

    pesquisa das tabelas com maior volume de dados. Estas tabelas normalmente so

    referentes a eventos ou fatos que ocorrem com freqncia, indicados por campos de data

    ou perodo. Comumente estas tabelas so definidas como ordens, itens, detalhamento

    etc. Os atributos destas tabelas so compostos, em grande parte, por chaves estrangeiras

    (foreign key) e indicadores. Os indicadores so dados quantitativos, monetrios, taxas e

    medidas. As tabelas relacionadas com a tabela de eventos (ou fatos) podem dar origem

    s dimenses, que so as diferentes vises que se poder ter do assunto.

    Aps a anlise das bases de dados, dos relatrios e reunies de levantamento

    deve ser produzida uma especificao com a definio do assunto, os objetivos da

    anlise do assunto, as principais questes, a definio das regras de negcio, osindicadores, as mltiplas vises do assunto, o mapeamento dos dados das bases de

    origem e a periodicidade para extrao dos dados.

    O mapeamento dos dados deve ser bastante detalhado para facilitar o trabalho

    na fase de extrao de dados. Neste mapeamento de dados devem ser indicados as bases

    de dados, arquivos, tabelas, campos, atributos, formatos etc.

    Esta especificao ser utilizada durante todo o projeto do Data Mart como

    orientao para que os objetivos sejam atingidos.

    4.2.MODELAGEM

    Identificados os dados que devero ser extrados dos sistemas transacionais

    pode-se iniciar a modelagem para armazenamento no data warehouse.

    A modelagem para o DW tem grande influncia das ferramentas OLAP que,

    por questes de performance e visualizao das informaes, dependem de um modelo

    estrela. Este modelo, de forma resumida apresenta os fatos ao centro e todas as

    dimenses relacionadas aos fatos. Existem algumas variaes desse modelo como o

    modelo em cascata (snowflake), que para algumas tabelas de dimenses estaro

    relacionadas com outras tabelas. Estas tabelas relacionadas s dimenses daro origem,

    em grande parte, a nveis de consolidao da dimenso no modelo multidimensional,

    como ser discutido mais adiante.

    O modelo lgico para um Data Mart bastante simples, com algumas

    restries. O relacionamento dos fatos com as dimenses no podero ter cardinalidade

  • 8/14/2019 Metodologia para Implantao de Data Warehouse

    15/32

    12

    N para N, ou seja, um fato no pode estar relacionado com mais de um elemento de uma

    tabela de dimenso. Os elementos das tabelas de dimenso estaro relacionados com

    vrios itens da tabela de fatos, caracterizando assim a necessidade de agregao.

    A desnormalizao de dados no data warehouse aceita e em muitos casosindicada para solucionar problemas de performance e espao em disco, combinando

    dados de vrias tabelas do modelo de dados dos sistemas transacionais em uma tabela

    de fatos ou dimenso. INMON interessante observar que, no data warehouse, essas

    circunstncias ocorrem regularmente em funo de os dados serem baseados em

    parmetros de tempo. Os dados do data warehouse sempre apresentam relevncia em

    relao a um determinado momento, e unidades de tempo ocorrem com grande

    regularidade. Em um data warehouse, a criao de um array por ms, por exemplo, algo muito natural. Outra importante tcnica de projeto especialmente relevante para o

    ambiente de data warehouse consiste na introduo intencional de dados

    redundantes.(1997, pg 100) Contudo, algumas ferramentas de mercado esto cada vez

    mais adaptadas aos conceitos de data warehouse. Tirando grande proveito do ambiente

    relacional, sem perder o conceito, para construir bases multidimensionais (OLAP) com

    maior eficincia. Sendo assim, no devemos abrir mo da desnormalizao para tudo,

    mas sempre que necessrio.

    Um dos aspectos mais importante na modelagem definir a granularidade dos

    dados. As bases de dados transacionais possuem muitos dados de controle das

    transaes que talvez no sejam relevantes para tomada de deciso. INMON A razo

    pela qual a granularidade a principal questo de projeto consiste no fato de que ela

    afeta profundamente o volume de dados que residem no data warehouse e, ao mesmo

    tempo, afeta o tipo de consulta que pode ser atendida. O volume de dados contidos no

    data warehouse balanceado de acordo com o nvel de detalhe de uma consulta.(1997,

    pg 45)

    Outro paradigma a ser rompido em relao aos sistemas transacionais

    referente representao de acontecimentos passados. KIMBALL Os sistemas OLTP e

    data warehouse tratam o tempo de forma diferente. O melhor sistema OLTP um status

    instantneo dos negcios de uma organizao, atualizado constantemente medida que

    as transaes so concretizadas. Os valores-chave do negcio devem mudar a cada

    minuto ou segundo. O status muda continuamente e os relacionamentos entre asentidades so alterados. (1998, pg 100) No DW estes instantneos sero armazenados

  • 8/14/2019 Metodologia para Implantao de Data Warehouse

    16/32

    13

    e identificados com uma marca de tempo, onde poderemos observar as mudanas de

    comportamento, seja de clientes ou produtos.

    Algumas dimenses no data warehouse devem ser observadas com mais

    ateno, pois possuem grande relevncia para a integrao dos dados. Quandoimportamos os fatos dos sistemas transacionais para o DW observamos sempre que

    possuem o atributo de tempo. Portanto, a dimenso de tempo ter grande importncia

    para o modelo de dados do data warehouse. Outra caracterstica importante podermos

    definir atributos comuns para os fatos, atravs do tempo, como: feriados, acontecimento

    importante (externos ou internos da organizao), dia da semana etc.

    Fatos diferentes podem dar origem outra dimenso que deve ser observada

    com ateno. A relao de fatos realizados com previstos ou calculados o conceito deverso, que representado usualmente nos data warehouses como uma dimenso de

    verso.

    Mais recentemente, com a evoluo dos conceitos de marketing, e mais

    especificamente do marketing de relacionamento, o cliente tem ganhado maior ateno

    dos analistas de data warehouse, com o intuito de atender as necessidades dos sistemas

    de CRM (Customer Relationship Management). Modelar os dados dos clientes de forma

    que seja possvel observar as mudanas do mesmo, ao longo do tempo, fundamentalpara atender a esta finalidade.

    Diferentemente da modelagem de dados dos sistemas transacionais, com os

    modelos de entidade e relacionamento (MER), no data warehouse o modelo de dados

    fsico se apresenta muito semelhante ao lgico, seguindo o conceito estrela e suas

    variaes. Porm, a preocupao ser no armazenamento, objetivando maior

    performance e menor custo de espao para o armazenamento de dados.

    Devemos ter maior ateno para as tabelas de fatos, pois noventa por cento dos

    dados de cada Data Mart sero armazenados nestas tabelas. As tabelas de fatos sero

    compostas por dois grupos de atributos chaves estrangeiras e indicadores. O

    dimensionamento correto dos tipos de dados das chaves das dimenses e dos

    indicadores determinar o espao necessrio para o armazenamento.

    A granularidade das tabelas de fatos poder ser reavaliada aps alguns anos de

    dados armazenados. INMON comenta sobre nveis duais de granularidade, onde na

    maior parte do tempo, h uma grande demanda por eficincia no armazenamento de

  • 8/14/2019 Metodologia para Implantao de Data Warehouse

    17/32

    14

    dados e no acesso a eles bem como pela possibilidade de analisar dados em maior

    detalhe. (Em outras palavras, a organizao quer fazer o gol e defender ao mesmo

    tempo!) Quando uma organizao possui grandes quantidades de dados no data

    warehouse, faz sentido pensar em dois (ou mais) nveis de granularidade na parte

    detalhada do data warehouse. (1997, pg 49) Deve ser observado que, efetuando este

    tipo de modelagem, alguma informao ser perdida ao longo do tempo.

    Outro aspecto a ser considerado no modelo fsico o particionamento dos

    dados. O particionamento permitir o gerenciamento flexvel dos dados e a distribuio

    de bases de dados por unidades de negcio de forma descentralizada.

    Resumidamente o modelo de dados do data warehouse refletir a organizao

    dos fatos e dimenses na base de dados.

    4.3.EXTRAO DE DADOS

    O data warehouse dependente dos sistemas transacionais internos ou externos

    das instituies. Os sistemas transacionais so a fonte de dados para o data warehouse,

    como a matria-prima para a fabricao de um produto. Interligar estes ambientes to

    heterogneos, com: tecnologias diversificadas, diferentes bases de dados, formatos

    diferentes, conexes e distncias; torna a fase de extrao de dados a mais trabalhosa,consumindo cerca de 70% do tempo da equipe do data warehouse.

    Quando a integrao entre os sistemas transacionais e o DW no possui um

    suporte tecnolgico ideal, possvel subdividir esta fase em: extrao e importao dos

    dados. As transformaes sero tratadas no momento da importao.

    possvel extrair os dados dos sistemas transacionais no formato adequado

    para simples importao no data warehouse. Porm, esta pode no ser a estratgia mais

    adequada, pois as transformaes possivelmente ficariam nos ambientes transacionais,

    tornando-os mais complexos. Outro fator a manutenibilidade das regras de negcio

    que, desta forma, de nada agregar aos sistemas transacionais implementar as regras de

    transformao. Esta situao ainda poder trazer problemas de performance para o

    ambiente transacional, com processos concorrentes entre extratores e transaes ou

    processos operacionais.

    Deve-se manter a integrao entre estes ambientes a mais automtica possvel,

    evitando a manipulao de dados pelos usurios e reduzindo risco a falhas. As

  • 8/14/2019 Metodologia para Implantao de Data Warehouse

    18/32

    15

    ferramentas de ETL (Extract Transform and Load) so de suma importncia para a

    integrao dos ambientes transacionais e o data warehouse.

    Com base na especificao definida no levantamento de dados sero

    produzidas novas especificaes de desenvolvimento: definio dos extratores eespecificao das importaes dos dados. Tendo estas especificaes bem definidas

    possvel execut-las em paralelo.

    As especificaes dos extratores contero a definio da seleo dos dados,

    critrios de seleo, formato de sada, objetos que devem ser criados, parmetros da

    interface, script de teste e controles de erro.

    A seleo dos dados e os critrios de seleo definiro quais os objetos,

    campos e tabelas, dos sistemas transacionais sero manipulados e qual a relao entre

    eles. Os critrios de seleo tambm podero conter restries fixas da seleo dos

    dados, que sejam exclusivamente referentes complexidade de busca dos dados do

    sistema transacional especfico, no sendo assim nenhuma transformao de dados.

    O formato de sada basicamente define a ordem dos campos, largura de colunas

    e converses elementares, tais como formato de data.

    Os parmetros da interface so os critrios de seleo enviados pelo processo

    principal de carga de dados que coordena as interfaces.

    Os controles de erro so fundamentais para a integrao com o ambiente do

    data warehouse, onde podero ser monitoradas as falhas no processo para comunicao

    aos administradores dos sistemas.

    O script de teste a descrio de como a extrao pode ser executada e qual o

    resultado esperado. Este teste permite a validao do processo independentemente da

    integrao com o data warehouse.

    Como produto das especificaes de extrao so produzidos alguns objetos,

    tais como: programas, arquivos, conectores etc. A especificao dever conter tambm

    o local de armazenamento dos objetos.

    Observa-se que as interfaces dos extratores devem ser flexveis, permitindo

    assim a re-execuo dos processos para correo de erros. Deve-se ter como objetivo

    primrio na definio dos extratores que qualquer processo possa ser executado a

    qualquer tempo. Mesmo considerando que a definio da periodicidade de extrao

  • 8/14/2019 Metodologia para Implantao de Data Warehouse

    19/32

    16

    definida na especificao de levantamento de dados e alinhada com a necessidade da

    rea de negcio, os extratores devem possuir a capacidade de serem executados a

    qualquer tempo para correo de problemas adversos.

    Com a periodicidade definida, deve-se buscar o menor volume de dadospossvel dos sistemas transacionais. INMON Outro importante problema diz respeito

    ao acesso eficiente aos dados dos sistemas existentes. Como pode o programa que varre

    os sistemas existentes saber se um arquivo j foi varrido anteriormente? H uma enorme

    quantidade de dados no ambiente de sistemas existentes e a tentativa de efetuar

    varreduras completas toda vez que feita uma varredura para o data warehouse

    antieconmica e pouco realista. H trs tipos de carga que podem ser feitos do ambiente

    operacional para o data warehouse: o carregamento de dados histricos, o carregamentode dados de valor corrente no ambiente operacional e o carregamento de alteraes do

    data warehouse a partir de alteraes (atualizaes) que tenham ocorrido no ambiente

    operacional desde a ltima atualizao do data warehouse.(1997, pg 76)

    Para solucionar o problema do corte dos dados podem ser empregadas algumas

    tcnicas: marcar de tempo, arquivo de log ou auditoria, arquivo delta, imagem anterior /

    posterior e alterao da aplicao do sistema transacional.

    A performance de carga de dados estar relacionada diretamente com o volumede dados extrado do sistema transacional. Podem-se empregar tcnicas de segmentao,

    principalmente dos fatos, para carreg-los em paralelo.

    As especificaes de importao de dados devem tratar de como os dados

    devem ser carregados no data warehouse. Este processo tambm contempla a

    coordenao dos sub-processos para carga de cada uma das interfaces das tabelas de

    dimenses e fatos. Esta especificao deve conter as definies do: mapeamento tcnico

    dos dados da origem para as tabelas do data warehouse, as transformaes de tipos de

    dados, as transformaes de substituio de chaves, transformaes das regras de

    negcio e verificao dos possveis erros no processo de extrao.

    As interfaces com alto grau de acoplamento, ou seja, com tecnologias similares

    ao data warehouse, podem ser tratadas em apenas uma especificao.

    Uma particularidade da extrao dos dados a converso inicial dos dados dos

    sistemas transacionais para o data warehouse. Aps o desenvolvimento dos extratores

    possvel iniciar a carga de dados para o data warehouse. Porm, vale avanar para as

  • 8/14/2019 Metodologia para Implantao de Data Warehouse

    20/32

    17

    prximas fases do projeto at a anlise de resultados, onde algumas validaes podem

    ser executadas e possivelmente trar modificaes para os extratores de dados. Por fim,

    aps as modificaes, os dados devem ser convertidos por perodos. Tentar trazer todos

    os dados de uma s vez no recomendado, podendo causar grande impacto nos

    sistemas transacionais, que j esto em ambiente produtivo.

    comum verificarmos que, aps a carga dos dados dos sistemas transacionais

    para o data warehouse, muitas informaes no possuem o valor esperado. Aps as

    primeiras cargas de dados, necessrio fazer uma anlise criteriosa das informaes.

    Muitos dados podem no estar qualificados, ou seja, os dados contidos nos sistemas

    transacionais no esto consistentes. Este problema de qualificao e anlise dos dados

    abordado com mais detalhes na fase de anlise de resultados, onde o analista desuporte a deciso tem grande participao no processo.

    4.4.MODELAGEM MULTIDIMENSIONAL

    Aps a carga de dados poderamos considerar que o data warehouse est

    concludo. Porm, como todo sistema pressupe a entrada, processamento e sada,

    devemos considerar a anlise dos dados como sada primria do data warehouse.

    O modelo de dados lgico e fsico, descrito anteriormente, do data warehouse constitudo por uma viso multidimensional, em estrela. Porm, eles representam,

    respectivamente, uma viso de entendimento do negcio e como os dados estaro

    armazenados no DW. A modelagem multidimensional formar uma camada

    intermediria entre a base de dados e as ferramentas de consulta de dados, que sero

    definidas mais frente.

    Especificamente nesta fase ser tratada a questo da utilizao das ferramentas

    OLAP. Os principais conceitos da tecnologia OLAP so: viso multidimensional,agregao de dados, anlise exploratria e clculos. THOMSEN define que os

    requisitos funcionais para OLAP possuem um formato central e perifrico. Os requisitos

    centrais, raiz, necessrios ou mnimos no lado lgico incluem suporte para mltiplas

    dimenses, hierarquias, frmulas dimensionais e separao de estrutura de dados e

    representao. Fisicamente, o principal requisito velocidade suficiente para oferecer

    suporte anlise ocasional. Qualquer linguagem ou produto que no aceite pelo menos

    esses requisitos no pode, com seriedade, ser classificado como oferecendo suporte aOLAP.(2002, pg 20)

  • 8/14/2019 Metodologia para Implantao de Data Warehouse

    21/32

    18

    A caracterstica de ser multidimensional, das ferramentas OLAP, permite que

    os assuntos (Data Marts) sejam analisados por diferentes vises (prismas, ngulos etc).

    Esta caracterstica est intimamente ligada a anlise exploratria que permite ao analista

    de suporte a deciso investigar os dados, adquirindo conhecimento, validando

    suposies, anlise de tendncias e confrontando diferentes aspectos do assunto, entre

    outras anlises possveis.

    Se considerssemos uma base de dados ideal que, para qualquer consulta

    executada, o tempo de resposta fosse sempre imediato, uma das questes mais

    importantes tratadas pelas ferramentas OLAP no seria necessria. A agregao das

    informaes, executada pelo processamento das ferramentas OLAP, disponibilizar

    imediatamente as informaes, independente da complexidade da consulta. Se asagregaes foram feitas por demanda deve ser de forma imperceptvel para os analistas

    de suporte deciso. De forma simplista as ferramentas OLAP devem calcular (agregar)

    todas as combinaes e totais possveis para que as informaes sejam consultadas em

    tempo hbil para tomada de deciso, independente da quantidade de dados armazenada

    na base de dados do data warehouse.

    Tecnicamente a fase de modelagem multidimensional onde so

    desenvolvidos os cubos, definindo as vises multidimensionais nas ferramentas OLAP.Grande parte do trabalho, para esta fase, j foi executado na fase de modelagem, com a

    definio das tabelas de fatos e dimenses. Contudo, necessrio configurar a

    ferramenta OLAP para definir a origem dos dados para consolidao das informaes.

    Algumas das regras de negcio, identificadas no levantamento de dados, estaro

    explicitadas por meio de frmulas na estrutura dos cubos, como membros calculados.

    Nesta interface entre a base de dados do data warehouse e a ferramenta OLAP

    importante que ela seja flexvel, permitindo a adaptao de novas regras de negcio doconstante amadurecimento das organizaes. Como importante recurso para comportar

    estas adequaes os SGBDs vises (view), ou seja, consultas predefinidas que so

    armazenadas na estrutura do banco de dados, reduzindo assim o esforo para

    manuteno dos cubos.

    Portanto, o modelo multidimensional dever refletir as possveis vises e

    responder a maioria das questes identificadas na fase de levantamento de dados.

    Permitindo assim que os analistas de suporte a deciso executem consultas analistas On-Line.

  • 8/14/2019 Metodologia para Implantao de Data Warehouse

    22/32

    19

    4.5.ANLISE DE RESULTADOS

    Esta fase pressupe que as informaes j esto disponveis para anlise. No

    necessrio que todos os dados j tenham sido carregados para o data warehouse, mas

    uma parte significativa que permita a avaliao dos resultados. Neste ponto do projeto o

    analista de suporte a deciso tem a responsabilidade de validar as informaes contidas

    no data warehouse. O analista dever observar a conformidade das informaes

    disponibilizadas com a especificao produzida na fase de levantamento de dados.

    Este trabalho dever ser o mais rigoroso possvel, pois a partir das informaes

    contidas no data warehouse e disponibilizadas elas sero usadas para a tomada de

    deciso. Uma informao errada pode causar mais prejuzos que a falta delas.

    Neste ponto o analista de suporte a deciso, com o apoio do arquiteto do data

    warehouse, podero identificar falhas no processo de extrao. Tambm ser possvel

    qualificar as informaes obtidas a partir das bases de dados dos sistemas transacionais,

    identificando campos que no foram preenchidos corretamente ao longo dos anos de

    produtividade desses sistemas. A viso macro das informaes, disponibilizada pelas

    ferramentas OLAP, permitir aos analistas descobrir fatos no identificveis no

    ambiente transacional. Eventualmente estas anlises serviro para definio de novas

    regras de negcios e requisitos para os sistemas transacionais, tais como a

    obrigatoriedade do preenchimento de determinados dados ou novas regras de

    integridade.

    O trabalho da anlise de resultados inicia um novo ciclo no desenvolvimento

    do Data Mart, obrigando ao arquiteto do data warehouse reavaliar os dados dos sistemas

    de origem, ajustar a especificao e passar pelas fases de modelagem, extrao e

    modelagem multidimensional para que as informaes sejam novamente analisados.

    Garantir a confiabilidade das informaes do data warehouse uma tarefa

    constante, mesmo aps a implementao do Data Mart. Fatos externos, adequaes a

    legislao e mudanas organizacionais podem afetar de forma direta ou indiretamente o

    data warehouse. A confiabilidade das informaes do data warehouse deve ser mantida

    realizado validaes peridicas e ajustando os dados da base de dados constantemente.

    Caso as validaes no ocorram com freqncia comum acontecer dos usurios

    deixarem de consultar as informaes, tomarem decises baseadas em dados errados ou

  • 8/14/2019 Metodologia para Implantao de Data Warehouse

    23/32

    20

    fazer com que os executivos percam a confiana nas informaes de tal modo que se

    determine a descontinuidade do projeto todo.

    O comprometimento dos executivos e analistas de suporte a deciso

    fundamental para o sucesso do projeto, garantindo confiana nas informaes econtinuidade.

    4.6.VISES PR-DEFINIDAS

    Grande parte das informaes j foi disponibilizada para os usurios de suporte

    a deciso, atravs da utilizao das ferramentas OLAP. Porm nem todas as consultas

    devem ser feitas de forma exploratria, obrigando aos usurios a pesquisa desde o

    incio.

    Esta fase do projeto tratar da disponibilizao de vises direcionadas e

    freqentemente extradas do DW, atravs de relatrios. Existem alguns grupos de

    relatrios que sero disponibilizados: relatrios gerenciais, consultas complexas,

    indicadores, consultas direcionadas etc.

    Em muitos casos estes relatrios so disponibilizados por meio de portais de

    informao. Onde os gestores, que no dispe de muito tempo para explorar as

    informaes e em grande parte dependentes do trabalho dos analistas de suporte a

    deciso, podero consultar as informaes periodicamente e norteando sua equipe, de

    acordo com o alinhamento estratgico da organizao.

    Os relatrios gerenciais, agora obtendo os dados pelo data warehouse, com a

    garantia de que a informao estar disponvel para tomada de deciso em tempo hbil,

    integrada a outras vises da empresa e a verso nica da verdade. A unicidade da

    informao garantir que nenhum relatrio conflitante seja apresentado aos gestores.

    Num ambiente integrado algumas anlises podem ser feitas de forma orientada,

    onde os analistas de suporte a deciso e os gestores podem navegar entre relatrios

    obtendo o detalhe necessrio para suas concluses e observao de comportamento de

    vendas, clientes, produtos etc.

    Mesmo num ambiente proporcionado pelas ferramentas OLAP algumas

    consultas sero muito complexas para que os analistas de suporte a deciso possam

    desenvolver seus relatrios sem o auxlio do arquiteto do data warehouse. Estesrelatrios necessitam de profissionais tecnicamente preparados para utilizao de

  • 8/14/2019 Metodologia para Implantao de Data Warehouse

    24/32

    21

    funes especficas das linguagens de consulta de dados das ferramentas OLAP ou da

    utilizao de ferramentas de Data Mining.

    Algumas das principais questes, documentadas na especificao do

    levantamento de dados, podero ser respondidas com a criao de vises pr-definidas,j que as informaes esto disponveis.

    Os indicadores da empresa podero estar disponibilizados como vises

    predefinidas e possivelmente alinhados com conceitos de gesto organizacionais, como

    Balanced Scorecard (BSC).

    A camada de vises pr-definidas poder obter as informaes diretamente da

    base de dados do data warehouse ou pela configurao de consultas aos cubos.

    4.7.SEGURANA DA INFORMAO

    Grande parte das informaes disponibilizadas no data warehouse refletem as

    vises tticas e estratgicas das organizaes, portanto nem todos podero ter acesso a

    estas informaes. Esta fase deve tratar de quem pode, quem deve, como pode e por

    onde as informaes devem ser consultadas.

    A poltica de segurana para o ambiente do data warehouse deve ser muito

    flexvel, permitindo que pessoas com perfis macro ou mais especficos possam acessar

    as informaes de sua responsabilidade ou interesse empresarial.

    Cada um ao seu nvel de deciso ou de anlise deve acessar a informao,

    porm existiro alguns grupos especficos da organizao que devero ter acesso quase

    irrestrito ao data warehouse, so as reas de: planejamento estratgico, controladoria e

    inteligncia de marketing.

    Deve-se ter muito cuidado ao disponibilizar canais externos, tais comoExtranets, para consultas ao data warehouse. Estes canais, se existirem, devem ser

    monitorados constantemente e com altos requisitos de segurana.

    Outra questo crucial para este ambiente, em relao segurana, garantir

    que as informaes contidas no data warehouse caiam em mos erradas, os

    concorrentes. necessrio uma poltica de segurana rgida para a equipe de

    administrao e operao do data warehouse.

  • 8/14/2019 Metodologia para Implantao de Data Warehouse

    25/32

  • 8/14/2019 Metodologia para Implantao de Data Warehouse

    26/32

    23

    Em alguns casos manter os padres de desenvolvimento podem ser mais

    interessante que obter a melhor performance possvel. Utilizar linguagens de pouco

    conhecimento da equipe, ou de profissionais do mercado, pode no ser uma estratgia

    segura para a administrao do data warehouse.

    O data warehouse deve possuir ao menos dois ambientes similares, um de

    produo e outro de desenvolvimento. Para implementaes crticas aconselhvel um

    ambiente de validao dos desenvolvimentos e de performance. Os ambientes de

    validao e desenvolvimento devem ter caractersticas prximas ao de produo pois

    trataro do mesmo volume de dados. Outra vantagem de possuir os ambientes similares

    criar uma contingncia para o ambiente de produo.

    A janela de extrao de dados dos sistemas transacionais deve ter atenoespecial dos administradores. Eles devem observar a concorrncia com os ambientes

    transacionais e garantindo que as informaes sejam disponibilizadas no prazo previsto

    e com a periodicidade correta.

    Outro aspecto importante da administrao do data warehouse a continuidade

    do projeto, verificando se as regras de negcio esto em constante validao pelos

    usurios e a documentao do projeto atualizada. A questo da reviso das regras de

    negcio to importante que outra caracterstica dos data warehouses possuir umabase de metadados.

    Alguns papis devem estar bem definidos para a equipe de manuteno do data

    warehouse. Alguns deles so: arquiteto de solues, administrador de dados, analista de

    suporte a deciso, analista de negcio, administrador de banco de dados,

    desenvolvedores, patrocinadores do projeto. Talvez o arquiteto de solues seja a pea

    fundamental para a construo e manuteno do data warehouse. Ele dever ter a viso

    do todo, desde integrar os diferentes sistemas transacionais ao data warehouse a

    disponibilizao dos dados para os analistas. O administrador de dados (AD) deve ser

    responsvel pelos metadados, pela integrao das bases de dados e organizao dos

    dados. O AD dever ter profundo conhecimento da modelagem, tanto lgica, fsica e

    multidimensional. O analista de suporte a deciso dever garantir continuamente que as

    informaes esto corretas, comunicando as mudanas das regras de negcio e a viso

    do negcio. Seu alinhamento com a equipe de administrao do data warehouse deve

    ser o mais fiel possvel. O administrador de banco de dados (DBA) poder ser o mesmodo ambiente transacional, contanto que tenha disponibilidade para solucionar os

  • 8/14/2019 Metodologia para Implantao de Data Warehouse

    27/32

    24

    problemas emergenciais e entenda perfeitamente as caractersticas dos dois ambientes.

    Os desenvolvedores sero responsveis pela codificao dos extratores de dados,

    exigindo deles conhecimento de diferentes tecnologias para integrao com sistemas

    transacionais, e pela programao dos relatrios e vises pr-definidas. Os

    patrocinadores do projeto devero definir as prioridades, acompanhar o projeto e

    garantir a continuidade.

    6. ESTUDO DE CASO

    A INFOGLOBO COMUNICAES LTDA uma empresa com abrangncia

    nacional, atuando no mercado de Jornalismo. Seus principais produtos so o Jornal O

    Globo, Jornal Extra, Jornal Dirio de So Paulo e Globo On-line.

    Para se manter como lder de mercado a INFOGLOBO investiu, nos ltimos

    dois anos, 70% dos seus recursos em Tecnologia de Informtica. Nos ltimos 10 anos,

    desde 95, foram investidos 15% em Tecnologia. A principal mudana na linha de

    investimento o direcionamento para o seu ambiente transacional, na implementao do

    sistema de ERP da SAP. Antes os investimentos estavam voltados para a rea industrial.

    Porm o montante investido anualmente manteve-se no mesmo patamar.

    Contudo, o sistema no atende a todas as necessidades, principalmenterelacionadas a informaes para tomada de deciso. Porm, o ERP fundamental para a

    estratgia da empresa em expanso para novos mercados. Mais recentemente focados na

    Internet e outras regies.

    Seu histrico de implementao de sistemas informao desde 94, com os

    sistemas de informao gerenciais (SIGs). Em 96 a empresa adquiriu as licenas para o

    ESSBASE 3.2, atualmente fornecido pela Hyperion. O ESSBASE uma ferramenta

    OLAP, que atendia as necessidades da empresa at 99. Juntamente com esta ferramentafoi desenvolvido um sistema de EIS. Com a implantao do ERP os executivos

    acreditavam que o sistema de EIS seria totalmente desativado. De fato ele foi, porm a

    rea de tecnologia j estudava os conceitos de data warehouse. Observamos que, aps a

    implantao do ERP, vrios controles em planilhas eletrnicas. Como conseqncia

    informaes conflitantes e com critrios diferentes eram apresentadas em reunies

    estratgicas.

  • 8/14/2019 Metodologia para Implantao de Data Warehouse

    28/32

    25

    Em 99, apoiado pelas reas financeira e comercial, inicio-se o projeto de

    construo do data warehouse da empresa. Foram estudados os principais conceitos e

    buscaram-se as ferramentas que teriam melhor custo benefcio para a empresa. Alinhado

    aos objetivos estratgicos, procurou-se criar um ambiente integrado ao ERP e aos

    sistemas legados, bem como outros sistemas especialistas. Os principais benefcios

    trazidos pela implementao do data warehouse foram: maior segurana na informao,

    disseminao da informao, compartilhamento da informao com outras reas,

    confiabilidade na informao e agilidade para tomada de deciso.

    O projeto comeou pela reavaliao das informaes existente, definindo assim

    quais as necessidades imediatas. Este trabalho permitiu o dimensionamento da infra-

    estrutura e escolha da ferramenta. A INFOGLOBO comparou as principais ferramentasdo mercado. Foram avaliadas: o BW, Business Object (BO), SQL Server, Cognos, IQ

    Multiplex e Essbase 6.0. Foram avaliadas as seguintes caractersticas: integrao com o

    ambiente tecnolgico da empresa, modelo de dados pr-definido, ferramenta prpria de

    ETL, ferramenta de modelagem multidimensional, estrutura de armazenamento fsico

    da base de dados OLAP, complexidade de administrao, custo de consultoria, custo de

    software do servidor, custo de licenas de usurios e custo de manuteno anual.

    Considerando a infra-estrutura tecnolgica e os custos de consultoria, software,licena de usurio e manuteno anual, a empresa optou pelo SQL Server. Os

    conhecimentos da equipe na ferramenta eram mnimos e o mercado ainda no

    acreditava na ferramenta. Sendo considerado por muitos com um banco de dados no

    confivel para grandes bases de dados.

    O SQL Server atendia a todos os requisitos tcnicos, por possuir as

    caractersticas: repositrio de dados (SGBD), integrao com outros sistemas (ETL),

    viso multidimensional, consolidao de dados, front-end integrado e escalabilidade.

    Aps a definio e configurao da infra-estrutura necessria, partiu-se para

    um projeto piloto de implantao dos Data Marts da rea financeira, que j era muito

    bem atendida pelo EIS com ESSBASE. Com a implantao do Data Mart da rea

    financeira obtivemos timos resultados de performance, modificando completamente a

    dinmica dos processos da rea. Os Data Marts existentes na plataforma do ESSBASE

    foram migrados para o novo ambiente, considerando os conceitos de data warehouse.

  • 8/14/2019 Metodologia para Implantao de Data Warehouse

    29/32

    26

    Com o sucesso da rea financeira e confiana na arquitetura do data

    warehouse, buscou-se novas reas de interesse estratgico para a empresa. Neste ponto

    ficou evidente a necessidade de uma metodologia que permitisse a expanso do data

    warehouse de forma consistente e eficiente. Aliado s tcnicas dos papas do data

    warehouse, como INMON e KINBALL, foi definida a metodologia que traria a

    eficincia para atender a outras reas.

    Seguindo a metodologia, com as fases descritas neste trabalho a empresa pode

    expandir o data warehouse para as reas de publicidade, venda avulsa do Dirio de So

    Paulo, jurdico e suprimentos. Recentemente foi feito um estudo para avaliao da infra-

    estrutura adotada, com auxlio de consultoria da Microsoft, para garantir a

    escalabilidade da arquitetura adotada.Para identificar novas oportunidades de implementao de novos Data Marts

    foi definida uma mtrica que indique a prioridade para o desenvolvimento do projeto.

    Nesta mtrica so levados em considerao os seguintes parmetros: importncia da

    rea para o negcio, complexidade, disponibilidade da informao, conhecimento da

    equipe e dos analistas de suporte a deciso.

    Atualmente esto em andamento os projetos dos Data Marts de assinante,

    venda avulsa dos produtos do Rio de Janeiro, distribuio e recursos humanos. Estesprojetos foram indicados para os executivos da empresa, considerando a mtrica de

    identificao de oportunidades.

    Com a implantao dos primeiros Data Marts foi passvel avaliar o impacto no

    negcio, verificando a dinmica das reas atendidas. Na rea de planejamento e controle

    foi observado que o processo oramentrio ficou mais gil e mais detalhado. Permitindo

    que a rea execute simulaes a cada hora, quando s era possvel fazer uma

    consolidao por dia e totalmente dependente da rea de tecnologia para executar o

    processo. Na rea de contabilidade societria permitiu-se que o prazo de fechamento

    fosse reduzido de 6 para 2 dias. Com isto, os executivos puderam melhor avaliar os

    prazos de pagamento dos fornecedores, melhorando o controle do fluxo de caixa da

    empresa.

    Antes da implantao do Data Mart da rea de publicidade, ocorriam

    problemas de concorrncia no SAP, entre a captao de anncios e jobs que eram

    executados, durante o dia para, para anlise histrica das vendas. Com a implantao

  • 8/14/2019 Metodologia para Implantao de Data Warehouse

    30/32

    27

    deste Data Mart, a rea passou a poder executar anlises dos melhores clientes, de

    diferentes formas: por produto, canal, ramo de atividade dos clientes, unidade de

    negcio etc. No ERP s era possvel executar uma nica consulta de ranking de

    anunciante por dia, que demorava 6 horas de processamento. Atualmente a execuo

    deste processo no DW dura 2 minutos. A captao de anncios no aumentou por

    conseqncia disto, porm foi possvel reduzir os investimentos de hardware para o

    ambiente do ERP. Atualmente a rea de publicidade dependente do DW para tomada

    de deciso, sendo necessrio um monitoramento de falhas e correo imediata caso

    ocorra algum problema.

    Tambm foi possvel melhorar a anlise de risco, com a viso macro dos

    problemas relacionados com aes judiciais contra a empresa. Neste trabalho foinecessrio que antes da implementao do Data Mart fosse desenvolvido um sistema,

    mesmo que simples, para o controle do processos, que antes eram feitos em planilhas

    eletrnicas. Atualmente a rea pensa em reavaliar o sistema transacional para melhorar

    o controle das provises.

    Mesmo considerando a confiana nas ferramentas adotada a empresa estuda a

    possibilidade de mudana da ferramenta para o BW, por consider-la mais integrada as

    ferramentas de ERP e CRM. Contudo, as informaes, principal produto do datawarehouse, esto sendo organizadas para uma possvel integrao com outras

    tecnologias.

    7. CONCLUSO

    Fundamentalmente as tcnicas foram essenciais para a definio da

    metodologia. A experincia da aplicao da metodologia tambm foi essencial para que

    ela realmente se mostrasse eficiente na implementao e na expanso de projetos dedata warehouse.

    Fica evidente tambm que os dados e, conseqentemente, as informaes

    devem ser armazenados e organizados de forma independente das ferramentas

    utilizadas. Sendo assim a metodologia se enquadra a este requisito bsico do conceito de

    data warehouse.

    Uma das questes polmicas do conceito de data warehouse por se tratar de

    um projeto utpico, pois criar uma fonte de dados nica para tomada de deciso pode

  • 8/14/2019 Metodologia para Implantao de Data Warehouse

    31/32

    28

    no se aplicar s condies da realidade. As instituies esto em constante mudana,

    com novas implementaes de sistemas transacionais, mudanas de plataforma,

    mtodos de trabalho diferentes e mudanas de estrutura organizacional. Porm os

    benefcios da implementao do data warehouse so, comprovadamente pelo mercado,

    inegveis. Diz-se que um projeto de data warehouse no tem fim, pois ele est em

    constante evoluo para acompanhar as mudanas.

    Contudo a metodologia ainda requer um aperfeioamento, com definies mais

    rgidas das documentaes e especificaes.

    8. LISTA DE ABREVIAES E SIGLAS

    BIBusiness Intelligence

    BSCBalanced Scorecard

    BMPBusiness Performance Management

    CASEComputer Aided Sotware Engineering

    CLDSCiclo de vida baseado em dados

    CPMCorporate Performance Management

    CRMCustomer Relationshio Management

    DBAData Base Administrator

    DDLData Definition Language

    DMLData Manipulation Language

    DRLData Representation Language

    DSSDecision Support Systems

    EISExecutive Information System

    EPMEnterprise Performance Management

    ERPEnterprise Resource Planning

    ETLExtract Transform and Load

    MERModelo Entidade-Relacionamento

    OLAPOn-Line Analytical Processing

  • 8/14/2019 Metodologia para Implantao de Data Warehouse

    32/32

    29

    OLTPOn-Line Transaction Processing

    SDLCCiclo de vida do desenvolvimento de sistemas clssicos

    SGBDSistema Gerenciador de Bando de Dados

    SQLStructured Query Language

    9. REFERNCIAS BIBLIOGRFICAS

    Carvalho, Lus Alfredo Vidal deDatamining: a minerao de dados no marketing,medicina, economia, engenharia, e administrao.

    Editora rica2001

    Inmon, William H.Como Construir o Data WarehouseEditora Campos1997

    Jacobson, ReedMicrosoft SQL Server 2000 Analysis Services Step by StepMicrosoft Press - 2000

    Kimball, RalphData Warehouse ToolkitMakron Books1998

    Machado, Felipe Nery RodriguesTecnologia e Projeto de Data Warehouse

    Editora rica - 2004Madruga, RobertoGuia de Implementao de Marketing de Relacionamento e CRM

    Editora Atlas2004

    Nolan, Sean e Huguelet, TomSQL Server 7.0 Data Warehousing TrainingMicrosoft Press1999

    Pyle, DorianData preparation for data miningAcademic Press1999

    Seidman, ClaudeData Minnig with MS SQL Server 2000Microsoft Press2001

    Swift, RonaldCRM, customer relationshio management: O Revolucionrio Marketingde Relacionamento com o Cliente

    Editora Campus2001

    Thomsen ErikOLAP: Construindo sistemas de informaes multidimensionaisEditora Campus2002

    Ville, Barry deData Mining: integrated business for e-commerce and knowledge

    managementDigital Press2001