44
DATA WAREHOUSE INTRODUÇÃO Informações importantes em uma organização, armazenadas em grandes bancos de dados, geralmente heterogêneas e distribuídas, são pouco aproveitadas para dar suporte à decisão. Tentando minimizar problemas de distribuição e heterogeneidade, no centro deste ambiente está o conceito de Data Warehouse. A tecnologia de Data Warehouse surgiu principalmente devido às dificuldades que muitas organizações começaram a passar pela quantidade de dados que suas aplicações estavam gerando e à dificuldade de reunir estes dados de forma integrada para uma análise mais eficiente. A idéia, então, foi reunir em um único local, somente os dados considerados úteis no processo decisório. Em um exemplo prático, suponhamos uma empresa de transporte aéreo. Através da tecnologia Data Warehouse pode-se obter a informação sobre qual mês do ano há uma maior procura por vôos para o Rio de Janeiro, ou ainda, para qual local os  jovens com menos de vinte e cinco anos estão viajando através d os meios aéreos. Tendo em mãos essas informações em tempo hábil – em outras palavras, antes da concorrência – os executivos dessa organização podem dispor mais vôos para o Rio de Janeiro no mês de maior procura e, a respeito dos jovens, talvez fosse interessante disponibilizar algum tipo de lazer diferenciado durante a viagem. De posse destas informações, os executivos/usuários do Data Warehouse dispõem de mecanismos que permitem, a partir de seu velho e volumoso banco

datawarehouse_artigo bom_parei modelo de dados.pdf

  • Upload
    emanoel

  • View
    15

  • Download
    0

Embed Size (px)

Citation preview

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    1/44

    DATA WAREHOUSE

    INTRODUO

    Informaes importantes em uma organizao, armazenadas em grandes bancos

    de dados, geralmente heterogneas e distribudas, so pouco aproveitadas para

    dar suporte deciso. Tentando minimizar problemas de distribuio e

    heterogeneidade, no centro deste ambiente est o conceito de Data Warehouse.

    A tecnologia de Data Warehouse surgiu principalmente devido s dificuldades que

    muitas organizaes comearam a passar pela quantidade de dados que suas

    aplicaes estavam gerando e dificuldade de reunir estes dados de forma

    integrada para uma anlise mais eficiente. A idia, ento, foi reunir em um nico

    local, somente os dados considerados teis no processo decisrio.

    Em um exemplo prtico, suponhamos uma empresa de transporte areo. Atravs

    da tecnologia Data Warehouse pode-se obter a informao sobre qual ms do ano

    h uma maior procura por vos para o Rio de Janeiro, ou ainda, para qual local os

    jovens com menos de vinte e cinco anos esto viajando atravs dos meios areos.

    Tendo em mos essas informaes em tempo hbil em outras palavras, antes

    da concorrncia os executivos dessa organizao podem dispor mais vos para

    o Rio de Janeiro no ms de maior procura e, a respeito dos jovens, talvez fosse

    interessante disponibilizar algum tipo de lazer diferenciado durante a viagem.

    De posse destas informaes, os executivos/usurios do Data Warehouse

    dispem de mecanismos que permitem, a partir de seu velho e volumoso banco

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    2/44

    de dados, extrair dados que sero de grande utilidade e que daro maior

    lucratividade a mdio-longo prazo.

    O nosso exemplo se aplica a empresas privadas, mas o Data Warehouse tambmpode ser aplicada em organizaes governamentais pblicas. Tendo em mos um

    Data Warehouse, o Secretrio da Sade, por exemplo, pode obter a informao

    de qual regio da cidade ocorreram mais casos de dengue nos ltimos cinco anos

    e, em quais meses desses anos, houve uma maior incidncia desse vrus.

    Os avanos da tecnologia de informao vieram garantir a possibilidade das

    organizaes manipularem grandes volumes de dados e atingirem um alto ndice

    de integrao. Dados de todos os departamentos de uma organizao podem

    estar em uma nica base de dados, integrados, padronizados e resumidos para

    serem analisados pelos tomadores de decises.

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    3/44

    DESENVOLVIMENTO DO PROJETO DE DATA WAREHOUSE

    EVOLUO DOS SISTEMAS DE APOIO DECISO

    Segundo Inmon (1997), a evoluo dos sistemas de apoio a deciso pode ser

    dividida em cinco fases entre 1960 e 1980. No incio da dcada de 1960 o mundo

    da computao consistia na criao de aplicaes individuais que eram

    executadas sobre arquivos mestres, caracterizadas por programas e relatrios.

    Aproximadamente em 1965 o crescimento dos arquivos mestres e das fitas

    magnticas explodiu, surgindo problemas como a complexidade de manuteno

    dos programas; a complexidade do desenvolvimento de novos programas; a

    quantidade de hardware para manter todos os arquivos mestres e a necessidade

    de sincronizar dados a serem atualizados.

    Por volta de 1970, surgiu a tecnologia DASD, substituindo as fitas magnticas pelo

    armazenamento em disco. Com o DASD surgiu um novo tipo de software

    conhecido como SGBD ou sistema de gerenciamento de banco de dados, que

    tinha o objetivo de tornar o armazenamento e o acesso a dados no DASD mais

    fceis para o programador.

    Examinando a confuso criada pelos arquivos mestres e as enormes quantidades

    de dados redundantes ligadas a eles, no de admirar que banco de dados seja

    definido como: uma nica fonte de dados para todo o processamento. (Inmon,

    1997).

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    4/44

    Aproximadamente em 1975 surgiu o processamento de transaes online. Com o

    processamento de transaes online de alta performance, o computador pde ser

    usado para tarefas que antes no eram viveis como controlar sistemas de

    reservas, sistemas de caixas bancrios, sistemas de controle de produo e

    outros.

    At o incio da dcada de 1980, novas tecnologias, como os PCs e as L4Gs,

    comearam a aparecer. O usurio final passou a controlar diretamente os

    sistemas e os dados, descobrindo que era possvel utiliza-los para outros objetivos

    alm de atender ao processamento de transaes online de alta performance. Foi

    nesse perodo tambm que se tornou vivel a construo dos SIGs. Hoje

    conhecidos como SAD, os SIGs consistiam em processamento utilizado para

    direcionar decises gerenciais.

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    5/44

    A TEIA DE ARANHA

    Aps o advento das transaes online de alta performance, comearam a surgir

    os programas de extrao. Esses programas varrem arquivos de banco dedados usando alguns critrios, e, ao encontrar esses dados, transporta-os para

    outro arquivo de banco de dados.

    Com a difuso do programa de extrao, comeou a formar-se a chamada

    arquitetura de desenvolvimento espontneo ou teia de aranha, conforme

    mostrado na Figura 3. Primeiro havia extraes. Depois, extraes das extraes,

    e, ento, extraes das extraes das extraes, e assim por diante.

    Figura 1 - A Teia de Aranha

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    6/44

    Devido arquitetura de desenvolvimento espontneo, surgiram problemas com a

    credibilidade dos dados, a produtividade e a dificuldade de transformar dados

    puros em informaes.

    O AMBIENTE PROJETADO

    A arquitetura de desenvolvimento espontneo no era suficiente para atender as

    necessidades do futuro das empresas, fazendo-se necessrio uma mudana de

    arquitetura, surgindo o ambiente projetado de Data Warehouse.

    No cerne do ambiente projetado est a percepo de que h fundamentalmente

    duas espcies de dados dados primitivos e dados derivados. A Tabela 1 mostra

    algumas das principais diferenas entre dados primitivos e derivados.

    Dados primitivos / Dados operacionais Dados derivados / dados SAD

    Baseado em aplicaes Baseados em assunto ou negcio

    Detalhados Resumidos ou refinados

    Podem ser atualizados No so atualizados

    So processados repetitivamente Processados de forma heurstica

    Requisitos de processamento conhecidoscom antecedncia

    Requisitos de processamento no soconhecidos com antecedncia.

    A performance fundamental Performance no fundamental

    Voltados para transao Voltados para anlise

    Alta disponibilidade No necessria alta disponibilidade

    Atendem as necessidades cotidianas Atendem as necessidades gerenciais

    Alta taxa de acesso Baixa ou mdia taxa de acesso

    Tabela 1 - dados operacionais versus dados derivados

    Dados primitivos e dados derivados devem estar fisicamente separados. H uma

    grande quantidade de diferenas entre dados primitivos e dados derivados.

    espantoso que a comunidade de processamento de informaes tenha pensado

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    7/44

    que dados primitivos e dados derivados pudessem se encaixar em um nico

    banco de dados (Inmon, 1997).

    H quatro nveis no ambiente projetado o operacional, a atmico ou DataWarehouse, o departamental e o individual, como representado na Figura 4. O

    nvel operacional de dados contm apenas dados primitivos e atende

    comunidade de processamento de transaes de alta performance. O Data

    Warehouse contm dados primitivos que no so atualizados e dados derivados.

    O nvel departamental de dados praticamente s contm dados derivados. E o

    nvel individual de dados onde o maior parte das anlises heursticas feito.

    Um importante aspecto do ambiente projetado a integrao dos dados que

    ocorre ao longo da arquitetura. Se os dados chegarem ao Data Warehouse em um

    estado no integrado, no podero ser utilizados como base para uma viso

    Operacional Atmico / DataWarehouse

    Departamental Individual

    - Detalhado

    - Cotidiano

    - Valores atuais

    - Alta taxa de

    acesso

    - Baseado em

    aplicaes

    - mais granular

    - Temporal

    - Integrado

    - Baseado em

    negcio

    - Algum nvel

    de resumo

    - Paroquial

    - Alguns derivados;

    alguns primitivos

    - Tpico de

    departamentos:

    - contabilidade

    - marketing

    - engenharia

    - produo

    - Temporrio

    - ad hoc

    - Heurstico

    - No repetitivo

    - Baseado em PCs ou

    estaes de trabalho

    Figura 2 - Nveis do Ambiente Projetado

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    8/44

    corporativa dos dados. A existncia desta viso um dos fundamentos do

    ambiente projetado(Kimball, 1998).

    O QUE UM DATA WAREHOUSE

    William H. Inmon foi um dos pioneiros no assunto Data Warehouse. Sua definio

    a mais objetiva sobre o que um Data Warehouse: uma coleo de dados

    orientados por assunto, integrado, varivel com o tempo e no-voltil, que tem por

    objetivo dar suporte aos processos de tomada de deciso (Inmon, 1997).

    Em outras palavras, um Data Warehouse um banco de dados contendo dados

    extrados do ambiente de produo da empresa, que foram selecionados e

    depurados, tendo sido otimizados para processamento de consulta e no para

    processamento de transaes. Em geral, um Data Warehouse requer a

    consolidao de outros recursos de dados alm dos armazenados em banco de

    dados relacionais, incluindo informaes provenientes de planilhas eletrnicas,

    documentos textuais, etc.

    Para Campos (1999), importante considerar, no entanto, que um Data

    Warehouse no contem apenas dados resumidos, podendo conter tambm dados

    primitivos. desejvel prover ao usurio a capacidade de aprofundar-se num

    determinado tpico, investigando nveis de agregao menores ou mesmo dados

    primitivos, permitindo tambm a gerao de novas agregaes ou correlaes

    com outras variveis. Alm do mais, extremamente difcil prever todos os

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    9/44

    possveis dados resumidos que sero necessrios: limitar o contedo de um Data

    Warehouse apenas a dados resumidos significa limitar os usurios apenas s

    consultas e anlises que eles puderem antecipar frente a seus requisitos atuais,

    no deixando qualquer flexibilidade para novas necessidades.

    Para ficar mais clara a concepo de Data Warehouse examina a tabela 2 que

    contm uma comparao entre as caractersticas dos bancos de dados

    operacionais com um Data Warehouse.

    Caractersticas Bancos de dadosOperacionais

    Data Warehouse

    Objetivo Operaes dirias do negcio Analisar o negcio

    Uso Operacional Informativo

    Tipo de processamento OLTP OLAP

    Unidade de trabalho Incluso, alterao, excluso. Carga e consulta

    Nmero de usurios Milhares Centenas

    Tipo de usurio Operadores Comunidade gerencial

    Interao do usurio Somente pr-definida Pr-definida e ad-hoc

    Condies dos dados Dados operacionais Dados Analticos

    Volume Megabytes gigabytes Gigabytes terabytes

    Histrico 60 a 90 dias 5 a 10 anos

    Granularidade Detalhados Detalhados e resumidos

    Redundncia No ocorre Ocorre

    Estrutura Esttica Varivel

    Manuteno desejada Mnima Constante

    Acesso a registros Dezenas Milhares

    Atualizao Contnua (tempo real) Peridica (em batch)

    Integridade Transao A cada atualizao

    Nmero de ndices Poucos/simples Muitos/complexosInteno dos ndices Localizar um registro Aperfeioar consultas

    Tabela 2 - Comparao entre banco de dados operacionais e Data Warehouse

    O Data Warehouse o alicerce do processamento dos SADs. Em virtude de haver

    uma nica fonte de dados integrados, e uma vez que os dados apresentam

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    10/44

    condies facilitadas de acesso e interpretao, a tarefa do analista de SAD no

    ambiente Data Warehouse fica incomensuravelmente mais fcil do que no

    ambiente clssico.

    CARACTERSTICAS DE UM DATA WAREHOUSE

    Quatro caractersticas principais regem o conceito de Data Warehouse.

    Orientado por temas: Refere-se ao fato do Data Warehouse armazenar

    informaes sobre temas especficos importantes para o negcio da empresa.

    Exemplos tpicos de temas so: produtos, atividades, contas, clientes, etc. Em

    contrapartida, o ambiente operacional organizado por aplicaes funcionais. Por

    exemplo, em uma organizao bancria, estas aplicaes incluem emprstimos,

    investimentos e seguros (Campos, 1999).

    Integrado:Refere-se consistncia de nomes, das unidades das variveis, etc,

    no sentido de que os dados foram transformados at um estado uniforme. Por

    exemplo, considere-se sexo como um elemento de dado. Uma aplicao pode

    codificar sexo como M/F, outra como 1/0 e uma terceira como H/M. Conforme os

    dados so inseirdos para o Data Warehouse, eles so convertidos para um estado

    uniforme, ou seja, sexo codificado apenas de uma forma. Da mesma maneira,

    se um elemento de dado medido em centmetros em uma aplicao, em

    polegadas em outra, ele ser convertido para uma representao nica ao ser

    colocado no Data Warehouse(Campos, 1999).

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    11/44

    Variante no tempo:refere-se ao fato do dado em um Data Warehouse referir-se a

    algum momento especfico, significando que ele no atualizvel, enquanto que o

    dado de produo atualizado de acordo com mudanas de estado do objeto em

    questo, refletindo, em geral, o estado do objeto no momento do acesso. Em um

    Data Warehouse, a cada ocorrncia de uma mudana, uma nova entrada criada,

    para marcar esta mudana. O tratamento de sries temporais apresenta

    caractersticas especficas, que adicionam complexidade ao ambiente do Data

    Warehouse. Processamentos mensais ou anuais so simples, mas dias e meses

    oferecem dificuldades pelas variaes encontradas no nmero de dias em um msou em um ano, ou ainda no incio das semanas dentro de um ms. Alm disso,

    deve-se considerar que no apenas os dados tm uma caracterstica temporal,

    mas tambm os metadados, que incluem definies dos itens de dados, rotinas de

    validao, algoritmos de derivao, etc. Sem a manuteno do histrico dos

    metadados, as mudanas das regras de negcio que afetam os dados no Data

    Warehouse so perdidas, invalidando dados histricos(Campos, 1999).

    No Voltil:Significa que o Data Warehouse permite apenas a carga inicial dos

    dados e consultas a estes dados. Aps serem integrados e transformados, os

    dados so carregados em bloco para o Data Warehouse, para que estejam

    disponveis aos usurios para acesso. No ambiente operacional, ao contrrio, os

    dados so, em geral, atualizados registro a registro, em mltiplas transaes. Esta

    volatilidade requer um trabalho considervel para assegurar integridade e

    consistncia atravs de atividades de rollback, recuperao de falhas, commits e

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    12/44

    bloqueios. Um Data Warehouse no requer este grau de controle tpico dos

    sistemas orientados a transaes(Campos, 1999).

    Granularidade: diz respeito ao nvel de detalhe ou de resumo contido nasunidades de dados existentes no Data Warehouse. Quanto maior o nvel de

    detalhes, menor o nvel de granularidade. O nvel de granularidade afeta

    diretamente o volume de dados armazenado no Data Warehouse e ao mesmo

    tempo o tipo de consulta que pode ser respondida(Campos, 1999).

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    13/44

    USURIOS TPICOS DE UM DATA WAREHOUSE

    Inmon, Welch e Glassey (1999) identificaram trs usurios tpicos de um Data

    Warehouse: os fazendeiros, os exploradores e os turistas. A Figura 5 ilustra os

    tipos de usurios.

    Como regra, os dados estruturados organizacional servem aos usurios

    fazendeiros e turistas. O dados detalhados servem aos usurios exploradores

    porque so orientados corporativamente, suportam acesso aleatrio e so

    OLAP

    Estruturado

    Organizacional

    Exploradores

    FazendeirosTuristas

    Os fazendeiros

    da organizao

    colhem

    informaes a

    partir de

    caminhos

    de acessos

    conhecidos.

    Os turistas da

    organizao

    navegam

    atravs das

    informaes

    colhidas pelos

    fazendeiros.

    Os exploradores da

    organizao procuram as

    recompensas

    desconhecidas e at ento

    ignoradas que se ocultam

    por trs dos dados

    detalhados.

    Figura 3 - Usurios do Data Warehouse

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    14/44

    completos e histricos. O ambiente OLAP (explicado mais adiante) suporta os

    usurios fazendeiros porque os dados so personalizados antes de serem

    enviados ao ambiente OLAP. A fim de personalizar os dados, necessrio saber

    como os dados sero usados.; os fazendeiros tomam essas decises com base

    no como os turistas consomem seus produtos. Em outras palavras, fornecimento e

    demanda aplicam-se arquitetura do Data Warehouse na determinao do que

    deve ser populado no ambiente OLAP (Inmon, Welch e Glassey, 1999).

    H diversas excees a essa regra de diferentes usurios. Devido quantidade

    limitada de dados l encontrados, o grande nmero de ndices e a elegncia da

    interface, possvel executar exploraes no ambiente OLAP. Contudo, a

    explorao no nvel OLAP superficial, e encontra uma viso geral e no

    detalhada. Na maioria das vezes, o ambiente OLAP existe e perfeito para os

    usurios fazendeiros e turistas, mas no para a comunidade de exploradores.

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    15/44

    ARQUITETURA DO DATA WAREHOUSE

    Para ser til o Data Warehouse deve ser capaz de responder a consultas

    avanadas de maneira rpida, sem deixar de mostrar detalhes relevantes

    resposta. Para isso ele deve possuir uma arquitetura que lhe permita coletar,

    manipular e apresentar os dados de forma eficiente e rpida. Mas construir um

    Data Warehouse eficiente, que servir de suporte a decises para a empresa,

    exige mais do que simplesmente descarregar ou copiar os dados dos sistemas

    atuais para um banco de dados maior. Deve-se considerar que os dados

    provenientes de vrios sistemas podem conter redundncias e diferenas, ento

    antes de pass-los para o Data Warehouse necessrio aplicar filtros sobre eles.

    O estudo de uma arquitetura permite compreender como o Data Warehouse faz

    para armazenar, integrar, comunicar, processar e apresentar os dados que os

    usurios utilizaro em suas decises. Um Data Warehouse pode variar sua

    arquitetura conforme o tipo de assunto abordado, pois as necessidades tambm

    variam de empresa para empresa.

    A Figura 6 mostra os principais componentes da arquitetura de um Data

    Warehouse.

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    16/44

    A arquitetura de um Data Warehouse inclui ferramentas para extrair dados de

    mltiplas bases de dados operacionais e fontes externas; limpar, transformar e

    integrar estes dados, carreg-los at o Data Warehouse e periodicamente fazer orefresh, isto , propagar as atualizaes ocorridas nas mltiplas base de dados

    operacionais. Em adio ao Data Warehouse principal, pode haver vrios Data

    Warehouses departamentais, que so denominados Data Marts.

    Dados no Data Warehouse e Data Marts so armazenados e gerenciados por um

    ou mais servidores de Data Warehouse, os quais apresentam visesmultidimensionais de dados para uma variedade de ferramentas front end.

    Finalmente, h um repositrio para armazenar e gerenciar metadados.

    Front End Tools

    Servidores OLAP

    Fontes

    BD

    ExtraoTransformaoCarga

    Refresh

    DW

    Data Marts

    ?

    Anlise

    Consulta

    Relatrio

    Data Minin

    Administrao e gerenciamento: Repositrio de

    Back End

    Figura 6 - Arquitetura do Data Warehouse

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    17/44

    FERRAMENTAS BACK END

    Sistemas de Data Warehouse usam uma variedade de ferramentas para extrao,

    limpeza de dados, carga e refresh para povoar o banco de dados. Estas

    ferramentas so chamadas Back End e as principais funes desempenhadas por

    elas so:

    Limpeza de dados: J que o Data Warehouse usado para tomada de deciso,

    importante que os seus dados estejam corretos. Entretanto, uma vez que

    grandes volumes de dados esto envolvidos, h uma alta probabilidade de erros e

    anomalias nos dados. Tamanhos inconsistentes de campo, descries

    inconsistentes, atribuio inconsistente de valores, entradas erradas e violao de

    restries de integridade so alguns exemplos onde a limpeza de dados torna-se

    necessria.

    Carga: Depois de extrair, limpar e transformar, os dados devem ser carregados

    para o Data Warehouse. Um pr-processamento adicional pode ser requerido,

    como por exemplo, checagem de restries de integridade, sumarizao,

    agregao, dentre outros mais. Tipicamente, batch load usado para este

    propsito, isto , o processo de carga feito em lotes. A carga do Data

    Warehouse tem que lidar com volumes de dados muito maiores que os banco de

    dados operacionais.

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    18/44

    Refresh: Fazer o refresh de um Data Warehouse consiste em propagar as

    atualizaes ocorridas nos banco de dados operacionais para o banco de dados

    derivado do Data Warehouse.

    FERRAMENTAS FRONT END

    Segundo Moraes (1998), o componente front end de um sistema de Data

    Warehouse o responsvel por fornecer uma soluo de acesso aos dados que

    atenda as necessidades por informaes dos trabalhadores do conhecimento.

    As ferramentas front end so utilizadas para anlise, ajudando a interpretar o que

    ocorreu e a decidir sobre estratgias futuras. Neste tipo de aplicao, somente a

    operao de consulta se faz necessria.

    As ferramentas Front End executam:

    o Seleo do conjunto de dados necessrios;

    o Clculo e manipulao dos dados;

    o Apresentao das informaes;

    Os geradores de consultas e relatrios so considerados a primeira gerao de

    ferramentas para o acesso a dados, as quais permitem a realizao de consultas

    ad-hoc. Atualmente, as ferramentas de OLAP so as principais aplicaes de

    suporte deciso utilizadas em sistemas de Data Warehouse, sendo

    consideradas a segunda gerao de ferramentas para acesso a dados. Ao

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    19/44

    contrrio dos geradores de consultas e relatrios, que apenas permitem uma

    visualizao esttica dos dados que no podem mais ser manipulados, as

    aplicaes de OLAP possibilita que a partir de uma resposta se faam outros

    questionamentos, ou seja, o usurio consegue analisar o porqu dos resultados

    obtidos.

    Moraes (1998), compilou a lista abaixo de caractersticas que possuem eficientes

    ferramentas de Front End.

    o facilidades para acesso aos dados, manipulao e apresentao;

    o capacidade de especificar consultas e relatrios com facilidade;

    o suporte para a indstria de padres de interface, incluindo Microsoft

    Windows GUI, ODBC, etc.

    o suporte para o desenvolvimento de interfaces amigveis;

    o habilidade para acessar a funcionalidade nativa de uma variedade

    de BD e outras origens de dados;

    o habilidade para suportar uma variedade de plataformas servidoras e

    SGBDs.

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    20/44

    DATA MARTS

    Um Data Mart um sistema de suporte a deciso que incorpora um subconjunto

    de dados da empresa focalizado em funes ou atividades especficas da

    organizao. Os Data Marts tm propsitos especficos relacionados ao negcio,

    como medida do impacto de promoes de marketing, medida ou previso de

    vendas, medida do impacto da introduo de novos produtos, etc.

    Data Marts podem incorporar dados substanciais, mas eles contm muito menos

    dados que teria um Data Warehouse desenvolvido para a mesma organizao.

    Uma vez que Data Marts so focalizados em propsitos especficos do negcio, o

    planejamento do sistema e a anlise dos requerimentos so mais facilmente

    gerenciveis, e o projeto, implementao, fase de testes e instalao so bem

    mais baratos que para um Data Warehouses (Inmon, Welch e Glassey, 1999).Por

    esse motivo, os Data Marts esto se tornando uma alternativa bastante popular

    nos ltimos anos.

    Os projetos de Data Marts devem ser inicialmente simples e teis para que

    possam atingir seus objetivos de forma rpida e clara. No desejvel para uma

    empresa investir uma quantia em dinheiro e tempo de seus funcionrios em um

    projeto que pode levar meses para ser concludo e que durante o processo de

    implantao possa terminar por gerar controvrsias e at mesmos problemas para

    os setores(Kimball, 1998).

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    21/44

    DATA MINING

    Data Mining uma ferramenta de extrao de dados. O Data Mining engloba um

    nmero de diferentes abordagens tcnicas, como clustering (agrupamento),sumarizao de dados, regras de classificao, deteco de anomalias, etc.

    Data Mining uma categoria de ferramentas de anlise. Em vez de se fazerem

    perguntas, entrega-se grandes quantidades de dados e pergunta-se se existe algo

    de interessante (uma tendncia ou um agrupamento, por exemplo). O processo de

    minerao de dados pode extrair conhecimento que est escondido ou

    informaes de prognstico do Data Warehouse sem a necessidade de consultas

    especficas ou requisies.

    Esse processo de minerao usa tcnicas avanadas como redes neurais,

    heursticas, descoberta por regra e deteco de desvio. Ao contrrio de relatrios

    e consultas cujos relacionamentos j se conhece, o trabalho do Data Mining

    descobrir o que no se sabe que existe no banco de dados.

    Alguns exemplos de aplicaes de Data Mining:

    o identificar padres de compra dos clientes;

    o identificar correlaes escondidas entre diferentes indicadores

    financeiros;

    o identificar superfaturamento em grandes obras pblicas.

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    22/44

    SISTEMAS GERENCIADORES DE BANCOS DE DADOS

    SGBDs tm como funo fornecer acesso e manipulao eficientes aos dados

    armazenados no banco, proteger estes dados contra acessos indevidos e mantersua consistncia e integridade(Moraes, 1998).

    Os SGBDs em sistemas de Data Warehouse devem suportar processamento

    analtico on-line (OLAP), ao contrrio do j tradicional processamento de

    transaes on-line (OLTP). Os SGBDs voltados ao processamento de transaes

    tm como principal caracterstica dar suporte para atualizaes concorrentes de

    centenas de usurios. J os SGBDs voltados para sistemas de Data Warehouse

    devem ser otimizados para o processamento de consultas complexas e ad-hoc.

    Trs classes de SGDBs devem ser citadas:

    a) SGBDs relacionais tradicionais:

    A tecnologia relacional vem sendo amplamente reconhecida como a melhor

    alternativa para a hospedagem de dados em sistemas de Data Warehouse.

    Rapidamente, as melhorias dos SGBDs na rea de suporte deciso vm

    atendendo as necessidades impostas pelo ambiente de Data Warehouse. Isto se

    deve, principalmente, a dois principais pontos fracos dos SGBDs

    multidimensionais: inflexibilidade (estrutura de arquivos proprietria) e limitado

    volume de dados que podem gerenciar.

    b) SGBDs multidimensionais (MOLAP):

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    23/44

    Em um banco de dados multidimensional, em vez de armazenar registros em

    tabelas, eles armazenam os dados em matrizes. So projetados com o objetivo de

    permitir uma eficiente e conveniente armazenagem e recuperao de dados que

    esto intimamente relacionados. Estes dados so armazenados, visualizados e

    analisados segundo diferentes dimenses.

    O grande problema dos SGBDs multidimensinais a sua capacidade de

    armazenamento ainda limitada para as necessidades de um Data Warehouse.

    Desta forma, estes produtos so mais utilizados no mercado como gerenciadores

    de Data Marts.

    c) SGBDs relacionais especializados para sistemas de Data Warehouse:

    So otimizados para atender ambientes de somente leitura (read only), onde o

    processamento eficiente de consultas importantssimo. A idia nestes produtos

    abandonar os requisitos necessrios ao processamento de transaes (OLTP) e

    se concentrar nos requisitos necessrios ao OLAP. Desta forma, estes SGBDs

    fornecem novas tcnicas de otimizao de consultas sobre estruturas do tipo star

    scheme, utilizam novos mtodos de indexao e interpretam a sintaxe SQL para

    dar suporte a consultas que so importantes no ambiente de Data Warehouse.

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    24/44

    MODELO DE DADOS

    Obter respostas a questes tpicas de anlise dos negcios de uma empresa

    geralmente requer a visualizao dos dados segundo diferentes perspectivas.

    Suponhamos uma grande rede de hotis que deseja melhorar o desempenho de

    seu negcio. Para isso, necessita examinar os dados sobre as reservas e seus

    clientes. Uma avaliao deste tipo requer uma viso histrica do volume de

    reservas informaes sobre seus clientes sob mltiplas perspectivas, como por

    exemplo: qual a idade mdia de seus clientes, qual o perodo mdio que os

    mesmos se hospedam no hotel. Uma anlise da idade mdia de seus clientes

    utilizando uma ou mais destas perspectivas, permitiria responder questes do tipo:

    Qual a idade mdia dos hspedes na temporada de final de ano?

    Tendo em mos a resposta para essa questo, a gerncia do hotel poderia investir

    no marketing para um cliente-alvo mais preciso. A capacidade de responder a este

    tipo de questo em tempo hbil o que permite aos gerentes e altos executivos

    das empresas formular estratgias efetivas, identificar tendncias e melhorar sua

    habilidade de tomar decises de negcio. O ambiente tradicional de bancos de

    dados relacional certamente pode atender a este tipo de consulta. No entanto,

    usurios finais que necessitam de consultas deste tipo, via acesso interativo aos

    bancos de dados, mostram-se frustrados por tempos de resposta ruins e pela falta

    de flexibilidade oferecida por ferramentas de consulta baseadas no SQL (Kimball,

    1998).

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    25/44

    Da a necessidade de utilizar abordagens especficas para atender a estas

    consultas.

    A mais importante diferena entre sistemas OLTP e Data Warehouse est nomodelo de dados. O tradicional modelo Entidade-Relacionamento divide os dados

    em vrias entidades distintas, cada uma transformada em uma tabela do Banco de

    Dados OLTP. H algumas observaes a fazer sobre o diagrama entidade-

    relacionamento.

    Em primeiro lugar, ele muito simtrico. Todas as tabelas parecem iguais; esses

    diagramas so difceis de visualizar e memorizar tanto pelo usurio final quanto

    pelos projetistas (Kimball, 1998). Segundo, quando duas tabelas do diagrama so

    necessrias para uma consulta, h um nmero imenso de conexes possveis

    entre as duas tabelas. Em consultas que abrangem muitas tabelas e registros, os

    diagramas Entidade-Relacionamento tornam-se muito complexos tanto para o

    usurio entender quanto para o software navegar. Dito isto, pode-se concluir que

    modelos Entidade-Relacionamento so um desastre para ambientes read only

    (somente consulta) e no so propcios para serem utilizados como base para o

    Data Warehouse.

    A representao dos dados em um Data Warehouse estruturada como um cubo

    de dados. Essa estrutura chamada modelo dimensional, tambm conhecida

    como star scheme. Ao contrrio do modelo Entidade-Relacionamento, o modelo

    dimensional muito assimtrico. H uma tabela dominante no centro do diagrama

    com mltiplas junes a conectando nas outras tabelas. Cada uma das tabelas

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    26/44

    secundrias possui apenas uma juno com a tabela central. A tabela central

    chamada de tabela de fatos e as outras tabelas de tabelas de dimenso, como

    mostra a Figura 7:

    A tabela de fatos armazena medies numricas do negcio. Cada uma das

    medies obtida na interseo de todas as dimenses. Os fatos melhores e

    mais teis so numricos, valorados (diferentes a cada medida) e aditivos (podem

    ser adicionados ao longo das dimenses). O motivo para utilizar fatos valorados e

    aditivos que em praticamente todas as consultas feitas tabela de fatos, so

    solicitados centenas ou milhares de registros para construir o conjunto de

    resposta. Esse grande nmero de registros ser compactado em algumasdezenas de linhas para produzir o conjunto de resposta do usurio. A nica forma

    vivel de compact-los no conjunto de resposta ser adicion-los. Portanto, se as

    medies forem nmeros e se forem aditivas, pode-se construir facilmente o

    conjunto de resposta.,

    DIM TEMPO

    id_tempodia_do_ms

    dia_da_semana

    ms

    ano

    FATO COMPRAS

    id_tempoid_produto

    id_fornecedor

    quantidade

    valor

    DIM PRODUTO

    id_produto

    descrio

    categoriavolume

    DIM FORNECEDOR

    id_fornecedor

    nomeendereo

    descrio

    Figura 5 - Star Scheme

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    27/44

    As tabelas dimensionais armazenam as descries textuais das dimenses. Esses

    atributos textuais so usados como restries e cabealhos de linha no conjunto

    de resposta.

    Ao se projetar um banco de dados, pode-se ficar na dvida se um campo de

    dados ser modelado como um fato ou um atributo. Segundo Kimball (1998), se o

    dado for numrico e variar continuamente a cada amostragem, ele ser

    considerado um fato. Do contrrio, se for uma descrio praticamente constante

    de um item, ser considerada um atributo de dimenso.

    O Star Schemetem uma srie de vantagens que so descritas abaixo:

    o O Star Scheme tem uma arquitetura padro e previsvel. As ferramentas de

    consulta e interfaces do usurio podem se valer disso para fazer suas

    interfaces mais amigveis e fazer um processamento mais eficiente;

    o Todas as dimenses do modelo so equivalentes, ou seja, podem ser

    vistas como pontos de entrada simtricos para a tabela de fatos. As

    interfaces do usurio so simtricas, as estratgias de consulta so

    simtricas, e o SQL gerado, baseado no modelo, simtrico;

    o O modelo dimensional totalmente flexvel para suportar a incluso de

    novos elementos de dados, bem como mudanas que ocorram no projeto.

    Essa flexibilidade se expressa de vrias formas, dentre as quais temos:

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    28/44

    Todas as tabelas de fato e dimenses podem ser alteradas

    simplesmente acrescentando novas colunas a tabelas;

    Nenhuma ferramenta de consulta ou relatrio precisa ser alterada deforma a acomodar as mudanas;

    Todas as aplicaes que existiam antes das mudanas continuam

    rodando sem problemas;

    o Existe um conjunto de abordagens padres para tratamento de situaes

    comuns no mundo dos negcios. Cada uma destas tem um conjunto bem

    definido de alternativas que podem ento ser especificamente programadas

    em geradores de relatrios, ferramentas de consulta e outras interfaces do

    usurio. Dentre estas situaes temos:

    Mudanas lentas das dimenses: ocorre quando uma determinada

    dimenso evolui de forma lenta e assncrona;

    Produtos heterogneos: quando um negcio, tal como um banco,

    precisa controlar diferentes linhas de negcio juntas, dentro de um

    conjunto comum de atributos e fatos, mas ao mesmo tempo esta

    precisa descrever e medir as linhas individuais de negcio usando

    medidas incompatveis;

    o Outra vantagem o fato de um nmero cada vez maior de utilitrios

    administrativos e processo de software serem capazes de gerenciar e usar

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    29/44

    agregados, que so de suma importncia para a boa performance de

    respostas em um Data Warehouse.

    DESENVOLVIMENTO DE UM DATA WAREHOUSE

    O sucesso do desenvolvimento de um Data Warehouse depende

    fundamentalmente de uma escolha correta da estratgia a ser adotada, de forma

    que seja adequada s caractersticas e necessidades especficas do ambiente

    onde ser implementado. Existe uma variedade de abordagens para o

    desenvolvimento de Data Warehouses, devendo-se fazer uma escolha

    fundamentada em pelo menos trs dimenses: escopo (departamental,

    empresarial, etc), grau de redundncia de dados, tipo de usurio alvo.

    O escopo de um Data Warehouse pode ser to amplo quanto aquele que inclui

    todo o conjunto de informaes de uma empresa ou to restrito quanto um Data

    Warehouse pessoal de um nico gerente. Quanto maior o escopo, mais valor o

    Data Warehouse tem para a empresa e mais cara e trabalhosa sua criao e

    manuteno. Por isso, muitas empresas tendem a comear com um ambiente

    departamental e s aps obter um retorno de seus usurios expandir seu escopo.

    Quanto redundncia de dados, h essencialmente trs nveis de redundncia: o

    Data Warehouse virtual, o Data Warehouse centralizado e o data warehouse

    distribudo.

    O Data Warehouse virtual consiste em simplesmente prover os usurios finais

    com facilidades adequadas para extrao das informaes diretamente dos

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    30/44

    bancos de produo, no havendo assim redundncia, mas podendo

    sobrecarregar o ambiente operacional.

    O Data Warehouse central constitui-se em um nico banco de dados fsicocontendo todos os dados para uma rea funcional especfica, um departamento ou

    uma empresa, sendo usados onde existe uma necessidade comum de

    informaes. Um Data Warehouse central normalmente contm dados oriundos de

    diversos bancos operacionais, devendo ser carregado e mantido em intervalos

    regulares.

    O Data Warehouse distribudo, como o nome indica, possui seus componentes

    distribudos por diferentes bancos de dados fsicos, normalmente possuindo uma

    grau de redundncia alto e por conseqncia, procedimentos mais complexos de

    carga e manuteno.

    Os padres de uso de um Data Warehouse tambm constituem um fator

    importante na escolha de alternativas para o ambiente. Relatrios e consultas pr-

    estruturadas podem satisfazer o usurio final, e geram pouca demanda sobre o

    SGBD e sobre o ambiente servidor. Anlises complexas, por sua vez, tpicas de

    ambientes de suporte deciso, exigem mais de todo o ambiente.

    Ambientes dinmicos, com necessidades em constante mudana, so mais bem

    atendidos por uma arquitetura simples e de fcil alterao, ao invs de uma

    estrutura mais complexa que necessite de reconstruo a cada mudana. A

    freqncia da necessidade de atualizao tambm determinante: grandes

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    31/44

    volumes de dados que so atualizados em intervalos regulares favorecem uma

    arquitetura centralizada.

    ESTRATGIA EVOLUCIONRIA

    Data Warehouses, em geral, so projetados e carregados passo a passo,

    seguindo, portanto uma abordagem evolucionria. Os custos de uma

    implementao "por inteiro", em termos de recursos consumidos e impactos no

    ambiente operacional da empresa justificam esta estratgia.

    Muitas empresas iniciam o processo a partir de uma rea especfica da empresa,

    que normalmente uma rea carente de informao e cujo trabalho seja relevante

    para os negcios da empresa, criando os chamados Data Marts, para depois ir

    crescendo aos poucos, seguindo uma estratgia "botton-up" ou assunto-por-

    assunto.

    Outra alternativa selecionar um grupo de usurios, prover ferramentas

    adequadas, construir um prottipo do Data Warehouse, deixando que os usurios

    experimentem com pequenas amostras de dados. Somente aps a concordncia

    do grupo quanto aos requisitos e funcionamento, o Data Warehouse ser de fato

    alimentado com dados dos sistemas operacionais na empresa e dados externos.

    Data Marts tambm pode ser criados como subconjunto de um Data Warehouse

    maior, em busca de autonomia, melhor desempenho e simplicidade de

    compreenso.

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    32/44

    ASPECTOS DE MODELAGEM

    A especificao de requisitos do ambiente de suporte deciso associado a um

    Data Warehouse fundamentalmente diferente da especificao de requisitos dossistemas que sustentam os processos usuais do ambiente operacional de uma

    empresa.

    Os requisitos dos sistemas do ambiente operacional so claramente identificveis

    a partir das funes a serem executadas pelo sistema. Requisitos de sistemas de

    suporte deciso so, por sua vez, indeterminados.

    O objetivo por trs de um Data Warehouse prover dados com qualidade; os

    requisitos dependem das necessidades de informao individuais de seus

    usurios. Ao mesmo tempo, os requisitos dos sistemas do ambiente operacional

    so relativamente estveis ao longo do tempo, enquanto que os dos sistemas de

    suporte deciso so instveis. No entanto, embora as necessidades por

    informaes especficas mudem com freqncia, os dados associados no

    mudam. Imaginando-se que os processos de negcio de uma empresa

    permaneam relativamente constantes, existe apenas um nmero finito de objetos

    e eventos com as quais uma organizao est envolvida.

    Por esta razo, o modelo de dados uma base slida para identificar requisitos

    para um Data Warehouse.

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    33/44

    ETAPAS DO DESENVOLVIMENTO DE UM DATA WAREHOUSE

    Na verdade, difcil apontar no momento, uma metodologia consolidada e

    amplamente aceita para o desenvolvimento de Data Warehouses. O que se v naliteratura e nas histrias de sucesso de implementaes em empresas, so

    propostas no sentido de construir um modelo dimensional a partir do modelo de

    dados corporativo ou departamental, de forma incremental.

    De qualquer forma, a metodologia a ser adotada ainda bastante dependente da

    abordagem escolhida, em termos de ambiente, distribuio, etc.

    Desenvolver um Data Warehouse uma questo de casar as necessidades dos

    seus usurios com a realidade dos dados disponveis. Abaixo podemos analisar

    os chamados pontos de deciso, que constituem definies a serem feitas e

    correspondem a etapas do projeto:

    1. Os processos, e por conseqncia, a identidade das tabelas de fatos;

    2. A granularidade de cada tabela de fatos;

    3. As dimenses de cada tabela de fatos;

    4. Aos fatos, incluindo fatos pr-calculados;

    5. Os atributos das dimenses;

    6. Como acompanhar mudanas graduais em dimenses;

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    34/44

    7. As agregaes, dimenses heterogneas, minidimenses e outras decises

    de projeto fsico;

    8. Durao histrica do banco de dados;

    9. A urgncia com que se d a extrao e carga para o Data Warehouse.

    Esta metodologia segue a linha top-down, pois comea identificando os grandes

    processos da empresa.

    EXTRAINDO INFORMAES DE UM DATA WAREHOUSE

    Existem vrias maneiras de recuperar informaes de um data Warehouse. As

    formas de extrao mais comuns no mercado hoje so:

    o Ferramentas de consulta e emisso de relatrios;

    o EIS (Executive Information Systems);

    o Ferramentas OLAP;

    o Ferramentas Data mining.

    A nova tendncia dessas solues a integrao com o ambiente Web,

    permitindo maior agilidade em consultas estticas e dinmicas.

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    35/44

    A seguir veremos de forma bsica e separadamente os conceitos das tecnologias

    OLAP e Data Mining. A diferena bsica entre ferramentas OLAP e Data Mining

    est na maneira como a explorao dos dados abordada.

    Com ferramentas OLAP a explorao feita na base da verificao, isto , o

    analista conhece a questo, elabora uma hiptese e utiliza a ferramenta para

    confirm-la.

    Com Data Mining, a questo total ou parcialmente desconhecida e a ferramenta

    utilizada para a busca de conhecimento.

    FERRAMENTAS OLAP

    OLAP On-Line Analytical Processing representa um conjunto de tecnologias

    projetadas para suportar anlise e consultas ad hoc. Sistemas OLAP ajudam

    analistas e executivos a sintetizarem informaes sobre a empresa, atravs de

    comparaes, vises personalizadas, anlise histrica e projeo de dados em

    vrios cenrios de "e se...".

    Os sistemas OLAP so implementados para ambientes multi-usurio, arquitetura

    cliente-servidor e oferecem respostas rpidas e consistentes s consultas

    iterativas executadas pelos analistas, independente do tamanho e complexidade

    do banco de dados.

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    36/44

    A caracterstica principal dos sistemas OLAP permitir uma viso conceitual multi-

    dimensional dos dados de uma empresa. A viso multi-dimensional muito mais

    til para os analistas do que a tradicional viso tabular utilizada nos sistemas de

    processamento de transao. Ela mais natural, fcil e intuitiva, permitindo a

    viso em diferentes perspectivas dos negcios da empresa e desta maneira

    tornando o analista um explorador da informao (Bispo e Cazarini, 1999).

    A modelagem dimensional a tcnica utilizada para se ter uma viso multi-

    dimensional dos dados. Nesta tcnica os dados so modelados em uma estrutura

    dimensional conhecida por cubo. As dimenses do cubo representam os

    componentes dos negcios da empresa tais como "cliente", "produto",

    "fornecedor" e "tempo". A clula resultante da interseo das dimenses

    chamada de medida e geralmente representa dados numricos tais como

    "unidades vendidas", "lucro" e "total de venda". Alm dos componentes dimenso

    e medida outro importante aspecto do modelo multi-dimensional a consolidaodos dados uma vez que para a tarefa de anlise so mais teis e significativas as

    agregaes (ou sumarizao) dos valores indicativas dos negcios.

    Alm da viso multi-dimensional dos dados da empresa, a tecnologia OLAP tem

    uma srie de outras caractersticas importantes relacionadas abaixo:

    o Anlise de tendncias. A tecnologia OLAP mais do que uma forma de

    visualizar a histria dos dados. Deve, tambm, ajudar os usurios a

    tomar decises sobre o futuro, permitindo a construo de cenrios ("e

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    37/44

    se...") a partir de suposies e frmulas aplicadas, pelos analistas, aos

    dados histricos disponveis;

    o Busca automtica (reach-through) de dados mais detalhados que noesto disponveis no servidor OLAP. Detalhes no so normalmente

    importantes na tarefa de anlise, mas quando necessrios, o servidor

    OLAP deve ser capaz de busc-los;

    o Dimensionalidade genrica;

    o Operao trans-dimensional. Possibilidade de fazer clculos e

    manipulao de dados atravs diferentes dimenses;

    o Possibilidade de ver os dados de diferentes pontos de vista (slice and

    dice), mediante a rotao (pivoting) do cubo e a navegao (drill-up/drill-

    down) entre os nveis de agregao;

    o Conjunto de funes de anlise e clculos no triviais com os dados.

    Segundo Inmon, Welch e Glassey (1999), existe tambm um conjunto de regras

    que servem para avaliar as ferramentas OLAP):

    o

    Viso conceitual multidimensional;

    o Transparncia;

    o Acessibilidade;

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    38/44

    o Performance de Relatrio consistente;

    o Arquitetura cliente-servidor;

    o Dimensionalidade genrica;

    o Operao dimensional cruzada irrestrita;

    o Manipulao de dados intuitiva;

    o Flexibilidade quanto a relatrios;

    o Dimenso e nveis de agregamentos ilimitados;

    o Pesquisa de detalhes (drill down);

    o Atualizao incremental do banco de dados;

    o Arrays mltiplos;

    o Seleo de subconjuntos;

    o Suporte a dados locais.

    Uma arquitetura OLAP possui trs componentes principais: um modelo de

    negcios para anlises interativas, implementado numa linguagem grfica que

    permita diversas vises e nveis de detalhes dos dados; um motor OLAP para

    processar consultas multidimensionais contra o dado-alvo; e um mecanismo para

    armazenar os dados a serem analisados.

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    39/44

    MOLAP x ROLAP

    Multidimensional OLAP (MOLAP) uma classe de sistemas que permite a

    execuo de anlises sofisticadas usando como gerenciador de dados um bancode dados multidimensional. Em um banco de dados MOLAP os dados so

    mantidos em arranjos e indexados de maneira a prover uma tima performance no

    acesso a qualquer elemento. O indexamento, a antecipao da maneira como os

    dados sero acessados e o alto grau de agregao dos dados faz com que

    sistemas MOLAP tenham uma excelente performance. Alm de serem rpidos,

    outra grande vantagem destes sistemas o rico e complexo conjunto de funes

    de anlise que oferecem.

    A maneira de se implementar os arranjos de dados pode variar entre fornecedores

    de solues MOLAP. Existem as arquiteturas hiper-cubos e multi-cubos. Na

    arquitetura hiper-cubo existe um nico cubo onde cada medida referenciada por

    todas as outras dimenses. Por exemplo, um cubo onde a medida "compras"

    referenciada pelas dimenses "produto", "ano", "mes", "estado" e "cidade".

    Na arquitetura multi-cubos uma medida referenciada por dimenses

    selecionadas. Em um cubo, a medida "vendas" referenciada pelas dimenses

    "semestre", "estado" e "produto" e em outro cubo, a medida "custo" referenciada

    pelas dimenses "ms" e "departamento". Esta arquitetura escalvel e utiliza

    menos espao em disco. A performance melhor em cada cubo individualmente,

    no entanto, consultas que requerem acesso a mais de um cubo podem exigir

    processamentos complexos para garantir a consistncia do tempo de resposta.

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    40/44

    Sistemas ROLAP fornecem anlise multidimensional de dados armazenados em

    uma base de dados relacional. Existem duas maneiras de se fazer este trabalho:

    o Fazer todo o processamento dos dados no servidor da base de dados. Oservidor OLAP gera os comandos SQL em mltiplos passos e as tabelas

    temporrias necessrias para o processamento das consultas;

    o Ou executar comandos SQL para recuperar os dados, mas fazer todo o

    processamento (incluindo joins e agregaes) no servidor OLAP.

    A principal vantagem de se adotar uma soluo ROLAP reside na utilizao de

    uma tecnologia estabelecida, de arquitetura aberta e padronizada como a

    relacional, beneficiando-se da diversidade de plataformas, escalabilidade e

    paralelismo de hardware.

    FERRAMENTAS DATA MINING

    Segundo Pinheiros (1999), nos primrdios do Data Warehouse, o Data Mining era

    visto como um subconjunto das atividades associadas com o Data Warehouse.

    Mas atualmente os caminhos do Data warehouse e do Data Mining esto

    divergindo. Enquanto o Data Warehouse pode ser uma boa fonte de dados para

    minerar, o Data Mining foi reconhecido como uma tarefa genuna, e no mais

    como uma colnia do Data Warehouse.

    Apesar do termo Data Mining ter se tornado bastante popular nos ltimos anos,

    existe ainda uma certa confuso quanto sua definio. Data Mining (ou

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    41/44

    minerao de dados) o processo de extrair informao vlida, previamente

    desconhecida e de mxima abrangncia a partir de grandes bases de dados,

    usando-as para efetuar decises cruciais. Data Mining vai muito alm da simples

    consulta a uma banco de dados, no sentido de que permite aos usurios explorar

    e inferir informao til a partir dos dados, descobrindo relacionamentos

    escondidos no banco de dados. Pode ser considerada uma forma de

    descobrimento de conhecimento em bancos de dados (KDD - Knowledge

    Discovery in Databases), rea de pesquisa de bastante evidncia no momento,

    envolvendo Inteligncia Artificial e Banco de Dados (Campos, 1999).

    Um ambiente de apoio tomada de decises, integrando tcnicas de Data Mining

    sobre um ambiente de Data Warehousing, possibilita um grande nmero de

    aplicaes, que j vm sendo implementadas em diversos segmentos de

    negcios, como manufatura, automao de pedido de remessas, varejo,

    gerenciamento de inventrios, financeiro, anlise de risco, transporte,gerenciamento de frotas, telecomunicao, anlise de chamadas, sade, analise

    de resultados, markenting, estabelecimento do perfil dos consumidores, seguros,

    deteco de fraude, dentre outros(Pinheiros, 1999).

    O Data Mining pode ser utilizado com os seguintes objetivos:

    o Explanatrio: explicar algum evento ou medida observada, tal como porque

    a venda de sorvetes caiu no Rio de Janeiro;

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    42/44

    o Confirmatrio: confirmar uma hiptese. Uma companhia de seguros, por

    exemplo, pode querer examinar os registros de seus clientes para

    determinar se famlias de duas rendas tem mais probabilidade de adquirir

    um plano de sade do que famlias de uma renda;

    o Exploratrio: analisar os dados buscando relacionamentos novos e no

    previstos. Uma companhia de carto de crdito pode analisar seus registros

    histricos para determinar que fatores esto associados a pessoas que

    representam risco para crditos.

    O diferencial do Data Mining est no fato de que as descobertas de padres de

    consumo se do por uma lgica de algoritmos com base em uma rede neural de

    raciocnios. So ferramentas de descobertas matemticas feitas sobre os registros

    corporativos j processados contra descobertas empricas.

    CARACTERSTICAS DE UM DATA WAREHOUSE BEM-SUCEDIDO

    O que pode ser feito para criar um ambiente de anlise de dados moderno no qual

    os usurios possam embarcar numa viagem aleatria e direta? Segundo Inmon,

    Welch e Glassey (1999) h quatro objetivos-chave que devem ser alcanados

    para um Data Warehouse ser considerado bem-sucedido.

    o Fornecer modos melhores e mais rpidos para que os usurios

    descubram as respostas a questes complexas e imprevisveis.

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    43/44

    o Colocar os usurios em contado direto com os dados de que precisam

    para tomar decises melhores.

    o Permitir que os usurios tornem-se responsveis pela especificao,criao e gerao repetida dos relatrios e anlises que necessitem.

    o Contar com uma manuteno apropriada e responsvel dos recursos de

    dados corporativos.

    O sistema que satisfaz esses objetivos um sistema de suporte a decises

    moderno. Os projetos de Data Warehouse obtm sucesso quando os usurios so

    mais independentes. Data Warehouses bem-sucedidos colocam os usurios no

    centro do projeto. Quando todos reconhecem isso, uma nova atitude e abordagem

    so os ingredientes mais bem-sucedidos nessa mistura. As organizaes que

    entendem esses fatores fundamentais que esto conduzindo a alteraes no

    paradigma tero sucesso em estabelecer Data Warehouses bem-sucedidos

    (Inmon, Welch e Glassey, 1999).

  • 5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf

    44/44