Upload
emanoel
View
15
Download
0
Embed Size (px)
Citation preview
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
1/44
DATA WAREHOUSE
INTRODUO
Informaes importantes em uma organizao, armazenadas em grandes bancos
de dados, geralmente heterogneas e distribudas, so pouco aproveitadas para
dar suporte deciso. Tentando minimizar problemas de distribuio e
heterogeneidade, no centro deste ambiente est o conceito de Data Warehouse.
A tecnologia de Data Warehouse surgiu principalmente devido s dificuldades que
muitas organizaes comearam a passar pela quantidade de dados que suas
aplicaes estavam gerando e dificuldade de reunir estes dados de forma
integrada para uma anlise mais eficiente. A idia, ento, foi reunir em um nico
local, somente os dados considerados teis no processo decisrio.
Em um exemplo prtico, suponhamos uma empresa de transporte areo. Atravs
da tecnologia Data Warehouse pode-se obter a informao sobre qual ms do ano
h uma maior procura por vos para o Rio de Janeiro, ou ainda, para qual local os
jovens com menos de vinte e cinco anos esto viajando atravs dos meios areos.
Tendo em mos essas informaes em tempo hbil em outras palavras, antes
da concorrncia os executivos dessa organizao podem dispor mais vos para
o Rio de Janeiro no ms de maior procura e, a respeito dos jovens, talvez fosse
interessante disponibilizar algum tipo de lazer diferenciado durante a viagem.
De posse destas informaes, os executivos/usurios do Data Warehouse
dispem de mecanismos que permitem, a partir de seu velho e volumoso banco
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
2/44
de dados, extrair dados que sero de grande utilidade e que daro maior
lucratividade a mdio-longo prazo.
O nosso exemplo se aplica a empresas privadas, mas o Data Warehouse tambmpode ser aplicada em organizaes governamentais pblicas. Tendo em mos um
Data Warehouse, o Secretrio da Sade, por exemplo, pode obter a informao
de qual regio da cidade ocorreram mais casos de dengue nos ltimos cinco anos
e, em quais meses desses anos, houve uma maior incidncia desse vrus.
Os avanos da tecnologia de informao vieram garantir a possibilidade das
organizaes manipularem grandes volumes de dados e atingirem um alto ndice
de integrao. Dados de todos os departamentos de uma organizao podem
estar em uma nica base de dados, integrados, padronizados e resumidos para
serem analisados pelos tomadores de decises.
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
3/44
DESENVOLVIMENTO DO PROJETO DE DATA WAREHOUSE
EVOLUO DOS SISTEMAS DE APOIO DECISO
Segundo Inmon (1997), a evoluo dos sistemas de apoio a deciso pode ser
dividida em cinco fases entre 1960 e 1980. No incio da dcada de 1960 o mundo
da computao consistia na criao de aplicaes individuais que eram
executadas sobre arquivos mestres, caracterizadas por programas e relatrios.
Aproximadamente em 1965 o crescimento dos arquivos mestres e das fitas
magnticas explodiu, surgindo problemas como a complexidade de manuteno
dos programas; a complexidade do desenvolvimento de novos programas; a
quantidade de hardware para manter todos os arquivos mestres e a necessidade
de sincronizar dados a serem atualizados.
Por volta de 1970, surgiu a tecnologia DASD, substituindo as fitas magnticas pelo
armazenamento em disco. Com o DASD surgiu um novo tipo de software
conhecido como SGBD ou sistema de gerenciamento de banco de dados, que
tinha o objetivo de tornar o armazenamento e o acesso a dados no DASD mais
fceis para o programador.
Examinando a confuso criada pelos arquivos mestres e as enormes quantidades
de dados redundantes ligadas a eles, no de admirar que banco de dados seja
definido como: uma nica fonte de dados para todo o processamento. (Inmon,
1997).
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
4/44
Aproximadamente em 1975 surgiu o processamento de transaes online. Com o
processamento de transaes online de alta performance, o computador pde ser
usado para tarefas que antes no eram viveis como controlar sistemas de
reservas, sistemas de caixas bancrios, sistemas de controle de produo e
outros.
At o incio da dcada de 1980, novas tecnologias, como os PCs e as L4Gs,
comearam a aparecer. O usurio final passou a controlar diretamente os
sistemas e os dados, descobrindo que era possvel utiliza-los para outros objetivos
alm de atender ao processamento de transaes online de alta performance. Foi
nesse perodo tambm que se tornou vivel a construo dos SIGs. Hoje
conhecidos como SAD, os SIGs consistiam em processamento utilizado para
direcionar decises gerenciais.
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
5/44
A TEIA DE ARANHA
Aps o advento das transaes online de alta performance, comearam a surgir
os programas de extrao. Esses programas varrem arquivos de banco dedados usando alguns critrios, e, ao encontrar esses dados, transporta-os para
outro arquivo de banco de dados.
Com a difuso do programa de extrao, comeou a formar-se a chamada
arquitetura de desenvolvimento espontneo ou teia de aranha, conforme
mostrado na Figura 3. Primeiro havia extraes. Depois, extraes das extraes,
e, ento, extraes das extraes das extraes, e assim por diante.
Figura 1 - A Teia de Aranha
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
6/44
Devido arquitetura de desenvolvimento espontneo, surgiram problemas com a
credibilidade dos dados, a produtividade e a dificuldade de transformar dados
puros em informaes.
O AMBIENTE PROJETADO
A arquitetura de desenvolvimento espontneo no era suficiente para atender as
necessidades do futuro das empresas, fazendo-se necessrio uma mudana de
arquitetura, surgindo o ambiente projetado de Data Warehouse.
No cerne do ambiente projetado est a percepo de que h fundamentalmente
duas espcies de dados dados primitivos e dados derivados. A Tabela 1 mostra
algumas das principais diferenas entre dados primitivos e derivados.
Dados primitivos / Dados operacionais Dados derivados / dados SAD
Baseado em aplicaes Baseados em assunto ou negcio
Detalhados Resumidos ou refinados
Podem ser atualizados No so atualizados
So processados repetitivamente Processados de forma heurstica
Requisitos de processamento conhecidoscom antecedncia
Requisitos de processamento no soconhecidos com antecedncia.
A performance fundamental Performance no fundamental
Voltados para transao Voltados para anlise
Alta disponibilidade No necessria alta disponibilidade
Atendem as necessidades cotidianas Atendem as necessidades gerenciais
Alta taxa de acesso Baixa ou mdia taxa de acesso
Tabela 1 - dados operacionais versus dados derivados
Dados primitivos e dados derivados devem estar fisicamente separados. H uma
grande quantidade de diferenas entre dados primitivos e dados derivados.
espantoso que a comunidade de processamento de informaes tenha pensado
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
7/44
que dados primitivos e dados derivados pudessem se encaixar em um nico
banco de dados (Inmon, 1997).
H quatro nveis no ambiente projetado o operacional, a atmico ou DataWarehouse, o departamental e o individual, como representado na Figura 4. O
nvel operacional de dados contm apenas dados primitivos e atende
comunidade de processamento de transaes de alta performance. O Data
Warehouse contm dados primitivos que no so atualizados e dados derivados.
O nvel departamental de dados praticamente s contm dados derivados. E o
nvel individual de dados onde o maior parte das anlises heursticas feito.
Um importante aspecto do ambiente projetado a integrao dos dados que
ocorre ao longo da arquitetura. Se os dados chegarem ao Data Warehouse em um
estado no integrado, no podero ser utilizados como base para uma viso
Operacional Atmico / DataWarehouse
Departamental Individual
- Detalhado
- Cotidiano
- Valores atuais
- Alta taxa de
acesso
- Baseado em
aplicaes
- mais granular
- Temporal
- Integrado
- Baseado em
negcio
- Algum nvel
de resumo
- Paroquial
- Alguns derivados;
alguns primitivos
- Tpico de
departamentos:
- contabilidade
- marketing
- engenharia
- produo
- Temporrio
- ad hoc
- Heurstico
- No repetitivo
- Baseado em PCs ou
estaes de trabalho
Figura 2 - Nveis do Ambiente Projetado
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
8/44
corporativa dos dados. A existncia desta viso um dos fundamentos do
ambiente projetado(Kimball, 1998).
O QUE UM DATA WAREHOUSE
William H. Inmon foi um dos pioneiros no assunto Data Warehouse. Sua definio
a mais objetiva sobre o que um Data Warehouse: uma coleo de dados
orientados por assunto, integrado, varivel com o tempo e no-voltil, que tem por
objetivo dar suporte aos processos de tomada de deciso (Inmon, 1997).
Em outras palavras, um Data Warehouse um banco de dados contendo dados
extrados do ambiente de produo da empresa, que foram selecionados e
depurados, tendo sido otimizados para processamento de consulta e no para
processamento de transaes. Em geral, um Data Warehouse requer a
consolidao de outros recursos de dados alm dos armazenados em banco de
dados relacionais, incluindo informaes provenientes de planilhas eletrnicas,
documentos textuais, etc.
Para Campos (1999), importante considerar, no entanto, que um Data
Warehouse no contem apenas dados resumidos, podendo conter tambm dados
primitivos. desejvel prover ao usurio a capacidade de aprofundar-se num
determinado tpico, investigando nveis de agregao menores ou mesmo dados
primitivos, permitindo tambm a gerao de novas agregaes ou correlaes
com outras variveis. Alm do mais, extremamente difcil prever todos os
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
9/44
possveis dados resumidos que sero necessrios: limitar o contedo de um Data
Warehouse apenas a dados resumidos significa limitar os usurios apenas s
consultas e anlises que eles puderem antecipar frente a seus requisitos atuais,
no deixando qualquer flexibilidade para novas necessidades.
Para ficar mais clara a concepo de Data Warehouse examina a tabela 2 que
contm uma comparao entre as caractersticas dos bancos de dados
operacionais com um Data Warehouse.
Caractersticas Bancos de dadosOperacionais
Data Warehouse
Objetivo Operaes dirias do negcio Analisar o negcio
Uso Operacional Informativo
Tipo de processamento OLTP OLAP
Unidade de trabalho Incluso, alterao, excluso. Carga e consulta
Nmero de usurios Milhares Centenas
Tipo de usurio Operadores Comunidade gerencial
Interao do usurio Somente pr-definida Pr-definida e ad-hoc
Condies dos dados Dados operacionais Dados Analticos
Volume Megabytes gigabytes Gigabytes terabytes
Histrico 60 a 90 dias 5 a 10 anos
Granularidade Detalhados Detalhados e resumidos
Redundncia No ocorre Ocorre
Estrutura Esttica Varivel
Manuteno desejada Mnima Constante
Acesso a registros Dezenas Milhares
Atualizao Contnua (tempo real) Peridica (em batch)
Integridade Transao A cada atualizao
Nmero de ndices Poucos/simples Muitos/complexosInteno dos ndices Localizar um registro Aperfeioar consultas
Tabela 2 - Comparao entre banco de dados operacionais e Data Warehouse
O Data Warehouse o alicerce do processamento dos SADs. Em virtude de haver
uma nica fonte de dados integrados, e uma vez que os dados apresentam
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
10/44
condies facilitadas de acesso e interpretao, a tarefa do analista de SAD no
ambiente Data Warehouse fica incomensuravelmente mais fcil do que no
ambiente clssico.
CARACTERSTICAS DE UM DATA WAREHOUSE
Quatro caractersticas principais regem o conceito de Data Warehouse.
Orientado por temas: Refere-se ao fato do Data Warehouse armazenar
informaes sobre temas especficos importantes para o negcio da empresa.
Exemplos tpicos de temas so: produtos, atividades, contas, clientes, etc. Em
contrapartida, o ambiente operacional organizado por aplicaes funcionais. Por
exemplo, em uma organizao bancria, estas aplicaes incluem emprstimos,
investimentos e seguros (Campos, 1999).
Integrado:Refere-se consistncia de nomes, das unidades das variveis, etc,
no sentido de que os dados foram transformados at um estado uniforme. Por
exemplo, considere-se sexo como um elemento de dado. Uma aplicao pode
codificar sexo como M/F, outra como 1/0 e uma terceira como H/M. Conforme os
dados so inseirdos para o Data Warehouse, eles so convertidos para um estado
uniforme, ou seja, sexo codificado apenas de uma forma. Da mesma maneira,
se um elemento de dado medido em centmetros em uma aplicao, em
polegadas em outra, ele ser convertido para uma representao nica ao ser
colocado no Data Warehouse(Campos, 1999).
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
11/44
Variante no tempo:refere-se ao fato do dado em um Data Warehouse referir-se a
algum momento especfico, significando que ele no atualizvel, enquanto que o
dado de produo atualizado de acordo com mudanas de estado do objeto em
questo, refletindo, em geral, o estado do objeto no momento do acesso. Em um
Data Warehouse, a cada ocorrncia de uma mudana, uma nova entrada criada,
para marcar esta mudana. O tratamento de sries temporais apresenta
caractersticas especficas, que adicionam complexidade ao ambiente do Data
Warehouse. Processamentos mensais ou anuais so simples, mas dias e meses
oferecem dificuldades pelas variaes encontradas no nmero de dias em um msou em um ano, ou ainda no incio das semanas dentro de um ms. Alm disso,
deve-se considerar que no apenas os dados tm uma caracterstica temporal,
mas tambm os metadados, que incluem definies dos itens de dados, rotinas de
validao, algoritmos de derivao, etc. Sem a manuteno do histrico dos
metadados, as mudanas das regras de negcio que afetam os dados no Data
Warehouse so perdidas, invalidando dados histricos(Campos, 1999).
No Voltil:Significa que o Data Warehouse permite apenas a carga inicial dos
dados e consultas a estes dados. Aps serem integrados e transformados, os
dados so carregados em bloco para o Data Warehouse, para que estejam
disponveis aos usurios para acesso. No ambiente operacional, ao contrrio, os
dados so, em geral, atualizados registro a registro, em mltiplas transaes. Esta
volatilidade requer um trabalho considervel para assegurar integridade e
consistncia atravs de atividades de rollback, recuperao de falhas, commits e
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
12/44
bloqueios. Um Data Warehouse no requer este grau de controle tpico dos
sistemas orientados a transaes(Campos, 1999).
Granularidade: diz respeito ao nvel de detalhe ou de resumo contido nasunidades de dados existentes no Data Warehouse. Quanto maior o nvel de
detalhes, menor o nvel de granularidade. O nvel de granularidade afeta
diretamente o volume de dados armazenado no Data Warehouse e ao mesmo
tempo o tipo de consulta que pode ser respondida(Campos, 1999).
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
13/44
USURIOS TPICOS DE UM DATA WAREHOUSE
Inmon, Welch e Glassey (1999) identificaram trs usurios tpicos de um Data
Warehouse: os fazendeiros, os exploradores e os turistas. A Figura 5 ilustra os
tipos de usurios.
Como regra, os dados estruturados organizacional servem aos usurios
fazendeiros e turistas. O dados detalhados servem aos usurios exploradores
porque so orientados corporativamente, suportam acesso aleatrio e so
OLAP
Estruturado
Organizacional
Exploradores
FazendeirosTuristas
Os fazendeiros
da organizao
colhem
informaes a
partir de
caminhos
de acessos
conhecidos.
Os turistas da
organizao
navegam
atravs das
informaes
colhidas pelos
fazendeiros.
Os exploradores da
organizao procuram as
recompensas
desconhecidas e at ento
ignoradas que se ocultam
por trs dos dados
detalhados.
Figura 3 - Usurios do Data Warehouse
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
14/44
completos e histricos. O ambiente OLAP (explicado mais adiante) suporta os
usurios fazendeiros porque os dados so personalizados antes de serem
enviados ao ambiente OLAP. A fim de personalizar os dados, necessrio saber
como os dados sero usados.; os fazendeiros tomam essas decises com base
no como os turistas consomem seus produtos. Em outras palavras, fornecimento e
demanda aplicam-se arquitetura do Data Warehouse na determinao do que
deve ser populado no ambiente OLAP (Inmon, Welch e Glassey, 1999).
H diversas excees a essa regra de diferentes usurios. Devido quantidade
limitada de dados l encontrados, o grande nmero de ndices e a elegncia da
interface, possvel executar exploraes no ambiente OLAP. Contudo, a
explorao no nvel OLAP superficial, e encontra uma viso geral e no
detalhada. Na maioria das vezes, o ambiente OLAP existe e perfeito para os
usurios fazendeiros e turistas, mas no para a comunidade de exploradores.
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
15/44
ARQUITETURA DO DATA WAREHOUSE
Para ser til o Data Warehouse deve ser capaz de responder a consultas
avanadas de maneira rpida, sem deixar de mostrar detalhes relevantes
resposta. Para isso ele deve possuir uma arquitetura que lhe permita coletar,
manipular e apresentar os dados de forma eficiente e rpida. Mas construir um
Data Warehouse eficiente, que servir de suporte a decises para a empresa,
exige mais do que simplesmente descarregar ou copiar os dados dos sistemas
atuais para um banco de dados maior. Deve-se considerar que os dados
provenientes de vrios sistemas podem conter redundncias e diferenas, ento
antes de pass-los para o Data Warehouse necessrio aplicar filtros sobre eles.
O estudo de uma arquitetura permite compreender como o Data Warehouse faz
para armazenar, integrar, comunicar, processar e apresentar os dados que os
usurios utilizaro em suas decises. Um Data Warehouse pode variar sua
arquitetura conforme o tipo de assunto abordado, pois as necessidades tambm
variam de empresa para empresa.
A Figura 6 mostra os principais componentes da arquitetura de um Data
Warehouse.
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
16/44
A arquitetura de um Data Warehouse inclui ferramentas para extrair dados de
mltiplas bases de dados operacionais e fontes externas; limpar, transformar e
integrar estes dados, carreg-los at o Data Warehouse e periodicamente fazer orefresh, isto , propagar as atualizaes ocorridas nas mltiplas base de dados
operacionais. Em adio ao Data Warehouse principal, pode haver vrios Data
Warehouses departamentais, que so denominados Data Marts.
Dados no Data Warehouse e Data Marts so armazenados e gerenciados por um
ou mais servidores de Data Warehouse, os quais apresentam visesmultidimensionais de dados para uma variedade de ferramentas front end.
Finalmente, h um repositrio para armazenar e gerenciar metadados.
Front End Tools
Servidores OLAP
Fontes
BD
ExtraoTransformaoCarga
Refresh
DW
Data Marts
?
Anlise
Consulta
Relatrio
Data Minin
Administrao e gerenciamento: Repositrio de
Back End
Figura 6 - Arquitetura do Data Warehouse
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
17/44
FERRAMENTAS BACK END
Sistemas de Data Warehouse usam uma variedade de ferramentas para extrao,
limpeza de dados, carga e refresh para povoar o banco de dados. Estas
ferramentas so chamadas Back End e as principais funes desempenhadas por
elas so:
Limpeza de dados: J que o Data Warehouse usado para tomada de deciso,
importante que os seus dados estejam corretos. Entretanto, uma vez que
grandes volumes de dados esto envolvidos, h uma alta probabilidade de erros e
anomalias nos dados. Tamanhos inconsistentes de campo, descries
inconsistentes, atribuio inconsistente de valores, entradas erradas e violao de
restries de integridade so alguns exemplos onde a limpeza de dados torna-se
necessria.
Carga: Depois de extrair, limpar e transformar, os dados devem ser carregados
para o Data Warehouse. Um pr-processamento adicional pode ser requerido,
como por exemplo, checagem de restries de integridade, sumarizao,
agregao, dentre outros mais. Tipicamente, batch load usado para este
propsito, isto , o processo de carga feito em lotes. A carga do Data
Warehouse tem que lidar com volumes de dados muito maiores que os banco de
dados operacionais.
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
18/44
Refresh: Fazer o refresh de um Data Warehouse consiste em propagar as
atualizaes ocorridas nos banco de dados operacionais para o banco de dados
derivado do Data Warehouse.
FERRAMENTAS FRONT END
Segundo Moraes (1998), o componente front end de um sistema de Data
Warehouse o responsvel por fornecer uma soluo de acesso aos dados que
atenda as necessidades por informaes dos trabalhadores do conhecimento.
As ferramentas front end so utilizadas para anlise, ajudando a interpretar o que
ocorreu e a decidir sobre estratgias futuras. Neste tipo de aplicao, somente a
operao de consulta se faz necessria.
As ferramentas Front End executam:
o Seleo do conjunto de dados necessrios;
o Clculo e manipulao dos dados;
o Apresentao das informaes;
Os geradores de consultas e relatrios so considerados a primeira gerao de
ferramentas para o acesso a dados, as quais permitem a realizao de consultas
ad-hoc. Atualmente, as ferramentas de OLAP so as principais aplicaes de
suporte deciso utilizadas em sistemas de Data Warehouse, sendo
consideradas a segunda gerao de ferramentas para acesso a dados. Ao
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
19/44
contrrio dos geradores de consultas e relatrios, que apenas permitem uma
visualizao esttica dos dados que no podem mais ser manipulados, as
aplicaes de OLAP possibilita que a partir de uma resposta se faam outros
questionamentos, ou seja, o usurio consegue analisar o porqu dos resultados
obtidos.
Moraes (1998), compilou a lista abaixo de caractersticas que possuem eficientes
ferramentas de Front End.
o facilidades para acesso aos dados, manipulao e apresentao;
o capacidade de especificar consultas e relatrios com facilidade;
o suporte para a indstria de padres de interface, incluindo Microsoft
Windows GUI, ODBC, etc.
o suporte para o desenvolvimento de interfaces amigveis;
o habilidade para acessar a funcionalidade nativa de uma variedade
de BD e outras origens de dados;
o habilidade para suportar uma variedade de plataformas servidoras e
SGBDs.
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
20/44
DATA MARTS
Um Data Mart um sistema de suporte a deciso que incorpora um subconjunto
de dados da empresa focalizado em funes ou atividades especficas da
organizao. Os Data Marts tm propsitos especficos relacionados ao negcio,
como medida do impacto de promoes de marketing, medida ou previso de
vendas, medida do impacto da introduo de novos produtos, etc.
Data Marts podem incorporar dados substanciais, mas eles contm muito menos
dados que teria um Data Warehouse desenvolvido para a mesma organizao.
Uma vez que Data Marts so focalizados em propsitos especficos do negcio, o
planejamento do sistema e a anlise dos requerimentos so mais facilmente
gerenciveis, e o projeto, implementao, fase de testes e instalao so bem
mais baratos que para um Data Warehouses (Inmon, Welch e Glassey, 1999).Por
esse motivo, os Data Marts esto se tornando uma alternativa bastante popular
nos ltimos anos.
Os projetos de Data Marts devem ser inicialmente simples e teis para que
possam atingir seus objetivos de forma rpida e clara. No desejvel para uma
empresa investir uma quantia em dinheiro e tempo de seus funcionrios em um
projeto que pode levar meses para ser concludo e que durante o processo de
implantao possa terminar por gerar controvrsias e at mesmos problemas para
os setores(Kimball, 1998).
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
21/44
DATA MINING
Data Mining uma ferramenta de extrao de dados. O Data Mining engloba um
nmero de diferentes abordagens tcnicas, como clustering (agrupamento),sumarizao de dados, regras de classificao, deteco de anomalias, etc.
Data Mining uma categoria de ferramentas de anlise. Em vez de se fazerem
perguntas, entrega-se grandes quantidades de dados e pergunta-se se existe algo
de interessante (uma tendncia ou um agrupamento, por exemplo). O processo de
minerao de dados pode extrair conhecimento que est escondido ou
informaes de prognstico do Data Warehouse sem a necessidade de consultas
especficas ou requisies.
Esse processo de minerao usa tcnicas avanadas como redes neurais,
heursticas, descoberta por regra e deteco de desvio. Ao contrrio de relatrios
e consultas cujos relacionamentos j se conhece, o trabalho do Data Mining
descobrir o que no se sabe que existe no banco de dados.
Alguns exemplos de aplicaes de Data Mining:
o identificar padres de compra dos clientes;
o identificar correlaes escondidas entre diferentes indicadores
financeiros;
o identificar superfaturamento em grandes obras pblicas.
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
22/44
SISTEMAS GERENCIADORES DE BANCOS DE DADOS
SGBDs tm como funo fornecer acesso e manipulao eficientes aos dados
armazenados no banco, proteger estes dados contra acessos indevidos e mantersua consistncia e integridade(Moraes, 1998).
Os SGBDs em sistemas de Data Warehouse devem suportar processamento
analtico on-line (OLAP), ao contrrio do j tradicional processamento de
transaes on-line (OLTP). Os SGBDs voltados ao processamento de transaes
tm como principal caracterstica dar suporte para atualizaes concorrentes de
centenas de usurios. J os SGBDs voltados para sistemas de Data Warehouse
devem ser otimizados para o processamento de consultas complexas e ad-hoc.
Trs classes de SGDBs devem ser citadas:
a) SGBDs relacionais tradicionais:
A tecnologia relacional vem sendo amplamente reconhecida como a melhor
alternativa para a hospedagem de dados em sistemas de Data Warehouse.
Rapidamente, as melhorias dos SGBDs na rea de suporte deciso vm
atendendo as necessidades impostas pelo ambiente de Data Warehouse. Isto se
deve, principalmente, a dois principais pontos fracos dos SGBDs
multidimensionais: inflexibilidade (estrutura de arquivos proprietria) e limitado
volume de dados que podem gerenciar.
b) SGBDs multidimensionais (MOLAP):
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
23/44
Em um banco de dados multidimensional, em vez de armazenar registros em
tabelas, eles armazenam os dados em matrizes. So projetados com o objetivo de
permitir uma eficiente e conveniente armazenagem e recuperao de dados que
esto intimamente relacionados. Estes dados so armazenados, visualizados e
analisados segundo diferentes dimenses.
O grande problema dos SGBDs multidimensinais a sua capacidade de
armazenamento ainda limitada para as necessidades de um Data Warehouse.
Desta forma, estes produtos so mais utilizados no mercado como gerenciadores
de Data Marts.
c) SGBDs relacionais especializados para sistemas de Data Warehouse:
So otimizados para atender ambientes de somente leitura (read only), onde o
processamento eficiente de consultas importantssimo. A idia nestes produtos
abandonar os requisitos necessrios ao processamento de transaes (OLTP) e
se concentrar nos requisitos necessrios ao OLAP. Desta forma, estes SGBDs
fornecem novas tcnicas de otimizao de consultas sobre estruturas do tipo star
scheme, utilizam novos mtodos de indexao e interpretam a sintaxe SQL para
dar suporte a consultas que so importantes no ambiente de Data Warehouse.
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
24/44
MODELO DE DADOS
Obter respostas a questes tpicas de anlise dos negcios de uma empresa
geralmente requer a visualizao dos dados segundo diferentes perspectivas.
Suponhamos uma grande rede de hotis que deseja melhorar o desempenho de
seu negcio. Para isso, necessita examinar os dados sobre as reservas e seus
clientes. Uma avaliao deste tipo requer uma viso histrica do volume de
reservas informaes sobre seus clientes sob mltiplas perspectivas, como por
exemplo: qual a idade mdia de seus clientes, qual o perodo mdio que os
mesmos se hospedam no hotel. Uma anlise da idade mdia de seus clientes
utilizando uma ou mais destas perspectivas, permitiria responder questes do tipo:
Qual a idade mdia dos hspedes na temporada de final de ano?
Tendo em mos a resposta para essa questo, a gerncia do hotel poderia investir
no marketing para um cliente-alvo mais preciso. A capacidade de responder a este
tipo de questo em tempo hbil o que permite aos gerentes e altos executivos
das empresas formular estratgias efetivas, identificar tendncias e melhorar sua
habilidade de tomar decises de negcio. O ambiente tradicional de bancos de
dados relacional certamente pode atender a este tipo de consulta. No entanto,
usurios finais que necessitam de consultas deste tipo, via acesso interativo aos
bancos de dados, mostram-se frustrados por tempos de resposta ruins e pela falta
de flexibilidade oferecida por ferramentas de consulta baseadas no SQL (Kimball,
1998).
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
25/44
Da a necessidade de utilizar abordagens especficas para atender a estas
consultas.
A mais importante diferena entre sistemas OLTP e Data Warehouse est nomodelo de dados. O tradicional modelo Entidade-Relacionamento divide os dados
em vrias entidades distintas, cada uma transformada em uma tabela do Banco de
Dados OLTP. H algumas observaes a fazer sobre o diagrama entidade-
relacionamento.
Em primeiro lugar, ele muito simtrico. Todas as tabelas parecem iguais; esses
diagramas so difceis de visualizar e memorizar tanto pelo usurio final quanto
pelos projetistas (Kimball, 1998). Segundo, quando duas tabelas do diagrama so
necessrias para uma consulta, h um nmero imenso de conexes possveis
entre as duas tabelas. Em consultas que abrangem muitas tabelas e registros, os
diagramas Entidade-Relacionamento tornam-se muito complexos tanto para o
usurio entender quanto para o software navegar. Dito isto, pode-se concluir que
modelos Entidade-Relacionamento so um desastre para ambientes read only
(somente consulta) e no so propcios para serem utilizados como base para o
Data Warehouse.
A representao dos dados em um Data Warehouse estruturada como um cubo
de dados. Essa estrutura chamada modelo dimensional, tambm conhecida
como star scheme. Ao contrrio do modelo Entidade-Relacionamento, o modelo
dimensional muito assimtrico. H uma tabela dominante no centro do diagrama
com mltiplas junes a conectando nas outras tabelas. Cada uma das tabelas
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
26/44
secundrias possui apenas uma juno com a tabela central. A tabela central
chamada de tabela de fatos e as outras tabelas de tabelas de dimenso, como
mostra a Figura 7:
A tabela de fatos armazena medies numricas do negcio. Cada uma das
medies obtida na interseo de todas as dimenses. Os fatos melhores e
mais teis so numricos, valorados (diferentes a cada medida) e aditivos (podem
ser adicionados ao longo das dimenses). O motivo para utilizar fatos valorados e
aditivos que em praticamente todas as consultas feitas tabela de fatos, so
solicitados centenas ou milhares de registros para construir o conjunto de
resposta. Esse grande nmero de registros ser compactado em algumasdezenas de linhas para produzir o conjunto de resposta do usurio. A nica forma
vivel de compact-los no conjunto de resposta ser adicion-los. Portanto, se as
medies forem nmeros e se forem aditivas, pode-se construir facilmente o
conjunto de resposta.,
DIM TEMPO
id_tempodia_do_ms
dia_da_semana
ms
ano
FATO COMPRAS
id_tempoid_produto
id_fornecedor
quantidade
valor
DIM PRODUTO
id_produto
descrio
categoriavolume
DIM FORNECEDOR
id_fornecedor
nomeendereo
descrio
Figura 5 - Star Scheme
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
27/44
As tabelas dimensionais armazenam as descries textuais das dimenses. Esses
atributos textuais so usados como restries e cabealhos de linha no conjunto
de resposta.
Ao se projetar um banco de dados, pode-se ficar na dvida se um campo de
dados ser modelado como um fato ou um atributo. Segundo Kimball (1998), se o
dado for numrico e variar continuamente a cada amostragem, ele ser
considerado um fato. Do contrrio, se for uma descrio praticamente constante
de um item, ser considerada um atributo de dimenso.
O Star Schemetem uma srie de vantagens que so descritas abaixo:
o O Star Scheme tem uma arquitetura padro e previsvel. As ferramentas de
consulta e interfaces do usurio podem se valer disso para fazer suas
interfaces mais amigveis e fazer um processamento mais eficiente;
o Todas as dimenses do modelo so equivalentes, ou seja, podem ser
vistas como pontos de entrada simtricos para a tabela de fatos. As
interfaces do usurio so simtricas, as estratgias de consulta so
simtricas, e o SQL gerado, baseado no modelo, simtrico;
o O modelo dimensional totalmente flexvel para suportar a incluso de
novos elementos de dados, bem como mudanas que ocorram no projeto.
Essa flexibilidade se expressa de vrias formas, dentre as quais temos:
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
28/44
Todas as tabelas de fato e dimenses podem ser alteradas
simplesmente acrescentando novas colunas a tabelas;
Nenhuma ferramenta de consulta ou relatrio precisa ser alterada deforma a acomodar as mudanas;
Todas as aplicaes que existiam antes das mudanas continuam
rodando sem problemas;
o Existe um conjunto de abordagens padres para tratamento de situaes
comuns no mundo dos negcios. Cada uma destas tem um conjunto bem
definido de alternativas que podem ento ser especificamente programadas
em geradores de relatrios, ferramentas de consulta e outras interfaces do
usurio. Dentre estas situaes temos:
Mudanas lentas das dimenses: ocorre quando uma determinada
dimenso evolui de forma lenta e assncrona;
Produtos heterogneos: quando um negcio, tal como um banco,
precisa controlar diferentes linhas de negcio juntas, dentro de um
conjunto comum de atributos e fatos, mas ao mesmo tempo esta
precisa descrever e medir as linhas individuais de negcio usando
medidas incompatveis;
o Outra vantagem o fato de um nmero cada vez maior de utilitrios
administrativos e processo de software serem capazes de gerenciar e usar
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
29/44
agregados, que so de suma importncia para a boa performance de
respostas em um Data Warehouse.
DESENVOLVIMENTO DE UM DATA WAREHOUSE
O sucesso do desenvolvimento de um Data Warehouse depende
fundamentalmente de uma escolha correta da estratgia a ser adotada, de forma
que seja adequada s caractersticas e necessidades especficas do ambiente
onde ser implementado. Existe uma variedade de abordagens para o
desenvolvimento de Data Warehouses, devendo-se fazer uma escolha
fundamentada em pelo menos trs dimenses: escopo (departamental,
empresarial, etc), grau de redundncia de dados, tipo de usurio alvo.
O escopo de um Data Warehouse pode ser to amplo quanto aquele que inclui
todo o conjunto de informaes de uma empresa ou to restrito quanto um Data
Warehouse pessoal de um nico gerente. Quanto maior o escopo, mais valor o
Data Warehouse tem para a empresa e mais cara e trabalhosa sua criao e
manuteno. Por isso, muitas empresas tendem a comear com um ambiente
departamental e s aps obter um retorno de seus usurios expandir seu escopo.
Quanto redundncia de dados, h essencialmente trs nveis de redundncia: o
Data Warehouse virtual, o Data Warehouse centralizado e o data warehouse
distribudo.
O Data Warehouse virtual consiste em simplesmente prover os usurios finais
com facilidades adequadas para extrao das informaes diretamente dos
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
30/44
bancos de produo, no havendo assim redundncia, mas podendo
sobrecarregar o ambiente operacional.
O Data Warehouse central constitui-se em um nico banco de dados fsicocontendo todos os dados para uma rea funcional especfica, um departamento ou
uma empresa, sendo usados onde existe uma necessidade comum de
informaes. Um Data Warehouse central normalmente contm dados oriundos de
diversos bancos operacionais, devendo ser carregado e mantido em intervalos
regulares.
O Data Warehouse distribudo, como o nome indica, possui seus componentes
distribudos por diferentes bancos de dados fsicos, normalmente possuindo uma
grau de redundncia alto e por conseqncia, procedimentos mais complexos de
carga e manuteno.
Os padres de uso de um Data Warehouse tambm constituem um fator
importante na escolha de alternativas para o ambiente. Relatrios e consultas pr-
estruturadas podem satisfazer o usurio final, e geram pouca demanda sobre o
SGBD e sobre o ambiente servidor. Anlises complexas, por sua vez, tpicas de
ambientes de suporte deciso, exigem mais de todo o ambiente.
Ambientes dinmicos, com necessidades em constante mudana, so mais bem
atendidos por uma arquitetura simples e de fcil alterao, ao invs de uma
estrutura mais complexa que necessite de reconstruo a cada mudana. A
freqncia da necessidade de atualizao tambm determinante: grandes
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
31/44
volumes de dados que so atualizados em intervalos regulares favorecem uma
arquitetura centralizada.
ESTRATGIA EVOLUCIONRIA
Data Warehouses, em geral, so projetados e carregados passo a passo,
seguindo, portanto uma abordagem evolucionria. Os custos de uma
implementao "por inteiro", em termos de recursos consumidos e impactos no
ambiente operacional da empresa justificam esta estratgia.
Muitas empresas iniciam o processo a partir de uma rea especfica da empresa,
que normalmente uma rea carente de informao e cujo trabalho seja relevante
para os negcios da empresa, criando os chamados Data Marts, para depois ir
crescendo aos poucos, seguindo uma estratgia "botton-up" ou assunto-por-
assunto.
Outra alternativa selecionar um grupo de usurios, prover ferramentas
adequadas, construir um prottipo do Data Warehouse, deixando que os usurios
experimentem com pequenas amostras de dados. Somente aps a concordncia
do grupo quanto aos requisitos e funcionamento, o Data Warehouse ser de fato
alimentado com dados dos sistemas operacionais na empresa e dados externos.
Data Marts tambm pode ser criados como subconjunto de um Data Warehouse
maior, em busca de autonomia, melhor desempenho e simplicidade de
compreenso.
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
32/44
ASPECTOS DE MODELAGEM
A especificao de requisitos do ambiente de suporte deciso associado a um
Data Warehouse fundamentalmente diferente da especificao de requisitos dossistemas que sustentam os processos usuais do ambiente operacional de uma
empresa.
Os requisitos dos sistemas do ambiente operacional so claramente identificveis
a partir das funes a serem executadas pelo sistema. Requisitos de sistemas de
suporte deciso so, por sua vez, indeterminados.
O objetivo por trs de um Data Warehouse prover dados com qualidade; os
requisitos dependem das necessidades de informao individuais de seus
usurios. Ao mesmo tempo, os requisitos dos sistemas do ambiente operacional
so relativamente estveis ao longo do tempo, enquanto que os dos sistemas de
suporte deciso so instveis. No entanto, embora as necessidades por
informaes especficas mudem com freqncia, os dados associados no
mudam. Imaginando-se que os processos de negcio de uma empresa
permaneam relativamente constantes, existe apenas um nmero finito de objetos
e eventos com as quais uma organizao est envolvida.
Por esta razo, o modelo de dados uma base slida para identificar requisitos
para um Data Warehouse.
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
33/44
ETAPAS DO DESENVOLVIMENTO DE UM DATA WAREHOUSE
Na verdade, difcil apontar no momento, uma metodologia consolidada e
amplamente aceita para o desenvolvimento de Data Warehouses. O que se v naliteratura e nas histrias de sucesso de implementaes em empresas, so
propostas no sentido de construir um modelo dimensional a partir do modelo de
dados corporativo ou departamental, de forma incremental.
De qualquer forma, a metodologia a ser adotada ainda bastante dependente da
abordagem escolhida, em termos de ambiente, distribuio, etc.
Desenvolver um Data Warehouse uma questo de casar as necessidades dos
seus usurios com a realidade dos dados disponveis. Abaixo podemos analisar
os chamados pontos de deciso, que constituem definies a serem feitas e
correspondem a etapas do projeto:
1. Os processos, e por conseqncia, a identidade das tabelas de fatos;
2. A granularidade de cada tabela de fatos;
3. As dimenses de cada tabela de fatos;
4. Aos fatos, incluindo fatos pr-calculados;
5. Os atributos das dimenses;
6. Como acompanhar mudanas graduais em dimenses;
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
34/44
7. As agregaes, dimenses heterogneas, minidimenses e outras decises
de projeto fsico;
8. Durao histrica do banco de dados;
9. A urgncia com que se d a extrao e carga para o Data Warehouse.
Esta metodologia segue a linha top-down, pois comea identificando os grandes
processos da empresa.
EXTRAINDO INFORMAES DE UM DATA WAREHOUSE
Existem vrias maneiras de recuperar informaes de um data Warehouse. As
formas de extrao mais comuns no mercado hoje so:
o Ferramentas de consulta e emisso de relatrios;
o EIS (Executive Information Systems);
o Ferramentas OLAP;
o Ferramentas Data mining.
A nova tendncia dessas solues a integrao com o ambiente Web,
permitindo maior agilidade em consultas estticas e dinmicas.
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
35/44
A seguir veremos de forma bsica e separadamente os conceitos das tecnologias
OLAP e Data Mining. A diferena bsica entre ferramentas OLAP e Data Mining
est na maneira como a explorao dos dados abordada.
Com ferramentas OLAP a explorao feita na base da verificao, isto , o
analista conhece a questo, elabora uma hiptese e utiliza a ferramenta para
confirm-la.
Com Data Mining, a questo total ou parcialmente desconhecida e a ferramenta
utilizada para a busca de conhecimento.
FERRAMENTAS OLAP
OLAP On-Line Analytical Processing representa um conjunto de tecnologias
projetadas para suportar anlise e consultas ad hoc. Sistemas OLAP ajudam
analistas e executivos a sintetizarem informaes sobre a empresa, atravs de
comparaes, vises personalizadas, anlise histrica e projeo de dados em
vrios cenrios de "e se...".
Os sistemas OLAP so implementados para ambientes multi-usurio, arquitetura
cliente-servidor e oferecem respostas rpidas e consistentes s consultas
iterativas executadas pelos analistas, independente do tamanho e complexidade
do banco de dados.
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
36/44
A caracterstica principal dos sistemas OLAP permitir uma viso conceitual multi-
dimensional dos dados de uma empresa. A viso multi-dimensional muito mais
til para os analistas do que a tradicional viso tabular utilizada nos sistemas de
processamento de transao. Ela mais natural, fcil e intuitiva, permitindo a
viso em diferentes perspectivas dos negcios da empresa e desta maneira
tornando o analista um explorador da informao (Bispo e Cazarini, 1999).
A modelagem dimensional a tcnica utilizada para se ter uma viso multi-
dimensional dos dados. Nesta tcnica os dados so modelados em uma estrutura
dimensional conhecida por cubo. As dimenses do cubo representam os
componentes dos negcios da empresa tais como "cliente", "produto",
"fornecedor" e "tempo". A clula resultante da interseo das dimenses
chamada de medida e geralmente representa dados numricos tais como
"unidades vendidas", "lucro" e "total de venda". Alm dos componentes dimenso
e medida outro importante aspecto do modelo multi-dimensional a consolidaodos dados uma vez que para a tarefa de anlise so mais teis e significativas as
agregaes (ou sumarizao) dos valores indicativas dos negcios.
Alm da viso multi-dimensional dos dados da empresa, a tecnologia OLAP tem
uma srie de outras caractersticas importantes relacionadas abaixo:
o Anlise de tendncias. A tecnologia OLAP mais do que uma forma de
visualizar a histria dos dados. Deve, tambm, ajudar os usurios a
tomar decises sobre o futuro, permitindo a construo de cenrios ("e
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
37/44
se...") a partir de suposies e frmulas aplicadas, pelos analistas, aos
dados histricos disponveis;
o Busca automtica (reach-through) de dados mais detalhados que noesto disponveis no servidor OLAP. Detalhes no so normalmente
importantes na tarefa de anlise, mas quando necessrios, o servidor
OLAP deve ser capaz de busc-los;
o Dimensionalidade genrica;
o Operao trans-dimensional. Possibilidade de fazer clculos e
manipulao de dados atravs diferentes dimenses;
o Possibilidade de ver os dados de diferentes pontos de vista (slice and
dice), mediante a rotao (pivoting) do cubo e a navegao (drill-up/drill-
down) entre os nveis de agregao;
o Conjunto de funes de anlise e clculos no triviais com os dados.
Segundo Inmon, Welch e Glassey (1999), existe tambm um conjunto de regras
que servem para avaliar as ferramentas OLAP):
o
Viso conceitual multidimensional;
o Transparncia;
o Acessibilidade;
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
38/44
o Performance de Relatrio consistente;
o Arquitetura cliente-servidor;
o Dimensionalidade genrica;
o Operao dimensional cruzada irrestrita;
o Manipulao de dados intuitiva;
o Flexibilidade quanto a relatrios;
o Dimenso e nveis de agregamentos ilimitados;
o Pesquisa de detalhes (drill down);
o Atualizao incremental do banco de dados;
o Arrays mltiplos;
o Seleo de subconjuntos;
o Suporte a dados locais.
Uma arquitetura OLAP possui trs componentes principais: um modelo de
negcios para anlises interativas, implementado numa linguagem grfica que
permita diversas vises e nveis de detalhes dos dados; um motor OLAP para
processar consultas multidimensionais contra o dado-alvo; e um mecanismo para
armazenar os dados a serem analisados.
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
39/44
MOLAP x ROLAP
Multidimensional OLAP (MOLAP) uma classe de sistemas que permite a
execuo de anlises sofisticadas usando como gerenciador de dados um bancode dados multidimensional. Em um banco de dados MOLAP os dados so
mantidos em arranjos e indexados de maneira a prover uma tima performance no
acesso a qualquer elemento. O indexamento, a antecipao da maneira como os
dados sero acessados e o alto grau de agregao dos dados faz com que
sistemas MOLAP tenham uma excelente performance. Alm de serem rpidos,
outra grande vantagem destes sistemas o rico e complexo conjunto de funes
de anlise que oferecem.
A maneira de se implementar os arranjos de dados pode variar entre fornecedores
de solues MOLAP. Existem as arquiteturas hiper-cubos e multi-cubos. Na
arquitetura hiper-cubo existe um nico cubo onde cada medida referenciada por
todas as outras dimenses. Por exemplo, um cubo onde a medida "compras"
referenciada pelas dimenses "produto", "ano", "mes", "estado" e "cidade".
Na arquitetura multi-cubos uma medida referenciada por dimenses
selecionadas. Em um cubo, a medida "vendas" referenciada pelas dimenses
"semestre", "estado" e "produto" e em outro cubo, a medida "custo" referenciada
pelas dimenses "ms" e "departamento". Esta arquitetura escalvel e utiliza
menos espao em disco. A performance melhor em cada cubo individualmente,
no entanto, consultas que requerem acesso a mais de um cubo podem exigir
processamentos complexos para garantir a consistncia do tempo de resposta.
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
40/44
Sistemas ROLAP fornecem anlise multidimensional de dados armazenados em
uma base de dados relacional. Existem duas maneiras de se fazer este trabalho:
o Fazer todo o processamento dos dados no servidor da base de dados. Oservidor OLAP gera os comandos SQL em mltiplos passos e as tabelas
temporrias necessrias para o processamento das consultas;
o Ou executar comandos SQL para recuperar os dados, mas fazer todo o
processamento (incluindo joins e agregaes) no servidor OLAP.
A principal vantagem de se adotar uma soluo ROLAP reside na utilizao de
uma tecnologia estabelecida, de arquitetura aberta e padronizada como a
relacional, beneficiando-se da diversidade de plataformas, escalabilidade e
paralelismo de hardware.
FERRAMENTAS DATA MINING
Segundo Pinheiros (1999), nos primrdios do Data Warehouse, o Data Mining era
visto como um subconjunto das atividades associadas com o Data Warehouse.
Mas atualmente os caminhos do Data warehouse e do Data Mining esto
divergindo. Enquanto o Data Warehouse pode ser uma boa fonte de dados para
minerar, o Data Mining foi reconhecido como uma tarefa genuna, e no mais
como uma colnia do Data Warehouse.
Apesar do termo Data Mining ter se tornado bastante popular nos ltimos anos,
existe ainda uma certa confuso quanto sua definio. Data Mining (ou
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
41/44
minerao de dados) o processo de extrair informao vlida, previamente
desconhecida e de mxima abrangncia a partir de grandes bases de dados,
usando-as para efetuar decises cruciais. Data Mining vai muito alm da simples
consulta a uma banco de dados, no sentido de que permite aos usurios explorar
e inferir informao til a partir dos dados, descobrindo relacionamentos
escondidos no banco de dados. Pode ser considerada uma forma de
descobrimento de conhecimento em bancos de dados (KDD - Knowledge
Discovery in Databases), rea de pesquisa de bastante evidncia no momento,
envolvendo Inteligncia Artificial e Banco de Dados (Campos, 1999).
Um ambiente de apoio tomada de decises, integrando tcnicas de Data Mining
sobre um ambiente de Data Warehousing, possibilita um grande nmero de
aplicaes, que j vm sendo implementadas em diversos segmentos de
negcios, como manufatura, automao de pedido de remessas, varejo,
gerenciamento de inventrios, financeiro, anlise de risco, transporte,gerenciamento de frotas, telecomunicao, anlise de chamadas, sade, analise
de resultados, markenting, estabelecimento do perfil dos consumidores, seguros,
deteco de fraude, dentre outros(Pinheiros, 1999).
O Data Mining pode ser utilizado com os seguintes objetivos:
o Explanatrio: explicar algum evento ou medida observada, tal como porque
a venda de sorvetes caiu no Rio de Janeiro;
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
42/44
o Confirmatrio: confirmar uma hiptese. Uma companhia de seguros, por
exemplo, pode querer examinar os registros de seus clientes para
determinar se famlias de duas rendas tem mais probabilidade de adquirir
um plano de sade do que famlias de uma renda;
o Exploratrio: analisar os dados buscando relacionamentos novos e no
previstos. Uma companhia de carto de crdito pode analisar seus registros
histricos para determinar que fatores esto associados a pessoas que
representam risco para crditos.
O diferencial do Data Mining est no fato de que as descobertas de padres de
consumo se do por uma lgica de algoritmos com base em uma rede neural de
raciocnios. So ferramentas de descobertas matemticas feitas sobre os registros
corporativos j processados contra descobertas empricas.
CARACTERSTICAS DE UM DATA WAREHOUSE BEM-SUCEDIDO
O que pode ser feito para criar um ambiente de anlise de dados moderno no qual
os usurios possam embarcar numa viagem aleatria e direta? Segundo Inmon,
Welch e Glassey (1999) h quatro objetivos-chave que devem ser alcanados
para um Data Warehouse ser considerado bem-sucedido.
o Fornecer modos melhores e mais rpidos para que os usurios
descubram as respostas a questes complexas e imprevisveis.
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
43/44
o Colocar os usurios em contado direto com os dados de que precisam
para tomar decises melhores.
o Permitir que os usurios tornem-se responsveis pela especificao,criao e gerao repetida dos relatrios e anlises que necessitem.
o Contar com uma manuteno apropriada e responsvel dos recursos de
dados corporativos.
O sistema que satisfaz esses objetivos um sistema de suporte a decises
moderno. Os projetos de Data Warehouse obtm sucesso quando os usurios so
mais independentes. Data Warehouses bem-sucedidos colocam os usurios no
centro do projeto. Quando todos reconhecem isso, uma nova atitude e abordagem
so os ingredientes mais bem-sucedidos nessa mistura. As organizaes que
entendem esses fatores fundamentais que esto conduzindo a alteraes no
paradigma tero sucesso em estabelecer Data Warehouses bem-sucedidos
(Inmon, Welch e Glassey, 1999).
5/28/2018 datawarehouse_artigo bom_parei modelo de dados.pdf
44/44