47
Data warehouse Disciplina: Mineração de Dados

Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Embed Size (px)

Citation preview

Page 1: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Data warehouse

Disciplina: Mineração de Dados

Page 2: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

PARTE I:Suporte à decisão e DW

Novo ambiente de negócios

Ambiente operacional X Informacional

Fundamentos de Data warehouse

Arquitetura de Data Warehouse

Page 3: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Novo Ambiente de Negócios

Competição Global

Mais e mais qualidade requerida

Achatamento da hierarquia nas empresas

Page 4: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

A chave para o sucesso Alta qualidade

Baixo Custo

Flexibilidade

Agilidade

Organizações Inteligentes

A INFORMAÇÃO está no centro de todaorganização inteligente !

Page 5: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Tomada de Decisão

Tomar a ação apropriada considerando-se níveis de risco e incerteza assumidos

Page 6: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Suporte à Decisão Produção e distribuição de Informação

Útil para gerentes, executivos e analistas do conhecimento.

Análises: O que aconteceria se ... Quanto ... Quando ...

Page 7: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Algumas Questões Fundamentais

Tecnologia é um meio para atingir um fim, não um fim em si mesma: a tecnologia apenas capacita a vantagem nos negócios

O sucesso no emprego de novas estratégias de negócio requer tecnologia de Suporte à Decisão

O sucesso na implementação requer abordagens e métodos distintosdos utilizados nos ambientes operacionais da empresa

Page 8: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Realidade dos BD corporativos

Sales Marketing Finance RatesCustomer

Service MIS

Demographics General Ledger Product Planning Promotions

Product Info

Competitive Info

Market Data

AccountingPurchasing

Contracts

Page 9: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

O que queremos?

Sales Marketing Finance Rates/Regulatory

CustomerService

MIS

Product Data

Customer Data

Sales Data

Market Data

G/L Data

Revenue Data

External Data

Informação! Agilidade

Flexibilidade

Uma única versão da verdade

Mas, de que forma?

Com :

Page 10: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Como obter a informação necessária?

Dados dos ClientesDados dos Clientes Dados de ComprasDados de Compras

Comentários e Comentários e Reclamações de ClientesReclamações de Clientes

Dados de Dados de Levantamentos Levantamentos

Pedidos de ServiçoPedidos de Serviço

Dados de Dados de ProdutosProdutosDisponíveisDisponíveis

Page 11: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Ambiente de AplicaçõesOperacionais Dão suporte às

funções associadas à execução do negócio da empresa: sistemas

administrativos controle de estoque sistemas de

expedição etc

Suporte à Decisão Dão suporte às

funções associadas à concepção do negócio da empresa

Page 12: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Ambiente Operacional Tipo de processamento: OLTP

Processamento de Transação On-line baseado em transações voltado para velocidade e automação de

funções “repetitivas” mantém usualmente situação corrente atualizações e consultas em grande número

trabalha com alto nível de detalhe

Page 13: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Ambiente de suporte à decisão (analítico)

Tipo de processamento: OLAP

“Pequeno” número de consultas “variáveis” Necessidade de ver o dado sob diferentes

perspectivas: aplicações dinâmicas Operações de agregação e cruzamentos Atualização quase inexistente, apenas novas

inserções Dados Históricos são relevantes Consistência é fundamental

Page 14: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Requisitos de ambientes operacionais e analíticos

Sistemas Operacionais Tempo de Resposta Segurança Recuperação de Falhas Muitos usuários concorrentes

Sistemas Analíticos ou “Informacionais” Flexibilidade, facilidade de navegação Consultas complexas, não antecipadas Gerenciamento de enormes volumes de dados ‘(VLDBs) Necessidade de examinar o dado em diferentes níveis de detalhe Necessidade de acesso a dados provenientes de fontes de dados

diversas

Page 15: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Características Bancos de dados Operacionais

BDs para análise

Objetivo Operações diárias do negócio Analisar o negócio Uso Operacional Informativo Tipo de processamento

Processo de Transação On-line OLTP

OLAP – Processo On-line Analítico

Unidade de trabalho Inclusão, alteração, exclusão Carga e consulta Número de usuários Milhares Centenas Tipo de usuário Operadores Comunidade gerencial Interação do usuário Somente pré-definida Pré-definida e ad-hoc Condições dos dados

Dados operacionais Dados Analíticos

Volume Megabytes – gigabytes Gigabytes – terabytes Histórico 60 a 90 dias 5 a 10 anos Granularidade Detalhados Detalhados e resumidos Redundância Não ocorre Ocorre Características BD operacionais Data Warehouse Estrutura Estática Variável Manutenção desejada

Mínima Constante

Acesso a registros Dezenas Milhares Atualização Contínua (tempo real) Periódica (em batch) Integridade Transação A cada atualização Número de índices Poucos/simples Muitos/complexos Intenção dos índices Localizar um registro Aperfeiçoar consultas

Page 16: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

SSD: Resposta competitiva ao mercado

“Quantos clientes da

seguradora já tiveram sinistros no último ano e

também aumentaram o

valor do seguro?

Pedido à área de

Sistemas

Execução

Criação de

Relatório

Page 17: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Suporte à Decisão “Tradicional”

Sistemas Operacionais

Frente de LojaEstoquesCompras...Contabilidade

Informações Gerenciais

Conjunto de Relatórios

VendasPosição do Estoque...

Base de Dados Comum

Forte Acoplamento entre Sistemas Operacionais e Gerenciais

Page 18: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Suporte à Decisão “Tradicional”Ambiente OperacionalAmbiente Operacional Analista do negócioAnalista do negócio

Dados não estão adequados para suporte à Dados não estão adequados para suporte à decisão decisão

Sistemas de suporte à decisão desenvolvidos Sistemas de suporte à decisão desenvolvidos ad-hocad-hoc

Analista do Negócio vira “Programador” Analista do Negócio vira “Programador” Longo tempo de espera Longo tempo de espera

Page 19: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Porque um ambiente de Data Warehouse?

Integrar dados de múltiplas fontes

Facilitar o processo de análise sem impacto para o ambiente de dados operacionais

Obter informação de qualidade

Atender diferentes tipos de usuários finais

Flexibilidade e agilidade para atender novas análises

BDs Operacionais

DW

Aplicação SD

Ferramenta OLAP

Aplicação DBMKT

Page 20: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Data Warehouse - Definição Processos, ferramentas e recursos para gerenciar e disponibilisar informações de negócios precisas e inteligíveis para que indivíduos possam tomar decisõesefetivas. (IBM)

Um ambiente para adequadamente organizar, gerenciare disponibilisar informações oriundas de fontes diversas,fornecendo um visão única de parte ou de todo o negóciocom o objetivo de dar suporte a operações analíticas.

Page 21: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Data Warehouse de acordo com Bill Inmon

“A Data Warehouse is a

subject-oriented, integrated,

time-variant, non-

volatile

collection of data in support of management’s decision-making process.”

Page 22: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Orientado a assunto

DATA WAREHOUSE

MATERIAL

PRODUÇÃO

VENDAS

Sistema Operacionalcontrole de estoquecontrole de pedidoscontas a pagar e a receber

Page 23: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Integrado

Page 24: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Não volátil

Page 25: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Variável ao Tempo

Page 26: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Granularidade

Page 27: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Data Warehouse de acordo com Bill Inmon

Sistemas Operativos Integração

eTransformação

- Integração- Granularidade- Transferência de Dados - Alimentação do Metadados

- Informações- Decisões Gerenciais- Decisões de Longo Prazo- Análises Históricas- Análises de Tendências- Análises Integradas

- Coletar dados detalhados- Editar dados- Interação imediata cliente- Entrada de Dados

DataWarehouse

A Fábrica de Informações

Page 28: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Arquitetura do Ambiente de DW (proposta por Orr)

Page 29: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Arquitetura Genérica 1/5 Camada de BDs Operacionais e Fontes

Externas Camada de Acesso a Informações Camada de Metadados (dicionário de dados) Camada de Gerenciamento de Processos Camada de Transporte Camada de DW Camada de Gerenciamento de Replicação

Page 30: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Arquitetura Genérica 2/5

Camada de BDs Operacionais e Fontes externas Dados das bases operacionais junto com

dados provenientes de fontes externas

Camada de Acesso à Informação Representa as ferramentas que o usuário

utiliza no dia a dia. Ou ferramentas sofisticadas como de visualização e mineração de dados

Page 31: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Arquitetura Genérica 3/5

Camada de Acesso aos DadosLigação entre as ferramentas de acesso à

informação e os BDs operacionais. Comunica com diferentes SGBDs e sistemas de arquivos. "Acesso universal de dados"

Camada de MetadadosInformações sobre os dados. Desde dados

sobre visões dos usuários até dados sobre os BD oper.

Page 32: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Arquitetura Genérica 4/5

Camada de Gerenciamento de ProcessosControle de tarefas para construir e manter as

informações do dicionário de dados e do DW.Manter consistência do DW

Camada de TransporteGerencia transporte de informações pelo

ambiente de redes. Usada para isolar aplicações operacionais ou informacionais.

Page 33: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Arquitetura Genérica 5/5Camada do Data Warehouse

Dados usados para fins "informacionais". Em alguns casos o DW é apenas uma visão lógica ou virtual dos dados.

Camada de Gerenciamento de ReplicaçãoProcessos para selecionar, editar, resumir e carregar o

DW e as correspondentes informações de acesso a partir das bases operacionais e fontes externas. Envolve programas de análise da qualidade de dados e filtros que identificam padrões nos dados operacionais.

Page 34: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Arquitetura Genérica de um Data Warehouse

Fontes deDados

Extração deDados

Transformaçãode Dados

Dados noWarehouse

WarehouseWarehouse

Dados Dimensionais

MartMart

MartMart

MartMart

Sistemas de Acesso

AdministraçãoAdministração

Metadata produzido em todas as etapasMetadata produzido em todas as etapas

Page 35: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Qual a estratégia correta?

O Data Warehouse Corporativo

Data Warehouses Departamentais

Data Warehouses Funcionais Marketing, Financeiro, Administrativo, etc.

Data Warehouses para projetos especiais

...

Page 36: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Data Mart - Conceito“Um subconjunto lógico do Data Warehouse, geralmente visto como um data warehouse setorial.” (Kimball)

Uma perspectiva top-down considera que um DW completo, centralizado deva ser desenvolvido antes que partes dele, sumariadas, possam ser derivadas na forma de Data Marts.

Uma perspectiva botton-up, considera que um DW possa sercomposto a partir de Data Marts previamente desenvolvidos.

Page 37: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Arquitetura de Dados Existem 3 abordagens:

DW centralizado: um DW integrado. Maximiza o poder de processamento disponível.

Arquitetura federativa: distribuindo a informação por função.

Arquitetura em camadas: dados altamente resumidos em um servidor, dados resumidos em nível intermediário em um segundo servidor e os dados mais detalhados em um terceiro servidor.

Os dados da 1a. Camada podem ser otimizados para carga pesada de usuários e baixo volume de dados enquanto as outras camadas são mais adequadas para processar grande volume de dados.

Page 38: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

MóduloAtualização

Arquitetura de Três Camadas em DW

Bases de Dados dos Sistemas Transacionais

MódulosExtração e

Atualização

Contab Faturam. Folha

Data Warehouse

dic.RH

Data MartRH

Dic.

MóduloAtualização Marketing

Data MartMKTDic.

DWFerramenta

Consulta

Analistas de Negócio

DMFerramenta

Consulta

Executivos e gerentes

DMFerramenta

Consulta

Primeira - inclui os dados operacionais da empresa, que alimentam o Data Warehouse Segunda - o Data Warehouse - é um grande depósito de dados históricos detalhadosTerceira - composta pelos Data Marts - é otimizada para consultas de cada comunidade de usuários

MarketingFinanças

Vendas

LogísticaEtc.

RH

dic.

Page 39: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

O Mito Para serem úteis os Data Warehouse

devem possuir grande abrangência, com dados de variadas fontes abrangendo os diversos aspectos da Empresa.

Pré-requisito : empresa totalmente informatizada e integrada

Implicação : projetos extremamente complexos e com alta probabilidade de insucesso.

Page 40: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

A Realidade

Projetos Evolutivos Enfocar inicialmente nos aspectos mais

críticos Aproveitar a estrutura operacional

disponível Retorno mais rápido Acúmulo de experiência : menor risco e

menor custo

Page 41: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Abordagem Corrente

Desenvolver incrementalmente

Abordagem por estágios para o DW

corporativo:

seguro

gerenciável

experimental

recomendado

Page 42: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Abordagem corrente Estratégia

Visão Integrada Dividir para conquistar Errar pequeno

Desenvolver incrementalmente Planejamento Top-Down Desenvolvimento Botton-Up, um DM de cada vez,

resultados devem ser atingidos em pequenos ciclos (ex.: a cada 3 meses)

Cada Data Mart deve ser encarado de forma evolutiva complexidade do modelo, volume de dados, investimentos

Desafio Garantir a coerência entre os vários Data Marts

Page 43: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Data Warehouse de acordo com Kimball

Sistemas Operativos

Integração &

Transformação

ODS

- Dados a nível de transação- Modelo dimensional

Data Marts Integrados

Marketing

Vendas

Finanças

Produção

R.H.

...

DW = Operational Data Store + Data Marts Integrados

Page 44: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Transporte de Dados (Data Staging)

Extração Coleta de dados nos sistemas existentes Operação demorada e complexa Muitas vezes, desenvolvimento ad-hoc

Transformação fundamental para clareza e integração recodificação de categorias: (m/f, male/female to M/F) alterações e uniformização de unidades de medida, nomes de

campos, datas

Limpeza fundamental para qualidade da informação extraída

Carga e Realimentação trade-off (muito frequente é caro, pouco significa dados “velhos”)

Page 45: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

ODS (Operational Data Store) De acordo com Inmon:

depósito volátil, temporário de dados correntes detalhados

De acordo com Kimball: depósito histórico, frequentemente alimentado,

de dados detalhados e integrados, constituindo-se no nível atômico do ambiente de DW

Page 46: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Componentes Potenciais do Ambiente de DW

1. Repositório de Metadados

2. Ferramentas de Projeto CASE3. Ferramentas de Extração,

Transformação e Carga (ETL)4. Ferramentas para Qualidade e

Limpeza5. Ferramentas para Replicação6. Provedores de Interfaces de BD

ODBC/OLE7. Ferramentas de Gateway para

BD Legados8. Bancos de Dados Relacioanais

9. Bancos de Dados Não-Relacionais Legados

10 Ferramentas ROLAP 11. Ferramentas de Relatório e

Consulta 12. Ferramentas de Data Mining 13. Ferramentas de Data

Warehouse14. Ferramentas de Consolidação

de Data Warehouses15. Pacotes de Aplicação para Data

Warehouse

todos eles manipulando/gerando metadados.

Page 47: Data warehouse Disciplina: Mineração de Dados. PARTE I: Suporte à decisão e DW Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos

Algumas questões críticas em DW

Diversidade de abordagens Falta de uma metodologia consolidada Diversidade de ferramentas Transporte de dados ambiente

operacionalDW Gerência e manutenção de metadados