Upload
internet
View
108
Download
2
Embed Size (px)
Citation preview
1
Por que Construir um Data Warehouse ?
ProfessorProfessor Edson Emílio Scalabrin
telefone: 0xx41-330-1786e-mail: [email protected]
download: http://www.ppgia.pucpr.br/~scalabrin
2
Próximas aulasPróximas aulas
23/07/01 – Data Warehouse – Edson Scalabrin23/07/01 – Data Warehouse – Edson Scalabrin 24/07/01 – Não haverá – Edgard Jamhour24/07/01 – Não haverá – Edgard Jamhour 30/07/01 – Aulas práticas de SAD30/07/01 – Aulas práticas de SAD
• Metade da turma c/ o Prof. Bráulio ÁvilaMetade da turma c/ o Prof. Bráulio Ávila• Metade da tuMetade da turrma c/ o Prof. Edson Scalabrinma c/ o Prof. Edson Scalabrin
31/07/01 – Aula téorica – Edgard Jamhour31/07/01 – Aula téorica – Edgard Jamhour
3
ObjetivoObjetivo
Apresentar alguns pontos motivadores da Apresentar alguns pontos motivadores da construção de um data warehouse.construção de um data warehouse.
Metodologia:Metodologia:• Ponto de partida a evolução tecnológica na Ponto de partida a evolução tecnológica na
área de informáticaárea de informática
4
Evolução TecnológicaEvolução Tecnológica
11asas. Edições de Banco de Dados preocupavam-se de . Edições de Banco de Dados preocupavam-se de forma não separada do:forma não separada do:
• processamento de transações (online)processamento de transações (online)• processamento em loteprocessamento em lote• processamento analíticoprocessamento analítico
Edições subsequentes promovem a separação Edições subsequentes promovem a separação destes diversos processamentos:destes diversos processamentos:
• para atender necessidades operacionaispara atender necessidades operacionais• para atender necessidades informacionais ou analíticaspara atender necessidades informacionais ou analíticas
Evolução = PC + Linguagens de Quarta Geração.Evolução = PC + Linguagens de Quarta Geração.
5
Evolução TecnológicaEvolução Tecnológica
Razões da divisão: Razões da divisão: operacional vs. informacionaloperacional vs. informacional• os dados que atendem as necessidades os dados que atendem as necessidades
operacionais são fisicamente diferentes dos dados operacionais são fisicamente diferentes dos dados que atendem as necessidades informacionais;que atendem as necessidades informacionais;
• a tecnologia de suporte é diferente;a tecnologia de suporte é diferente;• a comunicação dos usuários com os BDs é a comunicação dos usuários com os BDs é
diferente;diferente;• as características de processamento do ambiente as características de processamento do ambiente
operacional e do ambiente informacional são operacional e do ambiente informacional são fundamentalmente diferentes.fundamentalmente diferentes.
6
Evolução TecnológicaEvolução Tecnológica
O que é processamento informacional ?O que é processamento informacional ?• É o processamento que atende às necessidades É o processamento que atende às necessidades
dos gerentes durante o processo de tomada de dos gerentes durante o processo de tomada de decisõesdecisões
O processamento analítico examina amplos O processamento analítico examina amplos espectros de dados para detectar tendênciasespectros de dados para detectar tendências
A execução de um processamento analítico A execução de um processamento analítico requer o acesso muitos registros.requer o acesso muitos registros.
7
Evolução TecnológicaEvolução Tecnológica
1960Arquivos mestres, relatórios
1965Explosão dos arquivos mestres• complexidade de manutenção
e desenvolvimento• sincronização dos dados• hardware
8
Evolução TecnológicaEvolução Tecnológica
1970DASD (Direct access storage device)• SGBD• BD• “uma única fonte de dados para
todo o processamento”
1975Processamento de transaçõesonline e de alta performance
9
Evolução TecnológicaEvolução Tecnológica
1980PCs, tecnologia L4G
Processamentode transações
MIS/SAD
O paradigma deum único BD para todos os fins
10
Evolução TecnológicaEvolução TecnológicaSurgimento deSurgimento de programas de extração
Trata-se de programas mais simples que varrem um Trata-se de programas mais simples que varrem um arquivo ou BD, usando alguns critérios de seleção, arquivo ou BD, usando alguns critérios de seleção, e, ao encontrar dados que atendem aos critérios, e, ao encontrar dados que atendem aos critérios, transporta os dados para outro arquivo ou BD.transporta os dados para outro arquivo ou BD.
11
Evolução TecnológicaEvolução TecnológicaNatureza do processamento de Natureza do processamento de extraçãoextração
1985 - PCs, tecnologia L4G
Iniciar com alguns parâmetros, pesquisar um arquivo baseado na satisfação dos parâmetros, e, então passar os dados para outro local.
Por que processamento de extração ?• Performance e controle
12
Arquitetura de Desenvolvimento Arquitetura de Desenvolvimento EspontâneoEspontâneo
Ambiente de sistemas herdados
SGBDA
SGBDB
SGBDC
13
Arquitetura de Arquitetura de Desenvolvimento Desenvolvimento EspontâneoEspontâneo
Problemas da arquitetura:Problemas da arquitetura:• credibilidade dos dadoscredibilidade dos dados• produtividadeprodutividade• impossibilidade de transformar dados em impossibilidade de transformar dados em
informaçãoinformação
14
Arquitetura de DesenvolvimentoArquitetura de DesenvolvimentoEspontâneoEspontâneo
SGBDA
SGBDB
WallStreetJournal
BusinessWeek
Dept. A10%
Dept. B-20%
Diferencial algorítmico: A) domingo à tarde + contas antigas B) 4a feria à tarde + contas grandesNenhuma fonte de dados comum para começar
SGBDC
15
Arquitetura de Arquitetura de Desenvolvimento Desenvolvimento EspontâneoEspontâneo
Caso 1:Caso 1:• a gerência pretende produzir um relatório a gerência pretende produzir um relatório
corporativo utilizando os diversos corporativo utilizando os diversos arquivos e conjuntos de dados que arquivos e conjuntos de dados que acumulou durante os anos.acumulou durante os anos.
• O que fazer ?O que fazer ?
16
Arquitetura de Arquitetura de Desenvolvimento Desenvolvimento EspontâneoEspontâneo
O projetista destacado para a tarefa decide O projetista destacado para a tarefa decide que há três coisas que devem ser feitas para que há três coisas que devem ser feitas para produzir o relatório corporativoproduzir o relatório corporativo• localizar e analisar os dados para o relatóriolocalizar e analisar os dados para o relatório• compilar os dados para o relatóriocompilar os dados para o relatório• obter recursos humanos de programação / obter recursos humanos de programação /
análise para realizar os pontos acima.análise para realizar os pontos acima. E a produtividade ?E a produtividade ?
17
Arquitetura de desenvolvimento Arquitetura de desenvolvimento espontâneo:espontâneo:não conduz a produtividadenão conduz a produtividade
Produzir um relatóriocorporativo, varrendotodos os dados
x x
x xx
x
x
xx
x
Para localizar os dadosé necessário examinarmuitos arquivos
x
x
x
x
x
x
Muitos programas de extração, todos customizados, precisam cruzar diversas barreirastecnológicas.
18
Arquitetura de D.E. Arquitetura de D.E. tempo solicitado para a geração do tempo solicitado para a geração do relatóriorelatório
x
x
x
x
x
x
x
x
x
x
Localizar os dados 9 - 12 mesesObter os dados 15- 24 mesesProgramadores/analistas ???----------------------------------------------------------
3 - 5 anos
1o. Relatório2o. Relatório. . .No. relatório
3 - 5 anos
OBS:Exceto ser em raras circunstâncias, o trabalho realizadopara o 1o. Relatórionão prepara o caminhopara os demais.
19
Dos Dados às InformaçõesDos Dados às Informações
““. . . já é difícil descobrir quais dados estão . . . já é difícil descobrir quais dados estão associados a um assunto, tentar então extrair associados a um assunto, tentar então extrair informações dessas aplicações segundo um informações dessas aplicações segundo um critério geral é quase impossível . . .”critério geral é quase impossível . . .”
Problema:Problema:• a construção das aplicações jamais levou em a construção das aplicações jamais levou em
conta a noção de integração ;conta a noção de integração ;• decifrar uma informação não é uma tarefa fácil decifrar uma informação não é uma tarefa fácil
para o analista de SAD.para o analista de SAD.
20
Data Warehouse ou Armazém de Data Warehouse ou Armazém de DadosDados
SGBDB
WallStreetJournal
BusinessWeek
SGBDC
Data Warehouse
SGBDA
Dept. B-20%Dept. B-20%Dept. B
5%
21
Primeiras ConsideraçõesPrimeiras Considerações
A credibilidade dos dadosA credibilidade dos dados• É melhorada considerando a existência de uma única É melhorada considerando a existência de uma única
fonte de dados;fonte de dados; A produtividadeA produtividade
• É melhorada visto que o trabalho efetuado para produzir É melhorada visto que o trabalho efetuado para produzir o primeiro relatório prepara o ambiente para os demais;o primeiro relatório prepara o ambiente para os demais;
A impossibilidade de transformar dados em informaçãoA impossibilidade de transformar dados em informação • É atenuada graças a integração dos dados;É atenuada graças a integração dos dados;