26
Armazém de Dados (Data Warehouse) Sistemas de Informação Prof. Me. Everton C. Tetila

Armazém de Dados (Data Warehouse) Sistemas de Informação Prof. Me. Everton C. Tetila

Embed Size (px)

Citation preview

Page 1: Armazém de Dados (Data Warehouse) Sistemas de Informação Prof. Me. Everton C. Tetila

Armazém de Dados(Data Warehouse)

Sistemas de Informação

Prof. Me. Everton C. Tetila

Page 2: Armazém de Dados (Data Warehouse) Sistemas de Informação Prof. Me. Everton C. Tetila

Agenda1. Introdução ao Data Warehouse1. Introdução ao Data Warehouse

2. Modelagem Multidimensional2. Modelagem Multidimensional

3. Tabelas Fato3. Tabelas Fato

4. Tabelas Dimensão4. Tabelas Dimensão

5. Slowly Changing Dimension5. Slowly Changing Dimension

6. Áreas de Estageamento6. Áreas de Estageamento

7. Etapas do Desenvolvimento de um DW7. Etapas do Desenvolvimento de um DW

Page 3: Armazém de Dados (Data Warehouse) Sistemas de Informação Prof. Me. Everton C. Tetila

Introdução ao Data Warehouse Definição: W. H. Inmon caracterizou um data warehouse como:

“uma coleção de dados orientada a assunto, integrada, não volátil, variável no tempo para o suporte às decisões da gerência”

Page 4: Armazém de Dados (Data Warehouse) Sistemas de Informação Prof. Me. Everton C. Tetila

Introdução ao Data Warehouse Aplicações: Vários tipos de aplicações são aceitos:

OLAP (Processamento analítico on-line): é um termo usado para descrever a análise de dados complexos do data warehouse.

DSS (sistemas de apoio à decisão), também conhecido como EIS – sistemas de informações executivas, ajudam os principais tomadores de decisões de uma organização com dados de nível mais alto com decisões complexas e importantes.

Mineração de dados, é usada para descoberta do conhecimento, o processo de procurar novo conhecimento imprevisto nos dados.

Page 5: Armazém de Dados (Data Warehouse) Sistemas de Informação Prof. Me. Everton C. Tetila

Introdução ao Data Warehouse Características: Os bancos de dados tradicionais têm suporte para o

processamento de transação on-line (OLTP), enquanto os data warehouses têm suporte para o processamento analítico on-line (OLAP).

As informações no data warehouse mudam com menos frequência (não voláteis) e podem ser consideradas não de tempo real com atualização periódica.

A informação no data warehouse é muito menos detalhada e atualizada de acordo com uma escolha cuidadosa de política de atualização.

A granularidade diz respeito ao nível de detalhamento dos dados de um data warehouse.

Page 6: Armazém de Dados (Data Warehouse) Sistemas de Informação Prof. Me. Everton C. Tetila

Introdução ao Data Warehouse Estrutura conceitual de um data warehousing:

Figura 1: Visão geral da estrutura conceitual de um data warehouse.

Page 7: Armazém de Dados (Data Warehouse) Sistemas de Informação Prof. Me. Everton C. Tetila

Modelagem Multidimensional

Figura 2: Modelo de matriz bidimensional. Figura 3: Modelo de cubo de dados tridimensional.

Modelos multidimensionais: tiram proveito dos relacionamentos nos dados para preencher os dados em matrizes multidimensionais, chamadas cubos de dados.

Page 8: Armazém de Dados (Data Warehouse) Sistemas de Informação Prof. Me. Everton C. Tetila

Modelagem Multidimensional Mudar a hierarquia (orientação) unidimensional para

outra é algo feito com facilidade em um cubo de dados com uma técnica chamada de giro.

Figura 4: Versão girada do cubo de dados da Figura 3.

Page 9: Armazém de Dados (Data Warehouse) Sistemas de Informação Prof. Me. Everton C. Tetila

Modelagem Multidimensional Os modelos multidimensionais atendem prontamente a

visões hierárquicas no que é conhecido como exibição roll-up ou exibição drill-down.

Figura 5: A operação roll-up. Figura 6: A operação drill-down.

Page 10: Armazém de Dados (Data Warehouse) Sistemas de Informação Prof. Me. Everton C. Tetila

Modelagem Multidimensional O desempenho da consulta nas matrizes

multidimensionais pode ser muito melhor que no modelo relacional.

Cada célula no cubo de dados pode ser consultada diretamente em qualquer combinação de dimensões, evitando consultas de banco de dados complexas.

Existem ferramentas para visualizar dados de acordo com a escolha da dimensão do usuário.

Os modelos multidimensionais atendem prontamente a visões hierárquicas no que é conhecido como exibição roll-up ou exibição drill-down.

Page 11: Armazém de Dados (Data Warehouse) Sistemas de Informação Prof. Me. Everton C. Tetila

Modelagem Multidimensional Dois esquemas comuns para o design de data warehouses são

o Star Schema e o modelo SnowFlake.

Figura 7: Star Schema Figura 8: SnowFlake

Page 12: Armazém de Dados (Data Warehouse) Sistemas de Informação Prof. Me. Everton C. Tetila

Modelagem Multidimensional No Star Schema, a tabela fato se relaciona com diversas

tabelas dimensão através de múltiplas junções por meio de uma chave primária composta.

As tabelas dimensão, por sua vez, são geralmente compostas de chaves primárias simples.

A desnormalização das tabelas dimensão no Star Schema pode gerar a presença de dados altamente redundantes.

A redundância no Star Schema é fundamental para a melhoria no desempenho das consultas, visto que menos junções são necessárias para a recuperação dos dados.

Page 13: Armazém de Dados (Data Warehouse) Sistemas de Informação Prof. Me. Everton C. Tetila

Modelagem Multidimensional O SnowFlake é uma variação do esquema modelo Star

Schema em que as tabelas dimensões de um esquema estrela são organizadas em uma hierarquia ao normalizá-las.

Os benefícios da normalização, como a eliminação de redundâncias, geralmente comprometem o desempenho das consultas no data warehouse.

Page 14: Armazém de Dados (Data Warehouse) Sistemas de Informação Prof. Me. Everton C. Tetila

Tabelas Fato

Figura 9: Uma constelação de fatos.

Uma tabela de fatos pode ser imaginada como tendo tuplas, uma para cada fato registrado.

As tabelas fato são o ponto focal de um modelo dimensional, em que os dados de medição numérica são armazenados.

Uma constelação de fatos é um conjunto de tabelas de fatos que compartilham algumas tabelas de dimensão.

Page 15: Armazém de Dados (Data Warehouse) Sistemas de Informação Prof. Me. Everton C. Tetila

Tabelas Dimensão Uma tabela de dimensão consiste em tuplas de

atributos da dimensão. As tabelas dimensão sempre se relacionam com tabelas

fato e contêm as características de um evento. Como exemplo de tabelas dimensão de uma empresa do

varejo, podemos mencionar Tempo, Produto ou até mesmo Clientes.

Page 16: Armazém de Dados (Data Warehouse) Sistemas de Informação Prof. Me. Everton C. Tetila

Slowly Changing Dimension Slowly Changing Dimension: são os grupos de dados

que se alteram em ciclos de tempo maiores e de maneira irregular.

Por exemplo: um cliente muda de cidade e passa a realizar compras com outro representante da empresa em sua nova região.

Slowly Changing Dimension são diferenciadas em dois tipos ou níveis principais: o tipo 2 e o tipo 6.

Page 17: Armazém de Dados (Data Warehouse) Sistemas de Informação Prof. Me. Everton C. Tetila

Slowly Changing Dimension Tipo 2: envolve o registro de informações históricas,

guardando uma linha para cada versão dos registros, fazendo uso das chaves substitutivas (surrogate keys).

Código Fornecedor Nome Cidade Ativo1 1236 CompreTudo Ferragens Florianópolis 02 1236 CompreTudo Ferragens São José 1

Código Fornecedor Nome Cidade Data Inicial Data Final1 1236 CompreTudo Ferragens Florianópolis 1/1/2008 1/10/20102 1236 CompreTudo Ferragens São José 2/10/2010 Null

Page 18: Armazém de Dados (Data Warehouse) Sistemas de Informação Prof. Me. Everton C. Tetila

Slowly Changing Dimension Tipo 6: utiliza as duas metodologias do tipo 2

combinadas - colunas de data inicial e final e um campo booleano que determina se o registro está ativo ou não.

Código Fornecedor Nome Cidade Ativo Data Inicial Data Final1 1236 Industria 01 Florianópolis 0 1/1/2008 1/10/20102 1236 Industria 01 São José 1 2/10/2010 Null

Page 19: Armazém de Dados (Data Warehouse) Sistemas de Informação Prof. Me. Everton C. Tetila

Áreas de Estageamento Áreas de Estageamento: permitem isolar os ciclos de

negócios, ciclos de processamento de dados, limitações de rede e de recursos de hardware, ao carregar os dados no data warehouse.

Assim, os dados são extraídos de diferentes fontes e armazenados na área de estageamento, onde podemos tratar e formatar os dados antes de encaminhá-los para o data warehouse.

Page 20: Armazém de Dados (Data Warehouse) Sistemas de Informação Prof. Me. Everton C. Tetila

Etapas de desenvolvimento de um DW Não existe uma metodologia consolidada e amplamente

aceita para o desenvolvimento de data warehouses. Existe um conjunto de nove pontos fundamentais no

projeto da estrutura de data warehouse: os processos e a identidade das tabelas de fatos; a granularidade de cada tabela de fatos; as dimensões de cada tabela de fatos; os fatos, incluindo fatos pré-calculados; os atributos das dimensões; o acompanhamento das mudanças graduais em dimensões; as agregações, dimensões heterogêneas, minidimensões e outras

decisões de projeto físico; a duração histórica do banco de dados; a urgência com que se dá a extração e carga para o Data Warehouse.

Page 21: Armazém de Dados (Data Warehouse) Sistemas de Informação Prof. Me. Everton C. Tetila

Etapas de desenvolvimento de um DW Como exemplo, temos os processos de uma empresa

revendedora de produtos: planos de estoque, ordens de compra, inventário, pedidos de clientes, expedição de pedidos, créditos, etc.

Quando os processos estiverem identificados, cria-se uma ou mais tabelas de fatos a partir de cada um deles.

Então, é necessário decidir o fato individual naquela tabela (exemplo: vendas acumuladas do produto).

O próximo passo é definir as dimensões e suas granularidades (exemplo: tempo, produto e vendedor ).

Além disso, outras dimensões descritivas, como local de expedição, local de recebimento e modo de envio, podem ser criadas.

Page 22: Armazém de Dados (Data Warehouse) Sistemas de Informação Prof. Me. Everton C. Tetila

Etapas de desenvolvimento de um DW O passo seguinte consiste em detalhar todos as medidas

que constarão da tabela de fatos. A partir de então, passa-se a trabalhar questões relativas

ao projeto físico, avaliando mudanças graduais em dimensões.

Figura 10: A tabela de fatos e suas dimensões.

Page 23: Armazém de Dados (Data Warehouse) Sistemas de Informação Prof. Me. Everton C. Tetila

Exemplo 1 Planilha de vendas diárias de uma empresa do varejo.

Figura 11: Exemplo de valores a serem carregados no data warehouse.

Page 24: Armazém de Dados (Data Warehouse) Sistemas de Informação Prof. Me. Everton C. Tetila

Exemplo 1 Projeto lógico de um data warehouse para a execução de

consultas OLAP.

Figura 12: Data mart de um processo de vendas

Page 25: Armazém de Dados (Data Warehouse) Sistemas de Informação Prof. Me. Everton C. Tetila

Exemplo 2 Planilha de consultas diárias de uma clínica médica.

Figura 13: Exemplo de valores a serem carregados no data warehouse.

Page 26: Armazém de Dados (Data Warehouse) Sistemas de Informação Prof. Me. Everton C. Tetila

Exemplo 2 Projeto lógico de um data warehouse para a execução de

consultas OLAP.

Figura 14: Data mart de um processo de consultas