47
Data Warehouses Alunos: Diego Antônio Cotta Silveira Filipe Augusto Rodrigues Nepomuceno Marcos Bastos Silva Roger Rezende Ribeiro Santos

Data Warehouses - decom.ufop.br · Organizado em torno de assuntos ... Os dados de um Data Warehouse não são modificados ... Permite a criação de um banco de dados que facilita

Embed Size (px)

Citation preview

Data WarehousesAlunos: Diego Antônio Cotta SilveiraFilipe Augusto Rodrigues Nepomuceno Marcos Bastos SilvaRoger Rezende Ribeiro Santos

Conceitos BásicosData Warehouse(DW)● Banco de Dados voltado para o suporte à tomada de decisão;● Suporte à tomada de decisão: Extraem informações necessárias para a

tomada de decisão, utilizando consultas complexas sobre grandes volumes de dados.

● Possivelmente derivado de vários bancos de dados operacionais;● Definição: Segundo W. H. Inmon, “Coleção de dados orientada a

assuntos, integrada, com séries temporais e não volátil, voltada para o apoio à tomada de decisão.”

● Data Warehousing: É o processo de construção e uso de Data Warehouses.

Conceitos BásicosObjetivos● Satisfazer necessidades de análise de informações;● Monitorar e comparar situações atuais com situação anteriores;● Estimar situações futuras.

Conceitos BásicosCaracterísticas● Orientado a assuntos;● Integrado;● Séries temporais;● Não volátil.

Conceitos BásicosOrientado a Assuntos● Organizado em torno de assuntos importantes, como por exemplo: cliente,

produto;● Focado na modelagem e análise de dados para quem toma decisões, em

vez de operações diárias e processamento de transações;● Fornece uma visão simples e concisa sobre questões de um assunto

particular através da exclusão de dados que não são importantes no suporte ao processo de decisão.

Conceitos BásicosIntegrado● Diferentes nomenclaturas, formatos e estruturas das fontes de dados

precisam ser acomodadas em um único esquema para prover uma visão unificada e consistente da informação.

Conceitos BásicosSéries Temporais● O histórico dos dados por um período de tempo superior ao usual em BDs

transacionais permite analisar tendências e mudanças;

Conceitos BásicosNão volátil● Os dados de um Data Warehouse não são modificados como em sistemas

transacionais (exceto para correções), mas somente carregados e acessados para leituras, com atualizações apenas periódicas;

● Com isso não é necessário ter mecanismos de processamento de transações, recuperação e controle de concorrência.

Conceitos BásicosContexto

Conceitos BásicosArquitetura

Conceitos BásicosTecnologia de DW● Ferramentas de ETC (Extração, Transformação e Carga) de grandes

volumes de dados de diversas fontes no DW com recursos para conversão, validação, correção e integração dos dados;

● No repositório de Metadados é o local onde são armazenadas as informações sobre essas fontes. Também ocorre a inclusão também do próprio DW e de DataMarts e aplicações que os acessam;

● DataMarts são subconjuntos de dados de um DW e geralmente são dados referentes a um assunto em especial;

● Banco de dados com modelagem dimensional voltado para consultas complexas para a obtenção de informação consolidada;

● Ferramentas de administração e gerenciamento do DW e seus DataMarts.

Conceitos BásicosTecnologia de DW● Ferramentas de prospecção e análise de dados baseadas em OLAP (On-

Line Analytical Processing):○ OLAP é um conjunto de tecnologias projetadas para analisar e

acessar dados típicos de suporte a decisão que estão no DW;○ Fornece dados em alto nível (totais, médias, minimos…);○ Acessa vários registros;○ Tem alto desempenho e consultas fáceis e interativas;○ Lida com dados históricos (dimensão temporal);○ Oferece visões multidimensionais (perspectivas).

Conceitos BásicosEsquema de um DW● Tabelas Fato - Dados quantitativos - registro de medidas com dados

integrados de várias fontes (muitos registros);● Dimensões - Dados qualitativos - organizando conceitos e respectivas

instâncias para a seleção dos dados quantitativos, rotulando esses dados e os resultados (poucos registros).

Conceitos BásicosEsquema de um DW● A modelagem de dados em DW pode ser:

○ Estrela;○ Floco de Neve;○ Cubo.

Conceitos BásicosEsquema Estrela● O esquema estrela é uma estrutura bem simples, com poucas tabelas e

ligações bem definidas;● Permite a criação de um banco de dados que facilita a execução de

consultas complexas, podendo ser realizadas de modo eficiente e intuitivo pelo usuário.

Conceitos BásicosEsquema Floco de Neve● O esquema floco de neve é uma variação do esquema estrela, no qual

todas as tabelas de dimensão são normalizadas na terceira forma normal (3FN);

● Recomenda-se utiliza-lo apenas quando a linha de dimensão ficar muito longa e começar a ser relevante do ponto de vista de armazenamento.

Conceitos BásicosEsquema Cubo● É a estrutura multidimensional de dados que expressa a forma na qual os

tipos de informações se relacionam entre si;● É formado pela tabela de fatos e pelas tabelas de dimensão que a

circundam e representam possíveis formas de visualizar e consultar os dados;

● O cubo armazena todas as informações relacionadas a um determinado assunto, de maneira a permitir que sejam montadas várias combinações entre elas, resultando na extração de várias visões sobre o mesmo assunto.

Planejando, projetando e implementando DWsPlanejamento:• O projeto será no nível departa mental ou empresarial?• Tipo de usuário alvo (executivos, unidades)• Definição do ambiente• Planejamento para integração• Definição arquitetura tecnológica

• SGBD• Ferramentas OLAP e Data Mining• Ferramentas ETC• Ferramentas metadados• Mecanismos para transferência de dados entre ambientes heterogêneos

(ODBC, XML etc)

Planejando, projetando e implementando DWsLevantamento das necessidades:• Identificação de dois modelos:

• Modelo dimensional (modelo entidade relacionamento)• Modelo relacionado com as fontes das informações (modelo fonte dos

dados)• Análise da qualidade e integridade dos dados fonte

Planejando, projetando e implementando DWsModelagem dimensional:• Análise dos volumes brutos dos dados visando o processamento para obtenção de informações consolidadas• As tarefas de modelagem dimensional deverão ser suportadas por planilhas de apoio, para facilitar os cálculos e estimativas de carga e volumesprojetados.• Definição fatos e dimensões e respectivos atributos• Nível de granularidade e agregadores

Planejando, projetando e implementando DWsProjeto físico dos BDs:• Desenho físico das estruturas lógicas do modelo dimensional:

• Estimativa de tamanho do database• Criação do database

• tabelas fato e dimensão• relacionamentos• indexação• atributos de tabelas• campos chaves• restrições, e• implantação de regras.

Projeto ETC:• Definição dos processos requeridos de extração, transformação e carga domodelo fonte para o modelo dimensional.• Definição dos tratamentos a serem utilizados

• Filtro de dados• Integração de dados• Condensação de dados (resumidos e sumariados)• Conversão de dados e derivação de dados (criação dados virtuais a

partir de existentes)

Planejando, projetando e implementando DWs

Planejando, projetando e implementando DWsDesenvolvimento das aplicações:• Desenvolvimento das aplicações para ETC e também para consultasgerênciais• Em caso de utilização de ferramentas adquiridas geração de modelos parafacilitar ao usuário final a elaboração de consultas

Planejando, projetando e implementando DWsTestes:• Realizar o máximo possível de simulações de volume e de processamento. E após isso testado em um grupo pequena, e depois de um resultado positivo liberado para uso.

Planejando, projetando e implementando DWsTreinamento:• Treinar os usuários para o uso correto.

Planejando, projetando e implementando DWsImplantação:• A implantação deverá ser seguida de rigoroso acompanhamento de uso dasaplicações disponibilizadas.

Ferramentas Front End

As ferramentas Front End executam:

● Seleção do conjunto de dados necessários;

● Cálculo e manipulação dos dados;● Apresentação das informações;● Ferramentas OLAP são mais usadas;

Características de ferramentas Front End eficientes

● facilidades para acesso aos dados, manipulação e apresentação;

● capacidade de especificar consultas e relatórios com facilidade;

● suporte para a indústria de padrões de interface, incluindo Microsoft Windows GUI, ODBC, etc.

● suporte para o desenvolvimento de interfaces amigáveis;

● habilidade para acessar a funcionalidade nativa de uma variedade de BD e outras origens de dados;

● habilidade para suportar uma variedade de plataformas servidoras e SGBDs.

Ferramentas Back End

● Extração: Consiste em fazer a extração dos dados no DW;

● Limpeza de dados: Conserto de erros como tamanhos inconsistentes de campo e entradas erradas;

● Carga: o processamento de carga é feito em lotes. Lidar com volume de dados muito maiores;

● Refresh: propagação das atualizações ocorridas.

Extração de dados de um DW

● Ferramentas de consulta e emissão de relatórios;

● EIS (Executive Information Systems);● Ferramentas OLAP;● Ferramentas Data mining.

Data Mining

Data Mining é uma ferramenta de extração de dados. O Data Mining engloba um número de diferentes abordagens técnicas, como clustering , sumarização de dados, regras de classificação e detecção de anomalias.

OLAP x Data Mining

● A diferença básica entre ferramentas OLAP e Data Mining está na maneira como a exploração dos dados é abordada;

● OLAP: Verificação;● Data Mining: Questão total ou

parcialmente desconhecida.

Data Mining - utilização

1) Explanatório: explicar algum evento ou medida observada, tal como porque a venda de sorvetes caiu no Rio de Janeiro;2) Confirmatório: confirmar uma hipótese;3) Exploratório: analisar os dados buscando relacionamentos novos e não previstos.

Tipos de OLAP

1) ROLAP: fornecem análise multidimensional de dados armazenados em uma base de dados relacional;2) MOLAP: permite a execução de análises sofisticadas usando como gerenciador de dados um banco de dados multidimensional;3) HOLAP: Híbrido, usando as vantagens dos dois métodos.

Ferramentas livres

● Mondrian (servidor OLAP)● Jpivot (geração de interfaces OLAP)● OpenI (suite)● SpagoBI (suite)● PentahoBI (suite)● BEE Project (suite)

Data Warehouse’s espaciaisProblemas em aberto:1. Integração do modelo dimensional com algummodelo espacial:● Modelagem● Operadores● Implementação de sistemas integrados

2. Geração de datamarts

Operadores e funções de agregação em DWOperadores:

● Agregação/desagregação: Roll-up, Drill-down, group by● Seleção/projeção: Pivot, Slice e Dice

Funções de agregação:● Distributivas: contagem, mínimo, máximo, soma● Algébricas: média, desvio padrão● Holísticas: mediana, maior freqüência, rank

Slice e DiceSlice: Projeta valores específicos de uma dimensão (extrai uma fatia do hypercubo)Dice: Slices consecutivos (extrai hypercubo menor), usado para fixar uma informação de dimensão ou reduzir as dimensões de apresentação dos dados

Roll-up e Drill-downRoll-up (drill-up): sumariza dados, subindo na hierarquia de uma dimensãoApresenta os dados cada vez mais agrupadosDrill-down(Roll-down):Reverso de roll-up, isto é, detalha os dados, descendo na hierarquia de uma dimensão, é usado para solicitar uma visão mais detalhada de um conjunto de dados. "Aprofundar"nos dados.

PivotMuda posição ou orientação da dimensões na projeção bidimensional de dados do hypercuboServe para adicionar ou rearranjar as dimensões das tabelas

Operadores em SIGOperadores:● “disjunto de ...”● “encontram...”● “é igual a ...”● “dentro de ...”● “contém ...”● “cobre ...”● “é coberto por ...”● “sobreposição

Operadores em SIG● Unário com resultado espacial:

Ex.: Municípios ao redor de Campo Belo do Sul

● Binário com resultado escalar:Distância ÁreaEx.: Qual a distância de Lages até Vargem ?Resp. 64 km

Funções de agregação em DW’s espaciaisHolística escalar:● RankArea(), RankPerimeter(), MedianArea(), ModeArea()

Funções de agregação em DW’s espaciaisDistributiva escalar:● CountTouches(), CountAt_North_of(), MaxIntersects()

Funções de agregação em DW’s espaciais● Distributiva espacial:

– SumTouches(), SumAt_North_Of(), SumDisjoint()● Algébrica escalar:

– AvgArea(), MaxNArea()

Extensões espaciais em DW’s

Bibliografia● http://www.inf.ufsc.br/~fileto/Talks/IntrodDW-ERBD2009.pdf● http://www.dcc.fc.up.

pt/~pbrandao/aulas/0203/bdm/pdfs/DataWarehousing.pdf● http://pt.scribd.com/doc/49851282/88/O-que-e-o-Data-Warehouse● http://www.slideshare.net/mscesar/data-warehouse-e-data-mining● http://meusite.mackenzie.com.br/rogerio/tgi/2004ModelagemDW.pdf● http://www.inf.ufg.br/mestrado/sites/www.inf.ufg.br.

mestrado/files/uploads/Dissertacoes/Elisabete.pdf● http://www.ischool.drexel.edu/faculty/song/courses/info%

20607/tutorial_OLAP/operations.htm● http://www.angelicatoffano.pro.br/upload_arquivos/pt/auii5.pdf