14
Dimensão: conjunto de dados de um campo armazenado (coluna) Agregação: análise conjunta de duas ou mais dimensões, de forma a gerar uma solução para um determinado problema. Uma das dimensões deve estar, neces- sariamente, relacionada ao aspecto temporal • Fatos: são formados pelo conjunto de dimensões utilizada para tentar solucionar um determinado problema. No exemplo (cubo Meses X Região X Produto), Re- gião, Produto e Mês compõem a tabela de fatos • Medidas ou Métricas: são cálculos obtidos através da análise dos valores individu- ais das medições Data Warehouses • Um Data Warehouse é um conjunto de dados armazenados de forma dispersa (ou distribuída) que, quando tratados individualmente, Podem se comportar como um sistema transacional. No entanto, quando analisados em um contexto global, sus- tentam um sistema de apoio à decisão; • A adoção de um Data Warehouse está associado a um conjunto de objetivos a se- rem alcançados: Um Data Warehouse Deve fazer com que as informações armazenadas sejam facilmente acessíveis; Um Data Warehouse Deve apresentar as informações de forma consistente; Um Data Warehouse Deve ser estruturado de forma a ser tolerante a mudan- ças Um Data Warehouse seguir como elemento fundamental para a melhoria das tomadas de decisão • Além disso, alguns cuidados devem ser tomados durante a estruturação de um Data Warehouse: Tratamento de várias fontes de dados; é confiável? Tratamento dos dados em relação ao contexto; manteve a integridade? Ajuste do nível de detalhamento dos dados; influência na quantidade de meta dados utilizados Tratamento de valores nulos Necessidade de inclusão de componentes temporais

Tópicos Especiais em Bancos de Dados Multidimensionados(1)

Embed Size (px)

DESCRIPTION

BANCO DE DADOS MULTIDIMENSIONAIS

Citation preview

Page 1: Tópicos Especiais em Bancos de Dados Multidimensionados(1)

• Dimensão: conjunto de dados de um campo armazenado (coluna)

• Agregação: análise conjunta de duas ou mais dimensões, de forma a gerar uma solução para um determinado problema. Uma das dimensões deve estar, neces- sariamente, relacionada ao aspecto temporal

• Fatos: são formados pelo conjunto de dimensões utilizada para tentar solucionar um determinado problema. No exemplo (cubo Meses X Região X Produto), Re- gião, Produto e Mês compõem a tabela de fatos

• Medidas ou Métricas: são cálculos obtidos através da análise dos valores individu- ais das medições

Data Warehouses

• Um Data Warehouse é um conjunto de dados armazenados de forma dispersa (ou distribuída) que, quando tratados individualmente, Podem se comportar como um sistema transacional. No entanto, quando analisados em um contexto global, sus- tentam um sistema de apoio à decisão;

• A adoção de um Data Warehouse está associado a um conjunto de objetivos a se- rem alcançados:

• Um Data Warehouse Deve fazer com que as informações armazenadas sejam facilmente acessíveis;

• Um Data Warehouse Deve apresentar as informações de forma consistente;

• Um Data Warehouse Deve ser estruturado de forma a ser tolerante a mudan- ças

• Um Data Warehouse seguir como elemento fundamental para a melhoria das tomadas de decisão

• Além disso, alguns cuidados devem ser tomados durante a estruturação de um Data Warehouse:

• Tratamento de várias fontes de dados; é confiável?

• Tratamento dos dados em relação ao contexto; manteve a integridade?

• Ajuste do nível de detalhamento dos dados; influência na quantidade de meta dados utilizados

• Tratamento de valores nulos

• Necessidade de inclusão de componentes temporais

Page 2: Tópicos Especiais em Bancos de Dados Multidimensionados(1)

Métodos de Construção de Data Warehouses

• Abordagem Top-Down: É adotada a partir da visão geral dos dados da empresa, isto é, quando não é conhecido o objetivo específico pelo qual se dá a necessida- de de construção do Data Warehouse. Pode ser implementado em um Tempo rela- tivamente baixo com o custo de uma baixa precisão;

• Abordagem Bottom-Up: neste caso, o Data Warehouse É construído de maneira gradual, à medida que (Data Marts)(?), cada um com um objetivo específico, são agregados. Com esta abordagem, obtém-se um Data Warehouse com informa- ções mais consolidadas, Com um custo maior de tempo para sua construção

Componentes e Etapas de Construção de um Data Warehouse

• Componente

• Sistema Operacional de Origem: sistema de onde são obtidos os dados trans- nacionais

• Etapas

• Área de preparação dos dados: etapa onde os dados são pré-processados (agre- gados, ordenados, combinados, entre outros). Momento em que os dados deixam de ser apresentados de uma forma transacional

• Área de apresentação dos dados: etapa onde os dados são associados e Estrutu- rados de acordo com O contexto (Data Marts, por exemplo). Nesta etapa, ocorrem também as eventuais associações entre os Data Marts

• Área de acesso aos dados: Etapa onde são usadas ferramentas de acesso aos dados e de geração dos relatórios a partir do Data Warehouse

Processos de Definição dos dados de um Data Warehouse

• Parte 1 - determinar Os requisitos da informação

• Identificar e analisar o que possível de se alcançar com os dados existentes no sistema

• Identificar por meio de " usuários chave "As questões que devem ser respondi- das e as métricas a serem utilizadas; decompor as métricas em sub compo- nentes para permitir uma aplicação mais específica

• Mapear estes sub componentes em relação ao modelo de informações adota- do (regra de negócio)

Page 3: Tópicos Especiais em Bancos de Dados Multidimensionados(1)

• Parte 2: de desenvolvimento iterativo e revolucionário:

• Começar por um assunto específico, voltado para um determinado subproble- ma

• Continuar agregando outros assuntos de acordo com Os requisitos da organi- zação, No que se refere à informação, e não à tecnologia;

• Realimentação: ajustes do modelo são feitos a partir dos resultados obtidos em execuções anteriores

• Visualização rápida do resultado(fácil entendimento);

• Os requisitos especificados pelo usuário são refinados a cada iteração

• Como base na arquitetura de um Data Warehouse e no os processos de definição dos seus dados, a sua população é realizada Segundo três passos (ETL):

1. Extract: obtenção dos dados a partir do "sistema operacional de origem” (transa- cional);

2. Transform: adaptação os dados para atender aos requisitos especificados para o Data Warehouse

3. Load: inserir Os dados "No sistema em questão”

Estudo de caso teórico: transporte aéreo (capítulo 11 traçoKimble, 2a ed.)

• Motivação: logística, roteamento de pacotes, utilização de algoritmos

• Questões a serem respondidas:

• Quais voos são mais utilizados pelos clientes?

• Quais aviões Os clientes preferem?

• Quais os valores pagos por viagem?*

• Como os clientes gastam suas milhas?

• Quanto tempo duram as viagens dos clientes?

• O Cliente prefere voo direto ou com conexão?

* -> nível granular de informação (viagem -> trecho (viagem entre 2 trechos sem es- cala) -> seguimento (parte da viagem realizada em uma única aeronave) )

Esquemas Lógicos de Data Warehouse

• Um esquema (scheme) é a forma como as tabelas de fatos E as dimensões estão logicamente estruturadas para compor As informações apresentadas por um Data Warehouse

• Os dois principais esquemas são:

Page 4: Tópicos Especiais em Bancos de Dados Multidimensionados(1)

• Estrela: esquema onde há uma tabela de fatos centralizada diversas dimen- sões estão associadas a ela

• Snowflake: consiste de um sistema que se aproveita da normalização existente nas dimensões, tornando o modelo mais complexo, Porém com menor custo necessário para realizar a modelagem dimensional.

Obs: O esquema Snowflake É Uma abordagem não desnormalizada do esquema Estrela, e vice-versa

• Outro esquema: Fact Constelation: esquemas Estrela associados através de suas tabelas fatos

Page 5: Tópicos Especiais em Bancos de Dados Multidimensionados(1)
Page 6: Tópicos Especiais em Bancos de Dados Multidimensionados(1)
Page 7: Tópicos Especiais em Bancos de Dados Multidimensionados(1)

Correção da prova:

1. O uso da dimensão temporal permite a análise histórica dos dados. Desta forma, é possível analisar o passado para buscar previsões mais precisas do futuro.

2. Letra C, pois:

A. Falso - os Data Warehouses são conhecidos pela consistência de suas informações, não pela volatilidade

B. Verdadeiro

C. Verdadeiro (ETL)

3. FALSO - O modelo Estrela é uma abordagem desnormalizada; o modelo Snow- flake é que possui abordagem não desnormalizada.

4. Letra A (OLAP)

5. Letra B, pois:

1. Falso - OLAP trabalha sobre DADOS para produzir o conhecimento!

2. Verdadeiro

3. Falso - os Data Marts utilizam sim dados externos, o que obriga a limpeza dos dados antes da carga ao Data Warehouse

4. Verdadeiro (Abordagem Bottom-up)

6.6.1. OLTP - Distribuição lógica dos dados armazenados com o objetivo de

privi- legiar escritas concorrentes

6.2. OLAP - utiliza-se da idéia de agregação de dados com objetivo de minimi- zar o uso de junções entre tabelas, maximizando-se assim o resultado de consultas sobre os dados

Mineração de Dados (Data Mining)

- Motivação: grande volume de dados existentes em diversas áreas estão à disposi- ção para a análise e extração de resultados que podem ser aproveitados para apresentar maiores benefícios para as organizações.

- Teorema de Bonferroni: existem muitas conclusões possíveis de se obter, algumas serão verdades puramente por razões estatísticas, sem nenhuma validação física.

- No contexto computacional, mineração de dados está relacionada ao processo de descoberta de extração de índices com base em padrões dos dados

- As técnicas de mineração de dados são muito utilizadas com o objetivo de definir perfis para determinados ramos, tais como segurança, logística, economia, entre outros

Page 8: Tópicos Especiais em Bancos de Dados Multidimensionados(1)

- Para utilizar a mineração de dados de forma a tirar melhor proveito dos dados, deve-se utilizar um sistema OLAP, com estruturação dos dados na forma de Data Warehouses

- A mineração de dados consiste na realização prévia de um conjunto de etapas para que as técnicas escolhidas possam ser aplicadas de forma plena. São elas:

- (1)Reunião dos dados de acordo com o padrão especificado

- (2)Tratamento tostados: eliminação de erros

- (3)Extração de características: Operação somente dos atributos interessantes sobre os dados

- (4)Descoberta extração de padrões: etapa onde de fato ocorre a mineração de dados

- (5)Visualização do resultado

- (6)Análise dos resultados: somente os resultados válidos são considerados

- Classes de tarefa de mineração de dados consistem da estruturação das etapas de mineração em conjuntos relacionados

- clusterização (agrupamento)(1 e 3): envolver as etapas responsáveis pelo des- cobrimento de grupos de estruturas de dados que, de alguma forma, são simi- lares

- Classificação (4, 1 e 3): conjunto de tarefas responsáveis por generalizar estrutu- ras conhecidas, permitindo aplicar novas estruturas (rótulos) a Estes dados.Exemplo: classificar um e-mail como legítimo ou spam

- Regressão(2): conjunto de tarefas responsáveis por modelar os dados com a me- nor quantidade de erros possíveis, de acordo com o padrão estabelecido

- Associação de aprendizagem(6): conjunto de etapas responsável por estabelecer a relevância entre os grupos de dados obtidos. Exemplo: identificação dos pa- drões de compra de clientes para oferecer novos produtos.

Técnica -> Classe -> Tarefa (Etapa)

Introdução às Técnicas de Mineração de Dados

- De uma forma geral, as técnica de mineração de dados que serão estudadas a seguir podem ser classificadas como técnica de:

• Aprendizado Supervisionado (preditiva): a categorização dos registros é realizada em função de uma variável alvo pré-definida, necessitando assim de uma classifi- cação prévia. Estas técnicas estão associadas à uma simulação de cenários futu- ros especificados na forma da variável alvo

• Aprendizado Não-Supervisionado (descritivo): não há a presença de uma

Page 9: Tópicos Especiais em Bancos de Dados Multidimensionados(1)

variável alvo, de forma a não permitir a predição de cenários. Por outro lado, é possível a descrição de um conjunto de opções com base nos registros minerados, de forma a permitir a escolha do que se apresentar mais relevante.

Técnicas de Mineração de Dados

1- Mineração de Itens Frequentes

- técnica dividida em duas etapas

• Criação de um conjunto de itens frequentes de ocorrência, respeitando um valor mínimo para a frequência dos itens;

• Geração de regras de associação para a mineração deste conjunto

- Definição das medidas de suporte e confiança

• Suporte: percentual de registros que se encaixam na regra (registros associados);

• Confiança: percentual de registros que atendem exatamente à regra (registros exatos)

Exemplo: pessoas que compram pão e manteiga

• Suporte: Pessoas que compram pão e manteiga, mas também compram LEITE

• Confiança: pessoas que compram APENAS pão e manteiga

2- Árvores de Decisão

• Método de classificação definido como um fluxograma em forma de árvore

• Cada vértice não-folha da árvore representa um teste feito sobre um valor

• Cada nível da árvore pode envolver condições com diferentes dados

• As arestas entre os vértices representam os valores do vértice superior

• Os vértices-folha indicam a categoria à qual o registro pertence

• A sequência seguida da raiz até os vértices-folha representam as decisões que podem ser convertidas em regras de classificação

3- Classificação Bayessiana

• É uma técnica estatística (probabilidade condicional) baseada no teorema de Bayes. De acordo com este teorema, é possível encontrar a probabilidade de um evento ocorrer dada a probabilidade de outro evento que já ocorreu. Em sua forma convencional (Naive Bayes), a técnica considera que não há relação de depen- dência entre os atributos analisados. No entanto, existem variações da técnica que consideram tal dependência.

Page 10: Tópicos Especiais em Bancos de Dados Multidimensionados(1)

4- Classificação Baseada em Regras

• Considera a estrutura [ SE condição ENTÃO conclusão ]

• Tipo de construção geralmente obtido a partir de árvores de decisão

• É mais simples de ser interpretada do que árvores de decisão quando são utiliza- das estruturas com muitas variáveis (árvores N-árias)

• O processo de classificação se torna mais simples do que através de decisão

5- Redes Neurais

• Técnica originada da Psicologia e da Neurobiologia, consistindo na simulação do comportamento de neurônios

• De maneira geral, uma rede neural pode ser vista como sendo um conjunto de unidades de entrada (conjunto de dados) e saídas (conclusões), conectadas atra- vés de camadas intermediárias (aprendizado)

• Cada ligação (aresta) entre as unidades possui um peso associado

• Durante o processo de aprendizagem, os pesos são ajustados de forma a classifi- car corretamente os objetos

• Quanto maior o período de treinamento(iterações intermediárias), maior a proba- bilidade de uma classificação mais precisa

• Dependendo da quantidade de iterações, é possível que a interpretação do resul- tado se torne extremamente complexa devido à baixa relação entre as entradas e as saídas

• No entanto, como resultado, uma rede neural pode apresentar resultados não pre- vistos e para os quais não havia sido treinada

- Algoritmos genéticos (preditiva)

Ideia que explora a teoria da evolução aplicada ao aprendizado a partir da analise de dados históricos

Consiste de um estágio inicial, onde uma população (conjunto de dados) é definida de maneira aleatória;

Uma vez estipulado o objetivo, a técnica associa os dados da população inicial entre si e com outros dados correlatos, de maneira a criar novas gerações mais “fortes” ou mais “fracas” do que a anterior;

As gerações mais “fracas” são eliminadas a cada nova interação; A técnica segue sendo executada até que alguém resultado seja obtido ou até

que algum outro critério de parada seja atingido;

Page 11: Tópicos Especiais em Bancos de Dados Multidimensionados(1)

- Conjuntos aproximados (descritiva)

Técnica que é capa de realizar classificações mesmo com dados imprecisos ou errados;

A técnica trabalha com a ideia de classes de aproximação para a criação das categorias;

Exemplo ; admite-se a existência de um grupo de dados que forma uma classe C. Esta classe é vizinha de outras duas classes (conjunto de aproximação).

1) Conjunto de alta aproximação de C => contem registros que não podem ser definidos com não pertencentes à classe C

2) Conjunto de baixa aproximação de C => contem registros que certamente pertencem a classe C

Um novo registro é classificado de acordo com a sua aproximação a um dos dois conjuntos.

- Conjuntos nebulosos (Fuzzy set) : (descritiva)

As técnicas baseadas em regras de classificação apresentam problemas ao tratarem valores contínuos, pois necessitam de pontos de corte bem definidos;

A ideia dos conjuntos nebulosos é tratar os valores discretos de forma mais analítica, de maneira a considerar outros aspectos para realizar a classificação;

Com esta aplicação é possível inserir graus de flexibilidade onde antes as opções admitiam apenas valores “verdadeiro” e “falso”;

Page 12: Tópicos Especiais em Bancos de Dados Multidimensionados(1)
Page 13: Tópicos Especiais em Bancos de Dados Multidimensionados(1)

1) Pode ser chamado também de agrupamento e como o nome já diz diferente de classificar, ele agrupa os dados sem se focar nos atributos que os definem

2) a

3) Errado, pois na mineração de dados não é obrigatório utilizar de um sistema olap e estruturar o data warehousing

4) A) são técnicas que se utilizam de uma variável e podem através de uma simulação projetar cenários futuros

5) Mineração de Itens Frequentestécnica dividida em duas etapasCriação de um conjunto de itens frequentes de ocorrência, respeitando um valor mínimo para a frequência dos itens;

6) b