Tópicos Especiais em Bancos de Dados Multidimensionados(1)

• Dimensão: conjunto de dados de um campo armazenado (coluna)

• Agregação: análise conjunta de duas ou mais dimensões, de forma a gerar uma solução para um determinado problema. Uma das dimensões deve estar, neces- sariamente, relacionada ao aspecto temporal

• Fatos: são formados pelo conjunto de dimensões utilizada para tentar solucionar um determinado problema. No exemplo (cubo Meses X Região X Produto), Re- gião, Produto e Mês compõem a tabela de fatos

• Medidas ou Métricas: são cálculos obtidos através da análise dos valores individu- ais das medições

Data Warehouses

• Um Data Warehouse é um conjunto de dados armazenados de forma dispersa (ou distribuída) que, quando tratados individualmente, Podem se comportar como um sistema transacional. No entanto, quando analisados em um contexto global, sus- tentam um sistema de apoio à decisão;

• A adoção de um Data Warehouse está associado a um conjunto de objetivos a serem alcançados:

• Um Data Warehouse Deve fazer com que as informações armazenadas sejam facilmente acessíveis;

• Um Data Warehouse Deve apresentar as informações de forma consistente;

• Um Data Warehouse Deve ser estruturado de forma a ser tolerante a mudan- ças

• Um Data Warehouse seguir como elemento fundamental para a melhoria das tomadas de decisão

• Além disso, alguns cuidados devem ser tomados durante a estruturação de um Data Warehouse:

• Tratamento de várias fontes de dados; é confiável?

• Tratamento dos dados em relação ao contexto; manteve a integridade?

• Ajuste do nível de detalhamento dos dados; influência na quantidade de meta dados utilizados

• Tratamento de valores nulos

• Necessidade de inclusão de componentes temporais

Métodos de Construção de Data Warehouses

• Abordagem Top-Down: É adotada a partir da visão geral dos dados da empresa, isto é, quando não é conhecido o objetivo específico pelo qual se dá a necessidade de construção do Data Warehouse. Pode ser implementado em um Tempo rela- tivamente baixo com o custo de uma baixa precisão;

• Abordagem Bottom-Up: neste caso, o Data Warehouse É construído de maneira gradual, à medida que (Data Marts)(?), cada um com um objetivo específico, são agregados. Com esta abordagem, obtém-se um Data Warehouse com informa- ções mais consolidadas, Com um custo maior de tempo para sua construção

Componentes e Etapas de Construção de um Data Warehouse

• Componente

• Sistema Operacional de Origem: sistema de onde são obtidos os dados trans- nacionais

• Etapas

• Área de preparação dos dados: etapa onde os dados são pré-processados (agregados, ordenados, combinados, entre outros). Momento em que os dados deixam de ser apresentados de uma forma transacional

• Área de apresentação dos dados: etapa onde os dados são associados e Estrutu- rados de acordo com O contexto (Data Marts, por exemplo). Nesta etapa, ocorrem também as eventuais associações entre os Data Marts

• Área de acesso aos dados: Etapa onde são usadas ferramentas de acesso aos dados e de geração dos relatórios a partir do Data Warehouse

Processos de Definição dos dados de um Data Warehouse

• Parte 1 - determinar Os requisitos da informação

• Identificar e analisar o que possível de se alcançar com os dados existentes no sistema

• Identificar por meio de " usuários chave "As questões que devem ser respondidas e as métricas a serem utilizadas; decompor as métricas em sub componentes para permitir uma aplicação mais específica

• Mapear estes sub componentes em relação ao modelo de informações adota- do (regra de negócio)

• Parte 2: de desenvolvimento iterativo e revolucionário:

• Começar por um assunto específico, voltado para um determinado subproble- ma

• Continuar agregando outros assuntos de acordo com Os requisitos da organi- zação, No que se refere à informação, e não à tecnologia;

• Realimentação: ajustes do modelo são feitos a partir dos resultados obtidos em execuções anteriores

• Visualização rápida do resultado(fácil entendimento);

• Os requisitos especificados pelo usuário são refinados a cada iteração

• Como base na arquitetura de um Data Warehouse e no os processos de definição dos seus dados, a sua população é realizada Segundo três passos (ETL):

1. Extract: obtenção dos dados a partir do "sistema operacional de origem” (transacional);

2. Transform: adaptação os dados para atender aos requisitos especificados para o Data Warehouse

3. Load: inserir Os dados "No sistema em questão”

Estudo de caso teórico: transporte aéreo (capítulo 11 traçoKimble, 2a ed.)

• Motivação: logística, roteamento de pacotes, utilização de algoritmos

• Questões a serem respondidas:

• Quais voos são mais utilizados pelos clientes?

• Quais aviões Os clientes preferem?

• Quais os valores pagos por viagem?*

• Como os clientes gastam suas milhas?

• Quanto tempo duram as viagens dos clientes?

• O Cliente prefere voo direto ou com conexão?

* -> nível granular de informação (viagem -> trecho (viagem entre 2 trechos sem es- cala) -> seguimento (parte da viagem realizada em uma única aeronave) )

Esquemas Lógicos de Data Warehouse

• Um esquema (scheme) é a forma como as tabelas de fatos E as dimensões estão logicamente estruturadas para compor As informações apresentadas por um Data Warehouse

• Os dois principais esquemas são:

• Estrela: esquema onde há uma tabela de fatos centralizada diversas dimen- sões estão associadas a ela

• Snowflake: consiste de um sistema que se aproveita da normalização existente nas dimensões, tornando o modelo mais complexo, Porém com menor custo necessário para realizar a modelagem dimensional.

Obs: O esquema Snowflake É Uma abordagem não desnormalizada do esquema Estrela, e vice-versa

• Outro esquema: Fact Constelation: esquemas Estrela associados através de suas tabelas fatos

Correção da prova:

1. O uso da dimensão temporal permite a análise histórica dos dados. Desta forma, é possível analisar o passado para buscar previsões mais precisas do futuro.

2. Letra C, pois:

A. Falso - os Data Warehouses são conhecidos pela consistência de suas informações, não pela volatilidade

B. Verdadeiro

C. Verdadeiro (ETL)

3. FALSO - O modelo Estrela é uma abordagem desnormalizada; o modelo Snow- flake é que possui abordagem não desnormalizada.

4. Letra A (OLAP)

5. Letra B, pois:

1. Falso - OLAP trabalha sobre DADOS para produzir o conhecimento!

2. Verdadeiro

3. Falso - os Data Marts utilizam sim dados externos, o que obriga a limpeza dos dados antes da carga ao Data Warehouse

4. Verdadeiro (Abordagem Bottom-up)

6.6.1. OLTP - Distribuição lógica dos dados armazenados com o objetivo de

privi- legiar escritas concorrentes

6.2. OLAP - utiliza-se da idéia de agregação de dados com objetivo de minimi- zar o uso de junções entre tabelas, maximizando-se assim o resultado de consultas sobre os dados

Mineração de Dados (Data Mining)

- Motivação: grande volume de dados existentes em diversas áreas estão à disposi- ção para a análise e extração de resultados que podem ser aproveitados para apresentar maiores benefícios para as organizações.

- Teorema de Bonferroni: existem muitas conclusões possíveis de se obter, algumas serão verdades puramente por razões estatísticas, sem nenhuma validação física.

- No contexto computacional, mineração de dados está relacionada ao processo de descoberta de extração de índices com base em padrões dos dados

- As técnicas de mineração de dados são muito utilizadas com o objetivo de definir perfis para determinados ramos, tais como segurança, logística, economia, entre outros

- Para utilizar a mineração de dados de forma a tirar melhor proveito dos dados, deve-se utilizar um sistema OLAP, com estruturação dos dados na forma de Data Warehouses

- A mineração de dados consiste na realização prévia de um conjunto de etapas para que as técnicas escolhidas possam ser aplicadas de forma plena. São elas:

- (1)Reunião dos dados de acordo com o padrão especificado

- (2)Tratamento tostados: eliminação de erros

- (3)Extração de características: Operação somente dos atributos interessantes sobre os dados

- (4)Descoberta extração de padrões: etapa onde de fato ocorre a mineração de dados

- (5)Visualização do resultado

- (6)Análise dos resultados: somente os resultados válidos são considerados

- Classes de tarefa de mineração de dados consistem da estruturação das etapas de mineração em conjuntos relacionados

- clusterização (agrupamento)(1 e 3): envolver as etapas responsáveis pelo des- cobrimento de grupos de estruturas de dados que, de alguma forma, são simi- lares

- Classificação (4, 1 e 3): conjunto de tarefas responsáveis por generalizar estruturas conhecidas, permitindo aplicar novas estruturas (rótulos) a Estes dados.Exemplo: classificar um e-mail como legítimo ou spam

- Regressão(2): conjunto de tarefas responsáveis por modelar os dados com a me- nor quantidade de erros possíveis, de acordo com o padrão estabelecido

- Associação de aprendizagem(6): conjunto de etapas responsável por estabelecer a relevância entre os grupos de dados obtidos. Exemplo: identificação dos pa- drões de compra de clientes para oferecer novos produtos.

Técnica -> Classe -> Tarefa (Etapa)

Introdução às Técnicas de Mineração de Dados

- De uma forma geral, as técnica de mineração de dados que serão estudadas a seguir podem ser classificadas como técnica de:

• Aprendizado Supervisionado (preditiva): a categorização dos registros é realizada em função de uma variável alvo pré-definida, necessitando assim de uma classifi- cação prévia. Estas técnicas estão associadas à uma simulação de cenários futuros especificados na forma da variável alvo

• Aprendizado Não-Supervisionado (descritivo): não há a presença de uma

variável alvo, de forma a não permitir a predição de cenários. Por outro lado, é possível a descrição de um conjunto de opções com base nos registros minerados, de forma a permitir a escolha do que se apresentar mais relevante.

Técnicas de Mineração de Dados

1- Mineração de Itens Frequentes

- técnica dividida em duas etapas

• Criação de um conjunto de itens frequentes de ocorrência, respeitando um valor mínimo para a frequência dos itens;

• Geração de regras de associação para a mineração deste conjunto

- Definição das medidas de suporte e confiança

• Suporte: percentual de registros que se encaixam na regra (registros associados);

• Confiança: percentual de registros que atendem exatamente à regra (registros exatos)

Exemplo: pessoas que compram pão e manteiga

• Suporte: Pessoas que compram pão e manteiga, mas também compram LEITE

• Confiança: pessoas que compram APENAS pão e manteiga

2- Árvores de Decisão

• Método de classificação definido como um fluxograma em forma de árvore

• Cada vértice não-folha da árvore representa um teste feito sobre um valor

• Cada nível da árvore pode envolver condições com diferentes dados

• As arestas entre os vértices representam os valores do vértice superior

• Os vértices-folha indicam a categoria à qual o registro pertence

• A sequência seguida da raiz até os vértices-folha representam as decisões que podem ser convertidas em regras de classificação

3- Classificação Bayessiana

• É uma técnica estatística (probabilidade condicional) baseada no teorema de Bayes. De acordo com este teorema, é possível encontrar a probabilidade de um evento ocorrer dada a probabilidade de outro evento que já ocorreu. Em sua forma convencional (Naive Bayes), a técnica considera que não há relação de depen- dência entre os atributos analisados. No entanto, existem variações da técnica que consideram tal dependência.

4- Classificação Baseada em Regras

• Considera a estrutura [ SE condição ENTÃO conclusão ]

• Tipo de construção geralmente obtido a partir de árvores de decisão

• É mais simples de ser interpretada do que árvores de decisão quando são utilizadas estruturas com muitas variáveis (árvores N-árias)

• O processo de classificação se torna mais simples do que através de decisão

5- Redes Neurais

• Técnica originada da Psicologia e da Neurobiologia, consistindo na simulação do comportamento de neurônios

• De maneira geral, uma rede neural pode ser vista como sendo um conjunto de unidades de entrada (conjunto de dados) e saídas (conclusões), conectadas atra- vés de camadas intermediárias (aprendizado)

• Cada ligação (aresta) entre as unidades possui um peso associado

• Durante o processo de aprendizagem, os pesos são ajustados de forma a classificar corretamente os objetos

• Quanto maior o período de treinamento(iterações intermediárias), maior a probabilidade de uma classificação mais precisa

• Dependendo da quantidade de iterações, é possível que a interpretação do resultado se torne extremamente complexa devido à baixa relação entre as entradas e as saídas

• No entanto, como resultado, uma rede neural pode apresentar resultados não pre- vistos e para os quais não havia sido treinada

- Algoritmos genéticos (preditiva)

Ideia que explora a teoria da evolução aplicada ao aprendizado a partir da analise de dados históricos

Consiste de um estágio inicial, onde uma população (conjunto de dados) é definida de maneira aleatória;

Uma vez estipulado o objetivo, a técnica associa os dados da população inicial entre si e com outros dados correlatos, de maneira a criar novas gerações mais “fortes” ou mais “fracas” do que a anterior;

As gerações mais “fracas” são eliminadas a cada nova interação; A técnica segue sendo executada até que alguém resultado seja obtido ou até

que algum outro critério de parada seja atingido;

- Conjuntos aproximados (descritiva)

Técnica que é capa de realizar classificações mesmo com dados imprecisos ou errados;

A técnica trabalha com a ideia de classes de aproximação para a criação das categorias;

Exemplo ; admite-se a existência de um grupo de dados que forma uma classe C. Esta classe é vizinha de outras duas classes (conjunto de aproximação).

1) Conjunto de alta aproximação de C => contem registros que não podem ser definidos com não pertencentes à classe C

2) Conjunto de baixa aproximação de C => contem registros que certamente pertencem a classe C

Um novo registro é classificado de acordo com a sua aproximação a um dos dois conjuntos.

- Conjuntos nebulosos (Fuzzy set) : (descritiva)

As técnicas baseadas em regras de classificação apresentam problemas ao tratarem valores contínuos, pois necessitam de pontos de corte bem definidos;

A ideia dos conjuntos nebulosos é tratar os valores discretos de forma mais analítica, de maneira a considerar outros aspectos para realizar a classificação;

Com esta aplicação é possível inserir graus de flexibilidade onde antes as opções admitiam apenas valores “verdadeiro” e “falso”;

1) Pode ser chamado também de agrupamento e como o nome já diz diferente de classificar, ele agrupa os dados sem se focar nos atributos que os definem

2) a

3) Errado, pois na mineração de dados não é obrigatório utilizar de um sistema olap e estruturar o data warehousing

4) A) são técnicas que se utilizam de uma variável e podem através de uma simulação projetar cenários futuros

5) Mineração de Itens Frequentestécnica dividida em duas etapasCriação de um conjunto de itens frequentes de ocorrência, respeitando um valor mínimo para a frequência dos itens;

6) b

Documents

Tópicos Especiais em Bancos de Dados Multidimensionados(1)