27
1 Capacidades do Data Warehouse • O Data Warehouse(DW) tem como objetivo criar e manter uma base de dados analítica. • As análises extremamente flexíveis obtidas através das operações OLAP (drill-down, roll-up, slice) são poderosas mais muito simples, tudo gira em torno de somas (fatos aditivos), médias (fatos semi-aditivos) e/ou contagens (fatos não-aditivos)

1 Capacidades do Data Warehouse O Data Warehouse(DW) tem como objetivo criar e manter uma base de dados analítica. As análises extremamente flexíveis obtidas

Embed Size (px)

Citation preview

Page 1: 1 Capacidades do Data Warehouse O Data Warehouse(DW) tem como objetivo criar e manter uma base de dados analítica. As análises extremamente flexíveis obtidas

1

Capacidades do Data Warehouse

• O Data Warehouse(DW) tem como objetivo criar e manter uma base de dados analítica.

• As análises extremamente flexíveis obtidas através das operações OLAP (drill-down, roll-up, slice) são poderosas mais muito simples, tudo gira em torno de somas (fatos aditivos), médias (fatos semi-aditivos) e/ou contagens (fatos não-aditivos)

Page 2: 1 Capacidades do Data Warehouse O Data Warehouse(DW) tem como objetivo criar e manter uma base de dados analítica. As análises extremamente flexíveis obtidas

2

Limites do OLAP

• As operações Olap podem responder aos seguintes questionamentos:– Qual região vendeu mais? Qual diferença entre vendas

de determinado produto por região ou por vendedor?

• Olap não pode responder:– Qual o perfil dos compradores da região que mais

vendeu determinado produto?– Quais produtos que mais venderam em conjunto?– Quais os prováveis produtos que determinado cliente

irá escolher na próxima compra?

Page 3: 1 Capacidades do Data Warehouse O Data Warehouse(DW) tem como objetivo criar e manter uma base de dados analítica. As análises extremamente flexíveis obtidas

3

Data Mining

• Data Mining visa analisar dados também, só que com a utilização de métodos mais complexos, como conseqüência, os resultados são mais elaborados.– A Mineração de Dados é uma conjunto de

poderosas técnicas de análise para extração de conhecimentos a partir de séries de dados muito grandes, que podem ser de extraordinário valor para análises e decisões nas organizações

Page 4: 1 Capacidades do Data Warehouse O Data Warehouse(DW) tem como objetivo criar e manter uma base de dados analítica. As análises extremamente flexíveis obtidas

4

Relação DW e Data Mining

• Do ponto de vista de um DW, Data Mining pode ser vista como um aplicação cliente do DW. Como uma ferramenta de consulta OLAP ou uma ferramenta de relatórios, a ferramenta de Data Mining pode estar em uma máquina a parte e requisitando dados do DW

• Do ponto de vista de Data Mining, o DW é apenas uma coleção de dados organizada e sem problemas de qualidade, i.e., uma fonte de dados

Page 5: 1 Capacidades do Data Warehouse O Data Warehouse(DW) tem como objetivo criar e manter uma base de dados analítica. As análises extremamente flexíveis obtidas

5

Relação DW e Data Mining

• São independentes e podem ser utilizados em separado.

• As análises são complementares e não sobrepostas• Contudo, um ambiente de análise completo

necessita resultados de ambos, ou seja, o melhor é utilizar os dois em conjunto.

• Existe uma tendência de ter as duas formas de análise no mesmo ambiente

Page 6: 1 Capacidades do Data Warehouse O Data Warehouse(DW) tem como objetivo criar e manter uma base de dados analítica. As análises extremamente flexíveis obtidas

6

Exemplos de Aplicação

• Marketing– Mala direta de produtos para clientes que tem

possibilidade de comprar aquele produto

• Varejo– Produtos organizados nas prateleiras de forma que

o cliente ponha no carrinho de compra os produtos que vendem em conjunto

• Telecomunicações– Ligações fraudulentas de Celulares clonados

Page 7: 1 Capacidades do Data Warehouse O Data Warehouse(DW) tem como objetivo criar e manter uma base de dados analítica. As análises extremamente flexíveis obtidas

7

Exemplos de Aplicação

• Bancário– Liberação de empréstimos para clientes que tem

característica de bom pagador

• Científico– NASA cataloga imagem de satélites classifica eventos

similares nas imagens

• Acadêmico– Disciplinas de graduação que tem maior probabilidade

de serem cursadas em conjunto

Page 8: 1 Capacidades do Data Warehouse O Data Warehouse(DW) tem como objetivo criar e manter uma base de dados analítica. As análises extremamente flexíveis obtidas

8

KDD & Data Mining

• Descoberta de Conhecimento em Base de Dados (KDD)– “é o processo não trivial de identificação de padrões em

dados que sejam válidos, novos, potencialmente úteis e compreensíveis” [Fayyad 96]

– “é uma tarefa cujo uso de conhecimento é intensivo, consistindo de complexas interações, prolongadas no tempo, entre uma pessoa e um banco de dados, possivelmente suportada por um conjunto heterogêneo de ferramentas.” [Brachman 96]

Page 9: 1 Capacidades do Data Warehouse O Data Warehouse(DW) tem como objetivo criar e manter uma base de dados analítica. As análises extremamente flexíveis obtidas

9

KDD & Data Mining

• Data Mining – é uma etapa neste processo onde os recursos

computacionais são mais exigidos– Também chamada de Mineração de Dados e

Prospecção de dados» sondagem» pesquisa» avaliar» investigar» explorar

Page 10: 1 Capacidades do Data Warehouse O Data Warehouse(DW) tem como objetivo criar e manter uma base de dados analítica. As análises extremamente flexíveis obtidas

10

Condições

• Critérios que justificam adoção de KDD [Fayyad 96]– Práticos

• Impacto Potencial • Falta de Alternativa• Suporte Organizacional

Page 11: 1 Capacidades do Data Warehouse O Data Warehouse(DW) tem como objetivo criar e manter uma base de dados analítica. As análises extremamente flexíveis obtidas

11

Condições

• Critérios que justificam adoção de KDD [Fayyad 96]– Técnicos

• Quantidade de dados• Atributos Relevantes• Qualidade dos dados• Conhecimento acerca do domínio

Page 12: 1 Capacidades do Data Warehouse O Data Warehouse(DW) tem como objetivo criar e manter uma base de dados analítica. As análises extremamente flexíveis obtidas

12

Processo de KDD

• Abordagem utilizada– Dividida em etapas [Fayyad 96]

Page 13: 1 Capacidades do Data Warehouse O Data Warehouse(DW) tem como objetivo criar e manter uma base de dados analítica. As análises extremamente flexíveis obtidas

13

Processo de KDD

• Adriaans 97

Page 14: 1 Capacidades do Data Warehouse O Data Warehouse(DW) tem como objetivo criar e manter uma base de dados analítica. As análises extremamente flexíveis obtidas

14

Processo de KDD

• Terra 2000

Page 15: 1 Capacidades do Data Warehouse O Data Warehouse(DW) tem como objetivo criar e manter uma base de dados analítica. As análises extremamente flexíveis obtidas

15

Etapas do Processo

• Definição de Objetivos– Sempre o processo de KDD tem um objetivo

inicial, uma hipótese, que será comprovada ou rejeitada com utilização de exemplos de dados/conhecimento extraído

– Nem sempre o objetivo do processo é diretamente atribuído a um conjunto de dados do universo de discurso. Nestas situações existe o problema chamado de “concept assignment problem”. Por exemplo, como determinar o perfil dos melhores(?) clientes

Page 16: 1 Capacidades do Data Warehouse O Data Warehouse(DW) tem como objetivo criar e manter uma base de dados analítica. As análises extremamente flexíveis obtidas

16

Etapas do Processo

• Preparação dos Dados– A partir do objetivo podemos preparar um

conjunto de dados. • Seleção. Focar em um subconjunto

• Limpeza. Eliminar ruído

• Enriquecimento. Acrescentar dados externos

• Transformação/Codificação. Normalizar dados

– Grande parte da preparação é feita quando temos o DW!

Page 17: 1 Capacidades do Data Warehouse O Data Warehouse(DW) tem como objetivo criar e manter uma base de dados analítica. As análises extremamente flexíveis obtidas

17

Etapas do Processo

• Data Mining– Algoritmos específicos são utilizados para

extrair conhecimento– Existem vários tipos de análises realizadas

pelos algoritmos– Escolher uma análise nem sempre é uma tarefa,

principalmente onde há o “concept assignment problem”

Page 18: 1 Capacidades do Data Warehouse O Data Warehouse(DW) tem como objetivo criar e manter uma base de dados analítica. As análises extremamente flexíveis obtidas

18

Etapas do Processo

• Interpretação/Validação dos resultados– Muitas vezes temos uma quantidade de resultados de difícil

aplicação na etapa de Data Mining (muito grande ou muito pequena)

– A quantidade depende dos valores dos parâmetros escolhidos na análise

• Características desejáveis Result.(Conhecimento)– Correto– Compreensível– Interessante / Útil/ Novo

Page 19: 1 Capacidades do Data Warehouse O Data Warehouse(DW) tem como objetivo criar e manter uma base de dados analítica. As análises extremamente flexíveis obtidas

19

Data Mining

• Tarefas de Mineração/Classes de Problemas– Após criar um conjunto de dados é preciso definir

qual método de mineração será aplicado– Existem vários métodos que são agrupados em

“tarefas” ou “classes” semelhantes:• [Agrawal 93] : Associações, Classificação e Seqüência

• [Fayyad 96] : Link Analysis, Classificação, Agrupamento, Detecção de desvios, Sumarização,...

Page 20: 1 Capacidades do Data Warehouse O Data Warehouse(DW) tem como objetivo criar e manter uma base de dados analítica. As análises extremamente flexíveis obtidas

20

Métodos

• Em [Fayyad 96] é proposta uma divisão em mais alto nível dos métodos segundo a aplicação :– Descritivos

• Procuram criar um modelo para gerar uma representação descritiva dos dados. A partir desta representação podem ser tomadas as devidas ações

– Preditivos• Procuram criar modelos que permitam prever a situação

futura. Não focam necessariamente a compreensão humana do modelo extraído.

Page 21: 1 Capacidades do Data Warehouse O Data Warehouse(DW) tem como objetivo criar e manter uma base de dados analítica. As análises extremamente flexíveis obtidas

21

Algoritmos de Data Mining

• Existem muitos algoritmos que podem ser utilizados em Data Mining

• Em parte, estes algoritmos não são novos, mas sim originários de métodos estatísticos e de IA.

• Contudo, em Data Mining, estes algoritmos devem ser adaptados para que possam tratar uma grande quantidades de dados. Muitos algoritmos não podem ser utilizados

Page 22: 1 Capacidades do Data Warehouse O Data Warehouse(DW) tem como objetivo criar e manter uma base de dados analítica. As análises extremamente flexíveis obtidas

22

Associações/Link Analysis

• As regras de associações representam padrões onde a ocorrência de eventos em conjunto é alta. – Exemplo mais comum é o do supermercado :

• produtos que frequentemente são vendidos conjuntamente• folclore : cerveja e fralda saem em juntas em grande

quantidade de transações• Existem associações usuais por seu uso comum : pão e

manteiga, café e leite• As interessantes são as não usuais.

Page 23: 1 Capacidades do Data Warehouse O Data Warehouse(DW) tem como objetivo criar e manter uma base de dados analítica. As análises extremamente flexíveis obtidas

23

Seqüência

• São regras de associação que utilizam o fator tempo.

• Os dados de uma seqüência podem ser transformados para que sejam aplicados algoritmos de associação– Ex. Utilização do Cartão de Crédito:

• Quem compra um celular vai comprar um micro um tempo depois

Page 24: 1 Capacidades do Data Warehouse O Data Warehouse(DW) tem como objetivo criar e manter uma base de dados analítica. As análises extremamente flexíveis obtidas

24

Agrupamentos/Clustering

• Neste método os pares atributo/valor são analisados com o objetivo de criar grupos onde os valores são semelhantes.

• Existem vários registros (exemplos) que representam um evento

• Não são fornecidos rótulos para os exemplos.– Ex: Quais são os grupos que se comportam da

mesma maneira?

Page 25: 1 Capacidades do Data Warehouse O Data Warehouse(DW) tem como objetivo criar e manter uma base de dados analítica. As análises extremamente flexíveis obtidas

25

Classificação

• Neste método são procurados padrões que “classifiquem” elementos rotulados (exemplos)

• Os exemplos são fornecidos, juntamente com um conjunto de registros. O objetivo é descobrir quais valores justificam o exemplo.

• Podem ser utilizados para “compreender” os agrupamentos– Ex. qual a característica do agrupamento

Page 26: 1 Capacidades do Data Warehouse O Data Warehouse(DW) tem como objetivo criar e manter uma base de dados analítica. As análises extremamente flexíveis obtidas

26

Sumarização

• Os métodos de sumarização são, em geral, métodos estatísticos mais simples. – Ex. Média, Desvio, Correlação

• São muito parecidos com as possibilidades de análise fornecidas pelo OLAP.– Ex. Existe relação entre ações de empresas

diferentes ao longo do tempo?

Page 27: 1 Capacidades do Data Warehouse O Data Warehouse(DW) tem como objetivo criar e manter uma base de dados analítica. As análises extremamente flexíveis obtidas

27

Conclusões

• O processo tem muitas escolhas• Como saber se as escolhas foram corretas?

• Experiência do condutor do processo, o analista

• O Analista não é necessariamente um usuário final!!• O processo pode ser refeito em algumas partes

(iteratividade!!!)• Altamente Interativo, o usuário(especialista) é essencial

“background knowledge”