38

Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;

  • Upload
    lyanh

  • View
    219

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;
Page 2: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;

Mineração de Dados - Contextualização

Fonte: Prof. Fabrício J. Barth - http://fbarth.net.br/

Page 3: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;

Mineração de Dados - Contextualização

Uso da informação Síntese do conhecimento;

Manter, disseminar, organizar, criar conhecimento e tomar decisões mais assertivas com base nos dados;

Sistemas de informação, sistemas especialistas, ...

Page 4: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;

Mineração de Dados - Contextualização

Fonte: Prof. Fabrício J. Barth - http://fbarth.net.br/

Page 5: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;

Mineração de Dados - Contextualização

Page 6: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;

Mineração de Dados - Contextualização

Mudança de cenário

Ficou mais complexo devido as características dos dados, da forma como eles são gerados e das novas necessidades dos usuários.

O volume de dados gerados é muito alto.

A velocidade com que eles são gerados e perdem a validade é muito rápida.

A variedade das fontes é bem diversificada (estruturada + não estruturada)

Page 7: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;

Mineração de Dados - Contextualização

Sistemas de informação, sistemas especialistas, ...

Foco no registro das transações (passado).

Usuário deseja informações do estado atual (presente) e dos próximos estados (futuro).

Page 8: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;

Exemplos

Fonte: http://www.predpol.com/

Page 9: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;

Exemplos

Fonte: U.S. Geological Survey - https://www.usgs.gov/

Page 10: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;

Exemplos

Fonte: Amazon- https://www.amazon.com/

Page 11: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;

Exemplos

Entradas: fontes de dados da internet, incluindo redes sociais e blogs Saídas: identificação em tempo real de surtos com alto índice de confiabilidade (85%) Fonte: http://www.observatorio.inweb.org.br

Page 12: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;

Exemplos

Entradas: Opiniões sobre o mercado de ações nos EUA Saídas: Classificação das tendências (alta/baixa) do preço das ações

Fonte: https://stocktwits.com/

Page 13: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;

Exemplos

Entradas: Milhares de previsões simultâneas do mercado de ações dos EUA Saídas: Classificação das tendências (alta/baixa) do preço das ações

Fonte: numer.ai/

Page 14: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;

Mineração de Dados - Contextualização

Características dos exemplos mostrados

Manipulam grandes volumes de informação;

Recebem dados de diversas fontes simultaneamente.

Page 15: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;

Knowledge Discovery in Databases (KDD)

Descoberta de conhecimento em bancos

de dados - Knowledge Discovery in Databases

(KDD)

Processo que envolve desde a preparação da

base de dados até a apresentação do

conhecimento.

Extração do conhecimento através de técnicas de mineração de dados.

Page 16: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;

Knowledge Discovery in Databases (KDD)

Exemplo

Pergunta:

É possível classificar espécies do gênero Iris levando em consideração apenas o tamanho das plantas?

Page 17: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;

Knowledge Discovery in Databases (KDD)

Aquisição e pré-processamento dos dados

Exemplo com a linguagem R

Page 18: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;

Knowledge Discovery in Databases (KDD)

Análise exploratória

Visualização dos dados

Page 19: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;

Knowledge Discovery in Databases (KDD)

Modelagem dos dados

Classificação da espécie em função das características da planta

Page 20: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;

Knowledge Discovery in Databases (KDD)

Avaliação do modelo

Classificação das plantas

Quantos falsos positivos?

Quantos falsos negativos?

Qual a acurácia do modelo?

Acertou 95% das previsões!

Page 21: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;

Knowledge Discovery in Databases (KDD)

Page 22: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;

Knowledge Discovery in Databases (KDD)

Problema multidisciplinar

• Integração, consolidação e remodelagem de dados para processamento analítico

• Análise exploratória de dados

• Pré-processamento dos dados

• Aprendizagem computacional

• Inferência

• Avaliação de desempenho

• Ambientes de consulta (OLAP e OLAM)

Page 23: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;

Knowledge Discovery in Databases (KDD)

Tudo começa com uma (boa) pergunta Que acontecerá com as vendas do produto A se faltar

o produto B nas prateleiras da loja?

Quanto valerão as ações da empresa X daqui a 15 dias?

Quantas equipes de manutenção devo deixar de sobreaviso no carnaval ?

Quantas peças sobressalentes devo disponibilizar para poder atender às necessidades em 95% dos casos ?

Se só temos capacidade para fiscalizar 10% das empresas por ano, quais deveríamos fiscalizar?

Que acontecerá com a arrecadação se for concedido um benefício fiscal de 20% de redução?

...

Page 24: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;

Knowledge Discovery in Databases (KDD)

• Data WareHouse (DW): oferece os dados com a visão histórica adequada tanto à extração de conhecimento quanto à apresentação de resultados

• Data Mining (DM): agrupa os dados, otimiza classificações, estimativas e previsões faz associações e extrai o conhecimento implícito nos dados (regras do negócio)

• On-Line Analytical Processing (OLAP) / Mining (OLAM): Ambientes de consulta que apresentam os resultados tanto das consultas diretas ao Data WareHouse quanto das respostas da mineração dos dados contidos no Data WareHouse.

KDD é uma atividade

multidisciplinar que se baseia em 3 áreas da computação:

Page 25: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;

Knowledge Discovery in Databases (KDD)

Adaptado de [Pappa, G. L.,2009]

Page 26: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;
Page 27: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;

Mineração de Dados

Extração de conhecimento de grandes volumes de dados

Identificação de padrões úteis

Suporte à decisão

Gerência de negócios

Controle de produção

Análise de mercado

Exploração científica

...

Page 28: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;

Processo para Mineração de Dados

Processo de KDD com mineração de dados

Análise sistemática dos dados

Metodologias para documentação de processos de KDD

Padrão CRISP-DM (Cross-Industry Standard Process for Data Mining)

Metodologia padrão não proprietária que identifica as diferentes fases na implantação de um projeto de data mining (DMP).

Última versão: http://www.crisp-dm.org/

Page 29: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;

CRISP-DM

Visão Geral

Page 30: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;

CRISP-DM

Seis fases cíclicas

Business Understanding

Data Understanding

Data Preparation

Modeling Evaluation Deployment

Page 31: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;

CRISP-DM

Business Understanding

Essa fase determina:

Os objetivos de negócio (as perguntas!);

Avaliação do modelo atual;

Os objetivos específicos da mineração dos dados;

O desenvolvimento de um plano de projeto.

Page 32: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;

CRISP-DM

Data Understanding

Levantamento dos requisitos dos dados:

Coleta inicial dos dados;

Descrição dos dados;

Exploração dos dados;

Verificação da qualidade dos dados;

Identificação visual de padrões.

Page 33: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;

CRISP-DM

Data Preparation

Seleção, limpeza e formatação dos dados:

Extração dos dados selecionados;

“Limpeza” dos ruídos existentes nos dados;

Transformação dos dados;

Identificação visual/estatística de padrões.

Page 34: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;

CRISP-DM

Modeling Criação do modelo de mineração de dados:

Agrupamento: Identificação de grupos de indivíduos/registros que têm perfis semelhantes;

Regressão: Estimação de valores contínuos na resposta do sistema;

Classificação: Decisão do sistema categorizando cada indivíduo/registro em uma classe pré-definida;

Extração de regras de associação e de classificação: Apresentação de relações entre as variáveis de entrada e as respostas do sistema.

Page 35: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;

CRISP-DM

Evaluation Avaliação dos resultados gerados a partir do modelo:

Visualização dos resultados em gráficos;

Análise estatística dos resultados;

Validação da generalização dos modelos;

Identificação dos padrões úteis ou inesperados e alinhamento com a Fase I (business understanding)

Page 36: Mineração de Dados - Contextualização - Slidesslides.jarley.com/dw/dw-02-introducao-crispdm.pdf · Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento;

CRISP-DM

Deployment Modelo incorporado aos processos de negócio:

Previsão de cenários;

Identificação de processos críticos;

Monitoramento dos resultados;

Avaliação de desempenho.