Mineração de Dados - Contextualização -...

Preview:

Citation preview

Mineração de Dados - Contextualização

Fonte: Prof. Fabrício J. Barth - http://fbarth.net.br/

Mineração de Dados - Contextualização

Uso da informação Síntese do conhecimento;

Manter, disseminar, organizar, criar conhecimento e tomar decisões mais assertivas com base nos dados;

Sistemas de informação, sistemas especialistas, ...

Mineração de Dados - Contextualização

Fonte: Prof. Fabrício J. Barth - http://fbarth.net.br/

Mineração de Dados - Contextualização

Mineração de Dados - Contextualização

Mudança de cenário

Ficou mais complexo devido as características dos dados, da forma como eles são gerados e das novas necessidades dos usuários.

O volume de dados gerados é muito alto.

A velocidade com que eles são gerados e perdem a validade é muito rápida.

A variedade das fontes é bem diversificada (estruturada + não estruturada)

Mineração de Dados - Contextualização

Sistemas de informação, sistemas especialistas, ...

Foco no registro das transações (passado).

Usuário deseja informações do estado atual (presente) e dos próximos estados (futuro).

Exemplos

Fonte: http://www.predpol.com/

Exemplos

Fonte: U.S. Geological Survey - https://www.usgs.gov/

Exemplos

Fonte: Amazon- https://www.amazon.com/

Exemplos

Entradas: fontes de dados da internet, incluindo redes sociais e blogs Saídas: identificação em tempo real de surtos com alto índice de confiabilidade (85%) Fonte: http://www.observatorio.inweb.org.br

Exemplos

Entradas: Opiniões sobre o mercado de ações nos EUA Saídas: Classificação das tendências (alta/baixa) do preço das ações

Fonte: https://stocktwits.com/

Exemplos

Entradas: Milhares de previsões simultâneas do mercado de ações dos EUA Saídas: Classificação das tendências (alta/baixa) do preço das ações

Fonte: numer.ai/

Mineração de Dados - Contextualização

Características dos exemplos mostrados

Manipulam grandes volumes de informação;

Recebem dados de diversas fontes simultaneamente.

Knowledge Discovery in Databases (KDD)

Descoberta de conhecimento em bancos

de dados - Knowledge Discovery in Databases

(KDD)

Processo que envolve desde a preparação da

base de dados até a apresentação do

conhecimento.

Extração do conhecimento através de técnicas de mineração de dados.

Knowledge Discovery in Databases (KDD)

Exemplo

Pergunta:

É possível classificar espécies do gênero Iris levando em consideração apenas o tamanho das plantas?

Knowledge Discovery in Databases (KDD)

Aquisição e pré-processamento dos dados

Exemplo com a linguagem R

Knowledge Discovery in Databases (KDD)

Análise exploratória

Visualização dos dados

Knowledge Discovery in Databases (KDD)

Modelagem dos dados

Classificação da espécie em função das características da planta

Knowledge Discovery in Databases (KDD)

Avaliação do modelo

Classificação das plantas

Quantos falsos positivos?

Quantos falsos negativos?

Qual a acurácia do modelo?

Acertou 95% das previsões!

Knowledge Discovery in Databases (KDD)

Knowledge Discovery in Databases (KDD)

Problema multidisciplinar

• Integração, consolidação e remodelagem de dados para processamento analítico

• Análise exploratória de dados

• Pré-processamento dos dados

• Aprendizagem computacional

• Inferência

• Avaliação de desempenho

• Ambientes de consulta (OLAP e OLAM)

Knowledge Discovery in Databases (KDD)

Tudo começa com uma (boa) pergunta Que acontecerá com as vendas do produto A se faltar

o produto B nas prateleiras da loja?

Quanto valerão as ações da empresa X daqui a 15 dias?

Quantas equipes de manutenção devo deixar de sobreaviso no carnaval ?

Quantas peças sobressalentes devo disponibilizar para poder atender às necessidades em 95% dos casos ?

Se só temos capacidade para fiscalizar 10% das empresas por ano, quais deveríamos fiscalizar?

Que acontecerá com a arrecadação se for concedido um benefício fiscal de 20% de redução?

...

Knowledge Discovery in Databases (KDD)

• Data WareHouse (DW): oferece os dados com a visão histórica adequada tanto à extração de conhecimento quanto à apresentação de resultados

• Data Mining (DM): agrupa os dados, otimiza classificações, estimativas e previsões faz associações e extrai o conhecimento implícito nos dados (regras do negócio)

• On-Line Analytical Processing (OLAP) / Mining (OLAM): Ambientes de consulta que apresentam os resultados tanto das consultas diretas ao Data WareHouse quanto das respostas da mineração dos dados contidos no Data WareHouse.

KDD é uma atividade

multidisciplinar que se baseia em 3 áreas da computação:

Knowledge Discovery in Databases (KDD)

Adaptado de [Pappa, G. L.,2009]

Mineração de Dados

Extração de conhecimento de grandes volumes de dados

Identificação de padrões úteis

Suporte à decisão

Gerência de negócios

Controle de produção

Análise de mercado

Exploração científica

...

Processo para Mineração de Dados

Processo de KDD com mineração de dados

Análise sistemática dos dados

Metodologias para documentação de processos de KDD

Padrão CRISP-DM (Cross-Industry Standard Process for Data Mining)

Metodologia padrão não proprietária que identifica as diferentes fases na implantação de um projeto de data mining (DMP).

Última versão: http://www.crisp-dm.org/

CRISP-DM

Visão Geral

CRISP-DM

Seis fases cíclicas

Business Understanding

Data Understanding

Data Preparation

Modeling Evaluation Deployment

CRISP-DM

Business Understanding

Essa fase determina:

Os objetivos de negócio (as perguntas!);

Avaliação do modelo atual;

Os objetivos específicos da mineração dos dados;

O desenvolvimento de um plano de projeto.

CRISP-DM

Data Understanding

Levantamento dos requisitos dos dados:

Coleta inicial dos dados;

Descrição dos dados;

Exploração dos dados;

Verificação da qualidade dos dados;

Identificação visual de padrões.

CRISP-DM

Data Preparation

Seleção, limpeza e formatação dos dados:

Extração dos dados selecionados;

“Limpeza” dos ruídos existentes nos dados;

Transformação dos dados;

Identificação visual/estatística de padrões.

CRISP-DM

Modeling Criação do modelo de mineração de dados:

Agrupamento: Identificação de grupos de indivíduos/registros que têm perfis semelhantes;

Regressão: Estimação de valores contínuos na resposta do sistema;

Classificação: Decisão do sistema categorizando cada indivíduo/registro em uma classe pré-definida;

Extração de regras de associação e de classificação: Apresentação de relações entre as variáveis de entrada e as respostas do sistema.

CRISP-DM

Evaluation Avaliação dos resultados gerados a partir do modelo:

Visualização dos resultados em gráficos;

Análise estatística dos resultados;

Validação da generalização dos modelos;

Identificação dos padrões úteis ou inesperados e alinhamento com a Fase I (business understanding)

CRISP-DM

Deployment Modelo incorporado aos processos de negócio:

Previsão de cenários;

Identificação de processos críticos;

Monitoramento dos resultados;

Avaliação de desempenho.

Recommended