42
MINERAÇÃO DE DADOS

MINERAÇÃO DE ADOS - docente.ifrn.edu.br

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

MINERAÇÃO DE DADOS

Page 2: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

MINERAÇÃO DE DADOS

O bj ti d Mi ã d D d é t iO objetivo da Mineração de Dados é extrair ouminerar conhecimento de grandes volumes dedados.a os.A mineração de dados é formada por umconjunto de ferramentas e técnicas que atravésd d l i d di ido uso de algoritmos de aprendizagem tais comoredes neurais ou estatística, são capazes deexplorar um conjunto de dados, extraindo ouexplorar um conjunto de dados, extraindo ouajudando a evidenciar padrões nestes dados eauxiliando na descoberta de conhecimento.E h i d dEsse conhecimento pode ser apresentado poressas ferramentas de diversas formas:agrupamentos, hipóteses, regras, árvores deagrupamentos, hipóteses, regras, árvores dedecisão, grafos, ou dendrogramas.

Page 3: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

MOTIVAÇÃO

A i f i ã d i d i A informatização dos meios produtivos permitiu a geração de grandes volumes de dados:dados:

Transações eletrônicas;Novos equipamentos científicos e industriais para Novos equipamentos científicos e industriais para observação e controle;Dispositivos de armazenamento em massa;

A i d i f ã i Aproveitamento da informação permite ganho de competitividade: “conhecimento é poder (e poder = $$!)”poder (e poder = $$!)

Page 4: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

CONHECIMENTO

$Volume Valor

Informação

Conhec.

Dados

l óagreguem valor aos seus negócios

Page 5: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

MOTIVAÇÃO

Os recursos de análise de dados tradicionais são inviáveis para acompanhar esta evoluçãoSolução:

ferramentas de automatização das tarefas repetitivas e sistemática de análise de dadosf t d íli t f iti d ferramentas de auxílio para as tarefas cognitivas da análiseintegração das ferramentas em sistemas apoiando o processo completo de descoberta de conhecimento para tomada de decisão

Page 6: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

APLICAÇÃO

Um problema do mundo dos negócios: entender o perfil dos clientes

desenvolvimento de novos produtos;controle de estoque em postos de distribuição;propaganda mal direcionada gera maiores gastos e desestimula o possível interessado a

f t d dprocurar as ofertas adequadas;Quais são meus clientes típicos?

Page 7: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

DESCOBERTA DE CONHECIMENTO EMBANCOS DE DADOS

“O processo não trivial de extração de informações implícitas, anteriormente desconhecidas e potencialmente úteis de uma desconhecidas, e potencialmente úteis de uma fonte de dados”;O que é um padrão interessante ? (válido, O que é um padrão interessante ? (válido, novo, útil e interpretável)

Page 8: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

TRANSFORMAR DADOS

em informação e conhecimentoúteis para o suporte à decisãoúteis para o suporte à decisão,gerenciamento de negócios, controle de produção análise de mercado ao projeto de engenharia e exploração análise de mercado ao projeto de engenharia e exploração científica

Page 9: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

KDD X DATA MINING

Mi ã d d d é d Mineração de dados é o passo do processo de KDD que produz um conjunto de padrões sob um custo computacional padrões sob um custo computacional aceitável;KDD utiliza algoritmos de data miningKDD utiliza algoritmos de data miningpara extrair padrões classificados como “conhecimento” Incorpora também tarefas conhecimento . Incorpora também tarefas como escolha do algoritmo adequado, processamento e amostragem de dados e p ginterpretação de resultados;

Page 10: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

ETAPAS DO PROCESSO

SeleçãoSeleçãoPré-processamento TransformaçãoçData mining (aprendizagem)Interpretação e Avaliação

Processo

Page 11: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

SELEÇÃO DE DADOS

S l i d d d d Selecionar ou segmentar dados de acordo com critérios definidos:

E T d ã Ex.: Todas as pessoas que são proprietárias de carros é um

b j t d d d d t i dsubconjunto de dados determinado.

1111

Processo

Page 12: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

PRÉ-PROCESSAMENTO

Estágio de limpeza dos dados, onde informações julgadas desnecessárias são removidas.R fi ã d d d Reconfiguração dos dados para assegurar formatos consistentes (identificação)

Ex : sexo = “F” ou “M”Ex. : sexo F ou Msexo = “M” ou “H”

1212

Processo

Page 13: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

TRANSFORMAÇÃO

Transformam-se os dados em formatos utilizáveis. Esta depende da técnica data miningusadausada.Disponibilizar os dados de maneira usável e a egá ele navegável.

1313

Processo

Page 14: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

DATA MINING

É d d i d d d É a verdadeira extração dos padrões de comportamento dos dados (exemplos)

1414

Processo

Page 15: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

INTERPRETAÇÃO E AVALIAÇÃO

Identificado os padrões pelo sistema, estes são interpretados em conhecimentos, os quais darão suporte a tomada de decisões humanassuporte a tomada de decisões humanas

1515

Processo

Page 16: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

ETAPAS DO PROCESSO

O d KDD é i t ti it ti O processo de KDD é interativo, iterativo, cognitivo e exploratório, envolvendo vários passosmuitas decisões sendo feitas pelo analista ( muitas decisões sendo feitas pelo analista ( especialista do domínio dos dados)

Page 17: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

ETAPAS DO PROCESSO

Té i d é t t f ã d Técnicas de pré-processamento e transformação de dados são aplicadas para aumentar a qualidade e o poder de expressão dos dados a serem mineradospoder de expressão dos dados a serem minerados.Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD p p(aproximadamente 70%).

Page 18: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

INTRODUÇÃO A MINERAÇÃO DE DADOS

De que se trata ?

Dados VS InformaçãoData mining e aprendizado de maquinaEstruturas das descriçõesEstruturas das descrições◦ Regras: classificação e associação◦ Arvores de decisãoBases de Dados◦ Weather, contact lens, CPU performance, labor negotiation

data, soybean classificationdata, soybean classificationÁreas de aplicações◦ Financeiras, imagens, previsão de carga, diagnostico de

d f it i li d ddefeitos em maquinas, analises de mercado.

Page 19: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

DADOS VS INFORMAÇÃO

A sociedade produz grande quantidade de dados◦ Fontes: Empresas, medicina, economia,

geográfica ambiente, esporte, etc.Os dados brutos são inúteis: é necessário técnicas que automaticamente extraiam informação delas.Informação: padrões nos dadosç p

Page 20: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

INFORMAÇÃO É ESSENCIAL

Exemplo 1: fertilização em vidroDados: embriões descritos por 60 características

Problema: selecionar os embriões que vão sobreviverDados: registros históricos de embriões

Exemplo 2: Seleção de gadoDados: gado descrito por 700 característicasProblema: seleção de gadoç gData: registros históricos com a decisão dos fazendeiros.

Page 21: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

MINERAÇÃO DE DADOS

E ãExtração◦ implícita,

previamente desconhecida◦ previamente desconhecida,◦ Potencialmente útil

Necessidades: programas que detectem padrões e regularidades em dadospadrões e regularidades em dadosPadrões fortes ⇒ boas predições◦ Problema 1:a maior parte dos padrões não são Problema 1:a maior parte dos padrões não são

interessantes◦ Problema 2: os padrões podem não ser exatos

bl ◦ Problema 3: os dados podem estar truncados ou faltar

Page 22: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

TÉCNICAS DE APRENDIZADO DEMÁQUINAS

Algoritmos para adquirir descrições estruturadas de exemplosDescrições estruturadas representam padrões explicitamentep p◦ Pode ser usada para predição em novas

situações◦ Pode ser usada para entender e explicar como

se deriva uma predição Os métodos se originam de inteligência artificial, estatística e pesquisas em bases de dados

Page 23: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

DESCRIÇÕES ESTRUTURADAS

Exemplo: Regras IF-ThenIf tear production rate = reduced

th d tithen recommendation = noneOtherwise, if age = young and astigmatic = no

then recommendation = soft

Recommended lensesTear production rateAstigmatismSpectacle prescriptionAge

SoftNormalNoHypermetropeYoung

NoneReducedNoMyopeYoung

HardNormalYesMyopePresbyopic

NoneReducedNoHypermetropePre-presbyopic

SoftNormalNoHypermetropeYoung

……………

HardNormalYesMyopePresbyopic

Page 24: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

PODEM AS MÁQUINAS APRENDER

Definições: O processo de aprendizagem pode ser definido como o modo como os seres adquirem novos conhecimentos desenvolvem competências novos conhecimentos, desenvolvem competências e mudam o comportamento

Page 25: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

O PROBLEMA: WEATHER

Condições para jogarPlayWindyHumidityTemperatureOutlook

YesFalseHighHotOvercast

NoTrueHighHotSunny

NoFalseHighHotSunny

……………

YesFalseNormalMildRainy

YesFalseHighHot Overcast

If outlook = sunny and humidity = high then play = noIf outlook = rainy and windy = true then play = noIf outlook = overcast then play = yesIf humidity = normal then play = yesIf none of the above then play = yesp y y

Page 26: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

EXEMPLO DE PREVISÃO (I)

Análise de crédito

Um hiperplano paralelo de separação: pode ser interpretado diretamente

x oo

sem crédito

pcomo uma regra:

se a renda é menor que t, então o crédito não deve

xx

xx

xo

oo

o

oo ser liberado

Exemplo: árvores de decisão;dé

bito x o o

o

;indução de regrasrendat

x: exemplo recusadoo: exemplo aceito

p

Métodos

Page 27: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

EXEMPLO DE PREVISÃO (II)

Análise de crédito

Hiperplano oblíquo: melhor separação:

x oo

sem crédito

separação:Exemplos:

regressão linear;

xx

xx

xo

oo

o

oo perceptron;

débi

to x o oo

rendatx: exemplo recusadoo: exemplo aceito

p

Métodos

Page 28: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

EXEMPLO DE PREVISÃO (III)

Análise de crédito

Superfície não linear: melhor poder de

x oo

sem crédito

classificação, pior interpretação;Exemplos:

xx

xx

xo

oo

o

oo Exemplos:

perceptronsmulticamadas;

ã ã li

débi

to x o oo

regressão não-linear;rendat

x: exemplo recusadoo: exemplo aceito

p

Métodos

Page 29: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

EXEMPLO DE PREVISÃO (IV)

Análise de crédito

Métodos baseado em exemplos;x o

o

sem crédito

Exemplos:k-vizinhos mais próximos;

xx

xx

xo

oo

o

oo p ;

raciocínio baseado em casos;dé

bito x o o

o

rendatx: exemplo recusadoo: exemplo aceito

p

Métodos

Page 30: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

CLASSIFICAÇÃO X ASSOCIAÇÃO

Regras de Classificação: Predizem o valor de um atributo (a classificação do exemplo)

If outlook = sunny and humidity = highthen play = no

Regras de Associação: Predizem o valor de um t ib t bit á i ( bi ã )atributo arbitrário (ou combinação)

If temperature = cool then humidity = normalIf humidity = normal and windy = falsey y

then play = yesIf outlook = sunny and play = no

then humidity = highIf windy = false and play = no

then outlook = sunny and humidity = high

Page 31: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

DADOS NUMÉRICOS E DISCRETOS

9080S

NoFalse8585Sunny

PlayWindyHumidityTemperatureOutlook

YesFalse8075Rainy

YesFalse8683Overcast

NoTrue9080Sunny

……………

y

If outlook = sunny and humidity > 83 then play = noIf outlook = rainy and windy = true then play = noIf outlook = overcast then play = yesIf humidity < 85 then play = yesIf none of the above then play = yesp y y

Page 32: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

LENTESRecommended lensesTear production rateAstigmatismSpectacle prescriptionAge

NoneReducedYesMyopeYoungSoftNormalNoMyopeYoungNoneReducedNoMyopeYoung

Recommended lensesTear production rateAstigmatismSpectacle prescriptionAge

hardNormalYesHypermetropeYoungNoneReducedYesHypermetropeYoungSoftNormalNoHypermetropeYoungNoneReducedNoHypermetropeYoungHardNormalYesMyopeYoung

NR d dNH tP b iHardNormalYesMyopePre-presbyopicNoneReducedYesMyopePre-presbyopicSoftNormalNoMyopePre-presbyopicNoneReducedNoMyopePre-presbyopichardNormalYesHypermetropeYoung

NoneReducedYesHypermetropePre-presbyopicNoneNormalYesHypermetropePre-presbyopicNoneReducedNoMyopePresbyopic

SoftNormalNoHypermetropePre-presbyopicNoneReducedNoHypermetropePre-presbyopic

NoneReducedNoMyopePresbyopicNoneNormalNoMyopePresbyopicNoneReducedYesMyopePresbyopicHardNormalYesMyopePresbyopicNoneReducedNoHypermetropePresbyopicSoftNormalNoHypermetropePresbyopic SoftNormalNoHypermetropePresbyopicNoneReducedYesHypermetropePresbyopicNoneNormalYesHypermetropePresbyopic

Page 33: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

UM CONJUNTO CORRETO E COMPLETO DEREGRAS

f d i d d h d iIf tear production rate = reduced then recommendation = noneIf age = young and astigmatic = no

and tear production rate = normal then recommendation = softIf age = pre-presbyopic and astigmatic = noIf age pre presbyopic and astigmatic no

and tear production rate = normal then recommendation = softIf age = presbyopic and spectacle prescription = myope

and astigmatic = no then recommendation = nonef l i i h d i iIf spectacle prescription = hypermetrope and astigmatic = no

and tear production rate = normal then recommendation = softIf spectacle prescription = myope and astigmatic = yes

and tear production rate = normal then recommendation = hardpIf age young and astigmatic = yes

and tear production rate = normal then recommendation = hardIf age = pre-presbyopic

and spectacle prescription = hypermetropeand spectacle prescription = hypermetropeand astigmatic = yes then recommendation = none

If age = presbyopic and spectacle prescription = hypermetropeand astigmatic = yes then recommendation = none

Page 34: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

ARVORE DE DECISÃO

Page 35: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

CLASSIFICANDO AS FLORES IRISTypePetal widthPetal lengthSepal widthSepal length

A parte de imagem com identificação de relação rId3 não foi encontrada no arquivo.

2

1

Iris setosa0.21.43.04.9

Iris setosa0.21.43.55.1

52

51

Iris versicolor1.54.53.26.4

Iris versicolor1.44.73.27.0

Iris virginica1 95 12 75 8102

101 Iris virginica2.56.03.36.3

Iris virginica1.95.12.75.8102

If petal length < 2.45 then Iris setosaIf sepal width < 2.10 then Iris versicolor...

Page 36: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

PREDIÇÃO DA PERFORMANCE DE CPU

Exemplo 209 diferentes configuraçõesChannels PerformanceCache (Kb)Main memory (Kb)Cycle time (ns)

128

CHMAX

16

CHMIN

19825660002561251

PRPCACHMMAXMMINMYCT

0

32

0

8

67328000512480208

26932320008000292

0

0

0

0

45040001000480209

67328000512480208

PRP = -55.9 + 0.0489 MYCT + 0.0153 MMIN + 0.0056 MMAX

Função Linear

+ 0.6410 CACH - 0.2700 CHMIN + 1.480 CHMAX

Page 37: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

ÁREAS DE APLICAÇÃO

O resultado do aprendizadoAplicações financeiras

i d d iPrevisão de consumo de energiaDiagnostico de defeitos em maquinasV d M k tiVendas e MarketingAgronomia

Page 38: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

EMPRÉSTIMOS (AMERICAN EXPRESS)

D d i á i i f õ Dados: questionário com informações financeiras e pessoaisP t D di h i t d ?Pergunta: Deve o dinheiro ser prestado?Um método estatístico simples cobre 90% dos casoscasosOs casos no limite são decisão dos especialistasespecialistasPorém: 50% dos casos limites causam falhaSolução: rejeitar todos os casos de limite?Solução: rejeitar todos os casos de limite?◦ No! os casos do limite são dos consumidores mais

ativos.

Page 39: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

APRENDIZADO DE MÁQUINA

1000 l d i d 1000 exemplos de treinamento, casos de limite20 t ib t20 atributos:◦ idade◦ Anos de trabalho no ultimo emprego◦ Anos de trabalho no ultimo emprego◦ Anos no endereço atual◦ Anos no banco◦ otros,…

Regras aprendidas: 70% dos casos corretos◦ Especialistas humanos 50%

As regras podem ser usadas para explicar as decisões aos consumidores

Page 40: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

GENERALIZAÇÃO COM BUSCA

Aprendizado Indutivo: encontrar um conceito que se ajuste aos dadosExemplo: regras como linguagem de descriçãoç◦ Espaço de busca: Enorme, finito.

Solução simples:Solução simples:◦ Enumerar as regras

Eli i d i õ ã j t ◦ Eliminar as descrições que não se ajustam aos exemplos

Page 41: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

ENUMERAR O ESPAÇO DE CONCEITOS

E l W hExemplo Weather◦ 4 x 4 x 3 x 3 x 2 = 288 possíveis combinações

14 2 7 1034 j í i◦ com 14 regras ⇒ 2.7x1034 conjunto possíveisEm outros problemas práticos:

◦ Mais de uma descrição pode sobreviver◦ Pode não sobreviver uma descrição

A li g g lhid d ã d A linguagem escolhida pode não ser capaz de representar o domínio ou os dados podem conter ruído

U f d li Uma outra forma de generalização: algoritmos heurísticos

Page 42: MINERAÇÃO DE ADOS - docente.ifrn.edu.br

FAVORECIMENTO (BIAS)Decisões importantes em sistemas de aprendizado:◦ Linguagem das descrições dos conceitos◦ Ordem na qual o espaço de busca será explorado

F b i li ã j d ◦ Formas que a sobre especialização no conjunto de treinamento é evitada

Essas formas de escolha são “bias” da busca: Essas formas de escolha são bias da busca: ◦ Linguagem

Busca◦ Busca◦ Sobre especialização