Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
MINERAÇÃO DE DADOS
MINERAÇÃO DE DADOS
O bj ti d Mi ã d D d é t iO objetivo da Mineração de Dados é extrair ouminerar conhecimento de grandes volumes dedados.a os.A mineração de dados é formada por umconjunto de ferramentas e técnicas que atravésd d l i d di ido uso de algoritmos de aprendizagem tais comoredes neurais ou estatística, são capazes deexplorar um conjunto de dados, extraindo ouexplorar um conjunto de dados, extraindo ouajudando a evidenciar padrões nestes dados eauxiliando na descoberta de conhecimento.E h i d dEsse conhecimento pode ser apresentado poressas ferramentas de diversas formas:agrupamentos, hipóteses, regras, árvores deagrupamentos, hipóteses, regras, árvores dedecisão, grafos, ou dendrogramas.
MOTIVAÇÃO
A i f i ã d i d i A informatização dos meios produtivos permitiu a geração de grandes volumes de dados:dados:
Transações eletrônicas;Novos equipamentos científicos e industriais para Novos equipamentos científicos e industriais para observação e controle;Dispositivos de armazenamento em massa;
A i d i f ã i Aproveitamento da informação permite ganho de competitividade: “conhecimento é poder (e poder = $$!)”poder (e poder = $$!)
CONHECIMENTO
$Volume Valor
Informação
Conhec.
Dados
l óagreguem valor aos seus negócios
MOTIVAÇÃO
Os recursos de análise de dados tradicionais são inviáveis para acompanhar esta evoluçãoSolução:
ferramentas de automatização das tarefas repetitivas e sistemática de análise de dadosf t d íli t f iti d ferramentas de auxílio para as tarefas cognitivas da análiseintegração das ferramentas em sistemas apoiando o processo completo de descoberta de conhecimento para tomada de decisão
APLICAÇÃO
Um problema do mundo dos negócios: entender o perfil dos clientes
desenvolvimento de novos produtos;controle de estoque em postos de distribuição;propaganda mal direcionada gera maiores gastos e desestimula o possível interessado a
f t d dprocurar as ofertas adequadas;Quais são meus clientes típicos?
DESCOBERTA DE CONHECIMENTO EMBANCOS DE DADOS
“O processo não trivial de extração de informações implícitas, anteriormente desconhecidas e potencialmente úteis de uma desconhecidas, e potencialmente úteis de uma fonte de dados”;O que é um padrão interessante ? (válido, O que é um padrão interessante ? (válido, novo, útil e interpretável)
TRANSFORMAR DADOS
em informação e conhecimentoúteis para o suporte à decisãoúteis para o suporte à decisão,gerenciamento de negócios, controle de produção análise de mercado ao projeto de engenharia e exploração análise de mercado ao projeto de engenharia e exploração científica
KDD X DATA MINING
Mi ã d d d é d Mineração de dados é o passo do processo de KDD que produz um conjunto de padrões sob um custo computacional padrões sob um custo computacional aceitável;KDD utiliza algoritmos de data miningKDD utiliza algoritmos de data miningpara extrair padrões classificados como “conhecimento” Incorpora também tarefas conhecimento . Incorpora também tarefas como escolha do algoritmo adequado, processamento e amostragem de dados e p ginterpretação de resultados;
ETAPAS DO PROCESSO
SeleçãoSeleçãoPré-processamento TransformaçãoçData mining (aprendizagem)Interpretação e Avaliação
Processo
SELEÇÃO DE DADOS
S l i d d d d Selecionar ou segmentar dados de acordo com critérios definidos:
E T d ã Ex.: Todas as pessoas que são proprietárias de carros é um
b j t d d d d t i dsubconjunto de dados determinado.
1111
Processo
PRÉ-PROCESSAMENTO
Estágio de limpeza dos dados, onde informações julgadas desnecessárias são removidas.R fi ã d d d Reconfiguração dos dados para assegurar formatos consistentes (identificação)
Ex : sexo = “F” ou “M”Ex. : sexo F ou Msexo = “M” ou “H”
1212
Processo
TRANSFORMAÇÃO
Transformam-se os dados em formatos utilizáveis. Esta depende da técnica data miningusadausada.Disponibilizar os dados de maneira usável e a egá ele navegável.
1313
Processo
DATA MINING
É d d i d d d É a verdadeira extração dos padrões de comportamento dos dados (exemplos)
1414
Processo
INTERPRETAÇÃO E AVALIAÇÃO
Identificado os padrões pelo sistema, estes são interpretados em conhecimentos, os quais darão suporte a tomada de decisões humanassuporte a tomada de decisões humanas
1515
Processo
ETAPAS DO PROCESSO
O d KDD é i t ti it ti O processo de KDD é interativo, iterativo, cognitivo e exploratório, envolvendo vários passosmuitas decisões sendo feitas pelo analista ( muitas decisões sendo feitas pelo analista ( especialista do domínio dos dados)
ETAPAS DO PROCESSO
Té i d é t t f ã d Técnicas de pré-processamento e transformação de dados são aplicadas para aumentar a qualidade e o poder de expressão dos dados a serem mineradospoder de expressão dos dados a serem minerados.Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD p p(aproximadamente 70%).
INTRODUÇÃO A MINERAÇÃO DE DADOS
De que se trata ?
Dados VS InformaçãoData mining e aprendizado de maquinaEstruturas das descriçõesEstruturas das descrições◦ Regras: classificação e associação◦ Arvores de decisãoBases de Dados◦ Weather, contact lens, CPU performance, labor negotiation
data, soybean classificationdata, soybean classificationÁreas de aplicações◦ Financeiras, imagens, previsão de carga, diagnostico de
d f it i li d ddefeitos em maquinas, analises de mercado.
DADOS VS INFORMAÇÃO
A sociedade produz grande quantidade de dados◦ Fontes: Empresas, medicina, economia,
geográfica ambiente, esporte, etc.Os dados brutos são inúteis: é necessário técnicas que automaticamente extraiam informação delas.Informação: padrões nos dadosç p
INFORMAÇÃO É ESSENCIAL
Exemplo 1: fertilização em vidroDados: embriões descritos por 60 características
Problema: selecionar os embriões que vão sobreviverDados: registros históricos de embriões
Exemplo 2: Seleção de gadoDados: gado descrito por 700 característicasProblema: seleção de gadoç gData: registros históricos com a decisão dos fazendeiros.
MINERAÇÃO DE DADOS
E ãExtração◦ implícita,
previamente desconhecida◦ previamente desconhecida,◦ Potencialmente útil
Necessidades: programas que detectem padrões e regularidades em dadospadrões e regularidades em dadosPadrões fortes ⇒ boas predições◦ Problema 1:a maior parte dos padrões não são Problema 1:a maior parte dos padrões não são
interessantes◦ Problema 2: os padrões podem não ser exatos
bl ◦ Problema 3: os dados podem estar truncados ou faltar
TÉCNICAS DE APRENDIZADO DEMÁQUINAS
Algoritmos para adquirir descrições estruturadas de exemplosDescrições estruturadas representam padrões explicitamentep p◦ Pode ser usada para predição em novas
situações◦ Pode ser usada para entender e explicar como
se deriva uma predição Os métodos se originam de inteligência artificial, estatística e pesquisas em bases de dados
DESCRIÇÕES ESTRUTURADAS
Exemplo: Regras IF-ThenIf tear production rate = reduced
th d tithen recommendation = noneOtherwise, if age = young and astigmatic = no
then recommendation = soft
Recommended lensesTear production rateAstigmatismSpectacle prescriptionAge
SoftNormalNoHypermetropeYoung
NoneReducedNoMyopeYoung
HardNormalYesMyopePresbyopic
NoneReducedNoHypermetropePre-presbyopic
SoftNormalNoHypermetropeYoung
……………
HardNormalYesMyopePresbyopic
PODEM AS MÁQUINAS APRENDER
Definições: O processo de aprendizagem pode ser definido como o modo como os seres adquirem novos conhecimentos desenvolvem competências novos conhecimentos, desenvolvem competências e mudam o comportamento
O PROBLEMA: WEATHER
Condições para jogarPlayWindyHumidityTemperatureOutlook
YesFalseHighHotOvercast
NoTrueHighHotSunny
NoFalseHighHotSunny
……………
YesFalseNormalMildRainy
YesFalseHighHot Overcast
If outlook = sunny and humidity = high then play = noIf outlook = rainy and windy = true then play = noIf outlook = overcast then play = yesIf humidity = normal then play = yesIf none of the above then play = yesp y y
EXEMPLO DE PREVISÃO (I)
Análise de crédito
Um hiperplano paralelo de separação: pode ser interpretado diretamente
x oo
sem crédito
pcomo uma regra:
se a renda é menor que t, então o crédito não deve
xx
xx
xo
oo
o
oo ser liberado
Exemplo: árvores de decisão;dé
bito x o o
o
;indução de regrasrendat
x: exemplo recusadoo: exemplo aceito
p
Métodos
EXEMPLO DE PREVISÃO (II)
Análise de crédito
Hiperplano oblíquo: melhor separação:
x oo
sem crédito
separação:Exemplos:
regressão linear;
xx
xx
xo
oo
o
oo perceptron;
débi
to x o oo
rendatx: exemplo recusadoo: exemplo aceito
p
Métodos
EXEMPLO DE PREVISÃO (III)
Análise de crédito
Superfície não linear: melhor poder de
x oo
sem crédito
classificação, pior interpretação;Exemplos:
xx
xx
xo
oo
o
oo Exemplos:
perceptronsmulticamadas;
ã ã li
débi
to x o oo
regressão não-linear;rendat
x: exemplo recusadoo: exemplo aceito
p
Métodos
EXEMPLO DE PREVISÃO (IV)
Análise de crédito
Métodos baseado em exemplos;x o
o
sem crédito
Exemplos:k-vizinhos mais próximos;
xx
xx
xo
oo
o
oo p ;
raciocínio baseado em casos;dé
bito x o o
o
rendatx: exemplo recusadoo: exemplo aceito
p
Métodos
CLASSIFICAÇÃO X ASSOCIAÇÃO
Regras de Classificação: Predizem o valor de um atributo (a classificação do exemplo)
If outlook = sunny and humidity = highthen play = no
Regras de Associação: Predizem o valor de um t ib t bit á i ( bi ã )atributo arbitrário (ou combinação)
If temperature = cool then humidity = normalIf humidity = normal and windy = falsey y
then play = yesIf outlook = sunny and play = no
then humidity = highIf windy = false and play = no
then outlook = sunny and humidity = high
DADOS NUMÉRICOS E DISCRETOS
9080S
NoFalse8585Sunny
PlayWindyHumidityTemperatureOutlook
YesFalse8075Rainy
YesFalse8683Overcast
NoTrue9080Sunny
……………
y
If outlook = sunny and humidity > 83 then play = noIf outlook = rainy and windy = true then play = noIf outlook = overcast then play = yesIf humidity < 85 then play = yesIf none of the above then play = yesp y y
LENTESRecommended lensesTear production rateAstigmatismSpectacle prescriptionAge
NoneReducedYesMyopeYoungSoftNormalNoMyopeYoungNoneReducedNoMyopeYoung
Recommended lensesTear production rateAstigmatismSpectacle prescriptionAge
hardNormalYesHypermetropeYoungNoneReducedYesHypermetropeYoungSoftNormalNoHypermetropeYoungNoneReducedNoHypermetropeYoungHardNormalYesMyopeYoung
NR d dNH tP b iHardNormalYesMyopePre-presbyopicNoneReducedYesMyopePre-presbyopicSoftNormalNoMyopePre-presbyopicNoneReducedNoMyopePre-presbyopichardNormalYesHypermetropeYoung
NoneReducedYesHypermetropePre-presbyopicNoneNormalYesHypermetropePre-presbyopicNoneReducedNoMyopePresbyopic
SoftNormalNoHypermetropePre-presbyopicNoneReducedNoHypermetropePre-presbyopic
NoneReducedNoMyopePresbyopicNoneNormalNoMyopePresbyopicNoneReducedYesMyopePresbyopicHardNormalYesMyopePresbyopicNoneReducedNoHypermetropePresbyopicSoftNormalNoHypermetropePresbyopic SoftNormalNoHypermetropePresbyopicNoneReducedYesHypermetropePresbyopicNoneNormalYesHypermetropePresbyopic
UM CONJUNTO CORRETO E COMPLETO DEREGRAS
f d i d d h d iIf tear production rate = reduced then recommendation = noneIf age = young and astigmatic = no
and tear production rate = normal then recommendation = softIf age = pre-presbyopic and astigmatic = noIf age pre presbyopic and astigmatic no
and tear production rate = normal then recommendation = softIf age = presbyopic and spectacle prescription = myope
and astigmatic = no then recommendation = nonef l i i h d i iIf spectacle prescription = hypermetrope and astigmatic = no
and tear production rate = normal then recommendation = softIf spectacle prescription = myope and astigmatic = yes
and tear production rate = normal then recommendation = hardpIf age young and astigmatic = yes
and tear production rate = normal then recommendation = hardIf age = pre-presbyopic
and spectacle prescription = hypermetropeand spectacle prescription = hypermetropeand astigmatic = yes then recommendation = none
If age = presbyopic and spectacle prescription = hypermetropeand astigmatic = yes then recommendation = none
ARVORE DE DECISÃO
CLASSIFICANDO AS FLORES IRISTypePetal widthPetal lengthSepal widthSepal length
A parte de imagem com identificação de relação rId3 não foi encontrada no arquivo.
2
1
Iris setosa0.21.43.04.9
Iris setosa0.21.43.55.1
…
52
51
Iris versicolor1.54.53.26.4
Iris versicolor1.44.73.27.0
…
Iris virginica1 95 12 75 8102
101 Iris virginica2.56.03.36.3
…
Iris virginica1.95.12.75.8102
If petal length < 2.45 then Iris setosaIf sepal width < 2.10 then Iris versicolor...
PREDIÇÃO DA PERFORMANCE DE CPU
Exemplo 209 diferentes configuraçõesChannels PerformanceCache (Kb)Main memory (Kb)Cycle time (ns)
128
CHMAX
16
CHMIN
19825660002561251
PRPCACHMMAXMMINMYCT
0
32
0
8
67328000512480208
…
26932320008000292
0
0
0
0
45040001000480209
67328000512480208
PRP = -55.9 + 0.0489 MYCT + 0.0153 MMIN + 0.0056 MMAX
Função Linear
+ 0.6410 CACH - 0.2700 CHMIN + 1.480 CHMAX
ÁREAS DE APLICAÇÃO
O resultado do aprendizadoAplicações financeiras
i d d iPrevisão de consumo de energiaDiagnostico de defeitos em maquinasV d M k tiVendas e MarketingAgronomia
EMPRÉSTIMOS (AMERICAN EXPRESS)
D d i á i i f õ Dados: questionário com informações financeiras e pessoaisP t D di h i t d ?Pergunta: Deve o dinheiro ser prestado?Um método estatístico simples cobre 90% dos casoscasosOs casos no limite são decisão dos especialistasespecialistasPorém: 50% dos casos limites causam falhaSolução: rejeitar todos os casos de limite?Solução: rejeitar todos os casos de limite?◦ No! os casos do limite são dos consumidores mais
ativos.
APRENDIZADO DE MÁQUINA
1000 l d i d 1000 exemplos de treinamento, casos de limite20 t ib t20 atributos:◦ idade◦ Anos de trabalho no ultimo emprego◦ Anos de trabalho no ultimo emprego◦ Anos no endereço atual◦ Anos no banco◦ otros,…
Regras aprendidas: 70% dos casos corretos◦ Especialistas humanos 50%
As regras podem ser usadas para explicar as decisões aos consumidores
GENERALIZAÇÃO COM BUSCA
Aprendizado Indutivo: encontrar um conceito que se ajuste aos dadosExemplo: regras como linguagem de descriçãoç◦ Espaço de busca: Enorme, finito.
Solução simples:Solução simples:◦ Enumerar as regras
Eli i d i õ ã j t ◦ Eliminar as descrições que não se ajustam aos exemplos
ENUMERAR O ESPAÇO DE CONCEITOS
E l W hExemplo Weather◦ 4 x 4 x 3 x 3 x 2 = 288 possíveis combinações
14 2 7 1034 j í i◦ com 14 regras ⇒ 2.7x1034 conjunto possíveisEm outros problemas práticos:
◦ Mais de uma descrição pode sobreviver◦ Pode não sobreviver uma descrição
A li g g lhid d ã d A linguagem escolhida pode não ser capaz de representar o domínio ou os dados podem conter ruído
U f d li Uma outra forma de generalização: algoritmos heurísticos
FAVORECIMENTO (BIAS)Decisões importantes em sistemas de aprendizado:◦ Linguagem das descrições dos conceitos◦ Ordem na qual o espaço de busca será explorado
F b i li ã j d ◦ Formas que a sobre especialização no conjunto de treinamento é evitada
Essas formas de escolha são “bias” da busca: Essas formas de escolha são bias da busca: ◦ Linguagem
Busca◦ Busca◦ Sobre especialização