Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG Classificação Supervisionada Entrada –Um BD de tuplas, cada uma com um valor (classe) de um atributo

  • View
    107

  • Download
    2

Embed Size (px)

Transcript

  • Slide 1
  • Marcus Sampaio DSC/UFCG
  • Slide 2
  • Marcus Sampaio DSC/UFCG Classificao Supervisionada Entrada Um BD de tuplas, cada uma com um valor (classe) de um atributo de classificao Sada: um modelo / perfil para cada classe Classe crdito bom (25 10k) crdito bom casado crdito bom Aplicaes Anlise de crdito (bom para concesso, ruim para concesso) Perfil de cliente usurio de crdito (adimplemte, inadimplente)
  • Slide 3
  • Marcus Sampaio DSC/UFCG Organizao prvia de dados em classes superviso Dados: conjunto de casos, ou instncias Classe: valor de um atributo de classificao Um algoritmo de classificao induz (infere, aprende) padres de classificao modelo dos dados Confiabilidade do modelo Diviso dos dados em conjunto de treinamento (conjunto- treinamento) e conjunto de teste (conjunto-teste) Um algoritmo de classificao induz (infere, aprende) padres de classificao modelo de conjuntos de treinamento (depende da tcnica utilizada) O modelo testado com o conjunto de testes O modelo aprovado usado para classificar novos casos conjunto de execuo Classificao Supervisionada (2)
  • Slide 4
  • Marcus Sampaio DSC/UFCG Acurcia, desempenho e taxa de erro so sinnimos Um algoritmo de classificao classifica ou prediz a classe de cada instncia de teste, utilizando o modelo inferido no treinamento Se a classificao for correta, ento sucesso seno erro A taxa de erro justamente a proporo de erros sobre o conjunto total de instncias testadas, ou simplesmente, taxa de erro O complemento da taxa de erro a taxa de acerto mais comum referir-se a acurcia como sendo a taxa de acerto Qualidade de um Modelo
  • Slide 5
  • Marcus Sampaio DSC/UFCG interessante tambm medir a taxa de erro (acerto) da aplicao do modelo aos dados minerados Baixas taxas de erro significam que o modelo um espelho dos dados Sntese dos dados (importante) 'Altas' taxas de erro no significam necessariamente que o modelo ruim O modelo no uma sntese perfeita dos dados, mas possivelmente Baixas taxas de erro nos testes Qualidade de um Modelo (2)
  • Slide 6
  • Marcus Sampaio DSC/UFCG Em resumo Modelo-espelho Bom para conhecer os dados Alta acurcia de teste Importante para acertar com o o conjunto de execuo Estimativa da acurcia de execuo Numa anlise comparativa, comum situaes como Qualidade de um Modelo (3)
  • Slide 7
  • Marcus Sampaio DSC/UFCG ID3J48Anlise espelho altamdia ID3 para conhecer os dados acurcia de teste mdiaalta J48 melhor para o conj. de exec. acurcia de execu- o J48 mais confivel que ID3
  • Slide 8
  • Marcus Sampaio DSC/UFCG rvores 1R rvores de deciso com um s nvel (fora a raiz) rvores 1R O interessante e surpreendente que rvores 1R podem alcanar um nvel de acurcia muito bom
  • Slide 9
  • Marcus Sampaio DSC/UFCG EstadoTempUmidVentoJogo ensolquentealtafalsono ensolquentealtaverdadeno nubladoquentealtafalsosim chuvosoamenaaltafalsosim chuvosofrianormalfalsosim chuvosofrianormalverdadeno nubladofrianormalverdadesim ensolamenaaltafalsono ensolfrianormalfalsosim
  • Slide 10
  • Marcus Sampaio DSC/UFCG chuvosoamenanormalfalsosim ensolamenanormalverdadesim nubladoamenaaltaverdadesim nubladoquentenormalfalsosim chuvosoamenaaltaverdadeno
  • Slide 11
  • Marcus Sampaio DSC/UFCG Chuvoso Estado Ensolarado Nublado SimNoSim
  • Slide 12
  • Marcus Sampaio DSC/UFCG Algoritmo de Induo de rvores 1R Para cada atributo Para cada valor do atributo, faa Conte quantas vezes cada classe aparece Encontre a classe mais freqente Forme um ramo da rvore Calcule a taxa de erro da rvore Escolha a rvore com a menor taxa de erro
  • Slide 13
  • Marcus Sampaio DSC/UFCG atributoregraserrostotal de erros 1estado ensolarado no nublado sim chuvoso sim 2/5 0/4 2/5 4/14 2temperatur a quente no* amena sim fria sim 2/4 2/6 1/4 5/14 3umidade alta no normal sim 3/7 1/7 4/14 4ventania falso sim verdade no* 2/8 3/6 5/14 *- Escolha aleatria
  • Slide 14
  • Marcus Sampaio DSC/UFCG Algoritmo (3) Interpretao da rvore Aparentemente, existe jogo quando o tempo est nublado ou chuvoso (vocs esto percebendo que isto coisa de ingls ou da "commonwealth"!), mas no quando est ensolarado
  • Slide 15
  • Marcus Sampaio DSC/UFCG rvores de Deciso aceitorejeitado salrio 20.000 < 20.000 graduado aceito educao Anlise de Crdito < graduado
  • Slide 16
  • Marcus Sampaio DSC/UFCG Construo de rvores Problema recursivo Seleciona-se um atributo para ser o atributo-raiz da rvore Cada valor do atributo um ramo da rvore Decompe o conjunto-treinamento em sub-conjuntos, um para cada valor do atributo (intervalo, s vezes) Em princpio, quando todas as instncias em um ramo tiverem a mesma classificao, o processo de decomposio pra Como determinar cada atributo-raiz?
  • Slide 17
  • Marcus Sampaio DSC/UFCG
  • Slide 18
  • Marcus Sampaio DSC/UFCG Construo de rvores (3) O primeiro atributo-raiz a ser escolhido Estado Menor entropia (entropia: grau de desordem) Ver, no livro-texto, como a entropia calculada A olho nu, podia ser tambm Umidade
  • Slide 19
  • Marcus Sampaio DSC/UFCG
  • Slide 20
  • Marcus Sampaio DSC/UFCG Construo de rvores (5) Umidade o segundo nodo do primeiro ramo da rvore Note que no h necessidade de dividir os conjuntos de instncias deste nodo Induzir uma rvore-espelho no necessariamente leva melhor acurcia de execuo A aplicao recursiva da mesma idia conduz rvore final para o problema do tempo
  • Slide 21
  • Marcus Sampaio DSC/UFCG
  • Slide 22
  • Marcus Sampaio DSC/UFCG Construo de rvores (7) Exerccio Verifique se a rvore perfeita, isto , todos os ns folhas so puros uma nica classe
  • Slide 23
  • Marcus Sampaio DSC/UFCG Construo de rvores (8) Idealmente, o processo termina quando todos os ns-folhas so puros, isto , todos os conjuntos de instncias tm a mesma classe Entretanto, pode no ser possvel alcanar esta 'feliz' situao Podemos ter duas instncias do conjunto- treinamento com os mesmos valores do conjunto de atributos, porm com classes diferentes Um tipo de sujeira Algoritmos sofisticados, como o J48, preferem errar no treinamento para acertar no teste!
  • Slide 24
  • Marcus Sampaio DSC/UFCG Um conjunto puro pode no ser significativo Pouco freqente, ou estatisticamente invlido (overfitting) Como conseqncia de overfitting, a rvore pode ser larga e profunda Pouco legvel Overfitting se d geralmente em atributos com muitos valores Atributos numricos Discretizao Construo de rvores (9)
  • Slide 25
  • Marcus Sampaio DSC/UFCG Algoritmos de rvores ID3 Bom para conhecer o conjunto de treinamento C4.5 Produz modelos mais confiveis que o ID3 Pode se afastar do conjunto de treinamento Mecanismo de poda (pruning) J.48 Verso WEKA do C4.5 C5.0 (See5) Verso comercial do C4.5 Outros algoritmos
  • Slide 26
  • Marcus Sampaio DSC/UFCG Poda ("Pruning")
  • Slide 27
  • Marcus Sampaio DSC/UFCG Poda ("Pruning") (2)

Recommended

View more >