A Systematic Approach for Inducing Reliable Classifiers From Data Mines David Moises Barreto dos...

View
213
Download
1
Category

Documents

Preview:

Citation preview

A Systematic Approach for Inducing Reliable Classifiers

From Data Mines

David Moises Barreto dos Santos

Universidade Federal de Campina GrandePrograma de Pós-Graduação em Informática

Mineração de DadosJulho 2003

RoteiroIntroduçãoConceitos BásicosCaracterização do ProblemaAlgoritmos

Naive_InducerExpert_Inducer

ConclusõesBibliografia

IntroduçãoBancos de dados têm se tornado minas de conhecimento

Mal exploradas pelas consultas rotineiras de usuáriosA mineração de dados (MD) é a área de pesquisa preocupada em explorar minas de uma forma melhor

Descoberta de padrõesNão-triviaisConfiáveisFacilmente assimiláveis

O agente de mineração é chamado Minerador

IntroduçãoModelos de representação de padrões modelos de conhecimento

Regras de AssociaçãoRegras de Classificação

if C then T

Um modelo de regras de classificação é

denominado classificador

conjunção de termos <atributo Θ valor>

único termo com o atributo pré-determinado (atributo de classificação) <atributo_classificação Θ classe>

IntroduçãoA literatura trata de diversos algoritmos de indução de regras de classificação, e aspectos pontuais do processo de MDO processo de MD é muito complexo

Não existe a melhor técnica de amostragemBanco de DadosTécnica de fragmentaçãoAlgoritmo de induçãoConhecimento instável

Técnicas de fragmentação geram diferentes pares Conjunto de treinamento-Conjunto de teste

Conclusão: Não existe uma técnica universal para MD, seja amostragem, fragmentação ou indução modelo de conhecimento

Motivação – O Problema do Processo de MD

Banco de DadosPlantação de Soja

Amostragem: ConvergenceFragmentação: K-fold Cross-ValidationIndução: NaiveBayes

Minerador 1

Amostragem: Adaptive Incremental FrameworkFragmentação: BootstrapIndução: ID3

Minerador 2

Classificador 1 Classificador 2Necessidade de uma ferramenta que garanta o

melhor classificador levando em conta a diversidade de técnicas

(talvez seja bastante!!!)

A Idéia Central da Ferramenta Proposta

Técnicas de amostragemTécnicas de fragmentação

Algoritmos de indução

Melhor Classificad

orProblema de Classificação

Utilização de heurísticas para reduzir o custo de exploração das diversas técnicas

Implementação de um framework orientado a objeto permitir que novas técnicas sejam incorporadas com o

mínimo de impacto sobre o restante do framework

Algoritmo que infere o melhor classificador

Fragmentação

XeXc

Xctr Xcts

Algoritmo de Fragmentação

Xc é um banco de dados classificado

Xe é um conjunto de execução, ou um

conjunto de instâncias não classificadas.

Xctr Xc

Xcts Xc

Xctr Xcts = Xc Xctr Xcts =

Xc Xe = Xc Xe = X

O Processo de MD

Extrair amostra

Xctr Xcts = Xc

Fragmentar amostraXctr , Xcts

Induzir classificado

rXctr C

Calcular acurácia de

testeC Xcts

Computar acurácia

estimada (Xe)

Processo de Mineração de Dados

Preparação dos dados

Técnicas de amostragemAdaptive Incremental Framework

Convergence

Técnicas de fragmentação

HoldoutBootstrap

Algoritmo de indução

PrismNaiveBayes

Tratamento de dados

DesconhecidosInexistentes

Sujos

O Processo de MD

Extrair amostra

Xctr Xcts = Xc

Fragmentar amostraXctr , Xcts

Induzir classificado

rXctr C

Calcular acurácia de

testeC Xcts

Computar acurácia

estimada (Xe)

Processo de Mineração de Dados

Preparação dos dados

O classificador deve ser testado com cada instância do conjunto de teste Xcts

O teste bem sucedido: quando o classificador mapeia a instância para uma classe que é a mesma classe da instância no conjunto de teste

Fórmula para calcular a acurácia:, instância Xcts

)__()__(

)__(sucedidosbemtestessucedidosmaltestes

sucedidosbemtestesaccts

O Processo de MD

Extrair amostra

Xctr Xcts = Xc

Fragmentar amostraXctr , Xcts

Induzir classificado

rXctr C

Calcular acurácia de

testeC Xcts

Computar acurácia

estimada (Xe)

Processo de Mineração de Dados

Preparação dos dados

A acurácia de execução, acce, é calculada em função de accts, considerando um determinado grau de confiança z N é o número de instâncias utilizadas para o cálculo da acurácia de

teste accts

)(2442

222

zNaccNzaccNzaccN

acc tststse

)65,1(2465,1465,12

222

accNaccNaccNacc tststs

Para uma confiança de 90%, z=1,65

Algoritmo Naïve_InducerInvestiga exaustivamente todas as técnicas disponíveis, de todos os tipos (Ingênuo)Escolhe o melhor classificador

Melhor acurácia estimada de execução

I1I2I3

Experimentos com Naïve_Inducer

BD Descrição Atributos Instâncias Classes acce (90%)

Letter Caracteres manuscritos 17 20000 26 77.20% 0.43% 75.77% 78.18%

Splice Seqüências de DNA 61 3100 3 92.55% 1.27% 89.79% 93.75%

Mushroom Espécies de cogumelos 22 8124 2 99.39% 0.32% 94.40% 99.82%

Soybean Cultivo de soja 35 683 19 92.03% 1.50% 86.73% 95.28%

Titanic Naufrágio do transatlântico Titanic 4 2201 2 99.58% 0.08% 97.99% 99.50%

Connect-4 Partidas de Connect-4 43 36991 3 100.00% 0.00% 99.79% 100.00%

Cmc Escolha do método anticoncepcional 10 1473 3 98.18% 5.45% 97.26% 98.54%

Kr-vs-Kp Partidas de Xadrez 36 3196 2 55.14% 0.84% 52.14% 57.82%

Cars Informações sobre automóveis 10 404 3 96.95% 0.98% 95.12% 96.72%