23
Comparação de desempenho entre classificadores SIN5000 - Metodologia de Pesquisa em Sistemas de Informação Jaqueline Brito - 5874731

Comparação de desempenho entre classificadores · 2014-09-13 · Comparação de desempenho entre classificadores ... Jaqueline Brito - 5874731. Passo 0: Conjuntos de dados (1)

Embed Size (px)

Citation preview

Page 1: Comparação de desempenho entre classificadores · 2014-09-13 · Comparação de desempenho entre classificadores ... Jaqueline Brito - 5874731. Passo 0: Conjuntos de dados (1)

Comparação de desempenho entre classificadores

SIN5000 - Metodologia de Pesquisa em Sistemas de Informação

Jaqueline Brito - 5874731

Page 2: Comparação de desempenho entre classificadores · 2014-09-13 · Comparação de desempenho entre classificadores ... Jaqueline Brito - 5874731. Passo 0: Conjuntos de dados (1)

Passo 0: Conjuntos de dados

(1) Internet advertisements

– Remoção de instâncias com dados faltantes

– 2359 instâncias

– 1558 atributos

– 2 classes ● Ad (16.2%)● Non-ad (83.8%)

(2) Spambase – 4601 instâncias

– 57 atributos

– 2 classes ● 1 - Spam (39.4% )● 0 - Non-spam (60.6%)

Page 3: Comparação de desempenho entre classificadores · 2014-09-13 · Comparação de desempenho entre classificadores ... Jaqueline Brito - 5874731. Passo 0: Conjuntos de dados (1)

Passo 1: Avaliação e Comparação

● Algoritmos de classificação:– Naive Bayes (Aprendizado Probabilístico):

configuração default do WEKA– J48 (Aprendizado Simbólico - Árvores de Decisão):

configuração default do WEKA

● Método de amostragem:– 10-fold cross-validation

● Intervalo de confiança de 95%

Page 4: Comparação de desempenho entre classificadores · 2014-09-13 · Comparação de desempenho entre classificadores ... Jaqueline Brito - 5874731. Passo 0: Conjuntos de dados (1)

Passo 1: Avaliação e Comparação1º conjunto – Naive Bayes

● Matriz de confusão:

Instâncias classificadas corretamente = 96.2696 %

Instâncias classificadas incorretamente = 3.7304 %

Erro padrão = 0.0039

Erro verdadeiro (95% de confiança) = entre 0.0297 e 0.0450

A B Classificação

307 74 A = ad

14 1964 B = nonad

Page 5: Comparação de desempenho entre classificadores · 2014-09-13 · Comparação de desempenho entre classificadores ... Jaqueline Brito - 5874731. Passo 0: Conjuntos de dados (1)

Passo 1: Avaliação e Comparação1º conjunto – J48

● Matriz de confusão:

Instâncias classificadas corretamente = 96.8631 %

Instâncias classificadas incorretamente = 3.1369 %

Erro padrão = 0.0036

Erro verdadeiro (95% de confiança) = entre 0.0243 e 0.0384

A B Classificação

332 49 A = ad

25 1953 B = nonad

Page 6: Comparação de desempenho entre classificadores · 2014-09-13 · Comparação de desempenho entre classificadores ... Jaqueline Brito - 5874731. Passo 0: Conjuntos de dados (1)

Passo 1: Avaliação e Comparação1º conjunto

● Qual dos algoritmos foi considerado o melhor para a tarefa de classificação do 1º conjunto?

> J48● Experimenter do WEKA (abordagem teste t

pareado com 95% de confiança):

Acurácia Erro Desvio Padrão Classificadores

96.28 3.72 1.16 Naive Bayes

96.91 3.09 1.08 J48

Page 7: Comparação de desempenho entre classificadores · 2014-09-13 · Comparação de desempenho entre classificadores ... Jaqueline Brito - 5874731. Passo 0: Conjuntos de dados (1)

Passo 1: Avaliação e Comparação2º conjunto – Naive Bayes

● Matriz de confusão:

Instâncias classificadas corretamente = 79.2871 %

Instâncias classificadas incorretamente = 20.7129 %

Erro padrão = 0.0060

Erro verdadeiro (95% de confiança) = entre 0.1954 e 0.2188

A B Classificação

1725 88 A = 1

865 1923 B = 0

Page 8: Comparação de desempenho entre classificadores · 2014-09-13 · Comparação de desempenho entre classificadores ... Jaqueline Brito - 5874731. Passo 0: Conjuntos de dados (1)

Passo 1: Avaliação e Comparação2º conjunto – J48

● Matriz de confusão:

Instâncias classificadas corretamente = 92.9798 %

Instâncias classificadas incorretamente = 7.0202 %

Erro padrão = 0.0038

Erro verdadeiro (95% de confiança) = entre 0.0628 e 0.0776

A B Classificação

1646 167 A = 1

156 2632 B = 0

Page 9: Comparação de desempenho entre classificadores · 2014-09-13 · Comparação de desempenho entre classificadores ... Jaqueline Brito - 5874731. Passo 0: Conjuntos de dados (1)

Passo 1: Avaliação e Comparação2º conjunto

● Qual dos algoritmos foi considerado o melhor para a tarefa de classificação do 2º conjunto?

> J48 ● Experimenter do WEKA (abordagem teste t

pareado com 95% de confiança):

Acurácia Erro Desvio Padrão Classificadores

79.56 20.44 1.56 Naive Bayes

92.68 7.32 1.08 J48

Page 10: Comparação de desempenho entre classificadores · 2014-09-13 · Comparação de desempenho entre classificadores ... Jaqueline Brito - 5874731. Passo 0: Conjuntos de dados (1)

Passo 2: Análise das curvas ROC1º conjunto

● Naive Bayes – classe ad

Page 11: Comparação de desempenho entre classificadores · 2014-09-13 · Comparação de desempenho entre classificadores ... Jaqueline Brito - 5874731. Passo 0: Conjuntos de dados (1)

Passo 2: Análise das curvas ROC1º conjunto

● J48 – classe ad

Page 12: Comparação de desempenho entre classificadores · 2014-09-13 · Comparação de desempenho entre classificadores ... Jaqueline Brito - 5874731. Passo 0: Conjuntos de dados (1)

Passo 2: Análise das curvas ROC1º conjunto

● Naive Bayes e J48 - classe ad

O modelo Naive Bayes é melhor do que o J48. Curva mais próxima do ponto (0, 1)

Page 13: Comparação de desempenho entre classificadores · 2014-09-13 · Comparação de desempenho entre classificadores ... Jaqueline Brito - 5874731. Passo 0: Conjuntos de dados (1)

Passo 2: Análise das curvas ROC1º conjunto

● Naive Bayes – classe nonad

Page 14: Comparação de desempenho entre classificadores · 2014-09-13 · Comparação de desempenho entre classificadores ... Jaqueline Brito - 5874731. Passo 0: Conjuntos de dados (1)

Passo 2: Análise das curvas ROC1º conjunto

● J48 – classe nonad

Page 15: Comparação de desempenho entre classificadores · 2014-09-13 · Comparação de desempenho entre classificadores ... Jaqueline Brito - 5874731. Passo 0: Conjuntos de dados (1)

Passo 2: Análise das curvas ROC1º conjunto

● Naive Bayes e J48 - classe nonad

O modelo Naive Bayes é melhor do que o J48. Curva mais próxima do ponto (0, 1)

Page 16: Comparação de desempenho entre classificadores · 2014-09-13 · Comparação de desempenho entre classificadores ... Jaqueline Brito - 5874731. Passo 0: Conjuntos de dados (1)

Passo 2: Análise das curvas ROC1º conjunto

● Apesar da diferença de desempenho entre os modelos J48 e Naive Bayes ser pouca (0.63% - de acordo com o teste t pareado com 95% de confiança), o modelo Naive Bayes obteve um destaque maior frente às curvas ROCs geradas para cada classe do conjunto

> maior taxa de TP e menor taxa de FP

Page 17: Comparação de desempenho entre classificadores · 2014-09-13 · Comparação de desempenho entre classificadores ... Jaqueline Brito - 5874731. Passo 0: Conjuntos de dados (1)

Passo 2: Análise das curvas ROC2º conjunto

● Naive Bayes – classe 1

Page 18: Comparação de desempenho entre classificadores · 2014-09-13 · Comparação de desempenho entre classificadores ... Jaqueline Brito - 5874731. Passo 0: Conjuntos de dados (1)

Passo 2: Análise das curvas ROC2º conjunto

● J48 – classe 1

Page 19: Comparação de desempenho entre classificadores · 2014-09-13 · Comparação de desempenho entre classificadores ... Jaqueline Brito - 5874731. Passo 0: Conjuntos de dados (1)

Passo 2: Análise das curvas ROC2º conjunto

● Naive Bayes e J48 – classe 1

O modelo J48 é melhor do que o Naive Bayes. Curva mais próxima do ponto (0, 1)

Page 20: Comparação de desempenho entre classificadores · 2014-09-13 · Comparação de desempenho entre classificadores ... Jaqueline Brito - 5874731. Passo 0: Conjuntos de dados (1)

Passo 2: Análise das curvas ROC2º conjunto

● Naive Bayes – classe 0

Page 21: Comparação de desempenho entre classificadores · 2014-09-13 · Comparação de desempenho entre classificadores ... Jaqueline Brito - 5874731. Passo 0: Conjuntos de dados (1)

Passo 2: Análise das curvas ROC2º conjunto

● J48 – classe 0

Page 22: Comparação de desempenho entre classificadores · 2014-09-13 · Comparação de desempenho entre classificadores ... Jaqueline Brito - 5874731. Passo 0: Conjuntos de dados (1)

Passo 2: Análise das curvas ROC2º conjunto

● Naive Bayes e J48 – classe 0

O modelo J48 é melhor do que o Naive Bayes. Curva mais próxima do ponto (0, 1)

Page 23: Comparação de desempenho entre classificadores · 2014-09-13 · Comparação de desempenho entre classificadores ... Jaqueline Brito - 5874731. Passo 0: Conjuntos de dados (1)

Passo 2: Análise das curvas ROC2º conjunto

● De acordo com o teste t pareado com 95% de confiança, a diferença de desempenho entre os modelos J48 e Naive Bayes foi significativa (13.12%)

● O modelo J48 também obteve um destaque maior frente às curvas ROCs geradas para cada classe do conjunto

> maior taxa de TP e menor taxa de FP