Upload
guy-pruitt
View
41
Download
0
Embed Size (px)
DESCRIPTION
Mineração de dados. Exercícios sobre classificação. O que deveria ser feito, na fase de preparação de dados, para aplicar o método ID3 para classificação com os dados abaixo?. - PowerPoint PPT Presentation
Citation preview
Exercícios sobre classificação
Mineração de dados
O que deveria ser feito, na fase de preparação de dados, para aplicar o método ID3 para classificação com os dados abaixo?
cor altura forma local Classe
preto 32,5 largo Rua Canindé, 123 A
marrom 22,3 Rua Borges, 456/304 C
marrom 15,7 estreito Rua Chaves, 132 B
amarelo 31,4 estreito Rua Napoleão, 45/101 C
… … … … …
O que deveria ser feito, na fase de preparação de dados, para aplicar o método k-NN para classificação com os dados abaixo?
cor altura comprimento tipo peso Classe
preto 3,25 1057,00 1 50,34 A
marrom 2,23 2343,00 2 45,89 C
marrom 1,57 1956,50 2 23,55 B
amarelo 3,14 3490,00 3 42,50 C
… … … … …
O que deveria ser feito, na fase de preparação de dados, considerando uma rede neural backpropagation para classificação usando os dados abaixo?
cor altura comprimento tipo peso Classe
preto 3,25 1057,00 1 50,34 A
marrom 2,23 2343,00 2 45,89 B
marrom 1,57 1956,50 2 23,55 B
amarelo 3,14 3490,00 3 42,50 A
… … … … …
O que deveria ser feito, na fase de preparação de dados, considerando o uso do algoritmo naïve bayes e os dados abaixo?
cor altura comprimento tipo peso Classe
preto 3,25 1057,00 1 50,34 A
marrom 2,23 2343,00 2 45,89 B
marrom 1,57 1956,50 2 23,55 B
amarelo 3,14 3490,00 3 42,50 A
… … … … …
Considere o seguinte conjunto de treino, em que cada exemplo é definido por três atributos (A,B,C).
a) Qual a incerteza (entropia) associada ao conjunto de treino inicial?
b) Qual o Ganho de Informação de um teste efetuado no primeiro atributo (X1)?
c) Face a este resultado, qual seria a estrutura de uma árvore de decisão obtida para este conjunto de treino, construída de acordo com o critério de maximização do ganho de informação?
Determine a classificação obtida para o exemplo C11 utilizando o algoritmo naive Bayes, considerando os dados de treino abaixo e sabendo que
P( E1 |H ).P( E2 | H)... .P(En | H).P(H )
P( E1 ).P( E2)... .P(En)P(H|E)=
EXERCÍCIO 1
Entre no Weka e carregue o arquivo golf.arff (preprocess/open file)
Examine os dados escolha a aba de Classificação (Classify) e selecione o
classificador J48 (Choose/Trees/J48) e execute com os parâmetros default (start)
Compreenda a saída fornecida Visualize a árvore gerada (clicando com o botão direito
na lista de resultados e escolhendo visualize tree)
Outros classificadores no Weka
Nome de alguns classificadores vistos em aula, no Weka:– C 4.5: Choose/trees/J48
– ID3: Choose/trees/Id3
– naïve bayes: Choose/bayes/NaiveBayes
– k-NN: Choose/lazy/IBk
– SVM: Choose/functions/SMO
– Rede neural backpropagation: Choose/functions/MultilayerPerceptron
Exercício 2
Carregue o arquivo iris.arff (150 registros) Execute o classificador J48 com os parâmetros default. Se familiarize com o formato da saída fornecida, incluindo a matriz de
confusão Visualize a árvore gerada Visualize os erros de classificação. No gráfico, como se diferenciam as
instancias corretamente das incorretamente classificadas? Como pode-se ver informações detalhadas de uma instância (registro)?
Execute outras formas de avaliação e verifique o efeito: – Use training set (usa para teste o mesmo arquivo do treinamento)
– Percentage split (divide o arquivo em uma parte para o treinamento e outra para o teste)
Use outros algoritmos de classificação e anote o seu nome e o resultado (acurácia)
EXERCÍCIO 3
Carregue o arquivo credit-g.arff (arquivo com dados para decisão sobre crédito bancário, com 1000 registros)
Use percentage split como método de avaliação (o número de registros é razoavelmente grande).
Para este problema, considere que um falso positivo (prever que a classe é good quando na verdade é bad) tem um custo 5 vezes maior que o de um falso negativo.
Encontre o menor custo com o J48 (usando a matriz de confusão ), considerando os custos:
VP=-1; VN=-1; FP=5; FN=1.
Utilizando os valores default dos parâmetros, teste com outros classificadores e anote o resultado em uma tabela com: classificador, acurácia, custo, tempo de execução
EXERCÍCIO 4
Abra o arquivo hepatitis.arff Execute o J48 com os parâmetros default. Salve o
resultado. Execute outros classificadores e anote o resultado.
Qual o melhor? Compare as matrizes de confusão geradas pelos diversos classificadores
Exercício 5
Abra o arquivo mushroom.arff. Utilize alguns algoritmos de classificação. Faça
uma tabela com o classificador e acurácia obtida. Qual o melhor resultado, com que classificador?
Salvar e utilizar o modelo de classificação
Salvar:
1. executar o algoritmo de classificação (por exemplo, o J48) para realizar o treinamento (geração do modelo)
2. Clique o botão direito sobre o modelo que deve ser salvo, na Results list
3. Selecione Save model e salve o modelo.
Carregar (o modelo salvo anteriormente)
1. Carregue os dados de teste usando a opção Supplied test set
2. Clique o botão direito na Results list, selecione Load model e escolha o modelo salvo para carregar
3. Selecione Re-evaluate model on current test setOBS: - o arquivo usado para teste deve conter os mesmos nomes de atributos e os mesmos tipos que o arquivo usado para gerar o modelo.- Quando se carrega um arquivo CSV, o primeiro registro é usado para nomear os atributos.