Mineração de dados

  • View
    39

  • Download
    0

Embed Size (px)

DESCRIPTION

Mineração de dados. Exercícios sobre classificação. O que deveria ser feito, na fase de preparação de dados, para aplicar o método ID3 para classificação com os dados abaixo?. - PowerPoint PPT Presentation

Text of Mineração de dados

  • Exerccios sobre classificaoMinerao de dados

  • O que deveria ser feito, na fase de preparao de dados, para aplicar o mtodo ID3 para classificao com os dados abaixo?

    coralturaformalocalClassepreto32,5largoRua Canind, 123Amarrom22,3Rua Borges, 456/304Cmarrom15,7estreitoRua Chaves, 132Bamarelo31,4estreitoRua Napoleo, 45/101C

  • O que deveria ser feito, na fase de preparao de dados, para aplicar o mtodo k-NN para classificao com os dados abaixo?

    coralturacomprimentotipopesoClassepreto3,251057,00150,34Amarrom2,232343,00245,89Cmarrom1,571956,50223,55Bamarelo3,143490,00342,50C

  • O que deveria ser feito, na fase de preparao de dados, considerando uma rede neural backpropagation para classificao usando os dados abaixo?

    coralturacomprimentotipopesoClassepreto3,251057,00150,34Amarrom2,232343,00245,89Bmarrom1,571956,50223,55Bamarelo3,143490,00342,50A

  • O que deveria ser feito, na fase de preparao de dados, considerando o uso do algoritmo nave bayes e os dados abaixo?

    coralturacomprimentotipopesoClassepreto3,251057,00150,34Amarrom2,232343,00245,89Bmarrom1,571956,50223,55Bamarelo3,143490,00342,50A

  • Considere o seguinte conjunto de treino, em que cada exemplo definido por trs atributos (A,B,C).

    a) Qual a incerteza (entropia) associada ao conjunto de treino inicial?b) Qual o Ganho de Informao de um teste efetuado no primeiro atributo (X1)?c) Face a este resultado, qual seria a estrutura de uma rvore de deciso obtida para este conjunto de treino, construda de acordo com o critrio de maximizao do ganho de informao?

  • Determine a classificao obtida para o exemplo C11 utilizando o algoritmo naive Bayes, considerando os dados de treino abaixo e sabendo que P( E1 |H ).P( E2 | H)... .P(En | H).P(H )P( E1 ).P( E2)... .P(En)P(H|E)=

  • EXERCCIO 1Entre no Weka e carregue o arquivo golf.arff (preprocess/open file) Examine os dados escolha a aba de Classificao (Classify) e selecione o classificador J48 (Choose/Trees/J48) e execute com os parmetros default (start)Compreenda a sada fornecidaVisualize a rvore gerada (clicando com o boto direito na lista de resultados e escolhendo visualize tree)

  • Outros classificadores no WekaNome de alguns classificadores vistos em aula, no Weka:C 4.5: Choose/trees/J48ID3: Choose/trees/Id3nave bayes: Choose/bayes/NaiveBayesk-NN: Choose/lazy/IBkSVM: Choose/functions/SMORede neural backpropagation: Choose/functions/MultilayerPerceptron

  • Exerccio 2Carregue o arquivo iris.arff (150 registros)Execute o classificador J48 com os parmetros default. Se familiarize com o formato da sada fornecida, incluindo a matriz de confusoVisualize a rvore geradaVisualize os erros de classificao. No grfico, como se diferenciam as instancias corretamente das incorretamente classificadas? Como pode-se ver informaes detalhadas de uma instncia (registro)?Execute outras formas de avaliao e verifique o efeito: Use training set (usa para teste o mesmo arquivo do treinamento)Percentage split (divide o arquivo em uma parte para o treinamento e outra para o teste)Use outros algoritmos de classificao e anote o seu nome e o resultado (acurcia)

  • EXERCCIO 3Carregue o arquivo credit-g.arff (arquivo com dados para deciso sobre crdito bancrio, com 1000 registros)Use percentage split como mtodo de avaliao (o nmero de registros razoavelmente grande).Para este problema, considere que um falso positivo (prever que a classe good quando na verdade bad) tem um custo 5 vezes maior que o de um falso negativo.Encontre o menor custo com o J48 (usando a matriz de confuso ), considerando os custos: VP=-1; VN=-1; FP=5; FN=1. Utilizando os valores default dos parmetros, teste com outros classificadores e anote o resultado em uma tabela com: classificador, acurcia, custo, tempo de execuo

  • EXERCCIO 4Abra o arquivo hepatitis.arffExecute o J48 com os parmetros default. Salve o resultado. Execute outros classificadores e anote o resultado. Qual o melhor? Compare as matrizes de confuso geradas pelos diversos classificadores

  • Exerccio 5Abra o arquivo mushroom.arff.Utilize alguns algoritmos de classificao. Faa uma tabela com o classificador e acurcia obtida. Qual o melhor resultado, com que classificador?

  • Salvar e utilizar o modelo de classificaoSalvar:executar o algoritmo de classificao (por exemplo, o J48) para realizar o treinamento (gerao do modelo) Clique o boto direito sobre o modelo que deve ser salvo, na Results listSelecione Save model e salve o modelo.

    Carregar (o modelo salvo anteriormente) Carregue os dados de teste usando a opo Supplied test setClique o boto direito na Results list, selecione Load model e escolha o modelo salvo para carregarSelecione Re-evaluate model on current test set

    OBS: - o arquivo usado para teste deve conter os mesmos nomes de atributos e os mesmos tipos que o arquivo usado para gerar o modelo.- Quando se carrega um arquivo CSV, o primeiro registro usado para nomear os atributos.

    P(Z1=C|P)=1/3P(Z2=1|P)= 3/3P(Z3=1|P)= 1/3P(Z1=C)= 3/8P(Z2=1)= 5/8P(Z3=1)= 5/8P(X=P)= 3/8

    P(X=P|C11)= (1/3. 1 . 1/3 . 3/8) / (3/8 . 5/8. 5/8 ) = 64/225 = 0,284

    Comentrios: o arquivo muito pequeno, apenas 14 registros. Por isso a taxa de acurcia varia tanto conforme o tipo de avaliao utilizado.

    Os erros de classificacao aparecem no grfico como quadrados.Para se obter detlhes de uma instancia basta clicar sobre ela.*O tempo de geracao do modelo normalmente nao e considerado para tarefas de classificacao, mas se o numero de registros for muito grande, pode ser bem demorado..

    Para este arquivo de dados, o tempo de execucao do algoritmo functions/multilayer perceptron (tipo de rede neural) leva cerca de 58 segundos enquanto o J48 leva cerca de 0,05 segundos!**