Exercícios sobre classificação Mineração de dados

Preview:

Citation preview

Exercícios sobre classificação

Mineração de dados

O que deveria ser feito, na fase de preparação de dados, para aplicar o método ID3 para classificação com os dados abaixo?

cor altura forma local Classe

preto 32,5 largo Rua Canindé, 123 A

marrom 22,3 Rua Borges, 456/304 C

marrom 15,7 estreito Rua Chaves, 132 B

amarelo 31,4 estreito Rua Napoleão, 45/101 C

… … … … …

O que deveria ser feito, na fase de preparação de dados, para aplicar o método k-NN para classificação com os dados abaixo?

cor altura comprimento tipo peso Classe

preto 3,25 1057,00 1 50,34 A

marrom 2,23 2343,00 2 45,89 C

marrom 1,57 1956,50 2 23,55 B

amarelo 3,14 3490,00 3 42,50 C

… … … … …

O que deveria ser feito, na fase de preparação de dados, considerando uma rede neural backpropagation para classificação usando os dados abaixo?

cor altura comprimento tipo peso Classe

preto 3,25 1057,00 1 50,34 A

marrom 2,23 2343,00 2 45,89 B

marrom 1,57 1956,50 2 23,55 B

amarelo 3,14 3490,00 3 42,50 A

… … … … …

O que deveria ser feito, na fase de preparação de dados, considerando o uso do algoritmo naïve bayes e os dados abaixo?

cor altura comprimento tipo peso Classe

preto 3,25 1057,00 1 50,34 A

marrom 2,23 2343,00 2 45,89 B

marrom 1,57 1956,50 2 23,55 B

amarelo 3,14 3490,00 3 42,50 A

… … … … …

Considere o seguinte conjunto de treino, em que cada exemplo é definido por três atributos (A,B,C) e

a classe X.

Sabendo que:

– Entropia (S) = - (p+ log2 p+ + p- log2 p-)

– Ganho (S, A) = Entropia (S) - ((|Sv| / |S|) * Entropia (Sv)), ondeSv = subconjunto de S para um valor do atributo At

|Sv| = número de elementos de Sv

|S| = número de elementos de S

a) Qual a incerteza (entropia) associada ao conjunto de treino inicial?

b) Qual o Ganho de Informação para cada um dos atributos?

(log2 1=0, log2 0,5=-1, log2 0,25=-2 , log2 0,75=-0,415, log2 0,333=-1,585,

log2 0,667=-0,585)

c) Face a este resultado, qual seria a árvore de decisão obtida para este conjunto de treino, construída de acordo com o critério de maximização do ganho de informação?

Dada a árvore de decisão abaixo, que regras seriam geradas pelo algoritmo C4.5?

Considerando os dados de treino abaixo e o algoritmo C4.5, quais seriam os intervalos de decisão considerados para o atributo Peso?

Peso Idade Sexo Classe

70 jovem Masc 2

80 adulto Masc 2

60 adulto Fem 1

75 jovem Masc 2

35 criança Fem 1

85 adulto Masc 2

50 criança Masc 1

Peso Classe

35 1

50 1

60 1

70 2

75 2

80 2

85 2Peso <= 65 e peso > 65

Qual a árvore de decisão gerada?

Determine a classificação obtida para o exemplo C11 (Z1=C, Z2=1, Z3=1) utilizando o algoritmo naive Bayes, considerando os dados de treino abaixo e sabendo que

P( E1 |H ).P( E2 | H)... .P(En | H).P(H )

P( E1 ).P( E2)... .P(En)P(H|E)=

Determine a classificação obtida para o exemplo C11 (Z1=C, Z2=1, Z3=1) utilizando o algoritmo k-NN, considerando os dados abaixo e k=1.

Determine a classificação obtida para o exemplo C11 (Z1=C, Z2=1, Z3=1) utilizando o algoritmo k-NN, considerando os dados abaixo, k=3, e a seguinte tabela de distâncias para o atributo Z1:

A B C

A 0

B 1 0

C 2 0,5 0

lágrimas astigma-tismo

pressão prescrição LENTES

normal sim normal hipermetr. NÃO

normal não normal miopia GELAT.

normal sim normal miopia DURA

reduzida sim alta miopia NÃO

reduzida não normal hipermetr. NÃO

normal não alta hipermetr. NÃO

normal não alta miopia GELAT.

normal sim normal miopia DURA

normal sim alta hipermetr. NÃO

normal sim alta miopia GELAT.

normal sim normal miopia. DURA

lágrimas

3 4

2

1

normal reduzida

astigmat.

sim não

prescrição

miopia hipermetr.

1. Complete a árvore de decisão colocando no lugar dos números das folhas, a classe, de forma a minimizar os erros de classificação.

2. Faça a matriz de confusão correspondente.

Recommended