30
CEA462 – Sistemas de Apoio à Decisão – Slide 1 Universidade Federal de Ouro Preto Mineração de Dados Mineração de Dados (Data Mining) (Data Mining)

CEA462 – Sistemas de Apoio à Decisão – Slide 1 Universidade Federal de Ouro Preto Mineração de Dados (Data Mining)

Embed Size (px)

Citation preview

Page 1: CEA462 – Sistemas de Apoio à Decisão – Slide 1 Universidade Federal de Ouro Preto Mineração de Dados (Data Mining)

CEA462 – Sistemas de Apoio à Decisão – Slide 1

Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

Mineração de DadosMineração de Dados(Data Mining)(Data Mining)

Page 2: CEA462 – Sistemas de Apoio à Decisão – Slide 1 Universidade Federal de Ouro Preto Mineração de Dados (Data Mining)

CEA462 – Sistemas de Apoio à Decisão – Slide 2

Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

Como Construir uma Árvore de Decisão

Encontrar a árvore ótima é computacionalmente inviável

Algoritmo de Hunt:

ID3

C4.5

CART

Page 3: CEA462 – Sistemas de Apoio à Decisão – Slide 1 Universidade Federal de Ouro Preto Mineração de Dados (Data Mining)

CEA462 – Sistemas de Apoio à Decisão – Slide 3

Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

O algoritmo ID3 – Iterative Dichotomizer 3

Cada vértice é associado ao atributo mais informativo que ainda não tenha sido considerado.

Para medir o nível de informação de um atributo se utiliza o conceito de entropia.

Menor o valor da entropia, menor a incerteza e mais utilidade tem o atributo para a classificação.

Page 4: CEA462 – Sistemas de Apoio à Decisão – Slide 1 Universidade Federal de Ouro Preto Mineração de Dados (Data Mining)

CEA462 – Sistemas de Apoio à Decisão – Slide 4

Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

O algoritmo ID3 - Exemplo

O número de combinações possíveis são:

Aspecto: sol, nublado, chuvaTemperatura: quente, agradável, frioUmidade: alta, normalVento: fraco, forte (3 x 3 x 2 x 2 = 36)

Page 5: CEA462 – Sistemas de Apoio à Decisão – Slide 1 Universidade Federal de Ouro Preto Mineração de Dados (Data Mining)

CEA462 – Sistemas de Apoio à Decisão – Slide 5

Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

• Qual é o atributo mais relevante para prever a classe a qual pertencem os dados ?

– Ganho da Informação: o ganho de informação do atributo X, é a diferença entre a informação necessária para identificar um elemento de T e a informação necessária para identificar um elemento de T depois que o valor de atributo X tenha sido considerado:

Ganho ( X,T) = Info (T) – Σ TX / T * Info (X, T )

O algoritmo ID3

Page 6: CEA462 – Sistemas de Apoio à Decisão – Slide 1 Universidade Federal de Ouro Preto Mineração de Dados (Data Mining)

CEA462 – Sistemas de Apoio à Decisão – Slide 6

Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

O algoritmo ID3 - Exemplo

Conjunto de registros T com 14 registros. Duas partições Sim e Não, com probabilidade 9/14 e 5/14.

Info(T) = I( 9/14, 5/14 ) = -(9/14 . Log2 (9/14) + 5/14 . Log2 (5/14)) = 0.94

Page 7: CEA462 – Sistemas de Apoio à Decisão – Slide 1 Universidade Federal de Ouro Preto Mineração de Dados (Data Mining)

CEA462 – Sistemas de Apoio à Decisão – Slide 7

Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

O algoritmo ID3 - Exemplo

Info ( Aspecto, T ) = sol/T * I (sol) + nublado/T * I (nublado) + chuva/T * I (chuva)

Info ( Aspecto, T ) = 5/14 * I (2/5, 3/5) + 4/14 * I (4/4 , 0) + 5/14 * I (3/5,2/5) = 0.693Info ( Aspecto, T ) = 5/14 * I (2/5, 3/5) + 4/14 * I (4/4 , 0) + 5/14 * I (3/5,2/5) = 0.693

Page 8: CEA462 – Sistemas de Apoio à Decisão – Slide 1 Universidade Federal de Ouro Preto Mineração de Dados (Data Mining)

CEA462 – Sistemas de Apoio à Decisão – Slide 8

Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

O algoritmo ID3 - Exemplo

Info(T) = 0.94Info(Aspecto, T) = 0.693Ganho ( Aspecto, T ) = 0.94 - 0.693 = 0.247

Page 9: CEA462 – Sistemas de Apoio à Decisão – Slide 1 Universidade Federal de Ouro Preto Mineração de Dados (Data Mining)

CEA462 – Sistemas de Apoio à Decisão – Slide 9

Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto • Com o objetivo de criar árvores de decisão

pequenos, para identificar poucas regras, o atributo escolhido para nó da árvore é o atributo de maior ganho.

O algoritmo ID3

Page 10: CEA462 – Sistemas de Apoio à Decisão – Slide 1 Universidade Federal de Ouro Preto Mineração de Dados (Data Mining)

CEA462 – Sistemas de Apoio à Decisão – Slide 10

Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto • Passo 1:

Se todos os dados estão classificados em alguma das classes então parar ;senãoselecionar ( utilizando alguma heurística)algum atributo A com valores v1, v2, . . .,vn e criar um nó de decisão.

O algoritmo ID3

Page 11: CEA462 – Sistemas de Apoio à Decisão – Slide 1 Universidade Federal de Ouro Preto Mineração de Dados (Data Mining)

CEA462 – Sistemas de Apoio à Decisão – Slide 11

Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto • Passo 2 : particionar o conjunto de dados

de treino T, em subconjuntos t1, t2, . . . , tn de acordo com os valores do atributo A

• Passo 3 : aplicar o algoritmo recursivamente para cada conjunto de dados ti

O algoritmo ID3

Page 12: CEA462 – Sistemas de Apoio à Decisão – Slide 1 Universidade Federal de Ouro Preto Mineração de Dados (Data Mining)

CEA462 – Sistemas de Apoio à Decisão – Slide 12

Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

O algoritmo ID3 - Exemplo

Page 13: CEA462 – Sistemas de Apoio à Decisão – Slide 1 Universidade Federal de Ouro Preto Mineração de Dados (Data Mining)

CEA462 – Sistemas de Apoio à Decisão – Slide 13

Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

O algoritmo ID3 - Exemplo

Info ( Sol ) = 0.971Info ( Nublado ) = 0.0Info ( Chuva ) = 0.971

Info ( Aspecto ) = 0.693( 5/14 * 0.971 + 4/14 * 0.0 + 5/14 * 0.971 )Ganho ( Aspecto ) = 0.94 - 0.693 = 0.247

Page 14: CEA462 – Sistemas de Apoio à Decisão – Slide 1 Universidade Federal de Ouro Preto Mineração de Dados (Data Mining)

CEA462 – Sistemas de Apoio à Decisão – Slide 14

Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

O algoritmo ID3 - Exemplo

Info ( Quente ) = 1.0Info ( Agradável ) = 0.919Info ( Fria ) = 0.811

Info (Temperatura ) = 0.912( 4/14 * 1.0 + 6/14 * 0.919 + 4/14 * 0.811 )Ganho ( Temperatura ) = 0.94 - 0.912 = 0.028

Page 15: CEA462 – Sistemas de Apoio à Decisão – Slide 1 Universidade Federal de Ouro Preto Mineração de Dados (Data Mining)

CEA462 – Sistemas de Apoio à Decisão – Slide 15

Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

O algoritmo ID3 - Exemplo

Info ( Alta ) = 0.984Info ( Normal ) = 0.592

Info (Umidade ) = 0.636( 7/14 * 0.984 + 7/14 * 0.592 )Ganho (Umidade ) = 0.94 - 0.788 = 0.152

Page 16: CEA462 – Sistemas de Apoio à Decisão – Slide 1 Universidade Federal de Ouro Preto Mineração de Dados (Data Mining)

CEA462 – Sistemas de Apoio à Decisão – Slide 16

Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

O algoritmo ID3 - Exemplo

Info ( Forte ) = 1.0Info ( Fraco ) = 0.811

Info ( Vento ) = 0.892( 6/14 * 1.0 + 8/14 * 0.541 )Ganho ( Vento ) = 0.94 - 0.738 = 0.048

Page 17: CEA462 – Sistemas de Apoio à Decisão – Slide 1 Universidade Federal de Ouro Preto Mineração de Dados (Data Mining)

CEA462 – Sistemas de Apoio à Decisão – Slide 17

Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

O algoritmo ID3 - Exemplo

Ganho ( Aspecto ) = 0.247Ganho ( Temperatura ) = 0.028Ganho ( Umidade ) = 0.152Ganho ( Vento ) = 0.048

Aspecto

SolChuva

Nublado

Decisão = Sim

Info ( Sol ) = 0.971Info ( Nublado ) = 0.0Info ( Chuva ) = 0.971

Page 18: CEA462 – Sistemas de Apoio à Decisão – Slide 1 Universidade Federal de Ouro Preto Mineração de Dados (Data Mining)

CEA462 – Sistemas de Apoio à Decisão – Slide 18

Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

O algoritmo ID3 - Exemplo

Page 19: CEA462 – Sistemas de Apoio à Decisão – Slide 1 Universidade Federal de Ouro Preto Mineração de Dados (Data Mining)

CEA462 – Sistemas de Apoio à Decisão – Slide 19

Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

O algoritmo ID3 - Exemplo

Aspecto

SolChuva

Nublado

Decisão = SimUmidade

AltaNormal

Decisão = Sim

Decisão = Não

Vento

Forte

Fraco Decisão = Não

Decisão = Sim

Page 20: CEA462 – Sistemas de Apoio à Decisão – Slide 1 Universidade Federal de Ouro Preto Mineração de Dados (Data Mining)

CEA462 – Sistemas de Apoio à Decisão – Slide 20

Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

• É uma extensão do ID3:• Construí árvores de decisão, com valores

desconhecidos para alguns atributos.

• Trabalha com atributos que apresentam valores contínuos.

• Utiliza o conceito de poda (pruning) de árvores.

Algoritmo C4.5

Page 21: CEA462 – Sistemas de Apoio à Decisão – Slide 1 Universidade Federal de Ouro Preto Mineração de Dados (Data Mining)

CEA462 – Sistemas de Apoio à Decisão – Slide 21

Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

• Quando existem atributos desconhecidos para alguma variável, os mesmos são considerado como uma nova categoria.

• Quando existem variáveis com atributos contínuos , o algoritmo cria intervalos segundo as alterações na variável de decisão.

Algoritmo C4.5

Page 22: CEA462 – Sistemas de Apoio à Decisão – Slide 1 Universidade Federal de Ouro Preto Mineração de Dados (Data Mining)

CEA462 – Sistemas de Apoio à Decisão – Slide 22

Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

Poda de árvores de decisão

• Poda da árvore, significa substituir uma parte da árvore (sub-árvore) por uma folha, com o objetivo de simplificar as regras de decisão.

• A poda tem lugar quando o valor esperado do erro da sub-árvore é maior que o erro da folha que o fico em seu lugar.

Page 23: CEA462 – Sistemas de Apoio à Decisão – Slide 1 Universidade Federal de Ouro Preto Mineração de Dados (Data Mining)

CEA462 – Sistemas de Apoio à Decisão – Slide 23

Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

Poda de árvores de decisão

• O processo de poda pode ser feito da seguinte maneira:

1. Percorre a árvore em profundidade.2. Para cada nó de decisão calcula:

erro no nósoma dos erros nos nós

descendentes3. Se o erro do nó é menor à soma dos

erros dos nós descendentes então o nó é transformado em folha

Page 24: CEA462 – Sistemas de Apoio à Decisão – Slide 1 Universidade Federal de Ouro Preto Mineração de Dados (Data Mining)

CEA462 – Sistemas de Apoio à Decisão – Slide 24

Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

Poda de árvores de decisão

Erro de classificação de um nodoErro de classificação de um nodo

N - n + k - 1N - n + k - 1EEst(Nodo) = EEst(Nodo) =

N + kN + k

N - Número de exemplos classificados no N - Número de exemplos classificados no nodonodo

n - Número de exemplos pertencentes à classe n - Número de exemplos pertencentes à classe maioritária (com mais exemplos)maioritária (com mais exemplos)

k - Número de classes total do problemak - Número de classes total do problema

Page 25: CEA462 – Sistemas de Apoio à Decisão – Slide 1 Universidade Federal de Ouro Preto Mineração de Dados (Data Mining)

CEA462 – Sistemas de Apoio à Decisão – Slide 25

Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

Poda de árvores de decisão

Erro Estático = 0.429Erro Estático = 0.429 Erro Estático = 0.333Erro Estático = 0.333(5-3+2-1)/(5+2)...(5-3+2-1)/(5+2)...

n,mn,m significa n exemplos da classe C1 e m exemplos da classe C2 significa n exemplos da classe C1 e m exemplos da classe C2

Erro Estático = 0.375Erro Estático = 0.375

Page 26: CEA462 – Sistemas de Apoio à Decisão – Slide 1 Universidade Federal de Ouro Preto Mineração de Dados (Data Mining)

CEA462 – Sistemas de Apoio à Decisão – Slide 26

Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

Poda de árvores de decisão

• .

Page 27: CEA462 – Sistemas de Apoio à Decisão – Slide 1 Universidade Federal de Ouro Preto Mineração de Dados (Data Mining)

CEA462 – Sistemas de Apoio à Decisão – Slide 27

Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

• CART: Classification And Regression Trees

• Uma árvore de classificação utilizando a Metodologia CART traduz o resultado de uma partição binária recursiva dos dados base da modelagem

• Estabelece uma relação entre as varáveis independentes (X), com uma única variável dependente, ou resposta.

• O modelo é ajustado mediante sucessivas divisões binárias no conjunto de dados , para tornar os sub-conjuntos cada vez mais homogêneos.

• Para selecionar a melhor partição, procura-se minimizar a impureza dos nós utilizando o índice GINI.

O algoritmo CART

Page 28: CEA462 – Sistemas de Apoio à Decisão – Slide 1 Universidade Federal de Ouro Preto Mineração de Dados (Data Mining)

CEA462 – Sistemas de Apoio à Decisão – Slide 28

Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

• As árvores obtidas através desse algoritmo possui muitos níveis, o que a torna pouco eficiente

• É flexível, entretanto , é complexo tornando o calculo dos resultados muito demorado para grandes conjuntos de dados

• Pode utilizar diferentes tipos de atributos: contínuas, ordinais e nominais.

O algoritmo CART

Page 29: CEA462 – Sistemas de Apoio à Decisão – Slide 1 Universidade Federal de Ouro Preto Mineração de Dados (Data Mining)

CEA462 – Sistemas de Apoio à Decisão – Slide 29

Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

• Os procedimentos do CART são:

• Definir o conjunto de regras para realizar a divisão de um nó em dois nós filhos. As perguntas do algoritmo têm como resposta apenas “sim” ou “não”.

• Encontrar a melhor divisão através do critério Gini.• Repetir o processo de divisão até que esta seja

impossível ou interrompida.• Aplicar o processo de pós-podagem para encontrar a

árvore com o menor custo, ou seja, aquela que possui menor taxa de erro e menor complexidade.

O algoritmo CART

Page 30: CEA462 – Sistemas de Apoio à Decisão – Slide 1 Universidade Federal de Ouro Preto Mineração de Dados (Data Mining)

CEA462 – Sistemas de Apoio à Decisão – Slide 30

Uni

vers

idad

e Fe

dera

l de

Our

o Pr

eto

Exercícios – 1 ponto – Entrega: 17/111- Dada a árvore de decisão, verifique se é necessário a realização da poda, de acordo com o algoritmo C4.5. Justifique sua resposta.

A

[ 3 1 ]B[ 7 2 ]

D = S

D = N

C

D = N

D = S[ 7 1 ]

[ 9 4 ]

[ 0 1 ]

[ 2 0 ]

[ 0 1 ]