61
NH Consultoria www.NHConsultoriaTI.com Data Mining Técnicas não supervisionadas Redes neurais Em modo não supervisionado : Redes de Kohonen, Cartas Auto Adaptativas, etc. Clustering (agrupamento) Classificação Ascendente Hierárquica – K-means • Busca dos vizinhos "mais próximos". Busca de associações • Geralmente utilizadas para realizar análise de "cesta de compras" : quais são os produtos comprados simultaneamente ?

NH Consultoria Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

Embed Size (px)

Citation preview

Page 1: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Data MiningTécnicas não supervisionadas

• Redes neurais– Em modo não supervisionado : Redes de Kohonen,

Cartas Auto Adaptativas, etc.

• Clustering (agrupamento)– Classificação Ascendente Hierárquica– K-means

• Busca dos vizinhos "mais próximos".

• Busca de associações• Geralmente utilizadas para realizar análise de "cesta de

compras" : quais são os produtos comprados simultaneamente ?

Page 2: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Técnicas não supervisionadasClustering

Cluster: uma coleção de objetos de dados;• Similares entre si no mesmo cluster;• Não similares aos objetos fora do respectivo cluster;Análise de clusters:• Agrupamento de dados em clusters;Agrupamento (clustering) é uma classificação não-

supervisionada: não há classes pré-definidas.Aplicações típicas: • Como ferramenta para análise da distribuição dos

dados;• Como pré-processamento para outros métodos.

Page 3: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

ClusteringAplicações típicas - 1

• Reconhecimento de padrões;• Análise de dados espaciais:

– Criação de mapas temáticos em GIS por agrupamento de espaços de características;

– Detecção de clusters espaciais e sua explicação em data mining;

• Processamento de imagens;• Pesquisas de mercado;• WWW:

– Classificação de documentos;– Agrupamento de dados de weblogs para descobrir

padrões similares de acesso;

Page 4: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

ClusteringAplicações típicas - 2

• Marketing: ajuda na descoberta de grupos distintos de clientes, e uso deste conhecimento para criar campanhas dirigidas;

• Uso de terras: identificação de áreas de uso similar a partir de uma base de observação via satélite;

• Seguros: identificação de grupos de assegurados com alto custo de sinistro;

• Planejamento urbano: identificação de grupos de casa de acordo com seu tipo, valor e localização geográfica;

• Estudos sobre terremotos: identificação de epicentros e seu agrupamento ao longo de falhas geológicas.

Page 5: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

ClusteringEstrutura dos dados

• Matriz de dados– n indivíduos

– p variáveis

• Matriz de

dissimilaridaded(i,i) = 0

d(i,j) = d(j,i)

d(x,y) R+

npx...nfx...n1x

...............ipx...ifx...i1x

...............1px...1fx...11x

0...)2,()1,(

:::

)2,3()

...ndnd

0dd(3,1

0d(2,1)

0

Page 6: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

ClusteringSimilaridade

• Exemplo : Distância de Minkowski

• q=1 : Distância de Manhattan (de blocos)

• q=2 : Distância de Euclid

qq

pp

qq

jx

ix

jx

ix

jx

ixjid )||...|||(|),(

2211

||...||||),(2211 pp jxixjxixjxixjid

)||...|||(|),( 22

22

2

11 pp jx

ix

jx

ix

jx

ixjid

Page 7: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Técnicas não supervisionadasClassificação ascendente hierárquica

• Objetivo– Classificar os indivíduos que apresentam um comportamento

similar em função de um conjunto de variáveis• Princípio

– A cada etapa, gera-se uma partição obtida realizando o agrupamento 2 a 2 dos elementos mais "próximos".

• Elemento = individuo ou grupo de indivíduos

• O algoritmo fornece uma hierarquia de partições– Árvore que contêm o histórico da classificação.– Permite escolher o número de partições desejadas.

• Necessidades – De ter uma métrica (medida de similaridade ou dissimilaridade).– De fixar regras de agrupamento entre um grupo e um indivíduo

ou entre dois grupos : critério de agrupamento.

Page 8: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Classificação ascendente hierarquica

Etapa 1 : n indivíduos / n classes

1

23

4

5

Constroi-se a matriz das distâncias (dissimilaridades) entre os n elementos e agrupa-se os dois mais próximos

Page 9: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Classificação ascendente hierarquica

Etapa 2 : n-1 classes

1

23

4

5

Distância entreos elementos

1 2 3 4 5Como medir a distância entre uma classe (um grupo) e um elemento individual ?

•Critério dos centros de gravidade•Critério de distância máxima•Critério de distância mínima•Critério de Ward

Page 10: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Classificação ascendente hierarquica

Etapa 3 : n-2 classes

1

23

4

5

Distância entreos elementos

1 2 3 4 5Como medir a distância entre uma classe (um grupo) e um elemento individual ?

•Critério dos centros de gravidade•Critério de distância máxima•Critério de distância mínima•Critério de Ward

Page 11: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Classificação ascendente hierarquica

Etapa 4 : n-3 classes

1

23

4

5

Distância entreos elementos

1 2 3 4 5Como medir a distância entre uma classe (um grupo) e um elemento individual ?

•Critério dos centros de gravidade•Critério de distância máxima•Critério de distância mínima•Critério de Ward

Page 12: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Classificação ascendente hierarquica

Etapa 5 : n-4 = 1 classe

1

23

4

5

Distância entreos elementos

1 2 3 4 5Como medir a distância entre uma classe (um grupo) e um elemento individual ?

•Critério dos centros de gravidade•Critério de distância máxima•Critério de distância mínima•Critério de Ward

Page 13: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Classificação ascendente hierarquica

1

23

4

5

Distância entreos elementos

1 2 3 4 5

2 classes

Classe 1 Classe 2

Etapa 5 : n-4 = 1 classe

Page 14: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Classificação ascendente hierarquica

1

23

4

5

Distância entreos elementos

1 2 3 4 5

3 classes

Classe 1 Classe 2 Cl. 3

A escolha da quantidade de classes é determinada a posteriori

Etapa 5 : n-4 = 1 classe

Page 15: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

• Distância máxima (A,B) = max{d(a,b), aA, bB}

• Distância mínima (A,B) = min{d(a,b), aA, bB}

• Centros de gravidade (A,B) =d(ga, gb)

CAH : critérios de agrupamento

Page 16: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

CAHInércias

Dada uma classificação em k grupos de efetivos n1, ..., nk os individuos sendopontos de um espaço euclidiano. G1, ..., Gk são os grupos, e g1, ..., gk são os seus centros de gravidade (g é o centro de gravidade da nuve completa).

k

i Geira

k

iiier

n

iitot

i

gedn

I

ggdnn

I

gedn

I

1

2int

1

2int

1

2

,1

: eintraclass Inércia

,.1

: einterclass Inércia

,1

: totalInércia

Page 17: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

CAHCritério de agrupamento de inércia

Teorema de Huygens :

Inércia total = Inércia interclasse + Inércia Intraclasse

A cada agrupamento realizado, a inércia intraclasse aumenta, e a inércia

interclasse diminue

Page 18: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

CAHMétodo de WARD

Ao substituir duas classes A e B pela sua reunião, demostra-se que a diminução da inércia interclasse (ou seja o aumento da intraclasse) é igual a :

O método de Ward consiste em escolher o agrupamento que minimize o aumento da inércia intraclasse.

BAba

ba ggdnnn

nn,.

.

. 2

Page 19: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

CAHMétodo de WARD

• Agrupamento com distância mínima– Efeitos em cadeia : os objetos se agrupam ao

grupo ja constituido um depois do outro.

• Agrupamento com distância máxima– Deformações importantes da árvore.

• Método Ward– Utiliza-se uma distância de Euclid.

Page 20: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

CAHCrítica

• Vantagens– As classes são uma visão sintética e estruturada dos

dados– Agrupamentos pouco esperados aparecem– As classes significativas geram definições de funções

que permitem num segundo tempo atribuir um indivíduo novo à classe mais próxima

• Desvantagens– Agrupamentos esperados não aparecem– Funciona melhor juntamente com uma ACP (método

de Ward).

Page 21: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Exemplo de CAH com ACPCountry Car MPG Weight Drive_Ratio Horsepower Displacement Cylinders

US Buick Estate Wagon 16,9 4360 2,73 155 350 8US Ford Country Squire Wagon 15,5 4054 2,26 142 351 8US Chevy Malibu Wagon 19,2 3605 2,56 125 267 8US Chrysler LeBaron Wagon 18,5 3940 2,45 150 360 8US Chevette 30 2155 3,7 68 98 4Japan Toyota Corona 27,5 2560 3,05 95 134 4Japan Datsun 510 27,2 2300 3,54 97 119 4US Dodge Omni 30,9 2230 3,37 75 105 4Germany Audi 5000 20,3 2830 3,9 103 131 5Sweden Volvo 240 GL 17 3140 3,5 125 163 6Sweden Saab 99 GLE 21,6 2795 3,77 115 121 4France Peugeot 694 SL 16,2 3410 3,58 133 163 6US Buick Century Special 20,6 3380 2,73 105 231 6US Mercury Zephyr 20,8 3070 3,08 85 200 6US Dodge Aspen 18,6 3620 2,71 110 225 6US AMC Concord D/L 18,1 3410 2,73 120 258 6US Chevy Caprice Classic 17 3840 2,41 130 305 8US Ford LTD 17,6 3725 2,26 129 302 8US Mercury Grand Marquis 16,5 3955 2,26 138 351 8US Dodge St Regis 18,2 3830 2,45 135 318 8US Ford Mustang 4 26,5 2585 3,08 88 140 4US Ford Mustang Ghia 21,9 2910 3,08 109 171 6Japan Mazda GLC 34,1 1975 3,73 65 86 4Japan Dodge Colt 35,1 1915 2,97 80 98 4US AMC Spirit 27,4 2670 3,08 80 121 4Germany VW Scirocco 31,5 1990 3,78 71 89 4Japan Honda Accord LX 29,5 2135 3,05 68 98 4US Buick Skylark 28,4 2670 2,53 90 151 4US Chevy Citation 28,8 2595 2,69 115 173 6US Olds Omega 26,8 2700 2,84 115 173 6US Pontiac Phoenix 33,5 2556 2,69 90 151 4US Plymouth Horizon 34,2 2200 3,37 70 105 4Japan Datsun 210 31,8 2020 3,7 65 85 4Italy Fiat Strada 37,3 2130 3,1 69 91 4Germany VW Dasher 30,5 2190 3,7 78 97 4Japan Datsun 810 22 2815 3,7 97 146 6Germany BMW 320i 21,5 2600 3,64 110 121 4Germany VW Rabbit 31,9 1925 3,78 71 89 4

Page 22: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Page 23: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Page 24: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Page 25: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Page 26: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Page 27: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Page 28: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Page 29: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Page 30: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Page 31: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

K-means

Etapa 0

Inicializa-se de maneira aleatória os centros de gravidade de cada classe : ck.A quantidade de classes é determinada a priori.

c1

c2

Page 32: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

K-means

Etapa 1

Cada ponto é atribuído a classe que têm centro de gravidade mais próximo

c1

c2

Page 33: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

K-means

Etapa 2

Os centros de gravidade são re-calculados dentro de cada classe

c1

c2

Page 34: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

K-means

Etapa 3 : identica á etapa 1

c1

c2

Cada ponto é atruibuído a classe que têm centro de gravidade mais próximo

Page 35: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

K-means

Etapa 4 : identica á etapa 2

c1

c2

Os centros de gravidade são re-calculados dentro de cada classe

Page 36: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

K-means

Etapa 5 : identica á etapa 1

c1

c2

Cada ponto é atruibuído a classe que têm centro de gravidade mais próximo

Page 37: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

K-means

Etapa 6

c1

c2

Os centros de gravidade são re-calculados dentro de cada classe

Page 38: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

K-means

Etapa 7

c1

c2

Cada ponto é atruibuído a classe que têm centro de gravidade mais próximo

Page 39: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

K-means

Etapa 8

c1

c2

A partir desta etapa, as classes não mudam mais.Pára-se quando :• O centros de gravidade se deslocam muito pouco• Nenhum indivíduo muda de classe.

Page 40: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Comparação K-Means e CAH

Page 41: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Page 42: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Page 43: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

K-meansCrítica

• Vantagens– Algorítmo muito simples, e eficiente– Possibilidade de utilizar dissimilaridades, diversas

distâncias, etc.• Desvantagens

– Quantidade de classes conhecida a priori.– Não funciona com dados discretos– Sensível ao ruído– Tendência de construir classes esféricas,

maximizando inércia intraclasse e minimizando inércia interclasse (não descobre grupos de forma não-convexa).

Page 44: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Técnicas não supervisionadasBusca de associações

• Mineração de associações ou de regras de associação:– Encontrar padrões freqüentes, associações,

correlações, ou estruturas causais a partir de conjuntos de itens ou objetos em DB de transações, relacionais, ou em outros repositórios de informações.

• Aplicações:– Análise de cestas de dados (basket data), marketing

cruzado, projeto de catálogos, agrupamento, etc.

Page 45: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Regras de associações

• Dados: 1. Uma DB da transações;

2. Cada transação constituída de uma lista de itens (compras de um cliente);

• Encontrar: 1. Todas as regras que correlacionam a presença de um

conjunto de itens com outro conjunto de itens.

2. Exemplo: 98 % das pessoas que compram pneus e assessórios também compram sua instalação.

Page 46: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Regras de associaçãoDados de transação - 1

Transação1 Cachaça Martini Azeitonas Carvão2 Martini Azeitonas3 Cachaça Pão Manteiga4 Carvão5 Pão Manteiga Leite6 Azeitonas Pão7 Arroz

Conteúdo de compras

Análise dos "tickets" de caixaComentários :•Uma observação = uma compra•Somente considerar a presencia dos produtos, não a quantidade.•Quantidade de produtos varia entre as compras•Lista dos produtos é imensa !

Objetivos :(1) Descobrir os produtos comprados juntos(2) Escrever este conhecimento na forma de regras de associação

Se premissa então conseqüênciaLista de produtos

Exemplo : "Se Martini e Cachaça então Azeitonas"

Page 47: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Regras de associaçãoDados de transação - 2

Transação Cachaça Martini Azeitonas Carvão Pão Manteiga Leite Arroz1 1 1 1 1 0 0 0 02 0 1 1 0 0 0 0 03 1 0 0 0 1 1 0 04 0 0 0 1 0 0 0 05 0 0 0 0 1 1 1 06 0 0 1 0 1 0 0 07 0 0 0 0 0 0 0 1

Outra representação dos dados de transação (binária)

Em função da granularidade escolhida, o número de colunas pode ser imenso !(ex. Agrupamento por família de produtos : azeites de oliva, cervejas, etc.)

O objetivo da análise é detectar co-ocorrências na tabela.

Page 48: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Regras de associaçãoCritérios de avaliação das regras

Suporte e ConfiançaCompra p1 p2 p3 p4

1 1 1 1 02 1 0 1 03 1 1 1 04 1 0 1 05 0 1 1 06 0 0 0 1

Dados

Regra de associação :R1 : Se p1 então p2

Suporte : indicador de "confiabilidade" da regra

sup(R1) = 2 ou sup(R1) = 2/6 = 33%absoluto relativo

Confiança : indicador de "precisão" da regraconf(R1) = sup(R1)/sup(premissa(R1))

= sup(p1 -> p2)/sup(p1)= 2/4 = 50%

Uma "boa" regra deve ter Confiança e Suporte altos

Page 49: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Regras de associaçãoIdentificação das regras - 1

• Parâmetros : fixar um grau de exigência nas regras.– Suporte mínimo (ex : 2 transações ou 33% das transações).– Confiança mínima (ex : 75%).– Permite limitar (controlar) a quantidade de regras que serão

produzidas.• Mecanismo : construção em 2 tempos

– Busca dos itemset freqüentes (com suporte >= suporte min).– A partir dos itemset freqüentes, construir as regras (com conf >=

conf min).• Definições

– Item = produto– Itemset = conjunto de produtos (ex : {p1, p3})– sup(itemset) = quantidade de transações onde aparecem

simultaneamente os produtos (ex : sup{p1,p3}=4)– card(itemset) = quantidade de produtos no conjunto (ex :

card{p1,p3}=2).

Page 50: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Regras de associaçãoIdentificação das regras – 2

Busca dos Itemset freqüentes

Caso geral : 2j – 1

Número de cáculos enorme !Cada cálculo gera um scan completo da base

C14 = 4 Itemsets de card=1

C24 = 6 Itemsets de card=2

C34 = 4 Itemsets de card=3

C44 = 1 Itemsets de card=4

= 15 = 24 - 1

Redução da complexidade com eliminação de algumas pistas

Compra p1 p2 p3 p41 1 1 1 02 1 0 1 03 1 1 1 04 1 0 1 05 0 1 1 06 0 0 0 1

Dados

4 {p1} 3 {p2} 5 {p3} 1 {p4}

{p1,p2} 2

{p1,p3} 4

{p1,p4} 0

{p2,p3} 3

Era previsível :sup{p4,...} <= sup{p4}=> sup{p1,p4} < 2

{p1,p2,p3} 2

É preciso testar por que {p1,p2}, {p1,p3}, {p2,p3} são todos freqüentes

Page 51: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Regras de associaçãoIdentificação das regras – 2

Busca das regras para os Itemset de card = 2

É preciso testar todas as combinações : 2 tests por itemset

Compra p1 p2 p3 p41 1 1 1 02 1 0 1 03 1 1 1 04 1 0 1 05 0 1 1 06 0 0 0 1

Dados{p1,p2}

p1 p2 . Conf = 2/4 = 50% (reprovada)

p2 p1 . Conf = 2/3 = 67% (reprovada)

{p1,p3}

p1 p3 . Conf = 4/4 = 100% (aprovada)

p3 p1 . Conf = 4/5 = 80% (aprovada)

{p2,p3}p2 p3 . Conf = 3/3 = 100% (aprovada)

p3 p2 . Conf = 3/5 = 60% (reprovada)

Page 52: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Regras de associaçãoIdentificação das regras – 2

Busca das regras para os Itemset de card >= 3

C13=3 : regras com conseqüencia de card = 1

C23=3 : regras com conseqüencia de card = 2

Redução da complexidade com eliminação de algumas pistas

sup{p1,p2,p3} = 2Compra p1 p2 p3 p41 1 1 1 02 1 0 1 03 1 1 1 04 1 0 1 05 0 1 1 06 0 0 0 1

Dados

O suporte da premissa so pode ficar estável ou maior. A confiança então vai ficar estável ou menor. A pista pode ser eliminada (4 possibilidades são descartadas)

p2, p3 p1(2/3, reprovada)

p1, p3 p2(2/4, reprovada)

p1, p2 p3(2/2, aprovada)

p1 p2, p3(2/4, reprovada)

p2 p1, p3(2/3, reprovada)

Page 53: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Regras de associaçãoIndicador de pertinência das regras

• A confiança em termos de probabilidades :– Conf (A C) = sup(A, C) / sup(A).– = P(A C) / P(A)– = P(C / A).

P(X) : suporte relativo de X!.

• O LIFT :– Lift(A C) = P(C / A) / P(C)– Interpretar como um "odd-ratio" : uma "cota".– Lift < 1 : a regra não serve para nada !– Ex : Lift(fumar câncer) = 3% / 1% = 3.

Fumando, têm 3 vezes mais chances de pegar câncer.

• O LIFT somente pode ser calculado depois da identificação das regras, para filtrá-las.

• O LIFT não pode ser utilizado para guiar a aprendizagem.

Page 54: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Regras de associaçãoCrítica

• Mineração de regras de associação:– Provavelmente a contribuição mais

significativa da comunidade de DB à KDD;– Inúmeros trabalhos publicados;

• Muitos pontos importantes explorados;• Direções de pesquisa:

– Análise de associações em outros tipos de dados: espaciais, multimídia, temporais, etc.

Page 55: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Regras de associação

• Exemplo nos dados de votos nos E.U.

Page 56: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Page 57: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Page 58: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Respondendo "y" para "el-salvador-aid", eRespondendo "n" para "mx-missile", eRespondendo "y" para "physician-fee-freeze",

Esta regra é verificada em 94,1% dos casos onde a premissa é verdade(confiança)

As premissas e a conclusão são reunidas em 33,1% dos casos estudados(suporte)

A probabilidade de votar "republican" é 2,437 vezes mais alta.(que a probabilidade de votar "republican" sem saber nada)

(Lift)

Page 59: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Interpretação dos resultados

• O Lift diz : – Sabendo as respostas <y, n, y>, a

probabilidade de votar "r" é 2,437 vezes maior do que a mesma probabilidade sem saber nenhuma resposta.

• Sabendo as respostas <y, n, y> como comparar a probabilidade de votar "r" com a probabilidade de votar "d" ?– Classificador Bayesiano !

Page 60: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Page 61: NH Consultoria  Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto

NH Consultoria www.NHConsultoriaTI.com

Interpretação dos resultados - 2

• O classificador bayesiano permite calcularX=<y, n, y>

P(R/X) / P(D/X) =

[P(R/X)*P(X)] / [P(D/X)*P(X)] =

[P(X/R)*P(R)] / [P(X/D)*P(D)] =

(0,9345*0,9702*0,8690*38,6%) / (0,2060*0,0524*0,2247*61,4%) =

204,6

• Sabendo as respostas <y, n, y>, a probabilidade de votar "r" é 205 vezes maior do que a probabilidade de votar "d".