Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T....

Preview:

Citation preview

Introdução à Análise de Introdução à Análise de AgrupamentosAgrupamentos

(Abordagem Numérica e Conceptual)(Abordagem Numérica e Conceptual)

Prof. Francisco de A. T. de Carvalhofatc@cin.ufpe.br

Agrupamento (Clustering)Agrupamento (Clustering)

Conjunto de Métodos usados para a construção de grupos de objetos com base nas semelhanças e diferenças entre os mesmos de tal maneira que os grupos obtidos são os mais homogêneos e bem separados possíveis.

Agrupar para que?

Simplificação dos dadosProcura de agrupamentos “naturais”Geração de HipótesesPredição com base nos grupos formados

O que é um grupo? Não existe uma única definição satisfatóriaCoesão internaIsolamento externo

a) Grupos coesos e isolados

b) Grupos isolados mas não coesos

c) Grupos coesos com vários pontos intermediários

d) Não existência de grupos “naturais”

(a) (b) (c) (d)

a) Seleção dos indivíduos, objetos, casos, itens, OTU’s

b) Seleção das variáveis, descritores, características

c) Construção da Tabela de Dados

d) Escolha de um Índice de Proximidade

e) Construção da Matriz de Proximidades

f) Seleção de um Algoritmo de Formação de Grupos emfunção do tipo de agrupamento desejado

g) Análise e Interpretação dos Resultados

Principais Etapas da Formação de AgrupamentosPrincipais Etapas da Formação de Agrupamentos

Indivíduos

: conjunto dos indivíduos (população, amostra)

Variáveis

A Cada característica (escolhida pelo usuário ou por um especialista), pode-se associar uma ou mais variáveis:

Di: Domínio da variável yi

)(y

D:y

i

ii

As variáveis podem ser

quantitativascontínuas (ex, Peso, Altura)discretas (ex, numero de antenas, número de

filhos)qualitativas (ex, sexo, grau de instrução)binárias (ex, presença de asas)

com escala

nominal (ex, sexo (masculino, feminino)),ordinal (ex, Grau de instrução{primário, segundário, superior})intervalar (ex, grau celsius)proporcional (ex, grau kelvin, idade)

Representação do Conhecimento (lista de pares atributo-valor)

Y = {y1, …, yp} : Conjunto de variáveis (descritores, atributos, …)

D = {D1, …, Dp} : Conjunto dos domínios das variáveis

= {1, …, p} : Conjunto dos indivíduos (casos, objetos, observações)

)(y,),(y,),(y

DD:Y

jpjij1j

p1

Tabela de Dados

X = (xij; i = 1, …, p ; j = 1, …, n) onde xij = yi(j)

Tipos de Tabelas

quantitativasqualitativasbináriasheterogêneas

Exemplo:

Nome Cobertura doCorpo

Cavidades doCoração

Temperaturado Corpo

Fertilização

mamífero pelos 4 regulada internapássaro penas 4 regulada interna

réptil pele seca 4 imperfeitas não regulada internaanfíbio pele úmida 3 não regulada externapeixe escamas 2 não regulada externa

Índices de Proximidade

• Similaridade• Dissimilaridade

Índice de Similaridade

É uma função

tal que

),(s),(

R:s

baba

),(),,(s),(s baabba

bababamaxbbaa com ,),(),,(ss),(s),(s

Índice de Dissimilaridade

É uma função

tal que ),(d),(

R:d

baba

),(),,(d),(d baabba

aaa ,0),(d

),(ss),(d bamaxba

1,)(y)(y),(d

1p

1jbjajba

Exemplos de Índices de Proximidade

a) Tabelas de variáveis quantitativas

b) Tabelas de variáveis binárias

a 1 0

b

1

0

x y

z w

(Jaccard) zyx

x),(s ba

Outros aspectos relativos aos índices de proximidade

•Escala das Variáveis

•Correlação entre as Variáveis

•Descrições heterogêneas (Variáveis de diferentes tipos)

•Índices de proximidade entre padrões descritos por strings ou árvores

•Índices de proximidade dependentes do contexto

•Índices de proximidade conceptual

Tipos de espaços de classificação (ie, estrutura a Tipos de espaços de classificação (ie, estrutura a priori do espaço das observações)priori do espaço das observações)

Seja um conjunto de indivíduos à agrupar

Partição

Uma partição de é um conjunto de subconjuntos não vaziosP = (P1, , Pk) de interseção vazia dois a dois e cuja união forma

a) l {1, , k}, Pl b) l,m {1, , k}, l m, Pl Pm = c) l Pl =

ObservaçõesObservações

**

* *

*

*

*

P1

P2

P3

**

* *

*

*

*

Partição

CoberturaCobertura

Uma cobertura de Uma cobertura de é um conjunto de subconjuntos não é um conjunto de subconjuntos não vaziosvaziosP = (PP = (P11, , , P, Pkk) cuja união forma ) cuja união forma

a) a) l l {1, {1, , k}, P, k}, Pll b) b) ll P Pll = =

* **

*

*

*

*

P1

P2

P3

* **

*

*

*

*

* 7* 5*

6

* 4

* 2

* 1

* 3*

*

*

**

**

HierarquiaHierarquia

Seja H um conjunto de subconjuntos não vazios de Seja H um conjunto de subconjuntos não vazios de . H é . H é uma hierarquia seuma hierarquia se

a) a) H; H;b) b) , {, {} } H Hc) c) h, h h, h’’ H, tem-se: h H, tem-se: h h h’’ = = ou h ou h h h’’ ou h ou h’’ h h

1 23 4 5 6 7

DendrogramaDendrograma

PiramidePiramide

Seja P um conjunto de subconjuntos não vazios de de Seja P um conjunto de subconjuntos não vazios de de . P é . P é uma piramide seuma piramide se

a) a) P; P;

b) b) , {, {} } P P

c) c) h, h h, h’’ P, tem-se: h P, tem-se: h h h’’ = = ou h ou h h h’’ P P

d) Existe uma ordem d) Existe uma ordem tal que todo elemento de P seja um tal que todo elemento de P seja um intervalo deintervalo de

* 2* 1

* 3

1 23 4 5 6 7

* 7* 5*

6

* 4

Métodos de AgrupamentoMétodos de Agrupamento

Em Taxonomia Numerica distingue-se tres grupos de Em Taxonomia Numerica distingue-se tres grupos de métodosmétodos

Técnicas de OtimizaçãoTécnicas de Otimização

Objetivo: obter uma partição. Número de grupos sempre Objetivo: obter uma partição. Número de grupos sempre fornecido pelo usuáriofornecido pelo usuário

Técnicas hierarquicasTécnicas hierarquicas

Objetivo: obter uma hierarquia (ou uma piramide) Objetivo: obter uma hierarquia (ou uma piramide) Pode-se obter uma partição “cortando-se” a hierarquia em Pode-se obter uma partição “cortando-se” a hierarquia em um determinado nível.um determinado nível.

Técnicas de CoberturaTécnicas de Cobertura

Objetivo: obter grupos que eventualmente podem partilhar Objetivo: obter grupos que eventualmente podem partilhar indivíduos.indivíduos.

Outros Aspectos Relativos aos Métodos de Outros Aspectos Relativos aos Métodos de AgrupamentoAgrupamento

Métods Aglomerativos versus Métodos DivisivosMétods Aglomerativos versus Métodos Divisivos

Métodos Monotéticos versus Métodos PoliteticosMétodos Monotéticos versus Métodos Politeticos

Agrupamento Hard versus Agrupamento FuzzyAgrupamento Hard versus Agrupamento Fuzzy

Métodos Incrementais versus Métodos não IncrementaisMétodos Incrementais versus Métodos não Incrementais

Algoritmo Geral de Agrupamento Hierárquico Algoritmo Geral de Agrupamento Hierárquico AglomerativoAglomerativo

Passo 1: Iniciar o agrupamento formado por grupos unitários

Passo 2: Encontre, no agrupamento corrente, o par de grupos de dissimilaridade mínima

Passo 3: Construa um novo grupo pela fusão desse par de grupos de dissimilaridade mínima

Passo 4: Atualize a matriz de dissimilaridades: suprima as linhas e ascolunas correspondentes aos grupos fusionados e adicione uma linha e uma coluna correspondente as dissimilaridades entre o novo grupo e os grupos antigos

Passo 5: Se todos os objetos estão grupados, pare; senão vá para o passo 2

Exemplo Exemplo

E01:E01:(Sono=Pouco,T=Carro,Conic=Sim,Alcool=Não,Sair=Não,Fome=Si(Sono=Pouco,T=Carro,Conic=Sim,Alcool=Não,Sair=Não,Fome=Sim) m) E02:E02:(Sono=Pouco,T=Carona,Conic=Não,Alcool=Não,Sair=Sim,Fome=(Sono=Pouco,T=Carona,Conic=Não,Alcool=Não,Sair=Sim,Fome=Sim) Sim) E03:E03:(Sono=Sim,T=Carro,Conic=Não,Alcool=Sim,Sair=Sim,Fome=Não(Sono=Sim,T=Carro,Conic=Não,Alcool=Sim,Sair=Sim,Fome=Não) ) E04:E04:(Sono=Sim,T=Outros,Conic=Sim,Alcool=Sim,Sair=Sim,Fome=Nã(Sono=Sim,T=Outros,Conic=Sim,Alcool=Sim,Sair=Sim,Fome=Não) o)

Passo 1: C1={E01}, C2={E02}, C3={E03}, C4={E04}Passo 2: dmin = 2 C5= C3 C4 = {E03,E04} Passo 3:

0

20

540

5530

D

0

40

530

D

Exemplo Exemplo

Passo 4: dmin = 3 C6= C1 C2 ={E01,E02} Passo5

Passo 6: dmin = 4 C7 = C5 C6 ={E01,E02,E03,E04}

0

40

E04E03E02E01

C5C6

C07

Técnicas Hierárquicas Aglomerativas Técnicas Hierárquicas Aglomerativas

Single Link

Complete Link

Group Average Link (UPGMA))

Wighted Average Link (WPGMA))

Unweighted Centroid (UPGMC)

Weighted Centroid (WPGMC) ou Mediana

WARD

Algoritmo dos Centros Móveis (MétodosAlgoritmo dos Centros Móveis (Métodos dede PartiçãoPartição) )

Passo 1: Fixe o número de grupos e escolha uma partição inicial

Passo 2: Para cada grupo q encontre o centro de gravidade (vetor de médias)

Passo 3: Atribua cada objeto i à classe q cujo centro de gravidade é o mais próximo

Passo 4: Retornar ao passo 1 enquanto existirem modificações na composição dos grupos

ExemploExemplo

y1 1.0 1.5 3.0 5.0 3.5 4.5 3.5y2 1.0 2.0 4.0 7.0 5.0 5.0 4.5 Passo 1: k = 2 e G1={1,2,3} e G2={4,5,6,7}

Passo2: g1 = (1.83, 2.33) e g2 = (4.13, 5.38)

Passo3:

d(wi,g1) 1.57 0.47 2.04 5.64 3.15 3.782.74d(wi,g2) 5.38 4.28 1.78 1.83 0.74 0.531.08Grupo G1 G1 G2 G2 G2 G2 G2

Passo 4: G1={1,2} e G2 = {3,4,5,6,7} Houve modificação dos grupos? Sim. Vá para o passo 2

Etc.

Critérios para a obtenção de uma PartiçãoCritérios para a obtenção de uma Partição

Alguns dos principais critérios para a obtenção de uma partição baseiam-se na equação da MANOVA:

T = W + B

T sendo fixo, quando menor W maior será B (maior homogeneidade e maior separação entre os grupos)

Minimização do traço(W) dependente da escalafavorece grupos esféricosfavorece a formação de grupos de mesmo cardinal

Minimização do determinante de Wnão depende da escalanão favorece grupos esféricos impõe a mesma forma aos gruposfavorece a formação de grupos de mesmo cardinal

Agrupamento ConceptualAgrupamento Conceptual

Um grupo pode ser descrito em:

extensão (enumeração dos seus membros) ouem compreensão (conjunto de propriedades que

definem a pertinência de um elemento à um grupo)

Agrupamento não conceptual fornece:

apenas descrição em extensão de cada grupo. a obtenção dos grupos leva em conta apenas as descrições dos individuos.

Agrupamento conceptual fornece:também a descrição em compreensão (intencional)

de cada grupo.formação dos grupos levam em consideração

também a qualidade da descrição em compreensão de cada grupo

Agrupamento Conceitual funciona em 2 fases:Agrupamento Conceitual funciona em 2 fases:

agregação: encontrar grupos de um conjunto de indivíduos segundo uma estrutura considerada e um ou mais critérios fixados

caracterização: determinar uma descrição (conceito) de cada um dos grupos obtidos na fase de agregação

Em aprendizagem de máquina caracterização = aprendizagem à partir de exemplos

As 2 fases podem ser:

simultâneas

seqüenciais (na maioria dos casos)

Geração de k AgrupamentosGeração de k Agrupamentosem competiçãoem competição

Iniciar com (Conjunto de Individuos)

Agrupamento 1Agrupamento k

•••

{C11, …, C1m1}

{Ck1, …, Ckmk}

Iniciar com um Agrupamento

•••

Geração de descrições conceituais em competição par o Agrupamento

{D1(C1), ... D1(C1m1) ... {Dn(C1), ... Dn(C1m1)

Tipos de abordagens em Agrupamento Tipos de abordagens em Agrupamento Conceitual:Conceitual:3 dimensões3 dimensões

Estrutura do espaço de observação:

partição, hierarquia, cobertura

Algoritmo:

incremental (Formação de Conceitos) ou batch (Descoberta de Conceitos)

Linguagem de descrição (representação do conhecimento):

Logica de Atributos (ordem 0)

Logica de Predicados de 1a Ordem

Logica de predicados de 2a Ordem

Caracterização (descrição) dos grupos em lógica 0

Seja um conjunto de observações descritas por p atributos (variáveis) y1, …, yp cujos dominios são D1, …, Dp.

Um objeto simbólico a = [y1 A1] … [y1 Ap], onde Ai Di, i {1, …, p}, expressa a condição “atributo y1 toma seus valores em A1 e … e atributo yp toma os seus valores em Ap”

Pode-se associar à a uma função f: {1, 0} tal quefa() = 1 yi () Ai, i {1, …, p},

A extensão de a é definida como ext (a) = { / fa()=1}

Exemplo

variaveis

Dominios

CorTamanh

oForma

{azul, verm, verde}

{grande, medio, pequeno}

{esfera, bloco, triangulo}

Considere o seguinte objeto simbólico

a = [Cor {az,vm}] [Tam {g}] [Forma {e,b}]

a é uma generalização de qualquer conjunto de objetos cuja cor é azul ou vermelho, cujo tamanho é grande e cuja forma é esfera ou bloco

Da mesma forma, esta na extensão de a (é membro de a) se fa()=1

isto é, se sua cor é azul ou vermelha, seu tamanho é grande e sua forma é esfera ou bloco

Dizemos que um objeto simbólico a é uma generalização de um conjunto de indivíduos se , fa()=1

Sejam dois objetos simbólicos a = i [yi Ai] e b = i [yi Bi].

Diz-se que b < a se Bi Ai i. Nesse caso diz-se que a é mais geral do que b e b é menos geral do que a

Diz-se que um objeto simbólico a é maximamente especifico de um conjunto de indivíduos se:a é uma generalização de e não existe um outro objeto simbólico b generalização de tal que b < a

Sejam os individuos

1 = [Cor {az}] [Tam {g}] [Forma {e}]

2 = [Cor {az}] [Tam {m}] [Forma {e}]

3 = [Cor {az}] [Tam {p}] [Forma {b}]

Três possíveis generalizações desses conjuntos por um objeto simbólico

a = [Cor {az}] [Tam {g,m,p}] [Forma {e,b}]b = [Cor {az}] [Tam {g,m,p}] [Forma {e,b,t}]c = [Cor {az,vm,vd}] [Tam {g,m,p}] [Forma {e,b,t}]

c é mais geral do que b que é mais geral do que a

a é maximamente especifico do conjunto de indivíduos acima.

Um objeto simbólico a é uma descrição discriminante de um conjunto 1 de indivíduos em relação à um outro conjunto 2 de individuos se:

a é uma generalização de 1 e não existe 2 tal que fa()=1

Um objeto simbólico a é uma descrição maximamente discriminante de um conjunto 1 de indivíduos em relação à um outro conjunto 2 de indivíduos se:

a é uma descrição discriminante de 1 em relação à 2 e não existe um outro objeto b i) que seja uma descrição discriminante de 1 em relação à 2 e ii) que seja mais geral do que a (b > a)

Exemplo

Grupo 1 (G1)

1 = [Cor {az}] [Tam {l}] [Forma {e}]

Grupo 2 (G2)

1 = [Cor {vm}] [Tam {l}] [Forma {b}]

1 = [Cor {vm}] [Tam {l}] [Forma {t}]

Descrições maximamente discriminantes de G1 em relação à G2

a = [Cor {az,vd}] [Tam {l,m,p}] [Forma {e,b,t}]

b = [Cor {az,vm,vd}] [Tam {l,m,p}] [Forma {e}]

Descrições maximamente discriminantes de G2 em relação à G1

c = [Cor {vm,vd}] [Tam {l,m,p}] [Forma {e,b,t}]

d = [Cor {az,vm,vd}] [Tam {l,m,p}] [Forma {b,t}]

Atribuição de descrições maximamente discriminantes aos Grupos 1 e 2

Descrições

disjuntas

Descrições

não disjuntas

Grupo1 Grupo 2

b = …[Forma {e}]

d = …[Forma {b,t}]

a = [Cor {az,vd}] …

c = [Cor {vm,vd}] …

a = [Cor {az,vd}] …

d = …[Forma {b,t}]

b = …[Forma {e}]c = [Cor {vm,vd}] …

Em geral conjuntos disjuntos da mesma variável implicarão em descrições maximamente discriminantes de um grupo em relação à outros grupos

Algoritmo CLUSTER/2Algoritmo CLUSTER/2

Descoberta de Conceitos (em batch) Dois módulos

• Partição• Hieraráquico

Exemplo

Nome Cobertura doCorpo

Cavidades doCoração

Temperaturado Corpo

Fertilização

mamífero pelos 4 regulada internapássaro penas 4 regulada internaréptil pele seca 4 imperfeitas não regulada interna

Anfíbio-1 pele úmida 3 não regulada internaAnfibio-2 Pele-úmida 3 não regulada externa

Módulo partiçãoMódulo partição

Formando Agrupamentos inicias

Semente 1 Semente 2 Semente k

D1

1

D1

2

D1n1 D2

1

D2

1

D2n2……

Encontrar descrições maximamente discriminantes

Atribuir os objetos à cada descrição Dij obtendo as classes Cij

C1

1

C1

2

… C1n1 C2

1

C2

1

… C2n2

• seleção de k(2) sementes aleatoriamente

Nome Cobertura doCorpo

Cavidades doCoração

Temperaturado Corpo

Fertilização

Semente 1 mamífero pelos 4 regulada internaSemente 2 réptil pele seca 4 imperfeitas não regulada interna

encontrar descrições maximamente discriminantes de cada um dos k (2) grupos à partir das sementes

a1=[Cobertura do Corpo={pelos, penas, pele úmida}]

a2= [Cavidades do Coração = {3, 4}]

a3= [Temperatura do Corpo= {regulada}]

b1=[Cobertura do Corpo={penas, pele seca, pele úmida}]b2= [Cavidades do Coração = {3, 4 imperfeitas}]b3= [Temperatura do Corpo= {não regulada}]

Semente 1 Semente 2

• Atribuição dos objetos à cada descrição Dij obtendo as classes Cij

a2= [Cavidades do Coração = {3, 4}]

b2= [Cavidades do Coração = {3, 4 imperfeitas}]

Semente 1

Semente 2

G1=Ext(a2)={Mamífero, Pássaro, Anfíbio-1, Anfíbio-2}

G2=Ext(a2)={Réptil, Anfíbio-1, Anfíbio-2}

Obtendo descrições dos grupos

Tornando os grupos disjuntos

G1G2

G1={Mamífero, Pássaro} G2={Réptil}

Lista de exceções

{Anfíbio-1, Anfíbio-2}

• Obtendo descrições maximamente específicas de cada grupo

a2= [Cobertura do Corpo = {pelos, penas}] [Cavidades do Coração = {4}] [Temperatura do Corpo = {regulada}] [Fertilização = {interna}]

G1 = {Mamífero, Pássaro}

G2 = {Réptil}

b2= [Cobertura do Corpo = {pele seca}] [Cavidades do Coração = {4 imperfeitas}] [Temperatura do Corpo = {não regulada}] [Fertilização = {interna}]

a1= [Cobertura do Corpo = {pelos, penas,pele úmida}] [Cavidades do Coração = {3,4}] [Temperatura do Corpo = {regulada,não regulada}] [Fertilização = {interna}]

Agrupamento A (G1 + Anfíbio-1)

C1

C2

Agrupamento B (G2 + Anfíbio-1)

b1= [Cobertura do Corpo = {pele seca}] [Cavidades do Coração = {4 imperfeitas}] [Temperatura do Corpo = {não regulada}] [Fertilização = {interna}]

a2= [Cobertura do Corpo = {pelos, penas}] [Cavidades do Coração = {4}] [Temperatura do Corpo = {regulada}] [Fertilização = {interna}]

b2= [Cobertura do Corpo = {pele úmida, pele seca}] [Cavidades do Coração = {3,4 imperfeitas}] [Temperatura do Corpo = {não regulada}] [Fertilização = {interna}]

Inserindo o primeiro objetos da lista de exceções nos grupos e obtendo descrições maximamente específicas de cada grupo

Avaliação dos Agrupamentos obtidos em função da qualidade das descrições

Critério: a) para cada par de descrições de agrupamentos diferentes calcula-se o número de variáveis cuja interseção é vazia; b) faz-se a soma para cada par; o agrupamento escolhido é aquele cuja soma é máxima

o Agrupamento B é selecionado

O segundo objeto da lista de exceções é inserido no agrupamento Bum processo semelhante ao descrito para a incorporação de anfíbio-1 é relizado

O processo descrito deve ser realizado para todas as 9 combinações de descrições maximamente discriminantes

Das 9 possibilidades, escolhe-se a melhor partição em dois grupos

Em seguida, novas sementes são selecionadas e o processo continua

O módulo hierárquico construi uma árvore de classificação Nessa árvore os arcos representam as descrições e nós a

extensão de cada grupo

Módulo Hierarquico

[Cobertura do Corpo = {pelos, penas}] [Cavidades do Coração = {4}] [Temperatura do Corpo = {regulada}] [Fertilização = {interna}]

[Cobertura do Corpo = {pele úmida, pele seca}] [Cavidades do Coração = {3,4 imperfeitas}] [Temperatura do Corpo = {não regulada}] [Fertilização = {interna, externa}]

{mamífero, pássaro, réptil, anfíbio-1, anfíbio-2}

{mamífero, pássaro}

{réptil,anfíbio-1,anfíbio-2}

Classificação politética

Construção de árvore de cima para baixo

O módulo hierárquico usa o módulo partição como uma subrotina

o módulo partição fornece partições de vários tamanhos (2, 3 e 4) e seleciona a melhor

O módulo hierárquico construi um nível da árvore de cada vez

A construção da árvore finaliza quando a qualidade da partição obtida no nível seguinte não é melhorada

IFCS

BCS SFC GfKlJCS

Congressos Bianuais da IFCS

Congressos anuais das Associações Nacionais

http://edfu.lis.uiuc.edu/~class/ifcs

CSNA•••

Referências Fisher, D.H. and Langley, P. W., “ Methods of Conceptual

Clustering and their relation to Numerical Taxonomy”, Technical Report 85-26, University of California, Irvine, 1985

Fisher, D. H., “ Knowledg Acquisition via Incremental Conceptual Clustering”, Machine Leaning, Vol2, No. 2, pp. 139-172, 1987

Guenoche, ª , “Generalization and Conceptual Classification: Indices and Algorithms”, Proceedings of the Conference on Data Analysis, Learning symbolic and Numeric Knowledg, pp. 503-510, INRIA, Antibes, 1989

Kodratoff, Y. and Ganascia, J., “Improving the Generalization Step in Learning,” Chapter in the book, Machine Learning:An Artificial Intelligence Approach, R. S. Michalski, J.G. Carbonell and T.M. Mitchell (Eds.), TIOGA Publishing Co., PaloAlto, pp. 215-244, 1983.

Lebowitz, M., “Experiments with Incremental Concept Formulation:

UNIMEN”, Machine Learning, Vol. 2, No. 2, pp. 103-138, 1987.

Michalski, R. S., Stepp, R., and Diday, E., "A Recent Advance in Data Analysis: Clustering Objects into Classes Characterized by Conjunctive Concepts," Chapter in the book Progress in Pattern Recognition, Vol. 1, L. Kanal and A. Rosenfeld (Editors), North-Holland, pp. 33-55, 1981

Michalski, R. S. and Stepp, R., "Learning from Observation: Conceptual Clustering," Chapter in the book, Machine Learning:An Artificial Intelligence Approach, R. S. Michalski, J.G. Carbonell and T.M. Mitchell (Eds.), TIOGA Publishing Co., PaloAlto, pp. 331-363, 1983.

Michalski, R.S. and Kaufman, K.A., "Data Mining and Knowledge Discovery: A Review of Issues and a Multistrategy Approach," Reports of the Machine Learning and Inference Laboratory, MLI 97-2, George Mason University, Fairfax, VA, 1997.

Formação de ConceitosFormação de Conceitos

Dado: um conjunto de instâncias e as suas descrições respectivas (apresentados seqüencialmente ou não)

Encontrar: agrupamentos que organizem essas instâncias em grupos

Encontrar: uma definição intencional de cada grupo

Encontrar: uma organização hierárquica desses grupos

Com que objetivo: para uma melhor compreensão do mundo e para prever o comportamento do mesmo no futuro

Características dos Métodos para Formação de Características dos Métodos para Formação de ConceitosConceitos

Representação do conhecimento em uma hierarquia conceptual

cada nó representa um conceitoos nós são ordenados parcialmente segundo a

generalidadecada nó dispõe de uma descrição intencional do conceito

Classificação Top-dow das instâncias

Natureza não supervisionada das tarefas de aprendizagem

Integração da aprendizagem e da performancea componente performance (classificar uma instância)

dirige a aprendizagem (modificação da hierarquia de conceitos)

Aprendizagem como uma escalada incremental de colinas