21
Mineração da Dados

2 Entradas: Conceitos, instâncias, atributos Terminologia O que é um conceito? Classificação, associação, agrupamento, predição numérica O que é um exemplo?

Embed Size (px)

Citation preview

Page 1: 2 Entradas: Conceitos, instâncias, atributos Terminologia O que é um conceito? Classificação, associação, agrupamento, predição numérica O que é um exemplo?

Mineração da Dados

Page 2: 2 Entradas: Conceitos, instâncias, atributos Terminologia O que é um conceito? Classificação, associação, agrupamento, predição numérica O que é um exemplo?

2

Entradas: Conceitos, instâncias, atributos

● Terminologia● O que é um conceito?

Classificação, associação, agrupamento, predição numérica● O que é um exemplo?

Relações, arquivos flats, recursão● O que é um atributo?

Nominal, ordinal, intervalo● Preparando a entrada

ARFF, atributos, valores faltando

Page 3: 2 Entradas: Conceitos, instâncias, atributos Terminologia O que é um conceito? Classificação, associação, agrupamento, predição numérica O que é um exemplo?

3

Terminologia

● Componentes da entrada: Conceitos: tipos

● Propósito: descrição inteligível e operacional Instâncias: o exemplo independente do conceito

● Note:entradas mas complicadas são possíveis Atributos: medindo aspectos de uma instância

● Foco em nominais e numéricos

Page 4: 2 Entradas: Conceitos, instâncias, atributos Terminologia O que é um conceito? Classificação, associação, agrupamento, predição numérica O que é um exemplo?

4

O que é um conceito?● Estilo do aprendizado:

Classificação:predição de uma classe discreta

Associação:detecção de associação entre características

Agrupamento (Clustering):agrupamento de instâncias similares em grupos

Predição numérica:predição de um valor numérico

● Conceito: aquilo que se aprende● Descrição do conceito:

saída do esquema de aprendizado

Page 5: 2 Entradas: Conceitos, instâncias, atributos Terminologia O que é um conceito? Classificação, associação, agrupamento, predição numérica O que é um exemplo?

5

Classificação

● Exemplos de problemas: weather, contact lenses, ● A tarefa de Classificação é supervisionada

Os exemplos são fornecidos com a saída esperada● A saída é chamada de classe● Mede-se o sucesso em dados não vistos anteriormente,● porem conhece se a classe ● Na pratica o sucesso é medido de forma subjetiva

Page 6: 2 Entradas: Conceitos, instâncias, atributos Terminologia O que é um conceito? Classificação, associação, agrupamento, predição numérica O que é um exemplo?

6

Associação

● Pode ser aplicada se nenhuma classe é especificada e qualquer tipo de estrutura é considerada interessante

● Diferenças com a classificação: Podem predizer qualquer atributo e mais de um atributo Portanto: existem muito mais regras de associação do que

regras de classificação Assim: restrições são necessárias

● Cobertura mínima e máxima acuracia

Page 7: 2 Entradas: Conceitos, instâncias, atributos Terminologia O que é um conceito? Classificação, associação, agrupamento, predição numérica O que é um exemplo?

7

Agrupamento (Clustering)

● Encontrar grupos de itens que são similares● Agrupamento é não supervisionado

A classe de um exemplo não é conhecida● O sucesso é subjetivo

Iris virginica1.95.12.75.8102

101

52

51

2

1

Iris virginica2.56.03.36.3

Iris versicolor1.54.53.26.4

Iris versicolor1.44.73.27.0

Iris setosa0.21.43.04.9

Iris setosa0.21.43.55.1

TypePetal widthPetal lengthSepal widthSepal length

Page 8: 2 Entradas: Conceitos, instâncias, atributos Terminologia O que é um conceito? Classificação, associação, agrupamento, predição numérica O que é um exemplo?

Exemplo de descrição (I)

Agrupamento Exemplo:

◦ vector quantization;

renda

déb

ito

++

++

+

+

+

+

++

++

+

+

+

+

t

+

+: exemplo

Análise de crédito

Métodos

Page 9: 2 Entradas: Conceitos, instâncias, atributos Terminologia O que é um conceito? Classificação, associação, agrupamento, predição numérica O que é um exemplo?

9

Predição Numerica● Uma variante da classificação na qual a classe é numérica

(também chamada de regressão)● O aprendizado é supervisionado

Os exemplos são fornecidos com o valor alvo● Medida de sucesso nos dados de teste

……………

40FalseNormalMildRainy

55FalseHighHot Overcast

0TrueHighHotSunny

5FalseHighHotSunny

Play-timeWindyHumidityTemperatureOutlook

Page 10: 2 Entradas: Conceitos, instâncias, atributos Terminologia O que é um conceito? Classificação, associação, agrupamento, predição numérica O que é um exemplo?

10

O que é um exemplo?● Instância: tipo especifico de exemplo

● Algo a ser classificado, associado ou agrupado● Individual, exemplo independente do conceito alvo● Caracterizado por um conjunto pre-determinado de

atributos● Entrada do algoritmo de aprendizado: conjunto de

instâncias/bases● Representados como uma relação simples/arquivo flat

Page 11: 2 Entradas: Conceitos, instâncias, atributos Terminologia O que é um conceito? Classificação, associação, agrupamento, predição numérica O que é um exemplo?

11

Uma arvore de familia

=

Steven

M

Graham

M

Pam

F

Grace

F

Ray

M=

Ian

M

Pippa

F

Brian

M=

Anna

F

Nikki

F

Peggy

F

Peter

M

Page 12: 2 Entradas: Conceitos, instâncias, atributos Terminologia O que é um conceito? Classificação, associação, agrupamento, predição numérica O que é um exemplo?

12

Arvore da familia representado como um arquivo

IanPamFemaleNikki

IanPamFemaleAnna

RayGraceMaleBrian

RayGraceFemalePippa

RayGraceMaleIan

PeggyPeterFemalePam

PeggyPeterMaleGraham

PeggyPeterMaleSteven

??FemalePeggy

??MalePeter

parent2Parent1GenderName

Page 13: 2 Entradas: Conceitos, instâncias, atributos Terminologia O que é um conceito? Classificação, associação, agrupamento, predição numérica O que é um exemplo?

13

A relação “Irmão de”

yesAnnaNikki

………

YesNikkiAnna

………

YesPippaIan

………

YesPamSteven

NoGrahamSteven

NoPeterSteven

………

NoStevenPeter

NoPeggyPeter

Sister of?Second personFirst person

NoAll the rest

YesAnnaNikki

YesNikkiAnna

YesPippaBrian

YesPippaIan

YesPamGraham

YesPamSteven

Sister of?Second personFirst person

Assume-se Closed-world

Page 14: 2 Entradas: Conceitos, instâncias, atributos Terminologia O que é um conceito? Classificação, associação, agrupamento, predição numérica O que é um exemplo?

14

Representação completa numa tabela

Ian

Ian

Ray

Ray

Peggy

Peggy

Parent2

Female

Female

Female

Female

Female

Female

Gender

Pam

Pam

Grace

Grace

Peter

Peter

Parent1NameParent2Parent1GenderName

Ian

Ian

Ray

Ray

Peggy

Peggy

Pam

Pam

Grace

Grace

Peter

Peter

Female

Female

Male

Male

Male

Male

NoAll the rest

YesAnnaNikki

YesNikkiAnna

YesPippaBrian

YesPippaIan

YesPamGraham

YesPamSteven

Sisterof?

Second personFirst person

If second person’s gender = femaleand first person’s parent = second person’s parentthen sister-of = yes

Page 15: 2 Entradas: Conceitos, instâncias, atributos Terminologia O que é um conceito? Classificação, associação, agrupamento, predição numérica O que é um exemplo?

15

O que é um atributo?

● Cada instância é descrita como um predefinido conjunto de características, seus atributos

● Porém: o numero de atributos pode variar na pratica● Possível solução: “valores irrelevantes”

● Possíveis tipos de atributos: Nominal, ordinal, intervalos

Page 16: 2 Entradas: Conceitos, instâncias, atributos Terminologia O que é um conceito? Classificação, associação, agrupamento, predição numérica O que é um exemplo?

16

Atributos Nominais

● Os valores são símbolos diferentes● Exemplo: atributo “outlook” da base weather

Valores: “sunny”,”overcast”, e “rainy”● Não existe relação entre os valores nominais (sem ordem

ou medida de distância)● Somente testes de igualdade podem ser realizados

Page 17: 2 Entradas: Conceitos, instâncias, atributos Terminologia O que é um conceito? Classificação, associação, agrupamento, predição numérica O que é um exemplo?

17

Atributos ordinais● Impõe uma ordem nos valores● Porém: não existe distancia nos valores predefinidos● Exemplo:

atributo “temperature” nos dados weather Valores: “hot” > “mild” > “cool”

● Note: adição e subtração não tem sentido● Exemplo de regra:

temperature < hot Þ play = yes● A diferença entre atributos nominais e ordinais não

sempre é clara

Page 18: 2 Entradas: Conceitos, instâncias, atributos Terminologia O que é um conceito? Classificação, associação, agrupamento, predição numérica O que é um exemplo?

18

Quantidades Intervalos

● Os intervalos são ordenados e medidos em unidades fixas e iguais

● Exemplo 1: atributo “temperature” expresso em graus Fahrenheit

● Exemplo 2: atributo “year”● A diferença entre 2 valores faz sentido● A soma ou produto não fazem sentido

Page 19: 2 Entradas: Conceitos, instâncias, atributos Terminologia O que é um conceito? Classificação, associação, agrupamento, predição numérica O que é um exemplo?

19

Atributos

● A maior parte dos algoritmos diferenciam 2 : nominal e ordinal

● Atributos Nominais são também chamados “categorical”, ”enumerated”, ou “discrete”

Porém: “enumerated” e “discrete” implicam em uma ordem

● Caso especial: dicotomia (“boolean” )● Atributos ordinais são chamados de “numeric”, ou

“continuous” Porém: “continuous” implica em continuidade

matematica

Page 20: 2 Entradas: Conceitos, instâncias, atributos Terminologia O que é um conceito? Classificação, associação, agrupamento, predição numérica O que é um exemplo?

20

O formato ARFF

%

% ARFF file for weather data with some numeric features

%

@relation weather

@attribute outlook {sunny, overcast, rainy}

@attribute temperature numeric

@attribute humidity numeric

@attribute windy {true, false}

@attribute play? {yes, no}

@data

sunny, 85, 85, false, no

sunny, 80, 90, true, no

overcast, 83, 86, false, yes

...

Page 21: 2 Entradas: Conceitos, instâncias, atributos Terminologia O que é um conceito? Classificação, associação, agrupamento, predição numérica O que é um exemplo?

21

Atributos adicionais

● ARFF suporta atributos string:

Similar a os atributos nominais porém uma lista de valores não é pre-especificada

● Suporta dados tipo data:

Usa o formato ISO-8601

yyyy-MM-dd-THH:mm:ss

@attribute description string

@attribute today date