Download pptx - Mineração da Dados

Transcript
Page 1: Mineração da Dados

Mineração da Dados

Page 2: Mineração da Dados

2

Entradas: Conceitos, instâncias, atributos

● Terminologia● O que é um conceito?

Classificação, associação, agrupamento, predição numérica● O que é um exemplo?

Relações, arquivos flats, recursão● O que é um atributo?

Nominal, ordinal, intervalo● Preparando a entrada

ARFF, atributos, valores faltando

Page 3: Mineração da Dados

3

Terminologia

● Componentes da entrada: Conceitos: tipos

● Propósito: descrição inteligível e operacional Instâncias: o exemplo independente do conceito

● Note:entradas mas complicadas são possíveis Atributos: medindo aspectos de uma instância

● Foco em nominais e numéricos

Page 4: Mineração da Dados

4

O que é um conceito?● Estilo do aprendizado:

Classificação:predição de uma classe discreta

Associação:detecção de associação entre características

Agrupamento (Clustering):agrupamento de instâncias similares em grupos

Predição numérica:predição de um valor numérico

● Conceito: aquilo que se aprende● Descrição do conceito:

saída do esquema de aprendizado

Page 5: Mineração da Dados

5

Classificação

● Exemplos de problemas: weather, contact lenses, ● A tarefa de Classificação é supervisionada

Os exemplos são fornecidos com a saída esperada● A saída é chamada de classe● Mede-se o sucesso em dados não vistos anteriormente,● porem conhece se a classe ● Na pratica o sucesso é medido de forma subjetiva

Page 6: Mineração da Dados

6

Associação

● Pode ser aplicada se nenhuma classe é especificada e qualquer tipo de estrutura é considerada interessante

● Diferenças com a classificação: Podem predizer qualquer atributo e mais de um atributo Portanto: existem muito mais regras de associação do que

regras de classificação Assim: restrições são necessárias

● Cobertura mínima e máxima acuracia

Page 7: Mineração da Dados

7

Agrupamento (Clustering)

● Encontrar grupos de itens que são similares● Agrupamento é não supervisionado

A classe de um exemplo não é conhecida● O sucesso é subjetivo

Iris virginica1.95.12.75.8102

101

52

51

2

1

Iris virginica2.56.03.36.3

Iris versicolor1.54.53.26.4

Iris versicolor1.44.73.27.0

Iris setosa0.21.43.04.9

Iris setosa0.21.43.55.1

TypePetal widthPetal lengthSepal widthSepal length

Page 8: Mineração da Dados

Exemplo de descrição (I)

Agrupamento Exemplo:

◦ vector quantization;

renda

déb

ito

++

++

+

+

+

+

++

++

+

+

+

+

t

+

+: exemplo

Análise de crédito

Métodos

Page 9: Mineração da Dados

9

Predição Numerica● Uma variante da classificação na qual a classe é numérica

(também chamada de regressão)● O aprendizado é supervisionado

Os exemplos são fornecidos com o valor alvo● Medida de sucesso nos dados de teste

……………

40FalseNormalMildRainy

55FalseHighHot Overcast

0TrueHighHotSunny

5FalseHighHotSunny

Play-timeWindyHumidityTemperatureOutlook

Page 10: Mineração da Dados

10

O que é um exemplo?● Instância: tipo especifico de exemplo

● Algo a ser classificado, associado ou agrupado● Individual, exemplo independente do conceito alvo● Caracterizado por um conjunto pre-determinado de

atributos● Entrada do algoritmo de aprendizado: conjunto de

instâncias/bases● Representados como uma relação simples/arquivo flat

Page 11: Mineração da Dados

11

Uma arvore de familia

=

Steven

M

Graham

M

Pam

F

Grace

F

Ray

M=

Ian

M

Pippa

F

Brian

M=

Anna

F

Nikki

F

Peggy

F

Peter

M

Page 12: Mineração da Dados

12

Arvore da familia representado como um arquivo

IanPamFemaleNikki

IanPamFemaleAnna

RayGraceMaleBrian

RayGraceFemalePippa

RayGraceMaleIan

PeggyPeterFemalePam

PeggyPeterMaleGraham

PeggyPeterMaleSteven

??FemalePeggy

??MalePeter

parent2Parent1GenderName

Page 13: Mineração da Dados

13

A relação “Irmão de”

yesAnnaNikki

………

YesNikkiAnna

………

YesPippaIan

………

YesPamSteven

NoGrahamSteven

NoPeterSteven

………

NoStevenPeter

NoPeggyPeter

Sister of?Second personFirst person

NoAll the rest

YesAnnaNikki

YesNikkiAnna

YesPippaBrian

YesPippaIan

YesPamGraham

YesPamSteven

Sister of?Second personFirst person

Assume-se Closed-world

Page 14: Mineração da Dados

14

Representação completa numa tabela

Ian

Ian

Ray

Ray

Peggy

Peggy

Parent2

Female

Female

Female

Female

Female

Female

Gender

Pam

Pam

Grace

Grace

Peter

Peter

Parent1NameParent2Parent1GenderName

Ian

Ian

Ray

Ray

Peggy

Peggy

Pam

Pam

Grace

Grace

Peter

Peter

Female

Female

Male

Male

Male

Male

NoAll the rest

YesAnnaNikki

YesNikkiAnna

YesPippaBrian

YesPippaIan

YesPamGraham

YesPamSteven

Sisterof?

Second personFirst person

If second person’s gender = femaleand first person’s parent = second person’s parentthen sister-of = yes

Page 15: Mineração da Dados

15

O que é um atributo?

● Cada instância é descrita como um predefinido conjunto de características, seus atributos

● Porém: o numero de atributos pode variar na pratica● Possível solução: “valores irrelevantes”

● Possíveis tipos de atributos: Nominal, ordinal, intervalos

Page 16: Mineração da Dados

16

Atributos Nominais

● Os valores são símbolos diferentes● Exemplo: atributo “outlook” da base weather

Valores: “sunny”,”overcast”, e “rainy”● Não existe relação entre os valores nominais (sem ordem

ou medida de distância)● Somente testes de igualdade podem ser realizados

Page 17: Mineração da Dados

17

Atributos ordinais● Impõe uma ordem nos valores● Porém: não existe distancia nos valores predefinidos● Exemplo:

atributo “temperature” nos dados weather Valores: “hot” > “mild” > “cool”

● Note: adição e subtração não tem sentido● Exemplo de regra:

temperature < hot Þ play = yes● A diferença entre atributos nominais e ordinais não

sempre é clara

Page 18: Mineração da Dados

18

Quantidades Intervalos

● Os intervalos são ordenados e medidos em unidades fixas e iguais

● Exemplo 1: atributo “temperature” expresso em graus Fahrenheit

● Exemplo 2: atributo “year”● A diferença entre 2 valores faz sentido● A soma ou produto não fazem sentido

Page 19: Mineração da Dados

19

Atributos

● A maior parte dos algoritmos diferenciam 2 : nominal e ordinal

● Atributos Nominais são também chamados “categorical”, ”enumerated”, ou “discrete”

Porém: “enumerated” e “discrete” implicam em uma ordem

● Caso especial: dicotomia (“boolean” )● Atributos ordinais são chamados de “numeric”, ou

“continuous” Porém: “continuous” implica em continuidade

matematica

Page 20: Mineração da Dados

20

O formato ARFF

%

% ARFF file for weather data with some numeric features

%

@relation weather

@attribute outlook {sunny, overcast, rainy}

@attribute temperature numeric

@attribute humidity numeric

@attribute windy {true, false}

@attribute play? {yes, no}

@data

sunny, 85, 85, false, no

sunny, 80, 90, true, no

overcast, 83, 86, false, yes

...

Page 21: Mineração da Dados

21

Atributos adicionais

● ARFF suporta atributos string:

Similar a os atributos nominais porém uma lista de valores não é pre-especificada

● Suporta dados tipo data:

Usa o formato ISO-8601

yyyy-MM-dd-THH:mm:ss

@attribute description string

@attribute today date


Recommended