Mineração da Dados

Preview:

DESCRIPTION

Mineração da Dados. Entradas: Conceitos, instâncias, atributos. Terminologia O que é um conceito ? Classificação, associação, agrupamento, predição numérica O que é um exemplo ? Relações, arquivos flats, recursão O que é um atributo? Nominal, ordinal, intervalo Preparando a entrada - PowerPoint PPT Presentation

Citation preview

Mineração da Dados

2

Entradas: Conceitos, instâncias, atributos

● Terminologia● O que é um conceito?

Classificação, associação, agrupamento, predição numérica● O que é um exemplo?

Relações, arquivos flats, recursão● O que é um atributo?

Nominal, ordinal, intervalo● Preparando a entrada

ARFF, atributos, valores faltando

3

Terminologia

● Componentes da entrada: Conceitos: tipos

● Propósito: descrição inteligível e operacional Instâncias: o exemplo independente do conceito

● Note:entradas mas complicadas são possíveis Atributos: medindo aspectos de uma instância

● Foco em nominais e numéricos

4

O que é um conceito?● Estilo do aprendizado:

Classificação:predição de uma classe discreta

Associação:detecção de associação entre características

Agrupamento (Clustering):agrupamento de instâncias similares em grupos

Predição numérica:predição de um valor numérico

● Conceito: aquilo que se aprende● Descrição do conceito:

saída do esquema de aprendizado

5

Classificação

● Exemplos de problemas: weather, contact lenses, ● A tarefa de Classificação é supervisionada

Os exemplos são fornecidos com a saída esperada● A saída é chamada de classe● Mede-se o sucesso em dados não vistos anteriormente,● porem conhece se a classe ● Na pratica o sucesso é medido de forma subjetiva

6

Associação

● Pode ser aplicada se nenhuma classe é especificada e qualquer tipo de estrutura é considerada interessante

● Diferenças com a classificação: Podem predizer qualquer atributo e mais de um atributo Portanto: existem muito mais regras de associação do que

regras de classificação Assim: restrições são necessárias

● Cobertura mínima e máxima acuracia

7

Agrupamento (Clustering)

● Encontrar grupos de itens que são similares● Agrupamento é não supervisionado

A classe de um exemplo não é conhecida● O sucesso é subjetivo

Iris virginica1.95.12.75.8102

101

52

51

2

1

Iris virginica2.56.03.36.3

Iris versicolor1.54.53.26.4

Iris versicolor1.44.73.27.0

Iris setosa0.21.43.04.9

Iris setosa0.21.43.55.1

TypePetal widthPetal lengthSepal widthSepal length

Exemplo de descrição (I)

Agrupamento Exemplo:

◦ vector quantization;

renda

déb

ito

++

++

+

+

+

+

++

++

+

+

+

+

t

+

+: exemplo

Análise de crédito

Métodos

9

Predição Numerica● Uma variante da classificação na qual a classe é numérica

(também chamada de regressão)● O aprendizado é supervisionado

Os exemplos são fornecidos com o valor alvo● Medida de sucesso nos dados de teste

……………

40FalseNormalMildRainy

55FalseHighHot Overcast

0TrueHighHotSunny

5FalseHighHotSunny

Play-timeWindyHumidityTemperatureOutlook

10

O que é um exemplo?● Instância: tipo especifico de exemplo

● Algo a ser classificado, associado ou agrupado● Individual, exemplo independente do conceito alvo● Caracterizado por um conjunto pre-determinado de

atributos● Entrada do algoritmo de aprendizado: conjunto de

instâncias/bases● Representados como uma relação simples/arquivo flat

11

Uma arvore de familia

=

Steven

M

Graham

M

Pam

F

Grace

F

Ray

M=

Ian

M

Pippa

F

Brian

M=

Anna

F

Nikki

F

Peggy

F

Peter

M

12

Arvore da familia representado como um arquivo

IanPamFemaleNikki

IanPamFemaleAnna

RayGraceMaleBrian

RayGraceFemalePippa

RayGraceMaleIan

PeggyPeterFemalePam

PeggyPeterMaleGraham

PeggyPeterMaleSteven

??FemalePeggy

??MalePeter

parent2Parent1GenderName

13

A relação “Irmão de”

yesAnnaNikki

………

YesNikkiAnna

………

YesPippaIan

………

YesPamSteven

NoGrahamSteven

NoPeterSteven

………

NoStevenPeter

NoPeggyPeter

Sister of?Second personFirst person

NoAll the rest

YesAnnaNikki

YesNikkiAnna

YesPippaBrian

YesPippaIan

YesPamGraham

YesPamSteven

Sister of?Second personFirst person

Assume-se Closed-world

14

Representação completa numa tabela

Ian

Ian

Ray

Ray

Peggy

Peggy

Parent2

Female

Female

Female

Female

Female

Female

Gender

Pam

Pam

Grace

Grace

Peter

Peter

Parent1NameParent2Parent1GenderName

Ian

Ian

Ray

Ray

Peggy

Peggy

Pam

Pam

Grace

Grace

Peter

Peter

Female

Female

Male

Male

Male

Male

NoAll the rest

YesAnnaNikki

YesNikkiAnna

YesPippaBrian

YesPippaIan

YesPamGraham

YesPamSteven

Sisterof?

Second personFirst person

If second person’s gender = femaleand first person’s parent = second person’s parentthen sister-of = yes

15

O que é um atributo?

● Cada instância é descrita como um predefinido conjunto de características, seus atributos

● Porém: o numero de atributos pode variar na pratica● Possível solução: “valores irrelevantes”

● Possíveis tipos de atributos: Nominal, ordinal, intervalos

16

Atributos Nominais

● Os valores são símbolos diferentes● Exemplo: atributo “outlook” da base weather

Valores: “sunny”,”overcast”, e “rainy”● Não existe relação entre os valores nominais (sem ordem

ou medida de distância)● Somente testes de igualdade podem ser realizados

17

Atributos ordinais● Impõe uma ordem nos valores● Porém: não existe distancia nos valores predefinidos● Exemplo:

atributo “temperature” nos dados weather Valores: “hot” > “mild” > “cool”

● Note: adição e subtração não tem sentido● Exemplo de regra:

temperature < hot Þ play = yes● A diferença entre atributos nominais e ordinais não

sempre é clara

18

Quantidades Intervalos

● Os intervalos são ordenados e medidos em unidades fixas e iguais

● Exemplo 1: atributo “temperature” expresso em graus Fahrenheit

● Exemplo 2: atributo “year”● A diferença entre 2 valores faz sentido● A soma ou produto não fazem sentido

19

Atributos

● A maior parte dos algoritmos diferenciam 2 : nominal e ordinal

● Atributos Nominais são também chamados “categorical”, ”enumerated”, ou “discrete”

Porém: “enumerated” e “discrete” implicam em uma ordem

● Caso especial: dicotomia (“boolean” )● Atributos ordinais são chamados de “numeric”, ou

“continuous” Porém: “continuous” implica em continuidade

matematica

20

O formato ARFF

%

% ARFF file for weather data with some numeric features

%

@relation weather

@attribute outlook {sunny, overcast, rainy}

@attribute temperature numeric

@attribute humidity numeric

@attribute windy {true, false}

@attribute play? {yes, no}

@data

sunny, 85, 85, false, no

sunny, 80, 90, true, no

overcast, 83, 86, false, yes

...

21

Atributos adicionais

● ARFF suporta atributos string:

Similar a os atributos nominais porém uma lista de valores não é pre-especificada

● Suporta dados tipo data:

Usa o formato ISO-8601

yyyy-MM-dd-THH:mm:ss

@attribute description string

@attribute today date

Recommended