11
PREDIÇÃO DATA MINING AULA 13 SANDRA DE AMO Pós-graduação em Ciência da Computação - UFU 1

Predição Data Mining Aula 13 Sandra de Amo

Embed Size (px)

DESCRIPTION

Predição Data Mining Aula 13 Sandra de Amo. Predição. O que é Classificação: prevê o valor de um atributo classe Predição: prevê o valor de um atributo qualquer, contínuo Exemplos Predizer o salário dos mestres formados no PPG-CC após 10 anos de experiência. - PowerPoint PPT Presentation

Citation preview

Page 1: Predição Data Mining Aula 13 Sandra de  Amo

PREDIÇÃODATA MINING AULA 13

SANDRA DE AMO

Pós-graduação em Ciência da Computação - UFU

1

Page 2: Predição Data Mining Aula 13 Sandra de  Amo

PREDIÇÃO O que é

Classificação: prevê o valor de um atributo classe

Predição: prevê o valor de um atributo qualquer, contínuo

Exemplos

Predizer o salário dos mestres formados no PPG-CC após 10 anos de experiência.

Predizer o potencial de venda de um produto dado o seu preço.

Pós-g

raduaçã

o e

m C

iência

da

Com

puta

ção - U

FU

2

Page 3: Predição Data Mining Aula 13 Sandra de  Amo

TAREFA DE PREDIÇÃO

Dados: Conjunto de vetores de n+1 variáveis (x1,x2,…,xn,y) dois tipos de variáveis

x1, x2, ..., xn = variáveis explicativasY = resposta (variável cujo valor se quer

predizer)

Objetivo: “descobrir” uma função “preditora” f: Rn R

3

Pós-g

raduaçã

o e

m C

iência

da

Com

puta

ção - U

FU

Page 4: Predição Data Mining Aula 13 Sandra de  Amo

MÉTODOS

RegressãoMetodologia estatística desenvolvida pelo

matemático Sir Frances Galton (1822-1911)

Tipos de Regressão Regressão linear Regressão não linear (polinomial, exponencial)

Outros métodos: Classificador KNN pode ser utilizado como

preditor Redes Neurais podem ser adaptadas para

atuarem como preditores

Pós-g

raduaçã

o e

m C

iência

da

Com

puta

ção - U

FU

4

Page 5: Predição Data Mining Aula 13 Sandra de  Amo

MÉTODO DA REGRESSÃO LINEAR SIMPLES

Problema (no caso de duas variáveis) Input:

banco de dados de m amostras completas (X,Y) com valores contínuos.

Output: Reta F(x) = w1 x + w0 que minimiza o erro

quadrático SSE

SSE =

Pós-g

raduaçã

o e

m C

iência

da

Com

puta

ção - U

FU

5

Σ (yi – f(xi))2i=1

m

Page 6: Predição Data Mining Aula 13 Sandra de  Amo

REGRESSÃO LINEAR

Y = w0 + w1 X

w0 = ?

w1 = ?

X’

Y’

Pós-g

raduaçã

o e

m C

iência

da

Com

puta

ção - U

FU

6

Page 7: Predição Data Mining Aula 13 Sandra de  Amo

REGRESSÃO LINEAR FUNÇÃO PREDITORA = RETA

w1 = Σ (xi – x)(yi – y)

Σ (xi – x)

i = 1

i = 1

m

m

2

w0 = y – w1 x

x = média dos valores de x1, ... ,xmy = média dos valores de y1, ... ,ym

Equação da reta “preditora” y = w0 + w1x

Pós-g

raduaçã

o e

m C

iência

da C

om

puta

ção -

UFU

7

F(x) = w1 X + w0

Page 8: Predição Data Mining Aula 13 Sandra de  Amo

EXEMPLO

X = anos de experiência y = salário (em R$ 100)

38913361121116

30576472364359902083

Predizer o salário de um mestre formado no PPG-CC após 10 anos de experiência

Pós-g

raduaçã

o e

m C

iência

da C

om

puta

ção -

UFU

8

Page 9: Predição Data Mining Aula 13 Sandra de  Amo

EXEMPLO

W1 = (3-9.1)(30-55.4) + (8 – 9.1)(57-55.4) +... + (16-9.1)(83-55.4)

(3 – 9.1)2 + (8 -9.1)2 + (16 – 9.1)2

= 3.5

W0 = 55.4 – (3.5)(9.1) = 23.6

Equação da reta Y = 23.6 + 3.5 X

Usando esta equação, concluimos que depois de 10 anos de experiência, a previsão de salário é de

Y = 23.6 + 3.5*10 = 58.6 ou R$ 5860,00

Pós-g

raduaçã

o e

m C

iência

da

Com

puta

ção - U

FU

9

Page 10: Predição Data Mining Aula 13 Sandra de  Amo

GENERALIZAÇÃO

Regressão com múltiplas variáveis Y = w0 + w1x1 + w2x2

Regressão polinomial Y = w0 + w1x + w2x + w3x x = x1, x = x2, x = x3 Reduz-se a regressão linear a várias variáveis

2

2

3

3

Pós-g

raduaçã

o e

m C

iência

da

Com

puta

ção - U

FU

10

Page 11: Predição Data Mining Aula 13 Sandra de  Amo

ACURÁCIA DE PREDITORES Seja D um banco de dados de testes da

forma (X1,y1), ..., (Xn, yn). y’1, y’2, ..., y’n : valores preditos Média do erro absoluto = Σ |yi – y’i|

Média do erro quadrático= Σ |yi – y’i|2

Erro absoluto = Σ |yi – y’i| Erro quadrático = Σ |yi – y’i|2

n

n

Pós-g

raduaçã

o e

m C

iência

da

Com

puta

ção - U

FU

11