31
Regressão Regressão e e Previsão Numérica Previsão Numérica

Regressão e Previsão Numérica

Embed Size (px)

DESCRIPTION

Regressão e Previsão Numérica. Objetivos. Obter um modelo que explique o comportamento dos exemplos observados (respostas) e usar esse modelo para fazer predições. Amostra. A amostra de dados deve ser representativa, isto é, cobrir amplamente o domínio do - PowerPoint PPT Presentation

Citation preview

Page 1: Regressão e Previsão Numérica

RegressãoRegressãoee

Previsão NuméricaPrevisão Numérica

Page 2: Regressão e Previsão Numérica

Obter um modelo que explique o comportamento dos exemplos observados (respostas) e usar esse modelo para fazer predições

Objetivos

Planejamento

A amostra de dados deve ser representativa, isto é, cobrir amplamente o domínio do problema considerando as operações rotineiras, e as exceções

Amostra

Definição da metodologia a ser aplicada, avaliação da adequação do modelo e interpretação dos resultados

Page 3: Regressão e Previsão Numérica

PrevisãoPrevisão

Previsão é similar à Classificação Primeiro construa um modelo Depois, use o modelo para a previsão do valor desconhecido

O método mais importante de previsão é a regressão

Regressão linear e múltipla Regressão não linear

Previsão é diferente de Classificação Na classificação, a variável a “explicar” é categórica Na previsão, a variável a “explicar” é contínua

Page 4: Regressão e Previsão Numérica

Relação entre VariáveisRelação entre Variáveis

Com muita freqüência, na prática, verifica-se que existe uma relação entre duas ou mais varáveis.Exemplo: Peso x AlturaCircunferência x RaioQuantidade de vapor x Temperatura

Page 5: Regressão e Previsão Numérica

Ajustamento de curvaAjustamento de curva

Para ajustar uma equação que relacione as variáveis, é necessário: Colecionar dados que indiquem valores Colocar os dados em um sistema de coordenadas cartesianas (Diagrama de dispersão) Visualizar a curva de dispersão (curva regular que aproxima os dados)

Page 6: Regressão e Previsão Numérica

Correlação LinearCorrelação LinearÉ quando os dados parecem estar bem

próximos a uma linha reta. É o tipo mais simples de ajustamento e pode ser descrito pela equação:

Y = 0 + 1 X

Page 7: Regressão e Previsão Numérica

Correlação Não-LinearCorrelação Não-Linear

Quando os dados não estão próximos a uma linha reta. Existem várias equações:

Y = 0 + 1 X + 2 X2

Y = 0 + 1 X + 2 X2 + 3 X3

Y = 0 + 1 X + 2 X2 + 3 X3+ ... + nXn

Page 8: Regressão e Previsão Numérica

Sejam os valores de uma variável dependente (resposta) Yrelacionados com os valores valores de m variáveis independentes Xk por meio de um modelo estocástico

Yt = 0+ 1X1+ 2X2+...+ mXm + t t = 1,...,n

k – parâmetro desconhecido que indica o grau de associação linear da variável independente Xk com a variável dependente Y t – erro aleatório devido a natureza estocástica de Y

Regressão Linear Múltipla

Page 9: Regressão e Previsão Numérica

Suposições para a análise do modelo de Regressão Linear

Resíduos com variância constante, não correlacionados e média zero

Normalidade nos resíduos (não necessariamente)

Número de parâmetros menor que o número deobservações (problema de overfitting)

Page 10: Regressão e Previsão Numérica

Métodos de Estimação dos Parâmetros

Mínimos Quadrados

Y = X +

Y – vetor de respostas (n 1)X - matriz de observações independentes (n p) - vetor de parâmetros - vetor de erros (n 1)

Modelo

Page 11: Regressão e Previsão Numérica

Método dos mínimos quadradosMétodo dos mínimos quadrados

Para evitar o critério individual na construção de retas, parábolas ou outras curvas de ajustamento que se adaptem ao conjunto de dados, é necessário instituir uma definição da “melhor reta de ajustamento”, da “melhor parábola de ajustamento”, etc.

Para um dado valor X, por exemplo X1, haverá uma diferença entre o valor Y1 e o valor correspondente na curva. Representamos esta diferença por 1 que é muitas vezes designado como desvio, erro ou resíduo e pode ser positivo negativo ou nulo.

Page 12: Regressão e Previsão Numérica

Método dos mínimos quadradosMétodo dos mínimos quadrados

De todas as curvas que se ajustam a um conjunto de pontos, a que tem a propriedade de apresentar um mínimo valor de

12+ 2

2 + 32 + ...+ n

2 é denominada a melhor curva de ajustamento.

Diz-se que uma curva, que apresenta esta propriedade, ajusta os dados no sentido dos mínimos quadrados é denominada curva de mínimos quadrados.

Page 13: Regressão e Previsão Numérica

Métodos de Mínimos Quadrados com suposição de normalidade

A idéia é obter uma estimativa b para o vetor de parâmetros que minimize a soma de quadrados dos erros ’

Como E()=0 então o modelo é expresso por E(Y) = X

’ = (Y - X)’ (Y - X) = Y’ Y - ’X’Y – Y’X + ’X’X = Y’ Y - 2’X’Y + ’X’X

A soma de quadrados de resíduos

Page 14: Regressão e Previsão Numérica

A solução do sistema é

Vetor de valores ajustados

XbY ˆ

0

βεε'

Condição de mínimo

Ytt Xβ)XX(

Yb t1t X)XX(β

Page 15: Regressão e Previsão Numérica

O erro nas observações é:

)(ˆ 10 iiiii xbbyyye

Para n observações, a média do erro é:

xbbye

xbbyn

en

e ii

ii

i

10

10 )}({11

Page 16: Regressão e Previsão Numérica

Supondo que a média do erro é zero

xbyb 10

Substituindo b0 na equação de erro vamos obter:

221 xnxyxnxy

b

Page 17: Regressão e Previsão Numérica

25 pares de observações onde Y =quantidade de vapor usado por mêse X = temperatura em graus Farenheit

Experimento 1

1 10.98 35.3 13 11.88 28.12 11.13 29.7 14 9.57 39.13 12.51 30.8 15 10.94 46.84 8.40 58.8 16 9.58 48.55 9.27 61.4 17 10.09 59.36 8.73 71.3 18 8.11 70.07 6.36 74.4 19 6.83 70.08 8.50 76.7 20 8.88 74.59 7.82 70.7 21 7.68 72.110 9.14 57.5 22 8.47 58.111 8.24 46.4 23 8.86 44.612 12.19 28.9

No obs. Y YNo obs.X X

24 10.36 33.425 11.08 28.6

Page 18: Regressão e Previsão Numérica

432118211315 .YX X iii

Para n = 25 e

424.9Y60.52X42.76323 X 2i

080.042.7154128.571

1

b

iii XXbbY 080.0623.13ˆ10

Portanto

623,1360.52*080.0424.90 b

Page 19: Regressão e Previsão Numérica

30 40 50 60 70 80

6

7

8

9

10

11

12

13

X

Y

807060504030

11,5

10,5

9,5

8,5

7,5

ajustadosValores

X

Gráfico 2: Temperaturaversus valores ajustados

Gráfico 1: Temperatura versus Qtd de vapor

O gráfico 1 mostra que existe uma relação linear entre a qtdde vapor e a temperatura. O gráfico 2 ilustra a regressão linear.

Page 20: Regressão e Previsão Numérica

Avaliação de desempenho do modelo de Regressão

R2 – mede a variabilidade de explicada pelo modelo de regressão

2

2

2

)(

)ˆ(

YY

YYR

ii

ii

Y

Exemplo: Para os dados do experimento 1

71.081.63

5924.45R 2

Estatística

Page 21: Regressão e Previsão Numérica

Teste de aceitação do modelo H0: = 0H1: 0

Tabela 1 : Análise de Variância

RegressãoResíduo

Variação Graus de Liberdade

p-1n-p

n-1Total corretopor Y

Soma de Quadrados ( SS)

Soma de Quadrados média (MS)

2n

1ti )YY(

2

1

)ˆ( i

n

ti YY

2n

1ti YY )(

SSReg/(p-1)

s2 = SSRes/(n-p)

Estatística do teste (F)

)pn/(SS)1p/(SS

sRe

gRe

F tem distribuição com p-1,n-p graus de liberdadee nível de significância 1-

Page 22: Regressão e Previsão Numérica

Teste de aceitação do modelo

Região de aceitação da hipótese H0

)1()/()1/(

1,1Re

Re

pnps

g FpnSS

pSSF

H0: Rejeita-se o modeloH1: Aceita-se o modelo

Page 23: Regressão e Previsão Numérica

RegressãoResíduo

Variação Graus de Liberdade

123

24Total corretopor Y

Soma de Quadrados ( SS)

Soma de Quadrados média MS

45.590.79

Valor daEstatística do teste (F)

Tabela 1 : Análise de Variância

Exemplo: Considere o modelo do exemplo anterior

45.5918.22

57.54

63.81

Valor de F1,22(0,95) = 4.28

Como a estatística F=57.54 > 4.28 rejeitamos H0

Page 24: Regressão e Previsão Numérica

Teste de significância do vetor de parâmetros ()

Estatística do teste

)( i

i

bVarbT

H0: i = 0 (i = 1,...,p)H1: i 0

Região de aceitação da hipótese H0

)2/1( pntT

T tem distribuição t-student com n-p graus de liberdade

Page 25: Regressão e Previsão Numérica

Regression Analysis: C1 versus C2

The regression equation isC1 = 13,6 - 0,0798 C2

Predictor Coef SE Coef T PConstant 13,6230 0,5815 23,43 0,000C2 -0,07983 0,01052 -7,59 0,000

S = 0,8901 R-Sq = 71,4% R-Sq(adj) = 70,2%

Analysis of Variance

Source DF SS MS F PRegression 1 45,592 45,592 57,54 0,000Residual Error 23 18,223 0,792Total 24 63,816

Page 26: Regressão e Previsão Numérica

Intervalo de confiança para o vetor b

)b(Var)2/(tb ipni

b tem distribuição t-student(n-p)

i = 1,...p

Exemplo: Continuando com o exemplo anterior

H0: 1 = 0 (i = 1,...,p)H1: 1 0

|T| =| -0.07980/0.0105| = 7.6 > t23(0.975)=2.069Rejeita H0

Intervalo de confiança : -0.1016 < 1< -0.0581

Page 27: Regressão e Previsão Numérica

Diagnóstico da RegressãoAnálise do modelo Exemplo 1

Os resultados do ajustamento revelam que :

a variável temperatura é significativa no modelo (|t|=2.069 > 2) a variabilidade dos dados explicada pelo modelo é boa (R2 = 0.71) o valor da F=57.54 > F1,23(5%) indica que a regressão é significativa ao nível de confiança de 95%

Page 28: Regressão e Previsão Numérica

Diagnóstico da RegressãoAnálise gráfica dos resíduos

1 – Normalidade da variável resposta

2 – Independência das observações

3 – Se uma variável explicativa não incluída no modelo é relevante

Page 29: Regressão e Previsão Numérica

252015105

1

0

-1

-2

Observation Order

Res

idua

l

Residuals Versus the Order of the Data(response is C1)

7,5 8,5 9,5 10,5 11,5

-2

-1

0

1

Fitted Value

Res

idua

l

Residuals Versus the Fitted Values(response is C1)

Diagnóstico da Regressão

Os resíduos são aleatórios. Os valores ajustados não apresentam tendência

Page 30: Regressão e Previsão Numérica

1,51,00,5-0,0-0,5-1,0-1,5

7

6

5

4

3

2

1

0

Residual

Freq

uenc

y

Histogram of the Residuals(response is C1)

-2 -1 0 1

-2

-1

0

1

2

Nor

mal

Sco

re

Residual

Normal Probability Plot of the Residuals(response is C1)

Diagnóstico da Regressão

Os resíduos apresentam normalidade.

O modelo proposto se ajusta aos dados, pois as hipótesesbásicas da regressão clássica são satisfeitas.

Page 31: Regressão e Previsão Numérica

Modelos de Regressão Não Linear

A não linearidade é dada pela função de regressão

Yt = 0+ 1X1+ X2 + t t = 1,...,n

Um método de estimação: Mínimos Quadrados não Lineares