96
Marco Reis:2014 © Modelação matemática de base estatística/empírica: Construção de modelos empíricos usando metodologias de regressão linear I Engenharia de Processos e Sistemas

Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

Embed Size (px)

Citation preview

Page 1: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

Marco Reis:2014 ©

Modelação matemática de base estatística/empírica:

Construção de modelos empíricos usando

metodologias de regressão linear

I

Engenharia de Processos e Sistemas

Page 2: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

Construção de modelos empíricos

usando metodologias de regressão

linear

Page 3: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

3

Objectivos:

• Identificar a componente estrutural/determinística e aleatória/estocástica do

modelo de RL;

• Compreender o que é um modelo de RL e o seu âmbito de aplicação;

• Perceber como se estimam os parâmetros de um modelo de RL e saber quais os

pressupostos subjacentes ao modelo estimado;

• Interpretar os IC para os coeficientes do modelo (parte estrutural);

• Interpretar os IC para a resposta média e de previsão;

• Saber como validar um modelo de RL;

• Compreender a origem do problema da colinearidade e como o diagnosticar;

• Saber os passos a seguir na construção de uma modelo de RL

• Distinguir os vários métodos de selecção de variáveis

Page 4: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

4

Metodologias de Modelação

Processo Genérico

Variáveis

associadas ao

que entra no

processo (x’s)

Variáveis

associadas ao

que sai do

processo (y’s)

Variáveis ligadas a

parâmetros do processo (x’s)

Objectivo: construir um modelo que relacione as variáveis de entrada (x’s) com as de saída (y’s).

X’s “Inputs” Predictores Regressores Variáveis de entrada Variáveis independentes

Y’s “Outputs” Respostas

Variáveis de saída Variáveis dependentes

Page 5: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

5

Metodologias de Modelação

LC

TC

F0, T0, CA0

F, T, CA

Fcj, Tcj,0

Fcj, Tcj

LC

TC

F0, T0, CA0

F, T, CA

Fcj, Tcj,0

Fcj, Tcj

0

dVF F

dt

/

0 0 0

E RTAA A A

dVCF C FC k e C V

dt

/

0 0 0 ( )E RT

A cj

p p

dVT H UAF T FT k e C V T T

dt C C

,0

,

( ) ( )cj cj

cj cj cj cj

j p cj

dV T UAF T T T T

dt C

2set c setF F K V V

, 1cj cj set c setF F K T T

X

Y

x

E(Y|x)

X

Y

x

E(Y|x)

Modelos baseados em primeiros princípios → Estrutura completamente definida

“Knowledge intensive” “Data intensive”

Modelos empíricos → Algumas restrições quanto à estrutura do modelo

Modelos baseados em dados

→ muito poucas hipóteses são colocadas

quanto à estrutura do modelo

Page 6: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

6

“The curse of dimensionality”

1D: Com N pontos, consegue-se a seguinte taxa de

amostragem, numa linha de comprimento L:

1 2 3 … … N

0 L

NTA

L

Page 7: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

7

“The curse of dimensionality”

2D: Com N pontos, consegue-se a seguinte taxa de

amostragem, num quadrado de lado L:

2

NTA

L

Para garantir igual cobertura, ter-se-ia

de usar N2 pontos

Page 8: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

8

“The curse of dimensionality”

3D: Com N pontos, consegue-se a seguinte taxa de

amostragem, num cubo de lado L:

3

NTA

L

Para garantir igual cobertura, ter-se-ia

de usar N3 pontos

Page 9: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

9

“The curse of dimensionality”

m-D: Com N pontos, consegue-se a seguinte taxa de

amostragem, num hipercubo de lado L:

m

NTA

L

Para garantir igual cobertura, ter-se-ia de usar

Nm pontos

Page 10: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

10

Metodologias de Modelação

Utilidade dos modelos:

Previsão de valores futuros de uma variável de

saída;

Medição do efeito associado a mudanças

processuais;

Controlo e/ou monitorização do processo;

Optimização do processo;

Page 11: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

11

Regressão (Previsão):

As saídas do modelo são variáveis quantitativas;

Classificação:

As saídas do modelo são variáveis qualitativas

(classes ou categorias)

Qualidade do produto (Mau, Intermédio, Bom);

Reconhecimento de caracteres (padrões);

Regressão (Previsão) vs Classificação

Page 12: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

12

Observ. X1 X2 X3 X4

1 0,165 0,11 0,075 0,053

2 0,178 0,14 0,105 0,077

3 0,102 0,089 0,068 0,048

4 0,191 0,107 0,06 0,046

5 0,239 0,146 0,094 0,067

6 0,178 0,115 0,078 0,056

7 0,193 0,089 0,041 0,03

8 0,164 0,113 0,078 0,056

9 0,129 0,098 0,074 0,057

10 0,193 0,134 0,093 0,066

11 0,154 0,071 0,03 0,016

12 0,065 0,053 0,036 0,025

13 0,144 0,078 0,043 0,028

14 0,138 0,118 0,093 0,063

15 0,219 0,145 0,101 0,07

Observ. Y

1 0,456

2 0,456

3 0,152

4 0,76

5 0,76

6 0,608

7 0,76

8 0,456

9 0,304

10 0,608

11 0,608

12 0,152

13 0,608

14 0,304

15 0,76

Regressão (Previsão) Treino do modelo vs Teste do modelo

Modelo

(β0, β1,…, βm,σ2) X Y

Observ. X1 X2 X3 X4

16 0,146 0,17 0,134 0,103

17 0,128 0,144 0,125 0,101

18 0,107 0,105 0,102 0,081

19 0,146 0,174 0,136 0,099

20 0,105 0,126 0,094 0,068

21 0,152 0,205 0,128 0,081

23 0,139 0,207 0,109 0,057

24 0,108 0,162 0,082 0,04

25 0,12 0,187 0,083 0,038

^ ^ ^ ^ I. Treino/Estimação

Xnew

Modelo

(β0, β1,…, βm,σ2) ?

^ ^ ^ ^ II. Teste/Previsão

Page 13: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

13

Observ. C

1 A

2 A

3 B

4 A

5 B

6 B

7 A

8 A

9 B

10 B

11 B

12 A

13 B

14 A

15 A

Observ. X1 X2 X3 X4

1 0,165 0,11 0,075 0,053

2 0,178 0,14 0,105 0,077

3 0,102 0,089 0,068 0,048

4 0,191 0,107 0,06 0,046

5 0,239 0,146 0,094 0,067

6 0,178 0,115 0,078 0,056

7 0,193 0,089 0,041 0,03

8 0,164 0,113 0,078 0,056

9 0,129 0,098 0,074 0,057

10 0,193 0,134 0,093 0,066

11 0,154 0,071 0,03 0,016

12 0,065 0,053 0,036 0,025

13 0,144 0,078 0,043 0,028

14 0,138 0,118 0,093 0,063

15 0,219 0,145 0,101 0,07

Modelo X C

Observ. X1 X2 X3 X4

16 0,146 0,17 0,134 0,103

17 0,128 0,144 0,125 0,101

18 0,107 0,105 0,102 0,081

19 0,146 0,174 0,136 0,099

20 0,105 0,126 0,094 0,068

21 0,152 0,205 0,128 0,081

23 0,139 0,207 0,109 0,057

24 0,108 0,162 0,082 0,04

25 0,12 0,187 0,083 0,038

I. Treino/Estimação

Xnew

Modelo

?

II. Teste/Previsão

Classificação Treino do modelo vs Teste do modelo

Page 14: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

14

Regressão Linear Múltipla

O modelo de regressão linear múltipla

Propriedades do termo εi (pressupostos):

variância dos resíduos é constante;

todos os resíduos são independentes;

seguem uma lei normal com média nula. Pressuposto para fazer inferência estatística sobre o modelo

(IC, TH ao modelo ou seus parâmetros).

0 1 1 2 2i i i m im iY x x x

Componente estrutural Componente estocástica

Page 15: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

15

Regressão Linear Múltipla

β0 - Intercepção na origem (“intercept”,

“constant”);

βi – Coeficientes de regressão parciais (“partial

regression coefficients”).

0 1 1 2 2i i i m im iY x x x

Page 16: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

16

Regressão Linear Múltipla

Pode ser usado para descrever relações não-

lineares, e.g:

Assume que os X’s

estão isentos

de qualquer erro.

2 2

0 1 1 2 2 11 1 22 2 12 1 2y x x x x x x

Page 17: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

17

Regressão Linear Múltipla

Notação matricial

1 11 1 0 1

1

1

1

m

n n nm m n

Y x x

Y x x

Y XB E

Page 18: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

18

Regressão Linear Múltipla

Estimação do modelo de regressão linear

múltipla:

Mínimos quadrados

2

0 1 1 2 2

1

ˆ

ˆ. .,

n

i i i m miB

i

T

B

B Min Y x x x

i e B Min Y XB Y XB

Page 19: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

19

Regressão Linear Múltipla

Estimação de parâmetros em RLM

Minimizar a soma dos desvios quadráticos (verticais …)

3D Surface Plot

Y=105,1527+0,2131*X1+0,4855*X2

195

190

185

180

175

170

165

160

155

Page 20: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

20

Regressão Linear Múltipla

Métodos dos mínimos quadrados:

Solução: CN de optimalidade

Equações normais

do método dos

mínimos quadrados

Page 21: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

21

Regressão Linear Múltipla

Solução (notação matricial):

1

ˆ T T

B X X X Y

Page 22: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

22

Regressão Linear Múltipla

Estimativa da variância do termo estocástico do

modelo de regressão linear múltipla:

N – número de observações

m – número de variáveis

2

2 1

ˆ

ˆ1 1

N

i

i SSr

N m N m

Page 23: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

23

Inferência em Regressão Linear

Múltipla

•Montegomery, D.C.; Peck, E.A. & Vining, G.G. (2006). Introduction to Linear Regression

Analysis. Wiley. 4th ed.

•Montgomery, D.C.; G.C. Runger, 1999, Applied Statistics and Probability for Engineers,

2nd ed., Wiley, NY

•Draper, N.R.; H. Smith, 1998, Applied Regression Analysis, 3rd ed., Wiley, NY

Page 24: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

24

Regressão Linear Múltipla Inferência

Propriedades das estimativas dos parâmetros

Seguem uma distribuição normal multivariada:

12ˆ ~ , TB N B X X

Page 25: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

Regressão

Linear Múltipla

MSR 2009-

2012 ©

Regressão Linear Múltipla Inferência

ANOVA

Teste à significância do modelo de regressão

linear múltipla:

H0: β1 = β2 = … βm = 0

H1: βj ≠ 0 para pelo menos um j

Page 26: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

Regressão

Linear Múltipla

MSR 2009-

2012 ©

2 2

11

2

1

ˆˆn

i

ii

n

i i

i

n

iy yy y yy

Variação Total

SSt

Variação devida à Regressão

SSreg Variação Residual

SSr

Variabilidade observada

Variabilidade explicada pelo modelo (parte estrutural do modelo de regressão)

Variabilidade não explicada pelo modelo

(parte estocástica do modelo de regressão)

= +

Regressão Linear Múltipla Inferência

Decomposição ANOVA da variabilidade (soma dos quadrados)

total (SSt), em termos da componente explicada pelo modelo de

regressão (SSreg) e da componente residual (SSr):

Page 27: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

Regressão

Linear Múltipla

MSR 2009-

2012 ©

Regressão Linear Múltipla Inferência

Tabela ANOVA em regressão linear múltipla:

p = # variáveis de entrada ou regressores

= # parâmetros – 1 0

1

SSreg pF

SSr N p

Fontes de Variação

(1)

Variações (Somas de

quadrados) (2)

Graus de Liberdade

(3)

Médias das Somas dos

Quadrados (4)

Estatística de Teste (F)

(5)

Regressão SSreg p MSreg MSreg / s2

Residual SSr n–p–1 s2

Total SSt N–1

Page 28: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

28

Regressão Linear Múltipla

Métricas de Qualidade do Modelo

Coeficiente de determinação (R2) Uma medida da qualidade do modelo (0≤ R2≤1)

Definição geral (modelos univariados/multivariados)

(Fracção da variabilidade total que é explicada pelo modelo)

2 1SSreg SSr

RSSt SSt

Page 29: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

29

O coeficiente R2 permite aferir sobre a qualidade do ajuste, aumentando sempre que se adiciona mais uma variável

Mesmo que uma variável não esteja relacionada com a resposta, há sempre uma pequena parte da sua variabilidade que aquela ajuda a explicar, por alinhamentos aleatórios com Y.

Estas variáveis não trazem nada de novo para o modelo em termos de previsões futuras, tendo pelo contrário uma acção prejudicial e destabilizadora.

Para aferir sobre a qualidade do modelo é pois importante penalizar a métrica de qualidade com o número de variáveis utilizado.

Regressão Linear Múltipla

Métricas de Qualidade do Modelo

Page 30: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

30

Regressão Linear Múltipla

Métricas de Qualidade do Modelo

R2 ajustado (R2adj)

Penaliza a introdução de termos adicionais no modelo

Previne “overfitting” e a utilização de regressores com pouco potencial explicativo da variabilidade da resposta

2 2

1 11 1 1

1 1adj

SSr N p NR R

SSt N N p

Page 31: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

31

Regressão Linear Múltipla Inferência

TH aos coeficientes individuais

Para analisar a significância de alguns parâmetros

em particular.

Nas condições do modelo de regressão ser válido:

Os parâmetros seguem distribuições normais;

A sua média é centrada nos valores exactos e a sua

variância é dada pelos elementos diagonais da matriz de

variâncias-covariâncias.

Page 32: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

Valor de prova

(p-value)

Probabilidade de obter um desvio maior

ou igual ao verificado, se H0 for válida!

Page 33: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

0 ˆi

f x

1ˆi

Amostra 1

2ˆi

Amostra 2

3ˆi

Amostra 3

0 : 0

1: 0

i

i

H

H

Teste bilateral: Pr(|ET|>ET0 |H0 verdadeira)

Page 34: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

0 ˆi

f x

1ˆi

Amostra 1

2ˆi

Amostra 2

3ˆi

Amostra 3

0 : 0

1: 0

i

i

H

H

Teste Unilateral à direita: Pr(ET>ET0 |H0 verdadeira); Teste Unilateral à esquerda: Pr(ET<ET0 |H0 verdadeira);

Page 35: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

35

Regressão Linear Múltipla Inferência

TH (parâmetros individuais):

Rejeitar H0 se |t0| > t/2,n-p-1.

Estatística de teste

Elemento jj da matriz de

variâncias-covarâncias

Alternativamente, usar abordagem baseada em IC …

Page 36: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

36

Regressão Linear Múltipla Inferência

IC para os parâmetros do modelo de

regressão múltipla

IC(βj ,(1-α)x100%):

2 2

2, 1 2, 1ˆ ˆˆ ˆ

j N p jj j j N p jjt C t C

Elemento jj da matriz de

variâncias-covarâncias

Page 37: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

37

Regressão Linear Univariada

Inferência em regressão linear

IC para a média e intervalo de previsão

Intervalo de previsão

Intervalo de confiança para a média

Page 38: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

38

Regressão Linear Múltipla Inferência

IC para a resposta média

Intervalo de previsão

0 0 0

1 12 2

| 2, 1 0 0 | | 2, 1 0 0ˆ ˆ ˆ ˆT T T T

Y x N p Y x Y x N pt x X X x t x X X x

1 1

2 2

0 2, 1 0 0 0 0 2, 1 0 0ˆ ˆ ˆ ˆ1 1T T T T

N p N py t x X X x y y t x X X x

00 0 |ˆˆ ˆ

Y xy x

Page 39: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2009-2012

©

Regressão Linear Univariada

39

Regressão Linear Univariada

Inferência em regressão linear

Exemplo 1 Pretende-se determinar a influência de três parâmetros

processuais (X1, X2 e X3) numa variável de qualidade do produto (Y).

Para tal, recolheram-se dados do processo durante períodos de laboração normal, com os quais se construiu uma base de dados.

Utilize esta base de dados para estimar um modelo empírico para o processo em causa, e determine quais o(s) parâmetro(s) que mais influenciam a variável de qualidade.

Page 40: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

Regressão

Linear Múltipla

40

MSR 2009-

2012 ©

Y-Answer Time (Average) (secs)

120110100 765

50

30

10120

110

100

X1-Number of personnel

X2-Calls per hour (average)

1380

1320

1260

503010

7

6

5

138013201260

X3-Time per call (average mins)

Matrix Plot of Y-Answer Tim; X1-Number of; X2-Calls per; X3-Time per

Regressão Linear Múltipla

Gráficos

Y vs X1

Y vs X3 X1 vs X3

Page 41: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

Regressão

Linear Múltipla

41

MSR 2009-

2012 ©

Regressão Linear Múltipla

MINITAB: Stat > Regression > Regression …

Não é significativamente ≠ 0!

R-Sq subiu, mas R-Sq(adj) desceu.

O modelo é significante: pelo menos um coeficiente de uma variável é diferente de zero.

Page 42: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

Page 43: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

43

O Problema da Colinearidade

Page 44: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

44

Regressão Linear Múltipla Colinearidade

Exemplo

Construir um modelo para Y vs X1,X2

Source: Sokal and Rohlf, Biometry, 3ed., Freeman: NY (1995).

Y X1 X2

-5 -4 3

-7 -2 3

-1 -2 1

-3 0 1

3 0 -1

1 2 -1

7 2 -3

5 4 -3

Page 45: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

45

Regressão Linear Múltipla Colinearidade

5

0

-5

20-2

50-5

5

0

-5

50-5

2

0

-2

Y

X1

X2

Matrix Plot of Y; X1; X2

Page 46: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

46

Regressão Linear Múltipla Colinearidade

Page 47: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

47

43210-1-2-3-4-5

8

6

4

2

0

-2

-4

-6

-8

X1

Y

Scatterplot of Y vs X1

43210-1-2-3-4-5

8

6

4

2

0

-2

-4

-6

-8

X1

Y

-3

-1

1

3

X2

Scatterplot of Y vs X1

Regressão Linear Múltipla Colinearidade

Page 48: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

48

Regressão Linear Múltipla Colinearidade

Nota:

Os coeficientes de regressão parciais

representam a contribuição de um predictor na

variável de saída, quando os outros se mantêm

constantes;

A magnitude e sinal dos coeficientes de

regressão parciais, depende dos predictores

incorporados no modelo (sempre que estes

apresentam correlação entre si).

Page 49: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

49

Regressão Linear Múltipla Colinearidade

Por outro lado,…

Analisando a variância das estimativas

Simulação: Gerar aleatoriamente amostras com 10

observações

Dois níveis de correlação entre X1 e X2

Resultados para 1000 simulações

1 2-10

-5

0

5

10

15

20High correlation ( =0.95)

Estim

ate

s

Variable

1 2-10

-5

0

5

10

15

20Low correlation ( =0)

Estim

ate

s

Variable

Valores exactos dos parâmetros

Page 50: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

50

Regressão Linear Múltipla Colinearidade

Ou seja:

Quando a correlação entre X1 e X2 é de 0.95

a variância na estimativa dos coeficientes

que afectam as variáveis X1 e X2 é cerca de

10 vezes superior àquela obtida quando não

há correlação entre X1 e X2.

1

2ˆ( ) TVar B X X

Page 51: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

51

Regressão Linear Múltipla Colinearidade

Efeitos da colinearidade na estimação de parâmetros

Estimated planes for an High collinearity data set (a) and a Low collinearity data set (b), in the initial situation (I) and when an additional data point was added (II), marked with a circle in the 3D scatter plots. The projection of the observations and contours in the Y=0 plane are also presented.

a) b)

Page 52: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

52

Regressão Linear Múltipla Colinearidade

Conclusões:

Quando há colinearidade nos regressores:

É difícil interpretar o modelo (face aos gráficos

disponíveis)

As estimativas dos parâmetros são mais instáveis

(maior variância)

Page 53: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

53

Regressão Linear Múltipla Colinearidade

Nota:

A correlação entre variáveis é muito comum em

aplicações industriais:

Restrições processuais (balanços mássicos e de

energia);

Anéis de controlo, metodologias e protocolos de

actuação;

Instrumentação (instrumentação redundante,

espectrofotómetros, etc.).

Page 54: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

54

Regressão Linear Múltipla Colinearidade

Como detectar a presença de colinearidade?

Como lidar com a sua presença?

Page 55: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

55

Correlations (AS.vs.Bendtsen)

Marked correlations are signif icant at p < ,05000

N=36 (Casew ise deletion of missing data)

Variable Ra_CD Rz_CD Rq_CD Rp_CD Rt_CD R Sm_CD R S_CD R Sk_CD R Ku_CD Rv_CD Rdq_CD Ra_MD Rz_MD Rq_MD Rp_MD Rt_MD R Sm_MD R S_MD R Sk_MD R Ku_MD Rv_MD Rdq_MD

Ra_CD

Rz_CD

Rq_CD

Rp_CD

Rt_CD

R Sm_CD

R S_CD

R Sk_CD

R Ku_CD

Rv_CD

Rdq_CD

Ra_MD

Rz_MD

Rq_MD

Rp_MD

Rt_MD

R Sm_MD

R S_MD

R Sk_MD

R Ku_MD

Rv_MD

Rdq_MD

1,00 0,99 1,00 0,94 0,96 0,89 0,89 0,46 -0,62 0,94 0,81 0,98 0,96 0,98 0,91 0,92 0,84 0,85 0,30 -0,63 0,89 0,68

0,99 1,00 0,99 0,95 0,98 0,86 0,88 0,46 -0,51 0,96 0,84 0,97 0,97 0,97 0,93 0,94 0,79 0,83 0,31 -0,53 0,90 0,73

1,00 0,99 1,00 0,94 0,97 0,89 0,89 0,46 -0,60 0,94 0,81 0,98 0,96 0,98 0,91 0,92 0,83 0,85 0,30 -0,61 0,89 0,68

0,94 0,95 0,94 1,00 0,94 0,83 0,84 0,71 -0,54 0,81 0,77 0,89 0,91 0,89 0,97 0,89 0,70 0,74 0,57 -0,51 0,75 0,69

0,96 0,98 0,97 0,94 1,00 0,88 0,91 0,48 -0,43 0,93 0,79 0,93 0,93 0,93 0,90 0,90 0,76 0,79 0,35 -0,51 0,85 0,68

0,89 0,86 0,89 0,83 0,88 1,00 0,95 0,45 -0,57 0,80 0,49 0,83 0,78 0,82 0,75 0,73 0,86 0,80 0,29 -0,61 0,71 0,36

0,89 0,88 0,89 0,84 0,91 0,95 1,00 0,38 -0,40 0,84 0,51 0,84 0,80 0,83 0,77 0,75 0,87 0,83 0,28 -0,52 0,73 0,37

0,46 0,46 0,46 0,71 0,48 0,45 0,38 1,00 -0,45 0,19 0,34 0,36 0,42 0,36 0,67 0,41 0,22 0,22 0,89 -0,31 0,13 0,37

-0,62 -0,51 -0,60 -0,54 -0,43 -0,57 -0,40 -0,45 1,00 -0,44 -0,47 -0,60 -0,54 -0,59 -0,52 -0,52 -0,58 -0,54 -0,28 0,74 -0,48 -0,35

0,94 0,96 0,94 0,81 0,93 0,80 0,84 0,19 -0,44 1,00 0,83 0,96 0,94 0,96 0,80 0,91 0,79 0,84 0,06 -0,50 0,95 0,69

0,81 0,84 0,81 0,77 0,79 0,49 0,51 0,34 -0,47 0,83 1,00 0,84 0,88 0,84 0,79 0,87 0,47 0,58 0,18 -0,40 0,85 0,93

0,98 0,97 0,98 0,89 0,93 0,83 0,84 0,36 -0,60 0,96 0,84 1,00 0,98 1,00 0,89 0,95 0,84 0,88 0,22 -0,60 0,94 0,71

0,96 0,97 0,96 0,91 0,93 0,78 0,80 0,42 -0,54 0,94 0,88 0,98 1,00 0,98 0,93 0,99 0,75 0,84 0,28 -0,49 0,94 0,79

0,98 0,97 0,98 0,89 0,93 0,82 0,83 0,36 -0,59 0,96 0,84 1,00 0,98 1,00 0,90 0,96 0,83 0,87 0,22 -0,58 0,95 0,72

0,91 0,93 0,91 0,97 0,90 0,75 0,77 0,67 -0,52 0,80 0,79 0,89 0,93 0,90 1,00 0,92 0,67 0,75 0,59 -0,48 0,76 0,73

0,92 0,94 0,92 0,89 0,90 0,73 0,75 0,41 -0,52 0,91 0,87 0,95 0,99 0,96 0,92 1,00 0,70 0,84 0,30 -0,43 0,93 0,80

0,84 0,79 0,83 0,70 0,76 0,86 0,87 0,22 -0,58 0,79 0,47 0,84 0,75 0,83 0,67 0,70 1,00 0,90 0,12 -0,63 0,73 0,24

0,85 0,83 0,85 0,74 0,79 0,80 0,83 0,22 -0,54 0,84 0,58 0,88 0,84 0,87 0,75 0,84 0,90 1,00 0,17 -0,50 0,83 0,37

0,30 0,31 0,30 0,57 0,35 0,29 0,28 0,89 -0,28 0,06 0,18 0,22 0,28 0,22 0,59 0,30 0,12 0,17 1,00 -0,29 -0,03 0,21

-0,63 -0,53 -0,61 -0,51 -0,51 -0,61 -0,52 -0,31 0,74 -0,50 -0,40 -0,60 -0,49 -0,58 -0,48 -0,43 -0,63 -0,50 -0,29 1,00 -0,44 -0,27

0,89 0,90 0,89 0,75 0,85 0,71 0,73 0,13 -0,48 0,95 0,85 0,94 0,94 0,95 0,76 0,93 0,73 0,83 -0,03 -0,44 1,00 0,75

0,68 0,73 0,68 0,69 0,68 0,36 0,37 0,37 -0,35 0,69 0,93 0,71 0,79 0,72 0,73 0,80 0,24 0,37 0,21 -0,27 0,75 1,00

Regressão Linear Múltipla Colinearidade

Detecção da presença de colinearidade

Matrizes de correlação e de gráficos de dispersão Matrix of scatter plots

Ra_CD

Rz_CD

Rq_CD

Rp_CD

Rt_CD

R Sm_CD

R S_CD

Page 56: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

56

Regressão Linear Múltipla Colinearidade

Detecção da presença de colinearidade Conhecimento sobre o processo:

Verificar se alguns coeficientes têm sinal contrário ao esperado;

Verificar se variáveis que se esperavam importantes, não têm uma magnitude correspondente;

Verificar se a eliminação de uma linha ou coluna, produz alterações muito significativas;

O teste F baseado em ANOVA é significante, mas os coeficientes individuais não o são.

Page 57: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

57

Regressão Linear Múltipla Colinearidade

Detecção da presença de colinearidade

Estatísticas de colinearidade:

onde Rj2 é o R2 para a regressão de Xj contra todos

os outros p – 1 regressores.

“Variance Inflation Factor” (VIF)

1

2ˆ( ) TVar B X X

2

1

1jj

j

CR

Elemento j da diagonal de (XTX)-1

2

1ˆ1

j

j

VIFR

Page 58: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

58

Regressão Linear Múltipla Colinearidade

Análise do VIF:

Valores de referência:

VIF>10 → colinearidade é um problema;

VIF<5 → colinearidade não é um problema;

5<VIF<10 → “zona cinzenta” (colinearidade

pode ser um problema).

Page 59: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

59

Regressão Linear Múltipla Colinearidade

Como lidar com a sua presença?

Métodos de selecção de variáveis

Métodos de projecção (selecção de dimensões)

Métodos de encolhimento

Page 60: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

60

Regressão Linear Múltipla Colinearidade

Selecção de variáveis

Princípio:

Se há redundância entre os X’s, seleccionar aqueles

que mais explicam a variabilidade apresentada pela

resposta (Y), e retirar todas aquelas variáveis que não

acrescentem capacidade explicativa.

Page 61: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

61

Regressão Linear Múltipla Colinearidade

Metodologias mais comuns de selecção de

variáveis:

Forward addition

Backward elimination

Forward stepwise selection

“Best subset” regression

Page 62: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

62

Regressão Linear Múltipla Inferência

Nos métodos de selecção de variáveis analisa-se a significância estatística associada à introdução de grupos de variáveis adicionais:

“Partial F-test” (ou “Extra Sum of Squares method”)

Até agora só a analisámos a situação estática.

Temos um conjunto de variáveis de entrada com as quais queremos construir um modelo para explicar a resposta.

E se quisermos incluir mais variáveis? – Situação dinâmica!

Pretendemos agora saber se, introduzindo um conjunto extra de variáveis (# X’s ≥ 1), a capacidade de explicação da variabilidade de Y melhora significativamente.

Page 63: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

63

Regressão Linear Múltipla Inferência

“Partial F-test”

Vamos considerar que dispomos um modelo com p variáveis e pretendemos saber se um subconjunto destas variáveis (r) contribui, como um todo, significativamente para o modelo.

Ou seja, se particionarmos todos os coeficientes do modelo num conjunto com r variáveis (β1 ) e noutro com as restantes (β2), pretendemos testar as hipóteses:

H0: β1 = 0

H1: β1 ≠ 0

Page 64: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

66

Regressão Linear Múltipla Selecção de Variáveis

Forward addition

Select the predictor having the highest correlation with y

Is variable significant?

Are other predictors

available?

No prediction

possible with MLR Validate model

No

Yes

Yes

Select additional

predictor

No

Examine final

model

Is selected predictor

significant? Yes

(Enter variable)

No

(Fail to enter)

j inf f j inf f

Page 65: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

67

Regressão Linear Múltipla Selecção de Variáveis

NOTA: As variáveis são testadas sequencialmente, de

acordo com a magnitude da estatística do teste F-parcial (partial F-test);

Se esta estatística for superior a “F to enter” (fin), a variável passa a integrar o modelo;

Caso contrário, o processo pára.

Variáveis seleccionadas não podem ser depois removidas.

Não explora o efeito que a adição de uma variável pode ter naquelas já adicionadas.

Page 66: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

68

Regressão Linear Múltipla Selecção de Variáveis

Backward

elimination

Select all variables and include them in the model

Is its contribution

significant ?

Validate model

No (Remove variable)

Nota: Variáveis eliminadas, não podem voltar a integrar o modelo numa fase posterior.

Select the variable that contributes the

least to explaining the Y variability

(when all others are in the model)

Yes (Do not remove variable )

j outf fj outf f

Page 67: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

69

Regressão Linear Múltipla Selecção de Variáveis

Forward stepwise selection

j inf f

Select the predictor having the highest correlation with y

Is variable significant?

Are other predictors

available?

No prediction

possible with MLR

Is variance explained

by each variable in the

model significant?

Validate model

No

Yes

Yes

Yes

Select additional

predictor

No

Examine final

model

No (Remove variables)

Is selected predictor

significant?

(Enter variable) Yes No (Fail to enter)

Nota: Variáveis selecionadas podem vir a ser removidas posteriormente, caso se tornem redundantes quando outras forem adicionadas.

normalmente in out in outf f f f

j inf f

j outf f

Page 68: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

70

Regressão Linear Múltipla Selecção de Variáveis

“Best subset” regression:

Para cada combinação distinta de k variáveis (k=kmin : kmax):

Estimar o correspondente modelo MLR;

Calcular o valor do critério de “qualidade de ajuste”

seleccionado;

Ordenar as combinações de variáveis de acordo com o valor

do critério a que elas conduziram;

Guardar os resultados para as melhores N combinações;

Apresentar os resultados para as melhores N combinações

obtidas em cada subconjunto de dimensão k considerado

(k=kmin : kmax).

Page 69: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

71

Regressão Linear Múltipla Selecção de Variáveis

Critérios de qualidade de ajuste:

R2

R2adj

Mallows-Cp

Uma medida do erro quadrático total do modelo de regressão

Se o modelo postulado for correcto, Cp dever ser próximo de k+1

(número de parâmetros)

Logo, escolher modelo para o qual o Cp é baixo e próximo de k+1.

2

2 1ˆ

p

SSr kC n k

Estimado com o modelo completo.

Estimado com o modelo em estudo (k variáveis).

Gráfico Cp vs p

Também penaliza a adição de variáveis sem poder explicativo

Page 70: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

72

Regressão Linear Múltipla Selecção de Variáveis

Critérios de qualidade de ajuste (cont.):

Mallows-Cp

É conveniente traçar um gráfico Cp vs. (k+1):

procurar qual o modelo com Cp mais baixo que está mais

próximo da recta Cp=k+1.

PRESS

“Leverage” da observação i

Page 71: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

73

Regressão Linear Múltipla Selecção de Variáveis

Statistica

Page 72: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

74

Metodologia Geral de RLM

Page 73: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

75

Regressão Linear Múltipla

Passo 1 Estudar estatísticas

e gráficos

Passo 2 Formular o modelo

Passo 3 Estimar o modelo

Passo

4 Validar

o

modelo

Passo 5 Apresentar resultados.

Usar modelo.

Bom ajuste

OK!

Ajuste não satisfatório

Metodologia em RL

Page 74: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

76

Regressão Linear Múltipla

1. Familiarização com os dados Fazer uso extensivo de todas as ferramentas de estatística

descritiva que nos ajudem a familiarizar com os dados do nosso problema, por exemplo:

Examinar médias, desvios padrão, alguns percentis, mínimos,

máximos, para todas as variáveis de entrada e de saída;

Examinar a matriz de correlação (existe colinearidade entre os x’s? qual/quais os x’s mais correlacionados linearmente com o y?);

Construir gráficos de dispersão para todas as combinações de x’s e entre cada x e o y;

Se os dados foram recolhidos ao longo do tempo, analisar, individualmente, o gráfico temporal para cada variável;

Detectar e examinar outliers.

Page 75: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

77

Regressão Linear Múltipla

2. Formulação do modelo

Com base no conhecimento existente a priori e/ou com base nos

gráficos construídos em 1 para as relações entre y e os vários x’s,

propor um modelo de regressão que relacione as variáveis de entrada

com a variável de saída;

Page 76: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

78

Regressão Linear Múltipla

3. Estimar os parâmetros do modelo Proceder ao ajuste do modelo aos dados recolhidos. Como

resultado, obtém-se as estimativas para os parâmetros do modelo definido em 2., bem como outras grandezas relacionadas (por exemplo, parâmetros de qualidade, valores de prova para diversos testes estatísticos). Deve-se então:

Analisar os resultados em busca de variáveis eventualmente mais

importantes na explicação da variabilidade de y;

Avaliar a qualidade do ajuste;

Verificar se existe colinearidade entre as variáveis (calcular VIF para cada variável existente no modelo), e se esta pode constituir um problema.

Page 77: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

79

Regressão Linear Múltipla

4. Validação do modelo estimado

Construir os seguintes gráficos envolvendo os resíduos, para

verificar se algum/ns dos pressupostos subjacentes aos modelos

de regressão linear está/ão a ser violado/s:

Resíduos vs. valores previstos (para verificar, por exemplo, se a

variância dos resíduos não depende do nível de y);

Resíduos vs. cada uma das variáveis de entrada (verificar que

não existe estrutura por explicar devido, por exemplo, a não

considerar termos não-lineares envolvendo as variáveis de

entrada);

Resíduos vs. tempo, ou sequência de observações (verificar a

independência dos resíduos ao longo das observações);

Gráficos de probabilidade normal para resíduos (verificar o

pressuposto de normalidade dos resíduos).

(Padrões não aleatórios são indicativo de um modelo não

adequado)

Page 78: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2010 ©

Engenharia de Processos e Sistemas

80

Regressão Linear Múltipla

5. Apresentar os resultados e usar o modelo

Nesta fase sintetizam-se os resultados para o modelo

desenvolvido (desde que este seja satisfatório). Os dados

utilizados e pressupostos subjacentes devem ser também

indicados. Usar então o modelo e criar uma metodologia que

permita averiguar a sua validade ao longo do tempo, se o seu

uso não se restringir à situação presente.

Page 79: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

Regressão

Linear Múltipla

81

Regressão Linear Múltipla Selecção de Variáveis

Exemplo 2

A rugosidade do papel é normalmente inferida indirectamente por um aparelho denominado “Bendtsen”.

Este mede a quantidade de ar que passa entre um anel rígido e a superfície do papel durante um determinado intervalo de tempo, a qual está relacionada de alguma forma com a rugosidade do papel.

Pretende-se estudar quais os factores fundamentais ao nível da rugosidade do papel, que influenciam estas medições.

Para tal, recolheram-se perfis rigorosos da superfície do papel usando técnicas de perfilometria, em duas direcções (MD e CD), a partir dos quais foram calculados vários parâmetros geométricos com significados bem precisos.

Que parâmetros fundamentais mais influenciam/explicam os resultados produzidos pelo Bendtsen?

Page 80: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

Regressão

Linear Múltipla

82

Parâmetros dos perfis (X’s)

Ra Arithmetical mean deviation of profile

Rz Maximum height of profile

Rq RMS deviation of profile

Rp Maximum profile peak height

Rt Total height of profile

R Sm Mean width of profile elements

R Sk Skewness of profile

R Ku Kurtosis of profile

Rv Maximum profile valley depth

Rdq RMS slope of profile

Regressão Linear Múltipla Selecção de Variáveis

Page 81: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

Regressão

Linear Múltipla

83

Regressão Linear Múltipla Selecção de Variáveis

CD

MD

Bendtsen

Perfilómetro

X’s – média dos parâmetros calculados para 3 perfis na direcção MD, CD (11+11=22) Y – média de 6 medições com o Bendtsen, nas mesmas posições

Page 82: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

Regressão

Linear Múltipla

84

Regressão Linear Múltipla Selecção de Variáveis

Detecção de colinearidade

Correlations (AS.vs.Bendtsen)

Marked correlations are signif icant at p < ,05000

N=36 (Casew ise deletion of missing data)

Variable Ra_CD Rz_CD Rq_CD Rp_CD Rt_CD R Sm_CD R S_CD R Sk_CD R Ku_CD Rv_CD Rdq_CD Ra_MD Rz_MD Rq_MD Rp_MD Rt_MD R Sm_MD R S_MD R Sk_MD R Ku_MD Rv_MD Rdq_MD

Ra_CD

Rz_CD

Rq_CD

Rp_CD

Rt_CD

R Sm_CD

R S_CD

R Sk_CD

R Ku_CD

Rv_CD

Rdq_CD

Ra_MD

Rz_MD

Rq_MD

Rp_MD

Rt_MD

R Sm_MD

R S_MD

R Sk_MD

R Ku_MD

Rv_MD

Rdq_MD

1,00 0,99 1,00 0,94 0,96 0,89 0,89 0,46 -0,62 0,94 0,81 0,98 0,96 0,98 0,91 0,92 0,84 0,85 0,30 -0,63 0,89 0,68

0,99 1,00 0,99 0,95 0,98 0,86 0,88 0,46 -0,51 0,96 0,84 0,97 0,97 0,97 0,93 0,94 0,79 0,83 0,31 -0,53 0,90 0,73

1,00 0,99 1,00 0,94 0,97 0,89 0,89 0,46 -0,60 0,94 0,81 0,98 0,96 0,98 0,91 0,92 0,83 0,85 0,30 -0,61 0,89 0,68

0,94 0,95 0,94 1,00 0,94 0,83 0,84 0,71 -0,54 0,81 0,77 0,89 0,91 0,89 0,97 0,89 0,70 0,74 0,57 -0,51 0,75 0,69

0,96 0,98 0,97 0,94 1,00 0,88 0,91 0,48 -0,43 0,93 0,79 0,93 0,93 0,93 0,90 0,90 0,76 0,79 0,35 -0,51 0,85 0,68

0,89 0,86 0,89 0,83 0,88 1,00 0,95 0,45 -0,57 0,80 0,49 0,83 0,78 0,82 0,75 0,73 0,86 0,80 0,29 -0,61 0,71 0,36

0,89 0,88 0,89 0,84 0,91 0,95 1,00 0,38 -0,40 0,84 0,51 0,84 0,80 0,83 0,77 0,75 0,87 0,83 0,28 -0,52 0,73 0,37

0,46 0,46 0,46 0,71 0,48 0,45 0,38 1,00 -0,45 0,19 0,34 0,36 0,42 0,36 0,67 0,41 0,22 0,22 0,89 -0,31 0,13 0,37

-0,62 -0,51 -0,60 -0,54 -0,43 -0,57 -0,40 -0,45 1,00 -0,44 -0,47 -0,60 -0,54 -0,59 -0,52 -0,52 -0,58 -0,54 -0,28 0,74 -0,48 -0,35

0,94 0,96 0,94 0,81 0,93 0,80 0,84 0,19 -0,44 1,00 0,83 0,96 0,94 0,96 0,80 0,91 0,79 0,84 0,06 -0,50 0,95 0,69

0,81 0,84 0,81 0,77 0,79 0,49 0,51 0,34 -0,47 0,83 1,00 0,84 0,88 0,84 0,79 0,87 0,47 0,58 0,18 -0,40 0,85 0,93

0,98 0,97 0,98 0,89 0,93 0,83 0,84 0,36 -0,60 0,96 0,84 1,00 0,98 1,00 0,89 0,95 0,84 0,88 0,22 -0,60 0,94 0,71

0,96 0,97 0,96 0,91 0,93 0,78 0,80 0,42 -0,54 0,94 0,88 0,98 1,00 0,98 0,93 0,99 0,75 0,84 0,28 -0,49 0,94 0,79

0,98 0,97 0,98 0,89 0,93 0,82 0,83 0,36 -0,59 0,96 0,84 1,00 0,98 1,00 0,90 0,96 0,83 0,87 0,22 -0,58 0,95 0,72

0,91 0,93 0,91 0,97 0,90 0,75 0,77 0,67 -0,52 0,80 0,79 0,89 0,93 0,90 1,00 0,92 0,67 0,75 0,59 -0,48 0,76 0,73

0,92 0,94 0,92 0,89 0,90 0,73 0,75 0,41 -0,52 0,91 0,87 0,95 0,99 0,96 0,92 1,00 0,70 0,84 0,30 -0,43 0,93 0,80

0,84 0,79 0,83 0,70 0,76 0,86 0,87 0,22 -0,58 0,79 0,47 0,84 0,75 0,83 0,67 0,70 1,00 0,90 0,12 -0,63 0,73 0,24

0,85 0,83 0,85 0,74 0,79 0,80 0,83 0,22 -0,54 0,84 0,58 0,88 0,84 0,87 0,75 0,84 0,90 1,00 0,17 -0,50 0,83 0,37

0,30 0,31 0,30 0,57 0,35 0,29 0,28 0,89 -0,28 0,06 0,18 0,22 0,28 0,22 0,59 0,30 0,12 0,17 1,00 -0,29 -0,03 0,21

-0,63 -0,53 -0,61 -0,51 -0,51 -0,61 -0,52 -0,31 0,74 -0,50 -0,40 -0,60 -0,49 -0,58 -0,48 -0,43 -0,63 -0,50 -0,29 1,00 -0,44 -0,27

0,89 0,90 0,89 0,75 0,85 0,71 0,73 0,13 -0,48 0,95 0,85 0,94 0,94 0,95 0,76 0,93 0,73 0,83 -0,03 -0,44 1,00 0,75

0,68 0,73 0,68 0,69 0,68 0,36 0,37 0,37 -0,35 0,69 0,93 0,71 0,79 0,72 0,73 0,80 0,24 0,37 0,21 -0,27 0,75 1,00

Ra_CD

Rz_CD

Rq_CD

Rp_CD

Rt_CD

R Sm_CD

R S_CD

R Sk_CD

R Ku_CD

Rv_CD

Rdq_CD

Variable VIF

Ra_CD 13,01

Rz_CD 10,98

Rq_CD 12,89

Rp_CD 18,42

Rt_CD 7,07

R Sm_CD 4,74

R S_CD 5,54

R Sk_CD 2,21

R Ku_CD 1,59

Rv_CD 4,26

Rdq_CD 2,74

Ra_MD 10,47

Rz_MD 9,55

Rq_MD 10,14

Rt_MD 7,33

R S_MD 6,98

R Sk_MD 1,92

R Ku_MD 1,68

Rv_MD 3,01

Rdq_MD 2,82

Page 83: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

Regressão

Linear Múltipla

85

Regressão Linear Múltipla Selecção de Variáveis

Resultados: Stepwise Regression MINITAB: Stat > Regression > Stepwise …

Step 1 Step 2

Resultados Finais

Page 84: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

Regressão

Linear Múltipla

86

Regressão Linear Múltipla Selecção de Variáveis

Sumário dos resultados Forward Stepwise Backward Stepwise Forward addition Backward removal

Intercept -361,65 549,03 -361,65 549,03

Ra_CD 210,51 210,51

Rz_CD

Rq_CD

Rp_CD 41,22 41,22

Rt_CD

R Sm_CD -1,41 -1,41

R S_CD -4,19 -4,19

R Sk_CD -380,47 -380,47

R Ku_CD

Rv_CD

Rdq_CD -4752,87 -4752,87

Ra_MD

Rz_MD

Rq_MD

Rp_MD 37,86 37,86

Rt_MD

R Sm_MD 0,45 0,45

R S_MD

R Sk_MD 355,50 355,50

R Ku_MD

Rv_MD 18,06 18,06

Rdq_MD

R2 0,94 0,98 0,94 0,98

R2

adj 0,94 0,97 0,94 0,97

Step 1

Step 2

Page 85: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

Regressão

Linear Múltipla

87

Regressão Linear Múltipla Selecção de Variáveis

Ra Arithmetical mean deviation of profile

Rz Maximum height of profile

Rq RMS deviation of profile

Rp Maximum profile peak height

Rt Total height of profile

R Sm Mean width of profile elements

R Sk Skewness of profile

R Ku Kurtosis of profile

Rv Maximum profile valley depth

Rdq RMS slope of profile

Highest peak (in sampling length)

Average “wavelength” of irregularities

Results: interpretation

Page 86: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

Regressão

Linear Múltipla

88

Regressão Linear Múltipla Selecção de Variáveis

Resultados: “Best Subset” Regression MINITAB: Stat > Regression > Best Subsets …

Statistica

Adjusted R square and standardized regression coefficients for each submodel

Stepwise

Para estudar modelos com # max. 10 variáveis, seria necessário estimar 4 194 302 modelos …

Page 87: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

Regressão

Linear Múltipla

89

Regressão Linear Múltipla Selecção de Variáveis

Resultados: “Best Subset” Regression

Matlab

1 2 3 40.84

0.86

0.88

0.9

0.92

0.94

0.96

Subsets

R2 adj

Best subset regression

Quantas variáveis usar no modelo?

Page 88: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

Regressão

Linear Múltipla

90

Regressão Linear Múltipla Selecção de Variáveis

Notas: A ordem de entrada de variáveis não reflecte necessariamente a sua

importância relativa;

(Forward) stepwise é um método eficiente de selecção de variáveis, recomendando-se o seu uso. Os resultados obtidos devem ser comparados com aqueles provenientes da aplicação de outros métodos (e.g. best subset, backward stepwise) para ganhar uma maior familiaridade com as características dos dados em estudo;

(Backward) stepwise é um método útil, em particular quando se pretende assegurar que nada de importante é perdido durante a selecção de variáveis, mas o facto de começar com todas as variáveis pode conduzir a problemas de cálculo e a estimativas não muito boas, se existir colinearidade nos regressores;

Procedimentos “Stepwise” são em geral preferíveis relativamente àqueles que não permitem a entrada e remoção de regressores.

“Best subset” tende a fornecer modelos com muitas variáveis e é computacionalmente mais exigente. Deve-se escolher adequadamente a gama de variáveis a explorar, caso contrário pode-se não encontrar o melhor modelo. Deve-se também tentar vários critérios de qualidade, em particular R2

adj e Mallows Cp .

Page 89: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2009-2012

©

Regressão Linear Univariada

91

Diagnóstico de “Outliers” e

Observações Influentes

Page 90: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2009-2012

©

Regressão Linear Univariada

92

Regressão Linear

Para além de validar o modelo é importante

também diagnosticar e analisar:

“Outliers”

Observações (demasiado) influentes

Page 91: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2009-2012

©

Regressão Linear Univariada

93

Regressão Linear

“Outliers” Observações que fogem aos padrões normais da dispersão de:

Valores X’s

Previsões

E.g. (previsão): resíduo com um valor absoluto bastante

superior aos demais ( >3-4 desvios padrões do seu valor

absoluto médio);

Só devem ser rejeitados quando forem conhecidas as suas

causas, e se existirem boas razões para o fazer;

Caso contrário a decisão de rejeição dever ser bem pensada.

Page 92: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2009-2012

©

Regressão Linear Univariada

94

Regressão Linear

Observações influentes

Observações com muito peso na estimativa do

modelo, i.e. que exercem uma influência anormal

no seu ajuste aos dados.

Page 93: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2009-2012

©

Regressão Linear Univariada

95

Regressão Linear

Observation Order

Re

sid

ua

l

80757065605550454035302520151051

5,0

2,5

0,0

-2,5

-5,0

-7,5

Residuals Versus the Order of the Data(response is Y-Answer Time (Average) (secs))

Resíduos normalizados = Resíduo / SE(Resíduos)

(>2 → Considerado elevado)

“Outliers”: Previsões

Page 94: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2009-2012

©

Regressão Linear Univariada

96

Regressão Linear

Tipos de resíduos Resíduos

Resíduos normalizados Permite detectar facilmente resíduos elevados

Definição: Resíduo / SE(resíduos)

Subestimam a magnitude dos resíduos

“Internally Studentized residuals”

“Externally / Deleted studentized residuals” Definição: semelhante ao anterior, mas com ri e σ2 estimados

sem a observação i: σ2 (i). Desta forma, evita-se que a observação em causa possa interferir

negativamente no modelo, caso seja desviante e/ou influente.

“Outliers”: Previsões

2

1

ˆ 1

- Elemento i da diagonal de

( )

("Hat" matrix)

del ii

ii

ii

T T

rr

h

h

X X X X

H

H

Var(ri)

Page 95: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2009-2012

©

Regressão Linear Univariada

97

Regressão Linear

“Leverages” (hii – “hat value”) Permitem detectar observações cujos valores de X se

afastem do “normal”.

Medida da distância entre cada valor de x e a média de todos os valores de x: Observações afastadas da média de X: “High Leverage Points”

Estes resíduos possuem menor variância, pois têm uma maior influência na estimativa da recta de regressão (ver Var(ri))

Observações próximas da média de X: “Low Leverage Points”

Observações muito afastadas podem exercer uma grande influência na estimativa do modelo regressão;

0<L≤1: L é considerado elevado se > 2-3 x (p+1)/n, onde p é um número de regressores (X’s) e n o número de observações.

“Outliers”: Valores de X

Page 96: Engenharia de Processos e Sistemasnuno/eps/Conteudos/aula15/EPS_RLM.pdfPressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Y x x

GEPSI/CIEPQPF

DEQ-FCTUC

MSR 2009-2012

©

Regressão Linear Univariada

98

Regressão Linear Distância de “Cook” (Di)

Medida combinada do impacto (influência) de uma observação nas estimativas do modelo.

Congrega informação sobre “leverages” e resíduos normalizados → i.e., combina:

Valores anormais nos X’s

Valores anormais em Y

Corresponde a uma medida da distância entre os valores ajustados integrando a observação em causa e deixando-a de lado.

Di apresenta valores elevados quando: Resíduo elevado e “leverage” moderada

Resíduo moderado e “leverage” elevada

Resíduo e “leverage” elevados

Comparar e verificar se existem Di’s muito elevados.

Analisar com maior detalhe: Belsey: Di >2 (p+1)/n (p = # variáveis = # parâmetros -1)

Fox: Di>4/(n-p)

Observações influentes