5
05/10/2016 1 REGRESSÃO LINEAR CUIABÁ, MT 2016/2 INTRODUÇÃO SIMPLES MÚLTIPLA i i i X Y 1 0 i ni k i i i X X X Y ... 2 2 1 1 0 i=1, 2, …, n K=1,2, …, n Relação dos valores da variável dependente Y i (variável resposta) aos valores de X i (variáveis independentes, regressoras ou exógenas). em que: X i = variável independente fixa; = parâmetros (coeficientes) desconhecidos que especificam a associação linear entre a variável dependente e as variáveis independentes; = erro aleatório. i i REPRESENTAÇAO MATRICIAL Forma Algébrica Forma Matricial Y i = 0 + 1 X 1i + 2 X 2i + ... + k X ni + i Y = X + Y = X + n k kn n n k k n X X X X X X X X X Y Y Y 2 1 1 0 2 1 2 22 12 1 21 11 2 1 1 1 1 em que: Y = vetor dos valores observados para Y; X = matriz dos valores observados ou fixados para as X i variáveis independentes; = vetor dos parâmetros (coeficientes) do modelo; = vetor dos erros aleatórios. Considerando os erros homocedásticos com distribuição normal, o modelo linear matricial fica assim definido: Y = X + , onde ~ N (; Iσ 2 ) É definido como modelo linear de Gauss- Markov-Normal

i REGRESSÃO LINEAR i k ni i - romulomora.webnode.com · ´ = Y´Y-2 ´X´Y + ´X´X ... em Fcal eos grau deliberdade ao numerador denominado, resolvendo a função para obter o valor

  • Upload
    lyduong

  • View
    219

  • Download
    0

Embed Size (px)

Citation preview

05/10/2016

1

REGRESSÃO LINEAR

CUIABÁ, MT

2016/2

INTRODUÇÃO

SIMPLES

MÚLTIPLA

iii XY 10

inikiii XXXY ...22110

i=1, 2, …, n

K=1,2, …, n

Relação dos valores da variável

dependente Yi (variável resposta) aos

valores de Xi (variáveis independentes,

regressoras ou exógenas).

em que:

Xi = variável independente fixa;

= parâmetros (coeficientes)

desconhecidos que especificam a

associação linear entre a variável

dependente e as variáveis

independentes;

= erro aleatório.

i

i

REPRESENTAÇAO MATRICIAL

Forma Algébrica

Forma Matricial

Yi = 0 + 1X1i + 2X2i + ... + kXni + i

Y = X +

Y = X +

nkknnn

k

k

n XXX

XXX

XXX

Y

Y

Y

2

1

1

0

21

22212

12111

2

1

1

1

1

em que:

Y = vetor dos valores observados para Y;

X = matriz dos valores observados ou fixados para as Xivariáveis independentes;

= vetor dos parâmetros (coeficientes) do modelo;

= vetor dos erros aleatórios.

Considerando os erros homocedásticos

com distribuição normal, o modelo

linear matricial fica assim definido:

Y = X + , onde ~ N (ᵠ; Iσ2)

É definido como modelo linear de Gauss-

Markov-Normal

05/10/2016

2

Como estimar os coeficientes? Escolhendo uma técnica que minimize

os valores médios dos coeficientes;

Técnica dos mínimos quadrados

ordinários (MQO);

Considere:

Y = X +

= Y – X

Sabendo-se, contudo, que a soma dos

desvios em relação a um valor médio é

nula, vem que:

´ = (Y - X)´(Y - X)

´ = (Y - X)´(Y - X)´ = (Y´ – ´X´)(Y - X)

´ = Y´Y- Y´ X - ´X´Y+ ´X´X

Sendo as matrizes Y´ X e ´X´Y de

dimensões 1x1 e sendo uma transposta

da outra, temos Y´ X = ´X´Y

Logo:

´ = Y´Y- 2 ´X´Y + ´X´X

Derivando a matriz de erros (´ ) em

relação a , tem-se:

𝑑(´)

(𝑑)= − 2(𝑑´)𝑋´𝑌 + (𝑑´)𝑋´𝑋 + ´𝑋´𝑋(𝑑) = 0

Sendo, (d´)X´X=´X´X(d), por serem matrizes de 1x1, e uma transposta a

outra:𝑑(´)

(𝑑)= − 2(𝑑´)𝑋´𝑌 + 2(𝑑´)𝑋´𝑋

Logo:

𝑑(´)

(𝑑)= 2(𝑑´)(𝑋´𝑌 − 𝑋´𝑋)

Derivando a matriz de

erros (´ ) em relação a e

igualando a zero, tem-se:

YXXX

d

d

YXXX

Em que: é o vetor das estimativas

dos coeficientes

Sistema de Equações

Normais

Pré-multiplicando ambos os

lados da expressão (14) por (X’X)-1,

tem-se:

YX'X)(X'X)(X'X)(X' -1-1

YX'X)(X' -1

ANÁLISE DE VARIÂNCIA DA REGRESSÃO (ANOVA)

FV GL SQ QM Fcal.

Regressão pSQReg/GLReg

(V1)V1/V2

Resíduo n – p – 1SQRes/GLRes

(V2)

Total n – 1

C- YX''β

YX'YY '

C - YY'

ANÁLISE DE VARIÂNCIA

* O Valor de Fcal será utilizado para calcular

o p-value (p-valor).

05/10/2016

3

p-valor ou p-value

Corresponde ao nível descritivo (ou nível

probabilístico ou ainda valor-p) corresponde

ao menor nível de significância α para o valor

calculado na estatística do teste.

Cálculo do p-valor:

teste tUma variável aleatória contínua tem

distribuição x de Student com 𝒗 graus de

liberdade se sua função densidade de probabilidade

é dada por:

𝑓 𝑥 =Γ

𝑣 + 12

𝑣𝜋Γ𝜋2

1 +𝑥2

𝑣

−𝑣+12

∴ 𝑥 𝜖 (−∞,∞)

Neste caso, utilizamos a notação 𝑥 ~𝑡 (𝑣)

O cálculo do p-valor é feito substituindo o valor obtido

em tcal e o grau de liberdade correspondente, resolvendo

a função para obter o valor de probabilidade do p-valor.

Observações: Tome cuidado se o teste é bilateral ou

unilateral, isso interfere no resultado do p-valor.

Cálculo do p-valor:

teste F

Uma variável aleatória contínua x tem

distribuição F de Snedecor com 𝒗𝟏 graus de

liberdade no numerador e 𝒗𝟐 graus de liberdade

no denominador se sua função densidade de

probabilidade é definida por:

𝑓 𝑥 =Γ

𝑣2 + 𝑣12

𝑣2𝑣1

𝑣22𝑥

𝑣22−1

Γ𝑣22

Γ𝑣12

𝑣2𝑣1

𝑥 + 1

𝑣2+𝑣12

∴ 𝑥 𝜖 (0,∞)

Neste caso, utilizamos a notação 𝑥 ~𝐹 (𝑣1; 𝑣2)

O cálculo do p-valor é feito substituindo o valor obtido

em Fcal e os grau de liberdade ao numerador e

denominado, resolvendo a função para obter o valor

de probabilidade do p-valor.

Hipótestes Estatísticas da ANOVA

(Teste F)

As hipóteses estatísticas testadas pelo

teste F

0:

0:

1

0

ia

i

HouH

H

Se o valor do p-valor calculado for menor ou igual

ao nível de significância estabelecido, rejeita-se

H0 ao nível de probabilidade considerado, logo

existe regressão e os valores da variável

dependente são explicados pela equação de

regressão.

TESTE DE SIGNIFICÂNCIA DOS COEFICIENTES

em que: é o valor estimado do parâmetro

(coeficiente); parâmetro – obtido a partir

da hipótese (geralmente utilizamos zero);

variância da estimativa do parâmetro

ˆ

ˆ

2St

Teste utilizado para verificar a

significância das estimativas dos parâmetros.

2S

0:

0:0

aH

HHipótese

Como obter as estimativas das

variâncias dos coeficientes?

Considerando um modelo linear

simples têm-se:

Matriz de Variâncias e Covariâncias

𝐶𝑂𝑉 መ𝛽 = (𝑋′𝑋)−1𝑠2 = (𝑋′𝑋)−1𝑄𝑀𝑅𝑒𝑠

𝐶𝑂𝑉 መ𝛽 =

1

𝑛+

ത𝑋2

σ𝑖=1𝑛 (𝑋𝑖− ത𝑋)2

−ത𝑋

𝑛σ𝑖=1𝑛 (𝑋𝑖−ത𝑋)2

−ത𝑋

𝑛σ𝑖=1𝑛 (𝑋𝑖−ത𝑋)2

1

σ𝑖=1𝑛 (𝑋𝑖−ത𝑋)2

𝑠2

𝐶𝑂𝑉 መ𝛽 =𝑉( መ𝛽0) 𝐶𝑂𝑉( መ𝛽0 መ𝛽1)

𝐶𝑂𝑉( መ𝛽0 መ𝛽1) 𝑉( መ𝛽1)

05/10/2016

4

Intervalo de confiança para

os coeficientes

ˆ)( 2StIC jj

em que: t é o valor da distribuição t de

student a um nível de probabilidade

fixado, com n-p-1 graus de liberdade do

resíduo.

Coeficiente de Determinação (R2)

Índice de Schlageal (IA):

100

)(

)ˆ(

1(%)

1

2

1

2

n

i

n

i

YY

YY

IA

100Re

(%)2

SQTotal

gSQR

- Coeficiente de correlação linear ao

quadrado (rxy)2:

100)((%) 22

xyrR

CRITÉRIOS DE SELEÇÃO DOS MODELOS

Observações:

O índice de Schlaegel deve ser utilizado

com a variável dependente estivar na forma

de log ou ln.

Na escrita de um Trabalho você pode chamar

o IA de R2.

O (rxy)2 deve ser utilizado se o modelo for

não linear.

Comparando modelos com número de

coeficientes diferentes

Para comparar modelos com número de

coeficientes diferentes pode-se fazer o cálculo

do Coeficientes de Determinado Ajustado(R2adj)

ou Corrigido (R2corrig)

𝑅𝑎𝑑𝑗2 = 1 −

𝑛 − 1

𝑛 − 𝑝 + 1

𝑆𝑄𝑅𝑒𝑠

𝑆𝑄𝑇𝑜𝑡𝑎𝑙

Em que:SQRes= Soma de Quadrados do Resíduos

e SQTotal = Soma de Quadrados Total

Erro padrão da estimativa (Syx)

Lembre-se que no caso da variável

dependente estar na forma

logarítmica o deve ser

corrigido pelo Fator de Meyer

QMResíduo SY.X

pn

YY

Syx

n

i

1

)ˆ(

1

2

E se o modelo tiver a variável

dependente na forma logarítmica?

)*(5,0 2SyxeFM

em que: Syx2 = QMRes obtido no ajuste da variável dependente

na forma logarítmica.

Erro padrão da média (Syx(%)):

100Y

SyxSyx(%)

05/10/2016

5

ANÁLISE GRÁFICA DE RESÍDUOS

Consiste na análise dos resíduos da variável

resposta analisada em função de uma variável,

que pode ser a resposta (variável dependente)

ou uma variável independente.

Erros ou Resíduos?iY

iii YYE

i

ii

Y

YYsíduo

Re

Os resíduos podem ser plotados em função de

qualquer variável em estudo, geralmente os

resíduos são plotados contra o valor de dap ou

contra os valores de iY

Os erros Ei são definidos como as “n”

diferenças de sendo i = 1, 2, 3, ....,

n. Dessa forma, o erro indica o quanto a

equação de regressão não é capaz de explicar

os valores da variável dependente.

ii YY

Outliers

Um outiler corresponde a um ou mais ponto(s)

(resíduo(s)) muito discrepante em relação a

curva do modelo.

Nem sempre um ponto é um outlier, pode ter

acontecido do modelo não ter ajustado aos

dados. Por isso utilizamos vários modelos.

EXEMPLOA partir dos dados passados:

1 – Gerar as variáveis secundárias;

2 – Ajustar os modelos de volume;

3 – Proceder análise de variância;

4 – Realizar o teste de significância dos

coeficientes;

5 – Calcular as estatísticas de avaliação

e os gráficos de resíduos.

ModeloFórmula

Schumacher e Hall (linear) (1933)

Spurr (1957) )( 210 htdapV

)ln()ln()ln( 210 htdapV