Upload
lyduong
View
219
Download
0
Embed Size (px)
Citation preview
05/10/2016
1
REGRESSÃO LINEAR
CUIABÁ, MT
2016/2
INTRODUÇÃO
SIMPLES
MÚLTIPLA
iii XY 10
inikiii XXXY ...22110
i=1, 2, …, n
K=1,2, …, n
Relação dos valores da variável
dependente Yi (variável resposta) aos
valores de Xi (variáveis independentes,
regressoras ou exógenas).
em que:
Xi = variável independente fixa;
= parâmetros (coeficientes)
desconhecidos que especificam a
associação linear entre a variável
dependente e as variáveis
independentes;
= erro aleatório.
i
i
REPRESENTAÇAO MATRICIAL
Forma Algébrica
Forma Matricial
Yi = 0 + 1X1i + 2X2i + ... + kXni + i
Y = X +
Y = X +
nkknnn
k
k
n XXX
XXX
XXX
Y
Y
Y
2
1
1
0
21
22212
12111
2
1
1
1
1
em que:
Y = vetor dos valores observados para Y;
X = matriz dos valores observados ou fixados para as Xivariáveis independentes;
= vetor dos parâmetros (coeficientes) do modelo;
= vetor dos erros aleatórios.
Considerando os erros homocedásticos
com distribuição normal, o modelo
linear matricial fica assim definido:
Y = X + , onde ~ N (ᵠ; Iσ2)
É definido como modelo linear de Gauss-
Markov-Normal
05/10/2016
2
Como estimar os coeficientes? Escolhendo uma técnica que minimize
os valores médios dos coeficientes;
Técnica dos mínimos quadrados
ordinários (MQO);
Considere:
Y = X +
= Y – X
Sabendo-se, contudo, que a soma dos
desvios em relação a um valor médio é
nula, vem que:
´ = (Y - X)´(Y - X)
´ = (Y - X)´(Y - X)´ = (Y´ – ´X´)(Y - X)
´ = Y´Y- Y´ X - ´X´Y+ ´X´X
Sendo as matrizes Y´ X e ´X´Y de
dimensões 1x1 e sendo uma transposta
da outra, temos Y´ X = ´X´Y
Logo:
´ = Y´Y- 2 ´X´Y + ´X´X
Derivando a matriz de erros (´ ) em
relação a , tem-se:
𝑑(´)
(𝑑)= − 2(𝑑´)𝑋´𝑌 + (𝑑´)𝑋´𝑋 + ´𝑋´𝑋(𝑑) = 0
Sendo, (d´)X´X=´X´X(d), por serem matrizes de 1x1, e uma transposta a
outra:𝑑(´)
(𝑑)= − 2(𝑑´)𝑋´𝑌 + 2(𝑑´)𝑋´𝑋
Logo:
𝑑(´)
(𝑑)= 2(𝑑´)(𝑋´𝑌 − 𝑋´𝑋)
Derivando a matriz de
erros (´ ) em relação a e
igualando a zero, tem-se:
0ˆ
YXXX
d
d
YXXX
Em que: é o vetor das estimativas
dos coeficientes
Sistema de Equações
Normais
Pré-multiplicando ambos os
lados da expressão (14) por (X’X)-1,
tem-se:
YX'X)(X'X)(X'X)(X' -1-1
YX'X)(X' -1
ANÁLISE DE VARIÂNCIA DA REGRESSÃO (ANOVA)
FV GL SQ QM Fcal.
Regressão pSQReg/GLReg
(V1)V1/V2
Resíduo n – p – 1SQRes/GLRes
(V2)
Total n – 1
C- YX''β
YX'YY '
C - YY'
ANÁLISE DE VARIÂNCIA
* O Valor de Fcal será utilizado para calcular
o p-value (p-valor).
05/10/2016
3
p-valor ou p-value
Corresponde ao nível descritivo (ou nível
probabilístico ou ainda valor-p) corresponde
ao menor nível de significância α para o valor
calculado na estatística do teste.
Cálculo do p-valor:
teste tUma variável aleatória contínua tem
distribuição x de Student com 𝒗 graus de
liberdade se sua função densidade de probabilidade
é dada por:
𝑓 𝑥 =Γ
𝑣 + 12
𝑣𝜋Γ𝜋2
1 +𝑥2
𝑣
−𝑣+12
∴ 𝑥 𝜖 (−∞,∞)
Neste caso, utilizamos a notação 𝑥 ~𝑡 (𝑣)
O cálculo do p-valor é feito substituindo o valor obtido
em tcal e o grau de liberdade correspondente, resolvendo
a função para obter o valor de probabilidade do p-valor.
Observações: Tome cuidado se o teste é bilateral ou
unilateral, isso interfere no resultado do p-valor.
Cálculo do p-valor:
teste F
Uma variável aleatória contínua x tem
distribuição F de Snedecor com 𝒗𝟏 graus de
liberdade no numerador e 𝒗𝟐 graus de liberdade
no denominador se sua função densidade de
probabilidade é definida por:
𝑓 𝑥 =Γ
𝑣2 + 𝑣12
𝑣2𝑣1
𝑣22𝑥
𝑣22−1
Γ𝑣22
Γ𝑣12
𝑣2𝑣1
𝑥 + 1
𝑣2+𝑣12
∴ 𝑥 𝜖 (0,∞)
Neste caso, utilizamos a notação 𝑥 ~𝐹 (𝑣1; 𝑣2)
O cálculo do p-valor é feito substituindo o valor obtido
em Fcal e os grau de liberdade ao numerador e
denominado, resolvendo a função para obter o valor
de probabilidade do p-valor.
Hipótestes Estatísticas da ANOVA
(Teste F)
As hipóteses estatísticas testadas pelo
teste F
0:
0:
1
0
ia
i
HouH
H
Se o valor do p-valor calculado for menor ou igual
ao nível de significância estabelecido, rejeita-se
H0 ao nível de probabilidade considerado, logo
existe regressão e os valores da variável
dependente são explicados pela equação de
regressão.
TESTE DE SIGNIFICÂNCIA DOS COEFICIENTES
em que: é o valor estimado do parâmetro
(coeficiente); parâmetro – obtido a partir
da hipótese (geralmente utilizamos zero);
variância da estimativa do parâmetro
ˆ
ˆ
2St
Teste utilizado para verificar a
significância das estimativas dos parâmetros.
2S
0:
0:0
aH
HHipótese
Como obter as estimativas das
variâncias dos coeficientes?
Considerando um modelo linear
simples têm-se:
Matriz de Variâncias e Covariâncias
𝐶𝑂𝑉 መ𝛽 = (𝑋′𝑋)−1𝑠2 = (𝑋′𝑋)−1𝑄𝑀𝑅𝑒𝑠
𝐶𝑂𝑉 መ𝛽 =
1
𝑛+
ത𝑋2
σ𝑖=1𝑛 (𝑋𝑖− ത𝑋)2
−ത𝑋
𝑛σ𝑖=1𝑛 (𝑋𝑖−ത𝑋)2
−ത𝑋
𝑛σ𝑖=1𝑛 (𝑋𝑖−ത𝑋)2
1
σ𝑖=1𝑛 (𝑋𝑖−ത𝑋)2
𝑠2
𝐶𝑂𝑉 መ𝛽 =𝑉( መ𝛽0) 𝐶𝑂𝑉( መ𝛽0 መ𝛽1)
𝐶𝑂𝑉( መ𝛽0 መ𝛽1) 𝑉( መ𝛽1)
05/10/2016
4
Intervalo de confiança para
os coeficientes
ˆ)( 2StIC jj
em que: t é o valor da distribuição t de
student a um nível de probabilidade
fixado, com n-p-1 graus de liberdade do
resíduo.
Coeficiente de Determinação (R2)
Índice de Schlageal (IA):
100
)(
)ˆ(
1(%)
1
2
1
2
n
i
n
i
YY
YY
IA
100Re
(%)2
SQTotal
gSQR
- Coeficiente de correlação linear ao
quadrado (rxy)2:
100)((%) 22
xyrR
CRITÉRIOS DE SELEÇÃO DOS MODELOS
Observações:
O índice de Schlaegel deve ser utilizado
com a variável dependente estivar na forma
de log ou ln.
Na escrita de um Trabalho você pode chamar
o IA de R2.
O (rxy)2 deve ser utilizado se o modelo for
não linear.
Comparando modelos com número de
coeficientes diferentes
Para comparar modelos com número de
coeficientes diferentes pode-se fazer o cálculo
do Coeficientes de Determinado Ajustado(R2adj)
ou Corrigido (R2corrig)
𝑅𝑎𝑑𝑗2 = 1 −
𝑛 − 1
𝑛 − 𝑝 + 1
𝑆𝑄𝑅𝑒𝑠
𝑆𝑄𝑇𝑜𝑡𝑎𝑙
Em que:SQRes= Soma de Quadrados do Resíduos
e SQTotal = Soma de Quadrados Total
Erro padrão da estimativa (Syx)
Lembre-se que no caso da variável
dependente estar na forma
logarítmica o deve ser
corrigido pelo Fator de Meyer
QMResíduo SY.X
pn
YY
Syx
n
i
1
)ˆ(
1
2
E se o modelo tiver a variável
dependente na forma logarítmica?
)*(5,0 2SyxeFM
em que: Syx2 = QMRes obtido no ajuste da variável dependente
na forma logarítmica.
Erro padrão da média (Syx(%)):
100Y
SyxSyx(%)
05/10/2016
5
ANÁLISE GRÁFICA DE RESÍDUOS
Consiste na análise dos resíduos da variável
resposta analisada em função de uma variável,
que pode ser a resposta (variável dependente)
ou uma variável independente.
Erros ou Resíduos?iY
iii YYE
i
ii
Y
YYsíduo
Re
Os resíduos podem ser plotados em função de
qualquer variável em estudo, geralmente os
resíduos são plotados contra o valor de dap ou
contra os valores de iY
Os erros Ei são definidos como as “n”
diferenças de sendo i = 1, 2, 3, ....,
n. Dessa forma, o erro indica o quanto a
equação de regressão não é capaz de explicar
os valores da variável dependente.
ii YY
Outliers
Um outiler corresponde a um ou mais ponto(s)
(resíduo(s)) muito discrepante em relação a
curva do modelo.
Nem sempre um ponto é um outlier, pode ter
acontecido do modelo não ter ajustado aos
dados. Por isso utilizamos vários modelos.
EXEMPLOA partir dos dados passados:
1 – Gerar as variáveis secundárias;
2 – Ajustar os modelos de volume;
3 – Proceder análise de variância;
4 – Realizar o teste de significância dos
coeficientes;
5 – Calcular as estatísticas de avaliação
e os gráficos de resíduos.
ModeloFórmula
Schumacher e Hall (linear) (1933)
Spurr (1957) )( 210 htdapV
)ln()ln()ln( 210 htdapV