Upload
vuxuyen
View
217
Download
0
Embed Size (px)
Citation preview
Analise de Regressao – EST036
Michel Helcias Montoril
Instituto de Ciencias ExatasUniversidade Federal de Juiz de Fora
I Regressao sem intercepto;
I Formas alternativas do modelo de regressao
Regressao sem intercepto
Regressao sem intercepto
I Em algumas situacoes, faz sentido pensar que a reta deregressao passa pela origem;
I Um modelo de regressao sem intercepto, frequentementeparece apropriado na analise de dados de processos quımicos eoutros processos de fabricacao;
I O rendimento de um processo quımico e zero quando oprocesso de temperatura de operacao e zero;
Regressao sem intercepto
I O modelo de regressao sem intercepto corresponde a
Y = β1X + ε;
I Para n observacoes nao correlacionadas (Yi ,Xi ), i = 1, . . . , n,a funcao de mınimos quadrados sera
S(β1) =n∑
i=1
(Yi − β1Xi )2;
I A unica equacao normal corresponde a
β1
n∑i=1
X 2i =
n∑i=1
XiYi ;
Regressao sem intercepto
I O estimador (viciado?) de mınimos quadrados para β1 sera,portanto,
β1 =
∑ni=1 XiYi∑ni=1 X
2i
I O modelo de regressao ajustado passa a ser escrito como
Y = β1X ;
I O estimador da variancia (viciado?) dos erros tem a forma
σ2ε =
∑ni=1(Yi − Yi )
2
n − 1=
∑ni=1 Y
2i − β1
∑ni=1 XiYi
n − 1,
com n − 1 graus de liberdade.
Supondo normalidade para os erros
I O intervalo de confianca para β1, ao nıvel de confianca de(1− α)100%, sera[
β1 − tα/2,n−1
√σ2ε∑ni=1 X
2i
; β1 + tα/2,n−1
√σ2ε∑ni=1 X
2i
];
I O intervalo de confianca para µY |x0 ≡ E(Y |X = x0), ao nıvelde confianca de (1− α)100%, sera[µY |x0 − tα/2,n−1
√x20 σ
2ε∑n
i=1 X2i
; µY |x0 + tα/2,n−1
√x20 σ
2ε∑n
i=1 X2i
];
I O intervalo de predicao de (1− α)100% para uma novaobservacao Y0 ≡ Y |X = x0 sera
µY |x0 − tα/2,n−1
√√√√σ2ε
(1 +
x20∑n
i=1 X2i
); µY |x0 + tα/2,n−1
√√√√σ2ε
(1 +
x20∑n
i=1 X2i
) ;
Supondo normalidade para os erros
I Tanto o IC para µY |x0 quanto o intervalo de predicao para Y0
tendem a aumentar quando x0 cresce;
I O tamanho do IC para µY |x0 e zero quando x0 = 0, pois omodelo supoe que µY |0 = 0, o que difere consideravelmentedo caso em que o modelo de regressao possui intercepto;
I O intervalo de predicao, por outro lado, tem tamanho maiordo que zero quando x0 = 0, pois o erro aleatorio da novaobservacao e levado em consideracao.
Regressao sem intercepto
I E comum o uso inadequado do modelo de regressao semintercepto, especialmente em situacoes em que as observacoesda covariavel X estejam afastadas da origem;
I Imaginemos o caso em que estejamos interessados em explicaro rendimento de um processo quımico a partir da temperaturade operacao;
I Suponha que as observacoes da temperatura variem entre100oF e 200oF;
Um exemplo de temperatura vs. rendimento
●
●●
●●
●
●● ●
●
0 50 100 150 200
01
23
45
Temperatura (F)
Ren
dim
ento
Figura: Grafico de dispersao do rendimento de um processo quımicocom a temperatura de operacao.
Um exemplo de temperatura vs. rendimento
I Os dados aparentam estar relacionados de forma linear paratemperaturas entre 100oF e 200oF;
I Como ja mencionado anteriormente, faz sentido pensar emum modelo de regressao cuja reta passe pela origem;
I Ainda assim, forcar um modelo passando pela origem, nessecaso, fornece um ajuste visivelmente pobre;
Um exemplo de temperatura vs. rendimento
●
●●
●●
●
●● ●
●
0 50 100 150 200
01
23
45
Temperatura (F)
Ren
dim
ento
Figura: Grafico de dispersao do rendimento de um processo quımicocom a temperatura de operacao. Reta do modelo ajustado passandopela origem.
Um exemplo de temperatura vs. rendimento
I Por outro lado, um modelo com intercepto fornece um ajustemuito melhor na regiao onde os dados sao observados;
Um exemplo de temperatura vs. rendimento
●
●●
●●
●
●● ●
●
0 50 100 150 200
01
23
45
Temperatura (F)
Ren
dim
ento
Figura: Grafico de dispersao do rendimento de um processo quımicocom a temperatura de operacao. Reta do modelo ajustado comintercepto.
Um exemplo de temperatura vs. rendimento
I Frequentemente, o relacionamento entre X e Y e bastantediferente perto da origem, quando comparado a regiao ondeos dados sao observados;
Um exemplo de temperatura vs. rendimento
●
●●
●●
●
●● ●
●
0 50 100 150 200
01
23
45
Temperatura (F)
Ren
dim
ento
Figura: Grafico de dispersao do rendimento de um processo quımicocom a temperatura de operacao. Verdadeira funcao de regressao.
Um exemplo de temperatura vs. rendimento
I Neste exemplo, provavelmente seja necessario pensar em umaabordagem mais complexa para modelar a media dorendimento a partir da temperatura, levando em conta toda aamplitude de X ;
I Tal modelo so deve ser levado em consideracao se o intervalodos dados estiver suficientemente proximo da origem!
Regressao sem intercepto
I O grafico de dispersao as vezes e bastante util para indicar deforma satisfatoria se o modelo sem intercepto e, ou nao, omais adequado;
I De qualquer modo, e recomendavel ajustar ambos os modelos,com e sem intercepto, e escolher o mais adequado com basena qualidade dos ajustes;
I Caso nao haja evidencias que levem a rejeicao da hipoteseH0 : β0 = 0 no ajuste do modelo com intercepto, isso e umindicativo de que o ajuste do modelo sem intercepto seja maisapropriado;
Regressao sem intercepto
I O quadrado medio dos resıduos e uma forma util de secomparar a qualidade de ajuste;
I O modelo que fornecer menor MSRes e o melhor ajuste, nosentido de minimizar a estimativa da variancia de Y na retade regressao;
I Geralmente, R2 nao e uma boa estatıstica comparativapara os dois modelos.
Coeficiente de determinacao da regressao sem intercepto
I Para o modelo com intercepto,
R2 =
∑ni=1(Yi − Y )2∑ni=1(Yi − Y )2
=variacao de Y explicada pela regressao
variacao total observada em Y;
I Observe que R2 indica a proporcao da variabilidade em tornode Y explicada pela regressao;
I No modelo sem intercepto, a identidade de analise devariancia fundamental se torna
n∑i=1
Y 2i︸ ︷︷ ︸
SST
=n∑
i=1
Y 2i︸ ︷︷ ︸
SSR
+n∑
i=1
(Yi − Yi )2
︸ ︷︷ ︸SSRes
;
Coeficiente de determinacao da regressao sem intercepto
I Portanto, o coeficiente de determinacao analogo para omodelo sem intercepto sera
R20 =
∑ni=1 Y
2i∑n
i=1 Y2i
;
I R20 indica a proporcao da variabilidade em torno da origem
(zero) representada pela regressao;
I Nao raro obtemos R20 > R2, mesmo com o modelo com
intercepto apresentando menor MSRes (que e uma medidarazoavel da qualidade total do ajuste);
Dados de estocagem de prateleiras
I O tempo necessario para um comerciante armazenar caixas derefrigerante em uma prateleira de supermercado, bem como onumero de caixas estocadas e apresentado no proximo slide;
I Em seguida, o grafico de dispersao dos dados tambem eexibido;
Dados de estocagem de prateleiras
Tempo (minutos) Caixas estocadas
10.15 252.96 63.00 86.88 170.28 25.06 139.14 23
11.86 3011.69 28
6.04 147.57 191.74 49.38 240.16 11.84 5
Dados de estocagem de prateleiras
●
● ●
●
●
●
●
●●
●
●
●
●
●
●
0 5 10 15 20 25 30
02
46
810
12
Caixas estocadas
Tem
po
Figura: Grafico de dispersao dos dados de estocagem de prateleiras.
Dados de estocagem de prateleiras
I O grafico de dispersao indica que uma reta passando pelaorigem deve ser usada para expressar a relacao entre o tempoo numero de caixas armazenadas;
I Alem disso, faz sentido pensar que, se o numero de caixasarmazenadas for zero, entao o tempo necessario para issotambem sera nulo;
I Note, ainda, que a amplitude das observacoes do numero decaixas armazenadas esta perto de zero;
I Portanto, o modelo de regressao sem intercepto parece serrazoavel;
Dados de estocagem de prateleiras
I A estimativa do modelo sem intercepto sera
β1 =
∑ni=1 XiYi∑ni=1 X
2i
=1841.98
4575.00= 0.4026;
I Portanto, o modelo ajustado corresponde a
Y = 0.4026X ;
I A reta de regressao e apresentada na figura a seguir:
Dados de estocagem de prateleiras
●
● ●
●
●
●
●
●●
●
●
●
●
●
●
0 5 10 15 20 25 30
02
46
810
12
Caixas estocadas
Tem
po
Figura: Grafico de dispersao dos dados de estocagem de prateleiras. Retaajustada do modelo sem intercepto.
Dados de estocagem de prateleiras
I O modelo sem intercepto apresenta MSRes = 0.0893 eR20 = 0.9983;
I A estatıstica t para testar H0 : β1 = 0 sera t0 = 91.13,resultando em um nıvel descritivo de 8.01× 10−21;
I Logo, ha fortes evidencias que nos levam a concluir que omodelo sem intercepto esteja adequado.
Dados de estocagem de prateleiras
I Para efeito de comparacao, o modelo com intercepto tambemfoi ajustado:
Y = −0.0938 + 0.4071X ;
I A estatıstica t para testar H0 : β0 = 0 foi t0 = −0.65,resultando em um nıvel descritivo de 0.525;
I Logo, nao ha evidencias que nos levem a rejeitar a hipotesenula, ao nıvel de significancia de 10% (por exemplo);
Dados de estocagem de prateleiras
I O modelo com intercepto apresenta MSRes = 0.0931 eR2 = 0.9947;
I Como o MSRes do modelo ajustado sem intercepto e menor,concluımos que o modelo com reta passando pela origem emais indicado (superior) que o modelo com intercepto;
I Como mencionado anteriormente, comparar os coeficientes dedeterminacao nao induz a nenhuma conclusao confiavel.
Formas alternativas do modelo de regressao
Forma alternativa do modelo
I O modelo de regressao linear simples pode ser escrito de umaforma alternativa:
Yi = β∗0 + β1(Xi − X0) + εi , i = 1, . . . , n,
em que X0 e um valor de referencia;
I Nesse caso, o intercepto sera
β∗0 = β0 + β1X0;
I Comumente, emprega-se X0 = X :
Yi = β∗0 + β1(Xi − X ) + εi , i = 1, . . . , n,
em que β∗0 = β0 + β1X ;
Algumas propriedades
I O estimador do coeficiente de regressao nao muda:
β1 =SXYSXX
=
∑ni=1(Xi − X )Yi∑ni=1(Xi − X )2
;
I O estimador do intercepto muda:
β∗0 = Y ;
I Uma vantagem interessante (e muito util):
Cov(β∗0 , β1) = 0;
I O modelo ajustado (nao muda)
Yi = Y + β1(Xi − X ).
O modelo de regressao e valido apenas na amplitude dosdados (ao redor da media).
Forma alternativa do modelo II
I A variavel independente pode ser padronizada da forma
Zi =Xi − X
S1/2XX
, i = 1, . . . , n;
I Modelo sera escrito como
Yi = β∗0 + β∗1Zi + εi , i = 1, . . . , n;
I Nesse caso, o intercepto sera
β∗0 = β0 + β1X ;
I O coeficiente de inclinacao passa a ser
β∗1 = S1/2XX β1.
Algumas propriedades II
I O estimador do coeficiente de regressao muda:
β∗1 = S1/2XX β1;
I O estimador do intercepto sera
β∗0 = Y ;
I Uma vantagem interessante (e muito util) que permanece:
Cov(β∗0 , β∗1) = 0;
I O modelo ajustado (nao muda)
Yi = Y + β1(Xi − X ).
O modelo de regressao e valido apenas na amplitude dosdados (ao redor da media).