An alise de Regress~ao { EST036 · observa˘c~ao Y 0 YjX = x 0 ser a 2 4 ^ ... Regress~ao sem intercepto I O quadrado m edio dos res duos e uma forma util de se ... 0 5 10 15 20 25

$Page 1: An alise de Regress~ao { EST036 · observa˘c~ao Y 0 YjX = x 0 ser a 2 4 ^ ... Regress~ao sem intercepto I O quadrado m edio dos res duos e uma forma util de se ... 0 5 10 15 20 25$
Analise de Regressao – EST036

Michel Helcias Montoril

Instituto de Ciencias ExatasUniversidade Federal de Juiz de Fora

I Regressao sem intercepto;

I Formas alternativas do modelo de regressao

Regressao sem intercepto


I Em algumas situacoes, faz sentido pensar que a reta deregressao passa pela origem;

I Um modelo de regressao sem intercepto, frequentementeparece apropriado na analise de dados de processos quımicos eoutros processos de fabricacao;

I O rendimento de um processo quımico e zero quando oprocesso de temperatura de operacao e zero;


I O modelo de regressao sem intercepto corresponde a

Y = β1X + ε;

I Para n observacoes nao correlacionadas (Yi ,Xi ), i = 1, . . . , n,a funcao de mınimos quadrados sera

S(β1) =n∑

i=1

(Yi − β1Xi )2;

I A unica equacao normal corresponde a

β1

n∑i=1

X 2i =

n∑i=1

XiYi ;


I O estimador (viciado?) de mınimos quadrados para β1 sera,portanto,

β1 =

∑ni=1 XiYi∑ni=1 X

2i

I O modelo de regressao ajustado passa a ser escrito como

Y = β1X ;

I O estimador da variancia (viciado?) dos erros tem a forma

σ2ε =

∑ni=1(Yi − Yi )

2

n − 1=

∑ni=1 Y

2i − β1

∑ni=1 XiYi

n − 1,

com n − 1 graus de liberdade.

Supondo normalidade para os erros

I O intervalo de confianca para β1, ao nıvel de confianca de(1− α)100%, sera[

β1 − tα/2,n−1

√σ2ε∑ni=1 X

2i

; β1 + tα/2,n−1

√σ2ε∑ni=1 X

2i

];

I O intervalo de confianca para µY |x0 ≡ E(Y |X = x0), ao nıvelde confianca de (1− α)100%, sera[µY |x0 − tα/2,n−1

√x20 σ

2ε∑n

i=1 X2i

; µY |x0 + tα/2,n−1

√x20 σ

2ε∑n

i=1 X2i

];

I O intervalo de predicao de (1− α)100% para uma novaobservacao Y0 ≡ Y |X = x0 sera

µY |x0 − tα/2,n−1

√√√√σ2ε

(1 +

x20∑n

i=1 X2i

); µY |x0 + tα/2,n−1

√√√√σ2ε

(1 +

x20∑n

i=1 X2i

) ;

Supondo normalidade para os erros

I Tanto o IC para µY |x0 quanto o intervalo de predicao para Y0

tendem a aumentar quando x0 cresce;

I O tamanho do IC para µY |x0 e zero quando x0 = 0, pois omodelo supoe que µY |0 = 0, o que difere consideravelmentedo caso em que o modelo de regressao possui intercepto;

I O intervalo de predicao, por outro lado, tem tamanho maiordo que zero quando x0 = 0, pois o erro aleatorio da novaobservacao e levado em consideracao.


I E comum o uso inadequado do modelo de regressao semintercepto, especialmente em situacoes em que as observacoesda covariavel X estejam afastadas da origem;

I Imaginemos o caso em que estejamos interessados em explicaro rendimento de um processo quımico a partir da temperaturade operacao;

I Suponha que as observacoes da temperatura variem entre100oF e 200oF;

Um exemplo de temperatura vs. rendimento

●

●●

●●

●

●● ●

●

0 50 100 150 200

01

23

45

Temperatura (F)

Ren

dim

ento

Figura: Grafico de dispersao do rendimento de um processo quımicocom a temperatura de operacao.


I Os dados aparentam estar relacionados de forma linear paratemperaturas entre 100oF e 200oF;

I Como ja mencionado anteriormente, faz sentido pensar emum modelo de regressao cuja reta passe pela origem;

I Ainda assim, forcar um modelo passando pela origem, nessecaso, fornece um ajuste visivelmente pobre;


●

●●

●●

●

●● ●

●

0 50 100 150 200

01

23

45

Temperatura (F)

Ren

dim

ento

Figura: Grafico de dispersao do rendimento de um processo quımicocom a temperatura de operacao. Reta do modelo ajustado passandopela origem.


I Por outro lado, um modelo com intercepto fornece um ajustemuito melhor na regiao onde os dados sao observados;


●

●●

●●

●

●● ●

●

0 50 100 150 200

01

23

45

Temperatura (F)

Ren

dim

ento

Figura: Grafico de dispersao do rendimento de um processo quımicocom a temperatura de operacao. Reta do modelo ajustado comintercepto.


I Frequentemente, o relacionamento entre X e Y e bastantediferente perto da origem, quando comparado a regiao ondeos dados sao observados;


●

●●

●●

●

●● ●

●

0 50 100 150 200

01

23

45

Temperatura (F)

Ren

dim

ento

Figura: Grafico de dispersao do rendimento de um processo quımicocom a temperatura de operacao. Verdadeira funcao de regressao.


I Neste exemplo, provavelmente seja necessario pensar em umaabordagem mais complexa para modelar a media dorendimento a partir da temperatura, levando em conta toda aamplitude de X ;

I Tal modelo so deve ser levado em consideracao se o intervalodos dados estiver suficientemente proximo da origem!


I O grafico de dispersao as vezes e bastante util para indicar deforma satisfatoria se o modelo sem intercepto e, ou nao, omais adequado;

I De qualquer modo, e recomendavel ajustar ambos os modelos,com e sem intercepto, e escolher o mais adequado com basena qualidade dos ajustes;

I Caso nao haja evidencias que levem a rejeicao da hipoteseH0 : β0 = 0 no ajuste do modelo com intercepto, isso e umindicativo de que o ajuste do modelo sem intercepto seja maisapropriado;


I O quadrado medio dos resıduos e uma forma util de secomparar a qualidade de ajuste;

I O modelo que fornecer menor MSRes e o melhor ajuste, nosentido de minimizar a estimativa da variancia de Y na retade regressao;

I Geralmente, R2 nao e uma boa estatıstica comparativapara os dois modelos.

Coeficiente de determinacao da regressao sem intercepto

I Para o modelo com intercepto,

R2 =

∑ni=1(Yi − Y )2∑ni=1(Yi − Y )2

=variacao de Y explicada pela regressao

variacao total observada em Y;

I Observe que R2 indica a proporcao da variabilidade em tornode Y explicada pela regressao;

I No modelo sem intercepto, a identidade de analise devariancia fundamental se torna

n∑i=1

Y 2i︸︷︷︸

SST

=n∑

i=1

Y 2i︸︷︷︸

SSR

+n∑

i=1

(Yi − Yi )2

︸︷︷︸SSRes

;

Coeficiente de determinacao da regressao sem intercepto

I Portanto, o coeficiente de determinacao analogo para omodelo sem intercepto sera

R20 =

∑ni=1 Y

2i∑n

i=1 Y2i

;

I R20 indica a proporcao da variabilidade em torno da origem

(zero) representada pela regressao;

I Nao raro obtemos R20 > R2, mesmo com o modelo com

intercepto apresentando menor MSRes (que e uma medidarazoavel da qualidade total do ajuste);

Dados de estocagem de prateleiras

I O tempo necessario para um comerciante armazenar caixas derefrigerante em uma prateleira de supermercado, bem como onumero de caixas estocadas e apresentado no proximo slide;

I Em seguida, o grafico de dispersao dos dados tambem eexibido;


Tempo (minutos) Caixas estocadas

10.15 252.96 63.00 86.88 170.28 25.06 139.14 23

11.86 3011.69 28

6.04 147.57 191.74 49.38 240.16 11.84 5


●

● ●

●

●

●

●

●●

●

●

●

●

●

●

0 5 10 15 20 25 30

02

46

810

12

Caixas estocadas

Tem

po

Figura: Grafico de dispersao dos dados de estocagem de prateleiras.


I O grafico de dispersao indica que uma reta passando pelaorigem deve ser usada para expressar a relacao entre o tempoo numero de caixas armazenadas;

I Alem disso, faz sentido pensar que, se o numero de caixasarmazenadas for zero, entao o tempo necessario para issotambem sera nulo;

I Note, ainda, que a amplitude das observacoes do numero decaixas armazenadas esta perto de zero;

I Portanto, o modelo de regressao sem intercepto parece serrazoavel;


I A estimativa do modelo sem intercepto sera

β1 =

∑ni=1 XiYi∑ni=1 X

2i

=1841.98

4575.00= 0.4026;

I Portanto, o modelo ajustado corresponde a

Y = 0.4026X ;

I A reta de regressao e apresentada na figura a seguir:


●

● ●

●

●

●

●

●●

●

●

●

●

●

●

0 5 10 15 20 25 30

02

46

810

12

Caixas estocadas

Tem

po

Figura: Grafico de dispersao dos dados de estocagem de prateleiras. Retaajustada do modelo sem intercepto.


I O modelo sem intercepto apresenta MSRes = 0.0893 eR20 = 0.9983;

I A estatıstica t para testar H0 : β1 = 0 sera t0 = 91.13,resultando em um nıvel descritivo de 8.01× 10−21;

I Logo, ha fortes evidencias que nos levam a concluir que omodelo sem intercepto esteja adequado.


I Para efeito de comparacao, o modelo com intercepto tambemfoi ajustado:

Y = −0.0938 + 0.4071X ;

I A estatıstica t para testar H0 : β0 = 0 foi t0 = −0.65,resultando em um nıvel descritivo de 0.525;

I Logo, nao ha evidencias que nos levem a rejeitar a hipotesenula, ao nıvel de significancia de 10% (por exemplo);


I O modelo com intercepto apresenta MSRes = 0.0931 eR2 = 0.9947;

I Como o MSRes do modelo ajustado sem intercepto e menor,concluımos que o modelo com reta passando pela origem emais indicado (superior) que o modelo com intercepto;

I Como mencionado anteriormente, comparar os coeficientes dedeterminacao nao induz a nenhuma conclusao confiavel.

Formas alternativas do modelo de regressao

Forma alternativa do modelo

I O modelo de regressao linear simples pode ser escrito de umaforma alternativa:

Yi = β∗0 + β1(Xi − X0) + εi , i = 1, . . . , n,

em que X0 e um valor de referencia;

I Nesse caso, o intercepto sera

β∗0 = β0 + β1X0;

I Comumente, emprega-se X0 = X :

Yi = β∗0 + β1(Xi − X ) + εi , i = 1, . . . , n,

em que β∗0 = β0 + β1X ;

Algumas propriedades

I O estimador do coeficiente de regressao nao muda:

β1 =SXYSXX

=

∑ni=1(Xi − X )Yi∑ni=1(Xi − X )2

;

I O estimador do intercepto muda:

β∗0 = Y ;

I Uma vantagem interessante (e muito util):

Cov(β∗0 , β1) = 0;

I O modelo ajustado (nao muda)

Yi = Y + β1(Xi − X ).

O modelo de regressao e valido apenas na amplitude dosdados (ao redor da media).

Forma alternativa do modelo II

I A variavel independente pode ser padronizada da forma

Zi =Xi − X

S1/2XX

, i = 1, . . . , n;

I Modelo sera escrito como

Yi = β∗0 + β∗1Zi + εi , i = 1, . . . , n;

I Nesse caso, o intercepto sera

β∗0 = β0 + β1X ;

I O coeficiente de inclinacao passa a ser

β∗1 = S1/2XX β1.

Algumas propriedades II

I O estimador do coeficiente de regressao muda:

β∗1 = S1/2XX β1;

I O estimador do intercepto sera

β∗0 = Y ;

I Uma vantagem interessante (e muito util) que permanece:

Cov(β∗0 , β∗1) = 0;

I O modelo ajustado (nao muda)

Yi = Y + β1(Xi − X ).

O modelo de regressao e valido apenas na amplitude dosdados (ao redor da media).

Documents

An alise de Regress~ao { EST036 · observa˘c~ao Y 0 YjX = x 0 ser a 2 4 ^ ... Regress~ao sem intercepto I O quadrado m edio dos res duos e uma forma util de se ... 0 5 10 15 20 25