22
1 Outros tópicos na análise de regressão Regressão passando pela origem Exemplo: X são as unidades produzidas e Y é o custo, assim Y é zero por definição quando X=0. Outro exemplo: X é o número de marcas de cervejas armazenada em um supermercado num experimento (incluindo alguns supermercados sem cerveja armazenada (?? Não é no Brasil) e Y é o volume de cervejas vendidas no supermercado. Modelo O modelo com erros normais é o mesmo que (3) exceto que 0 =0, assim, temos: (5) X Y i i i 1 Onde: 1 é o parâmetro a estimar; X i são constantes conhecidas e i são os erros aleatórios, independentes, normalmente distribuídos com média zero e variância 2 . A função de regressão para o modelo (5) é dada por: X Y E 1 ) (

Outros tópicos na análise de regressão

  • Upload
    mateja

  • View
    44

  • Download
    3

Embed Size (px)

DESCRIPTION

Outros tópicos na análise de regressão. Regressão passando pela origem. - PowerPoint PPT Presentation

Citation preview

Page 1: Outros tópicos na análise de regressão

1

Outros tópicos na análise de regressão

Regressão passando pela origemExemplo: X são as unidades produzidas e Y é o custo, assim Y é zero por definição quando X=0. Outro exemplo: X é o número de marcas de cervejas armazenada em um supermercado num experimento (incluindo alguns supermercados sem cerveja armazenada (?? Não é no Brasil) e Y é o volume de cervejas vendidas no supermercado.

Modelo

O modelo com erros normais é o mesmo que (3) exceto que 0=0, assim, temos:

(5) XY iii 1

Onde: 1 é o parâmetro a estimar; Xi são constantes conhecidas e i são os erros aleatórios, independentes, normalmente distribuídos com média zero e variância 2.

A função de regressão para o modelo (5) é dada por:

XYE 1)(

Page 2: Outros tópicos na análise de regressão

2

Inferência

O estimador de mínimos quadrados de 1 (que também é o estimador de máxima verossimilhança para o modelo de regressão com erros normais), no modelo (5), é obtido minimizando-se o critério:

21 )( ii XYQ

com relação ao parâmetro 1. A equação normal resultante é dada por:

0)( 1 iii XbYX

É um valor específico

Resolvendo para b1 obtemos o estimador por ponto:

21

i

ii

X

YXb

Os valores ajustados e os resíduos são dados por:

iiiiiii XbYYYe e XbY 11ˆˆ

Page 3: Outros tópicos na análise de regressão

3

Um estimador não tendencioso para 2 é dado por:

11

)ˆ( 22

n

e

n

YY iiiQME

Perde-se 1 grau de liberdade para estimar o parâmetro 1

Os limites de confiança para 1, E(Yh) e para uma nova observação Yh(novo) para o modelo (5) são dados por:

)(ˆ1)(

)ˆ(ˆ)ˆ()(

)()(

2

2

2

2

2

)(

111

predtsY QMEpredição sY

YtsY Y sYE

btsb b s

hX

X2novah

hhX

QMEXh

2h

1X

QME2

i

h

i

h

i

O valor de t tem n-1 graus de liberdade associado (os do resíduo). No modelo (3), com intercepto, tínhamos termos da forma: No modelo (5), como a equação passa pela origem, temos termos X2

i e X2h.

.)( 2 2hi )X-(X ou XX

Page 4: Outros tópicos na análise de regressão

4

Exemplo: uma companhia opera 12 depósitos (armazéns). Com o objetivo de encontrar um procedimento mais eficiente de planejamento e controle, foi estudado a relação entre o número de horas trabalhadas (X) e o custo total do serviço (Y) nos depósitos durante um período de teste. Os dados e alguns resultados são apresentados na tabela a seguir:

Regressão passando pela origem - exemplo dos depósitos(Warehousing)

Depósito Unidadestrabalhadas

Custo total

i Xi Yi XiYi X2i

1 20 114 2280 4002 196 921 180516 384163 115 560 64400 132254 50 245 12250 25005 122 575 70150 148846 100 475 47500 100007 33 138 4554 10898 154 727 111958 237169 80 375 30000 640010 147 670 98490 2160911 182 828 150696 3312412 160 762 121920 25600

Total 1359 6390 894714 190963

Page 5: Outros tópicos na análise de regressão

5

y=4,616*x+eps

Unidades trabalhadas

Cu

sto

to

tal

0

200

400

600

800

1000

0 40 80 120 160 200 240

O parâmetro 1 é estimado por:

6853,41 b

Assim, a função de regressão estimada é dada por:

XY 6853,4ˆ

?ie

Page 6: Outros tópicos na análise de regressão

6

O intervalo para 1, com confiança de 95% é dado por:

76,461,4

)0342,0(201,26853,4

1

Interpretação: com 95% de confiança, estima-se que a média da variável custo aumenta alguma coisa entre $4,61 e $4,76 para cada unidade adicional de trabalho.Cuidados com o uso da regressão pela origem

• geralmente, a soma dos resíduos não é igual a zero (Verifique este fato no exemplo em estudo; também na equação normal(restrição)). Assim, num gráfico de resíduos, os mesmos não estarão aleatoriamente distribuídos ao redor de zero;

• pode ocorrer que: 22 )( YYSQTOeSQE ii

(ocorrência: dados apresentam comportamento curvilíneo ou linear com intercepto).

Neste caso, o coeficiente de determinação (r2), dado por:

(negativo) r SQTOSQE 012

Portanto, o r2, neste caso de regressão, não tem uma clara interpretação.

Page 7: Outros tópicos na análise de regressão

7

Exercício: construa a tabela da análise de variância da regressão, faça o teste F e conclua, utilizando as seguintes somas de quadrados.

21

221

2

2

)(

ˆ

ii

ii

i

XbYSQE

XbYSQRNC

YSQTNC

Onde SQTNC é a soma de quadrados total não corrigido; SQRNC é a soma de quadrados da regressão não corrigido e SQE é a soma de quadrados do erro.

Verifique numericamente que SQTNC=SQRNC+SQE.

Page 8: Outros tópicos na análise de regressão

8

Page 9: Outros tópicos na análise de regressão

9

Exemplo (referência: SAS System for Regression). Neste exemplo iremos ilustrar o fato de que o uso de um modelo sem intercepto pode fornecer resultados imprecisos mesmo nos casos em que o verdadeiro valor do coeficiente linear é próximo de zero. Uma amostra de tamanho 8 foi gerada usando o modelo y=x+, com o termo do erro com distribuição normal, média zero e variância l.

Observação X Y1 1 -0.352 2 2.793 3 1.814 4 2.005 5 3.886 6 6.797 7 7.678 8 6.79

Page 10: Outros tópicos na análise de regressão

10

Modelo com coef. Linear Modelo sem coef. linearF= 34,23 Valor p=0,0011 F=117,34 Valor p=0,0001

R2=0,8509 R2=0,9437QME=1,446 QME=1,458

5861,ei 96300 ,

0911 , 91601 ,SQE=8,68 SQE=10,21SQT=58,19 SQT=181,27

Observa-se imediatamente que tanto o valor o teste F para o modelo, como o valor R2 são muito maiores para o modelo sem o coeficiente linear. Observe (isto é importante) que os quadrados médios são praticamente iguais, a rigor, o quadrado médio do modelo sem o coeficiente linear é maior do que o modelo com o coeficiente angular. Na realidade, os dois modelos estimam equações de regressão muito similares; a estimativa do coeficiente linear (-0,963) é bastante próxima de zero, além disso, a hipótese de que 0=0 não pode ser rejeitada (valor p=0,3436); as estimativas dos coeficientes angulares: 1=1,09 e 1=0,916, para os modelos com e sem coeficiente linear, respectivamente, são muito próximos.

Page 11: Outros tópicos na análise de regressão

11

Observe, também, que a soma dos resíduos vale -1,5865, diferente de zero, mesmo o coeficiente linear sendo próximo de zero.

Como o verdadeiro coeficiente linear é zero, as somas de quadrados do erro são próximas, quais sejam: 8,68 para o modelo com intercepto e 10,21 para o modelo sem o intercepto, porém, as somas de quadrado total são muito diferentes, sendo igual a 181,27 para o modelo sem o coeficiente linear e 58,19 para o modelo com coeficiente linear. Como o r2 é uma estatística baseada na diferença entre a soma de quadrados do erro e total, ela é muito maior para o modelo sem o coeficiente linear.

Observação Resíduos1 -1,26572 0,95853 -0,93724 -1,66295 -0,69876 1,29567 1,25998 -0,5359

Page 12: Outros tópicos na análise de regressão

12

Efeitos de erros de medidas

Erros de medida em Y

Exemplo:

Y: tempo necessário para completar uma tarefa

X: complexidade da tarefa

As tomadas de tempo podem ser feitas de forma imprecisa. Porém, se esses erros podem ser considerados aleatórios, não correlacionados e não tendenciosos, não temos problemas com a modelagem adotada até aqui. A parte aleatória do modelo () absorve estas variações.

Erros de medida em X

Suponha que estejamos interessados na seguinte relação:

ganhos por tarefa dos trabalhadores e idades dos mesmos.

Sejam:

Xi = a idade verdadeira do i-ésimo trabalhador

Xi* = a idade relatada pelo i-ésimo trabalhador

Page 13: Outros tópicos na análise de regressão

13

Define-se o erro de medida como sendo:

iii XX *

O modelo de regressão que gostaríamos estudar é:

iii XY 10

Como observamos Xi*, o modelo fica:

(6) XY

ou

XY

iiii

iiii

)(

)(

1*

10

*10

Termo do erro

Variável preditora

Para que os resultados padrões da análise de regressão sejam válidas, a variável preditora deve ser independente do erro. Aqui, a variável preditora é correlacionada com o erro, dada a restrição:

iiiiii XXXX **

Portanto, os resultados padrões de regressão não são válidos para o modelo (6).

Page 14: Outros tópicos na análise de regressão

14

Demonstração: covariância entre Xi* e os erros (i- 1i) no modelo (6)

)(

)]}())][(({[),(

21

1

1

11**

1*

iii

iii

iii*i

iiiiiiiii

E

)](E[

)])(X-E[(X

EXEXEX

Inicialmente, temos:.constantes X e 0)E( pois XXEXE iiiiii ,)()( *

(condição) EEEE a iiiiiiii 0)()]()([)(),()(

)()]([)()()( 2222iiii EEE b

A covariância fica:

Usando (a) e (b), a covariância fica:

0)(),( 211

* iiiiX

Grandes dificuldades são encontradas na obtenção de estimadores não tendenciosos quando existe erros de medida em X. Para soluções consultar textos especializados .

(Erros de medidas, i não sejam correlacionados com os erros do modelo, i.)

Page 15: Outros tópicos na análise de regressão

15

Predição inversa (Calibração)

Em muitos estudos, uma regressão de Y sobre X é usada para estimar o valor de X o qual originou um novo valor de Y.

Exemplos:

1) um analista de uma associação de comércio fez uma regressão entre preços de venda de um produto (Y), e os seus custos (X) para 15 membros da associação. O preço de venda de uma firma não pertencente à associação, Yh(novo), é conhecido e, deseja-se, conhecer o custo, Xh(novo), para esta firma.

2) foi realizada uma análise de regressão da diminuição do nível de colesterol (Y) e a dosagem de uma nova droga (X), para 50 pacientes. Um pesquisador está tratando um novo paciente para o qual o nível de colesterol deveria diminuir uma quantidade Yh(novo). Deseja-se estimar a dose necessária, Xh(novo),a ser administrada para se conseguir a quantidade Yh(novo).

Vamos assumir o modelo (3):iii XY 10

Page 16: Outros tópicos na análise de regressão

16

A função de regressão estimada é dada por:

(7) XbbY 10ˆ

Temos uma nova observação, Yh(novo) e desejamos estimar o nível Xh(novo) que origina esta nova observação. Resolvendo (7) para X, dado Yh(novo, temos o estimador:

0ˆ1

0)(

)( 1b

bY

novoh b X novoh

Estimador pontual para o novo valor Xh(novo).

(Estimador de máxima verossimilhança)

Exemplo: um médico está estudando um novo método (mais rápido) para medir baixas concentrações de açúcar no sangue. Doze (n=12) amostras foram usadas com concentrações conhecidas (X: método exato), divididas em 3 amostras para cada um de 4 diferentes níveis. A concentração de açúcar medida pelo método rápido (Y) foi então observada para cada uma das amostras.

A equação de regressão estimada é dada por: XY 017,1100,0ˆ

Veja figura na próxima página.

Page 17: Outros tópicos na análise de regressão

17

•••

•••

•••

•••

XbbY 10ˆ

Yh(novo)

)(ˆ

novohXX

Y

Figura: exemplo de calibração.

Outros resultados:

5,500X )X-(X 0,0272QME bs i 1350142,0)(2

1

Verificar se existe uma relação linear entre X e Y.

0,000171,6)|tP(| t 6,71*

Portanto, rejeitamos H0:1=0.

Page 18: Outros tópicos na análise de regressão

18

O pesquisador deseja estimar a concentração real Xh(novo) para um novo paciente para o qual o método rápido (novo) resultou numa concentração de Yh(novo)=6,52.

509,6ˆ017,1

)1,0(52,6)(

novohX

Intervalo de confiança aproximado para Xh(novo)

O intervalo de confiança é dado por:

2

2)(

21 )(

)ˆ(1

)(

1)ˆ(

)ˆ()2;2/1(ˆ

XX

XX

nb

QME

novoh

i

novohXs

XsntX

Para o exemplo, temos:

89,613,6 )( novohX

Concluímos com 95% de confiança que a verdadeira concentração de açúcar para o paciente está entre 6,13 e 6,89. Portanto, o erro é de aproximadamente 6%, o qual é considerado razoável para o pesquisador.

Page 19: Outros tópicos na análise de regressão

19

Comentário: em problemas de calibração geralmente temos medidas (Y), rápidas, mais baratas e aproximadas, relacionadas com medidas (X), precisas, caras e demoradas sobre n observações. O modelo de regressão resultante é, então, utilizado para estimar uma medida precisa, Xh(novo), para uma medida aproximada nova Yh(novo).

Escolha dos níveis de X

Questões que o pesquisador deve considerar:

• Quantos níveis de X deveriam ser pesquisados?

• Quais devem ser os dois níveis extremos?

• Qual deve ser o espaçamento entre os níveis?

• Quantas observações devem ser feitas para cada nível de X?

Page 20: Outros tópicos na análise de regressão

20

Objetivos de uma análise de regressão:

• estimar o coeficiente angular de uma regressão linear ;

• estimar o coeficiente linear da regressão linear;

• fazer predições de novas observações;

• estimar uma ou mais respostas médias;

• para regressão curvilínea, localizar a resposta máxima ou mínima;

• determinar a natureza da função de regressão.

Não existe uma resposta única para todas as questões formuladas, pois existem diferentes objetivos numa análise de regressão os quais levam a diferentes respostas.

Para ilustrar como os objetivos afetam o delineamento (projeto), considere as variâncias:

Page 21: Outros tópicos na análise de regressão

21

]1[)(

][)ˆ(ˆ

)(

][)(

2

2

2

2

2

2

2

2

)(

)(122)(

)(

)(122

)(12

1

)(12

02

0

XX

XXnnovoh

XX

XXnhh

XX

XXX

n

i

h

i

h

i

i

preditoY

YY

(8) bb

bb

Se o propósito da análise de regressão é estimar o coeficiente angular, 1, a variância de b1 é minimizada se o denominador de (8) for maximizado. Isto é conseguido usando 2 níveis de X, nos dois extremos da região de estudo, e colocando metade das observações em cada dos dois níveis. Devemos estar certos da linearidade da regressão, caso contrário, com 2 níveis não temos informação sobre desvios da linearidade.

Se o objetivo é estimar o intercepto, 0, o número e a distribuição dos níveis não afetam a variância de b0, contando que a média (X barra) seja 0 (zero).

Page 22: Outros tópicos na análise de regressão

22

Para estimar a resposta média ou predizer uma nova observação no nível Xh, a variância é minimizada usando níveis de X de tal forma que:

hXX Sugestões (D.R.Cox):

• Num experimento exploratório, em que o objetivo é verificar se uma variável preditora, tem ou não um efeito significativo e qual a direção, use apenas dois níveis.

• Se acharmos que a resposta apresenta a forma de parábola, devemos usar três (3) níveis. Este é o caso mais corriqueiro.

• Se o objetivo é estudar a forma da curva de resposta, então, devemos usar quatro (4) níveis.

• Usar mais do que quatro (4) níveis para: a) quando é necessário estimar detalhes da curva de resposta; b) quando a curva de resposta apresenta uma assíntota; c) quando a curva de resposta não é adequadamente descrita pelo coeficiente angular e de curvatura.

• Com exceção do último caso, geralmente é satisfatório usar-se níveis igualmente espaçados e com o mesmo número de repetições por nível.Nota: fazer lista de exercícios número 4.