View
11
Download
0
Category
Preview:
Citation preview
Modelo de Regressão Simples
2
Historia
HistóriaTermo regressão foi introduzido por Francis Galton(1822-1911). Estudo sobre altura de pais e filhos. Karl Pearson coletou mais de mil registros e verificou a “lei de regressão universal” de Galton (1857-1936)
Atualmente é uma das técnicas de estimação mais usadas.
Aplicações: Industria, Economia, Estudos Biológicos, etcObjetivos: descrição de dados, estimação de parâmetros, predição e controle.Ampla literatura
Modelo de Regressão LinearModelo de Regressão Não-LinearModelo Linear GeneralizadoEntre outros
3
Exemplos
X1 = rendaX2 = taxa de jurosX3 = poupança
Y = consumo
Aplicação na economia:
X1 = área construídaX2 = custo do m2
X3 = localizaçãoY = preço do
imóvel
Aplicação no mercado mobiliário (avaliação) :
X1 = memória RAMX2 = sistema operacionalX3 = tipo de processador
Y = tempo deresposta
Aplicação na ciência da computação:
4
Análise de regressãoDados
Teoria
Especificação domodelo
Estimação dosparâmetros Testando a
adequacidadedo modelo
Validaçãodo modelo
sim
não
Uso doModelo
“método estatístico que utiliza a relação entre duas ou mais variáveis de modo que uma variável pode ser estimada (ou predita) a partir da
outra ou das outras”
sim
não
5
RelaRelaçção funcional x Relaão funcional x Relaçção ão estatestatíísticastica
As variáveis podem possuir dois tipos de relações:1) Funcional: a relação é expressa por uma
fórmula matemática: Y = f(X)Todos os pontos caem na curva da relação funcional
Nesse caso, temos um modelo determinístico. Ex: relação entre o perímetro (P) e o lado de um
quadrado (L)
6
RelaRelaçção funcional x Relaão funcional x Relaçção ão estatestatíísticastica
Estatística: não é uma relação perfeita como no caso da relação funcional. As observações em geral não caem exatamente na curva da relação.
Nesse caso temos um modelo probabilístico. O modelo captura a aleatoriedade que é parte de um processo do mundo real.
Ex: relação entre tamanho de casa (T) e preço (P). Todas as casas de mesmo tamanho são vendidas pelo mesmo preço?
7
Relação estatística:
50556065707580859095
100
150 160 170 180 190
Altura (cm)
Peso
(kg)
A existência de uma relação estatística entre a variável dependente Y e a variável independente X não implica que Y depende de X, ou que existe uma relação de causa-efeito entre X e Y.
8
Medida de AssociaMedida de Associaççãoão
X
Y
XY
X
YX
Y
Coeficiente de Correlação (de Pearson)mede o grau de relação linear entre X e Y
( , )( ) * ( )
Cov X YrVar X Var Y
=
( )( )
( ) ( )1
2 2
1 1
n
i ii
n n
i ii i
X X Y Yr
X X Y Y
=
= =
− −=
− −
∑
∑ ∑
1 1r− ≤ ≤
1 1 1
2 22 2
1 1 1 1
n n n
i i i ii i i
n n n n
i i i ii i i i
n X Y X Y
n X X n Y Y
= = =
= = = =
−=
⎡ ⎤ ⎡ ⎤⎛ ⎞ ⎛ ⎞− −⎢ ⎥ ⎢ ⎥⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦
∑ ∑ ∑
∑ ∑ ∑ ∑
r = 0,9 r = 0,3 r = 0
r = - 0,9
9
Coeficiente de CorrelaCoeficiente de CorrelaççãoãoInterpretações errôneas dos coeficientes de correlação
1. Um alto coeficiente de correlação nem sempre indica que a equação de regressão estimada está bem ajustada aos dados.
X
Y
X
Y
?
?
10
Coeficiente de CorrelaCoeficiente de CorrelaççãoãoInterpretações errôneas dos coeficientes de correlação
2. Um coeficiente de correlação próximo de zero nem sempre indica que X e Y não são relacionadas.
X
Y
X
Y X
Y A
X
Y B
11
Um modelo determinístico
Tamanho da casa
Preço dacasa
Preço= 25000 + 75×(tamanho)
Neste modelo, o preço da casa é completamente determinado pelo tamanho.
12
Um modelo estatístico
Tamanho da casa
Preçoda Casa
25$
VariabilidadeBaixa vs. Alta
x
Preço = 25,000 + 75(Tamanho) + ξ
É o termo aleatório (variável erro). É a diferença entre o preço atual e o preço estimadobaseando-se no tamanho da casa.
13
AnAnáálise de Regressãolise de Regressão1. Determinar como duas ou mais variáveis se relacionam.
2. Estimar a função que determina a relação entre as variáveis.
3. Usar a equação ajustada para prever valores da variável dependente.
Regressão Linear Simples
Yi = β0 + β1Xi + ξi
E(ξi) = 0; Var (ξi) = σ2 e COV (ξi,ξj) = 0
14
Modelo de Regressão Modelo de Regressão Linear SimplesLinear Simples
iii XY ξββ ++= 10
Inclinaçãopopulacional
Interceptopopulacional Erro Aleatório
Variável Independente
Variável Dependente
ξi
X
Y
β0
β1 Coeficienteangular
E(Y) = β0 + β1 X
15
Em geral não se conhece os valores de β0 e β1. Eles podem ser estimados através de dados obtidos por amostras. O método utilizado na estimação dos parâmetros é o método dos mínimos quadrados, o qual considera os desvios dos Yi de seu valor esperado:
ξi = Yi – (β0 + β1 Xi)Em particular, o método dos mínimos quadrados requer que consideremos a soma dos n desvios quadrados, denotado por Q:
210
1
][ ii
n
i
XYQ ββ −−=∑=
EstimaEstimaçção dos parâmetrosão dos parâmetros
16
EstimaEstimaçção dos parâmetrosão dos parâmetrosDe acordo com o método dos mínimos quadrados, os estimadores de β0 e β1 são aqueles, denotados por b0 e b1, que tornam mínimo o valor de Q.Derivando ][2 10
10ii
n
iXYQ ββ
β−−−=
∂∂ ∑
=
iii
n
iXXYQ ][2 10
11
βββ
−−−=∂∂ ∑
=
2
1
11
)(
))((
XX
YYXXb
i
n
i
ii
n
i
−
−−=
∑
∑
=
=
XbYb 10 −=iii YYe
XbbY
XYE
ˆ
ˆ)(
10
10
−=
+=
+= ββ
(resíduo)
Igualando-se essas equações a zero obtém-se os valores b0 e b1 que minimizam Q:
17
1)
2) é mínima
3)
4) A reta de regressão passa sempre pelo ponto
01
=∑=
n
iie
∑=
n
iie
1
2
∑∑==
=n
ii
n
ii YY
11
ˆ
Propriedades da equaPropriedades da equaçção ão de regressãode regressão
),( YX
X
Y
X
Y
18
Predição
Um dos objetivos da análise de regressãoPara um determinado valor x0 de X, queremos prever o valor que deveráser assumido por Y.
0ˆˆˆ xy βα +=
19
Inferência em AnInferência em Anáálise de Regressãolise de Regressão
Considere o modelo: Yi = β0 + β1 Xi + ξi
ξ ~ N(0; σ2) e COV (ξi,ξj)= 0
∑=
−= n
ii XX
bs
1
21
2
)(
QMRes)(2
1
11 ~)( −
−= ntbs
bt β
0:H0:H
11
10
<=
ββ
IC para β0 e β1, IC para Ynovo
β0 = 0 ? β1 = 0 ? (teste de hipótese)
X
Y ?
21
1 ~)( −= ntbs
bt
20
} YYi −
Yi
{ii YY ˆ−
{YYi −ˆiY
Precisão do modeloPrecisão do modelo
0 20 40 60 80 X
Y∑∑∑===
−+−=−n
iii
n
ii
n
ii YYYYYY
1
2
1
2
1
2 )ˆ()ˆ()(
SQTo = SQReg + SQRes
SQToSQRes1
SQToSQRes-SQTo
SQToSQReg2
−=
=
=RCoeficiente de determinação
0 ≤ R2 ≤ 1
XbbY 10ˆ +=
Y
Interpretação: R2 mede a fração da variação total de Y explicada pela regressão.
21
Considerações sobre o coeficiente de determinação
O coeficiente de determinação deve ser usado com cautela. Embora o coeficiente não pode diminuir quando mais regressores são adicionados no modelo, isto não significa que o novo modelo é melhor do que o anterior.O coeficiente depende do range de variabilidade de x. Um alto valor do coeficiente pode ser porque x teve um grande range de variação não realístico. Por outro lado, um valor pequeno do coeficiente pode ser porque x teve um pequeno range de variação que não permitiu que a sua relação com y seja detectada.. A média dos quadrados dos resíduos é uma medida adequada de qualidade do ajuste.
22
Análise de variância: teste de significância do modelo
SQT tem n-1 graus de liberdadeSQR tem n-2 graus de liberdadeSQM tem 1 grau de liberdade
Soma de quadrados
Graus de liberdade
Média
1
n-2
n-1
SQM
SQR
SQT
Regressão
Residual
Total
( )∑=
−n
ii yy
1
2ˆ
( )
2
ˆ1
2
−
−∑=
n
yyn
iii
( )
11
2
−
−∑=
n
yyn
ii
( )
0F
H0: β1=0
If H0 é verdadeira SQR/n-2 tem distribuição qui-quadrado com n-2 graus de liberdade. SQM/1 tem distribuição qui-quadrado com 1 grau de liberdade. SQR e SQM são independentes. Por definição, F0 segue uma distribuição F-Snedecor com 1 e n-2 graus de liberdade. Rejeita H0 F0 >F1,n2
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
−
−∑=
2
/ˆ 2
1
2
n
yyn
iii σ
( )
1
/ˆ 2
1
2 σ⎥⎦
⎤⎢⎣
⎡−∑
=
n
ii yy
23
Considerações
Os modelos de regressão são construídos baseando-se no range de valores dos regressores.A equação dos mínimos quadrados é fortemente afetada por pontos extremos da distribuição de x. Os métodos de mínimos quadrados são influenciados por outliers (pontos aberrantes). Porque a regressão indicou forte correlação entre duas variáveis não significa que exista uma relação de causa e efeito.
24
Modelos LinearizModelos LinearizááveisveisModelo Padrão: Yi = β0 + β1Xi + ξi
iiiiXY ξβ β
0= iii XY ξββ lnlnlnln 10 ++= iii XY ξββ ′+′+′=′ 10
iX
iieY ξβ β1
0= iii XY ξββ lnlnln 10 ++= iii XY ξββ ′++′=′ 10
exponencial
potencial
iii XY ξββ +′+=′ 10
logaritmopotênciainverso
),0(~ 2σξ Ni′
25
AnAnáálise de Reslise de Resííduosduos
Resíduo = iii YYe ˆ−=
Y = 0,9983X + 0,1306R2 = 0,9496
0
2
4
6
8
10
0 2 4 6 8 10
X
Y
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
0 2 4 6 8 10
XRe
sídu
os
9496,01306,09983,0ˆ
2 =
+=
RXY
26
AnAnáálise de Reslise de Resííduosduos
MQReseiResíduo Padronizado =
Y = 0,9983X + 0,1306R2 = 0,9496
0
2
4
6
8
10
0 2 4 6 8 10
X
Y
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
XRe
sídu
os P
adro
niza
do9496,01306,09983,0ˆ
2 =
+=
RXY
27
AnAnáálise de Reslise de Resííduosduos
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
X
Resí
duos
Pad
roni
zado
s
“ideal”
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
X
Resí
duos
Pad
roni
zado
s
σ2 não constante
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
X
Resí
duos
Pad
roni
zado
s
não linearidade
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
X
Resí
duos
Pad
roni
zado
s
não independência
tempo-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
X
Resí
duos
Pad
roni
zado
s
“outlier”
28
x y8 782 925 90
12 5815 439 746 81
FaltasNotafinal
Aplicação
959085807570656055
4540
50
0 2 4 6 8 10 12 14 16
Not
a fin
al
FaltasX
29
6.0848.4648.1003.3641.8495.4766.56139.898
y2
624 184450696 645666486
3.75157 516
1 8 782 2 923 5 904 12 58 5 15 436 9 747 6 81
x y
579
644
251442258136
x2xy
Cálculo de r
975.013030804
31552
11
22
11
2
111 −=−
=
⎟⎠
⎞⎜⎝
⎛−⎟
⎠
⎞⎜⎝
⎛−
−=
∑∑∑∑
∑∑∑
====
===
n
ii
n
ii
n
ii
n
ii
n
ii
n
ii
n
iii
yynxxn
yxyxnr
Escreva a equação dareta de regressão comx = número de faltase y = nota final.
6.0848.4648.1003.3641.8495.4766.561
624 184450696 645666486
57 516 39.898
1 8 782 2 923 5 904 12 58 5 15 436 9 747 6 81
644
251442258136
xy x2 y2x y
3.751 579
924,3)(
)()(ˆ
1
2
1 −=−
−−=
∑
∑
=
=n
ii
i
n
ii
xx
yyxxβ
667,105ˆˆ =−= xy βα
ixy 924,3667,105ˆ −=
A equação de regressão é dada por:
31
Com a reta de regressão, é possível prevervalores de y correspondentes aos valores de x.
Usando a equação de regressão podemosprever a nota esperada de um aluno com:
(a) 3 faltas (b) 12 faltas
(a)
(b)
Prevendo Valores
= –3,924(3) + 105,667 = 93,895= –3,924(12) + 105,667 = 58,579
Recommended