Upload
dinhnhu
View
228
Download
0
Embed Size (px)
Citation preview
1
ANÁLISE DE REGRESSÃO E CORRELAÇÃO
Quando se consideram observações de 2 ou mais variáveis surge
um ponto novo:
“O estudo das relações porventura existentes entre as variáveis.”
A análise de regressão e correlação compreendem a análise de
dados amostrais para saber se e como um certo conjunto de variáveis
está relacionado com outra variável.
Análise de regressão: estuda o relacionamento entre uma variável
chamada a variável dependente e outras variáveis chamadas variáveis
independentes. Este relacionamento é representado por um modelo
matemático , isto é, por uma equação que associa a variável dependente
com as variáveis independentes. Este modelo é designado por modelo
de regressão linear simples se define uma relação linear entre a
variável dependente e uma variável independente. Se em vez de uma,
forem incorporadas várias variáveis independentes, o modelo passa a
denominar-se modelo de regressão linear múltipla.
2
Análise de correlação: dedica-se a inferências estatísticas das
medidas de associação linear que se seguem:
• coeficiente de correlação simples: mede a “força” ou “grau” de
relacionamento linear entre 2 variáveis.
• coeficiente de correlação múltiplo: mede a “força” ou “grau” de
relacionamento linear entre uma variável e um conjunto de outras
variáveis.
As técnicas de análise de correlação e regressão estão intimamente
ligadas.
3
REGRESSÃO LINEAR SIMPLES
Vamos considerar a situação em que duas variáveis estão ligadas
por um relacionamento linear. A relação entre elas pode ser descrita
matematicamente através do seguinte modelo:
Y X E= + +β β0 1
sendo,
• X a variável explicativa ou independente medida sem erro (não
aleatória);
• E a variável aleatória residual na qual se procuram incluir todas as
influências no comportamento da variável Y que não podem ser
explicadas linearmente pelo comportamento da variável X;
• β0 e β1 parâmetros desconhecidos do modelo (a estimar).
• Y a variável explicada ou dependente (aleatória);
Exemplo:
Suponhamos que estamos interessados em desenvolver um modelo
para descrever a temperatura da água do mar. A temperatura (Y)
depende em parte da profundidade da água (X).
Não estamos interessados em fazer inferências acerca da
profundidade da água, mas sim, em descrever o comportamento da
temperatura da água sabendo à partida o valor exacto da sua
profundidade.
4
Se fixarmos a profundidade da água em xi , a temperatura vai variar
devido a outras influências aleatórias. Assim, para cada xi fixo estamos
a lidar com uma variável aleatória Yi de média µYi (µYi depende de xi,
pois a temperatura média da água à profundidade xi , deve de ser
diferente da temperatura média à profundidade xj ≠ xi ).
Num estudo de regressão temos n observações da variável X:
x1,x2,…,xn (assume-se que estas observações são medidas sem erro).
Temos então n variáveis aleatórias Y1, Y2, ..., Yn tais que:
ii10i ExY +β+β= i=1,...,n .
Admite-se que E1, E2,..., En são variáveis aleatórias independentes
de média zero e variância σ2.
Então, para qualquer valor xi de X, Yi é uma variável aleatória
de média i10Y xi
β+β=µ e variância σ2.
Isto significa que para um dado xi podemos calcular a média de Yi,
i10Y xi
β+β=µ , que depende de xi , e o desvio padrão σ que não
depende do valor xi fixado. σ é uma medida da dispersão dos valores de
Yi à volta da sua média iYµ .
Os dados para a análise de regressão e correlação simples são da
forma:
5
(x1, y1), (x2, y2),..., (xn, yn)
onde xi é o valor da variável X e yi a correspondente observação da
variável aleatória Yi (i=1,...,n).
Cada observação obedece à seguinte relação:
ii10i
iY
xy ε+µβ+β= i=1,...,n .
De facto, o valor observado de uma variável aleatória (yi),
usualmente difere da sua média (iYµ ) por uma quantidade aleatória εi.
Com os dados constroi-se o DIAGRAMA DE DISPERSÃO, este deve
exibir uma tendência linear para que se possa usar a regressão linear.
Portanto este diagrama permite decidir empiricamente se um
relacionamento linear entre X e Y deve ser assumido.
Por análise do Diagrama de Dispersão pode-se também concluir
(empiricamente) se o grau de relacionamento linear entre as variáveis é
forte ou fraco, conforme o modo como se situam os pontos em redor de
uma recta imaginária que passa através do enxame de pontos. A
correlação é tanto maior quanto mais os pontos se concentram, com
pequenos desvios, em relação a essa recta.
A partir dos dados disponíveis estimamos β0 e β1 e substituímos
estes parâmetros teóricos pelas suas estimativas b0 e b1 para obter a
equação de regressão estimada:
Realização da v.a. Ei
6
xbbˆy 10x/Y +=µ=
Esta equação estima o valor médio de Y para um dado valor x de X,
mas é usada para estimar o próprio valor de Y. De facto, o senso comum
diz-nos que uma escolha razoável para predizer o valor de Y para um
dado x de X, é o valor médio estimado x/Yµ . Por exemplo, se
quiséssemos predizer a temperatura da água do mar a uma profundidade
de 1000 metros uma escolha lógica é a temperatura média a esta
profundidade:
1000bbˆy 101000x/Y ×+=µ= =
Estimação pelo método dos mínimos quadrados
Cada par (xi,yi) satisfaz a
ii10i dxbby ++=
onde )xbb(yyyd i10iiii +−=−=
é o i-ésimo resíduo, isto é, a distância vertical do ponto (xi,yi) à recta de
regressão estimada.
Este método consiste em escolher b0 e b1 de modo a minimizar a
soma dos quadrados dos resíduos di. Desta forma estamos
7
essencialmente a escolher a recta que se aproxima o mais possível de
todos os pontos dos dados simultaneamente.
Soma dos quadrados
dos resíduos
= ∑ ∑= =
−−==n
1i
n
1i
2i10i
2i )xbby(dSSE
Para determinar b0 e b1 de modo a minimizar SSE:
⎪⎪
⎩
⎪⎪
⎨
⎧
−=
−
−=⇔⇔
⎪⎪⎩
⎪⎪⎨
⎧
=−−−
=−−−⇔
⎪⎪⎩
⎪⎪⎨
⎧
=∂∂
=∂∂
∑
∑
∑
∑
=
=
=
=
xbyb
x nx
y x nyxb
0x)xbby(2
0)xbby(2
0b
SSE
0b
SSE
10
n
1i
22i
n
1iii
1n
1iii10i
n
1ii10i
1
0
→x média dos valores observados de X
→y média dos valores observados de Y
8
REGRESSÃO LINEAR MÚLTIPLA
O modelo de regressão linear múltipla postula a existência de uma
relação linear entre uma variável dependente ou explicada Y e k
variáveis independentes ou explicativas X1,...,Xk a qual pode ser
traduzida pela seguinte expressão:
EXXY kk110 +β++β+β=
sendo,
• X1,...,Xk as variáveis explicativas ou independentes medidas sem erro
(não aleatórias);
• E a variável aleatória residual na qual se procuram incluir todas as
influências no comportamento da variável Y que não podem ser
explicadas linearmente pelo comportamento das variáveis X1,...,Xk e
os possíveis erros de medição;
• β0 ,β1,..., kβ os parâmetros desconhecidos do modelo (a estimar).
• Y a variável explicada ou dependente (aleatória);
Exemplo:
9
Consideremos as seguintes variáveis:
Y Volume de vendas efectuadas durante um dado período de tempo
por um vendedor;
X1 Anos de experiência como vendedor;
X2 Score no teste de inteligência.
Se fixarmos o valor x1i para os anos de experiência – X1 (por
exemplo x1i=4 anos) e outro valor x2i para o score no teste de
inteligência – X2 (por exemplo x2i=3), o volume de vendas vai variar
devido a outras influências aleatórias. Isto é, vendedores com 4 anos de
experiência e score 3 no teste de inteligência, podem apresentar volumes
de vendas diferentes.
Assim, para x1i e x2i fixos Yi é uma variável aleatória de média µYi .
Temos n valores de cada variável independente:
i=1 i=2 ... i=n
X1 x11 x12 ... x1n
X2 x21 x22 ... x2n
Xk xk1 xk2 ... xkn
10
Temos então n variáveis aleatórias,
11kk11101 ExxY +β++β+β=
22kk12102 ExxY +β++β+β=
nknkn110n ExxY +β++β+β=
Em notação matricial,
EXYn
2
1
k
1
0
knn2n1
2k2212
1k2111
n
2
1
E
EE
xxx1
xxx1xxx1
Y
YY
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
+
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
β
ββ
×
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
=
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
β
Y vector das respostas aleatórias
X Matriz significativa do modelo
β Vector dos parâmetros do modelo
E Vector dos erros aleatórios
Outra forma de escrever o modelo é então,
Y=Xβ+E
11
Admite-se que E1, E2,..., En são variáveis aleatórias independentes
de média zero e variância σ2.
Então, para quaisquer valores x1i, x2i,...,xki fixos, Yi é uma
variável aleatória de média kiki110Y x...xi
β++β+β=µ e variância
σ2.
Isto significa que para um conjunto de valores fixos x1i, x2i,...,xki de
X1,...,Xk , podemos calcular a média de Yi,
kiki110Y x...xi
β++β+β=µ , que depende de x1i, x2i,...,xki . O desvio
padrão σ é uma medida da dispersão dos valores de Yi à volta da sua
média iYµ e é sempre o mesmo quaisquer que sejam os valores das
variáveis independentes que fixemos.
Os dados para a análise de regressão e correlação múltipla são da
forma:
(y1, x11, x21,...,xk1), (y2, x12, x22,...,xk2) ,..., (yn, x1n, x2n,...,xkn).
Cada observação obedece à seguinte relação:
ikiki22i110i
iY
x...xxy ε+µ
β++β+β+β= i=1,...,n .
Realização da v.a. Ei
12
Temos então o seguinte sistema de equações,
⎪⎪⎩
⎪⎪⎨
⎧
ε+β++β+β=
ε+β++β+β=ε+β++β+β=
nknkn110n
22kk12102
11kk11101
xxy
xxyxxy
Em notação matricial o sistema pode ser representado por,
εβ
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
ε
εε
+
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
β
ββ
×
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
=
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
n
2
1
k
1
0
knn2n1
2k2212
1k2111
n
2
1
Xyxxx1
xxx1xxx1
y
yy
y vector das observações da variável dependente
X Matriz significativa do modelo
β Vector dos parâmetros do modelo
ε Vector das realizações da variável aleatória residual
Isto é,
y=Xβ+ε
13
A partir dos dados disponíveis (observados) estimamos β0 ,β1,...,
kβ e substituímos estes parâmetros teóricos pelas suas estimativas b0,
b1, ...,bk para obter a equação de regressão estimada:
kk22110x,...,x,x/Y xb...xbxbbˆyk21
++++=µ=
Esta equação estima o valor médio de Y para um conjunto de
valores x1, x2,...,xk fixo, mas é usada para estimar o próprio valor de Y.
Por exemplo, se quiséssemos predizer o volume de vendas de um
vendedor com 4 anos de experiência e score 3 no teste de inteligência,
uma escolha lógica seria o volume médio de vendas dos vendedores
com estas características:
3b4bbˆy 2103x,4x/Y 21×+×+=µ= == .
Estimação pelo método dos mínimos quadrados
Associado a cada observação (yi, x1i, x2i,...,xki) está um resíduo,
)xb...xbxbb(yyyd kiki22i110iiii ++++−=−=
Este método consiste em escolher b0, b1,..., bk de modo a minimizar
a soma dos quadrados dos resíduos di.
Soma dos
quadrados dos
resíduos
= ∑ ∑= =
−−−−−==n
1i
n
1i
2kiki22i110i
2i )xb...xbxbby(dSSE
14
Para determinar b0, b1,..., bk de modo a minimizar SSE resolve-se o
sistema de equações:
0b
SSE 0b
SSE 0b
SSE
k10=
∂∂
∧∧=∂∂
∧=∂∂
Obtém-se o vector ( ) yXXX
b
bb
b t1t
k
1
0
−=
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
= estimativa para
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
β
ββ
=β
k
1
0
.
O estimador é obviamente, ( ) YXXX
ˆ
ˆˆ
ˆ t1t
k
1
0
−=
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
β
ββ
=β .
Para k=1 (no caso da regressão simples) teríamos,
( ) yXXXbb
b t1t
1
0 −=⎥
⎦
⎤⎢⎣
⎡=
onde X tem apenas 2 colunas (pois k=1), mas como vimos b0 e b1
podem também ser determinados por,
xbyb e x nx
y x nyxb 10n
1i
22i
n
1iii
1 −=−
−=
∑
∑
=
= .
Cada coeficiente de regressão estimado bi , i=1,...,k (estimativa de
βi), estima o efeito sobre o valor médio da variável dependente Y de
uma alteração unitária da variável independente Xi, mantendo-se
constantes todas as restantes variáveis independentes.
15
COEFICIENTE DE CORRELAÇÃO E DE DETERMINAÇÃO
Seja y a média dos valores observados para a variável dependente.
Para uma qualquer observação yi tem-se:
)yy()yy()yy( iiii −+−=−
Pode-se mostrar que elevando ao quadrado ambos os membros e
somando para todas as observações resulta que:
∑∑∑===
−+−=−n
1i
2i
n
1i
2ii
n
1i
2i )yy()yy()yy(
SST = SSE + SSR
SST Soma dos quadrados totais
SSE Soma dos quadrados dos resíduos
SSR Soma dos quadrados da regressão
Isto é:
Variação total
de Y à volta da
sua média
=
Variação que o
ajustamento não
consegue explicar
+
Variação
explicada pelo
ajustamento
Coeficiente de determinação –r2:
16
SSTSSE1
SSTSSESST
SSTSSRr2 −=
−==
r2 é a proporção de variação da variável dependente Y que é
explicada pelo modelo, isto é pela equação de regressão ajustada, ou
equivalentemente, é a proporção da variação de Y explicada em termos
lineares pelas variáveis independentes.
Note que:
• 0≤r2≤1;
• r2≅1 (próximo de 1) significa que grande parte da variação de Y
é explicada linearmente pelas variáveis independentes.
• r2≅0 (próximo de 0) significa que grande parte da variação de Y
não é explicada linearmente pelas variáveis independentes.
Neste sentido este coeficiente pode ser utilizado como uma medida
da qualidade do ajustamento, ou como medida da confiança depositada
na equação de regressão como instrumento de previsão:
r2≅0 modelo linear muito pouco adequado
r2≅1 modelo linear bastante adequado
À raiz quadrada de r2 dá-se o nome de:
17
• coeficiente de correlação simples (se está envolvida apenas
uma variável independente)
• coeficiente de correlação múltiplo (se estão envolvidas pelo
menos 2 variáveis independentes)
Coeficiente de Correlação Simples
2rr ±=
È uma medida do grau de associação linear entre as variáveis X e
Y.
• -1≤r≤1;
• r>0 (positivo) indica que as duas variáveis tendem a variar no
mesmo sentido, isto é, em média um aumento na variável X
provocará um aumento na variável Y;
• r<0 (negativo) indica que as duas variáveis tendem a variar em
sentido inverso, isto é, em média um aumento na variável X
provocará uma diminuição na variável Y;
• r=1 e r=-1 indicam a existência de uma relação linear perfeita
entre X e Y, positiva e negativa respectivamente;
18
• r=0 indica a inexistência de qualquer relação ou tendência linear
entre X e Y podendo no entanto existir uma relação não linear
entre elas. Isto é, é possível que as duas variáveis estejam
fortemente associadas (movimentos numa variável estão
associados a movimentos na outra) sem que o relacionamento
seja linear.
r pode ser calculado a partir da seguinte fórmula:
2n
1i
2i
2n
1iii1
n
1ii0
2
yny
ynxybybrr
−
−+±=±=
∑
∑∑
=
== com o sinal do declive b1.
Coeficiente de Correlação Múltiplo
È uma medida do grau de associação linear entre Y e o conjunto de
variáveis X1, X2,...,Xk.
• 0≤r≤1;
• r=1 indica a existência de uma associação linear perfeita, isto é,
Y pode ser expresso exactamente como combinação linear de X1,
X2,...,Xk;
• r=0 indica a inexistência de uma relação linear entre a variável
dependente Y e o conjunto de variáveis independentes X1,
X2,...,Xk.
19
PROPRIEDADES DOS ESTIMADORES DOS MÍNIMOS
QUADRADOS E TESTES DE HIPÓTESES
O método dos mínimos quadrados fornece estimativas pontuais b0,
b1,...,bk para β0, β1,..., βk . Os estimadores que fornecem estas
estimativas são:
( ) YXXX
ˆ
ˆˆ
ˆ t1t
k
1
0
−=
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
β
ββ
=β .
Se os erros Ei além de serem independentes com valor esperado nulo
e variância constante - σ2, seguirem uma distribuição normal, então
pode-se mostrar que os estimadores k10ˆ,...,ˆ,ˆ βββ são tais que:
• ( ) iiˆE β=β i=1,...,k;
• ( ) ii2
i cˆVar σ=β
onde cii é o elemento diagonal da linha i+1 da matriz ( ) 1tXX−
.
Na regressão simples estas variâncias podem ser dadas por:
( )22
n
1i
2i
n
1i
2i
20
xnxn
xˆVar
−σ=β
∑
∑
=
= e ( )2
n
1i
2i
21
xnx
1ˆVar−
σ=β
∑=
;
• Cada iβ tem distribuição normal: iβ ~ N(βi, ii2cσ ).
20
Como, em geral, σ2 é desconhecido estimamos ( )iˆVar β por 2
ˆiSβ que
se obtém substituindo nas formulas anteriores σ2 pelo seu estimador,
1knSSES2
−−= .
Então,
iiii22
ˆ c1kn
SSEcSSi −−
==β .
21
Testes sobre os coeficientes de regressão
Ocasionalmente, poderá ser de suspeitar que uma variável
explicativa particular não é muito útil, isto é, que a sua influência sobre
a variável dependente não é significativa. Para saber se é este o caso
testamos a hipótese nula de que o coeficiente para esta variável é nulo:
0:H0:H
i1
i0
≠β=β
.
Sabemos que
iβ ~ N(βi, ii2cσ ),
então
)1,0(Nc
ˆ~
ii
ii
σβ−β .
Como σ2 é desconhecido, substituímos σ pelo seu estimador
1knSSES
−−=
vindo,
1knii
ii
ˆ
ii tcS
ˆ
S
ˆ~
i
−−β
β−β=
β−β .
A estatística do teste, se H0 é verdadeira, é:
1knii
i
ˆ
i tcS
0ˆ
S0ˆ
~i
−−β
−β=
−β .
22
Se H0 for rejeitada então temos evidência de que βi≠0, isto é a
variável explicativa Xi é útil na predição do valor da variável
dependente.
Se H0 não for rejeitada então a variável explicativa Xi é geralmente
retirada da equação de regressão pois não influência significativamente
a variável resposta Y.
Mais geralmente, podemos testar a hipótese nula de que o coeficiente
seja igual a um determinado valor βi0:
0ii1
0ii0
:H:H
β≠ββ=β .
A estatística do teste, se H0 é verdadeira, é:
1knii
0ii
ˆ
0ii t
cS
ˆ
S
ˆ~
i
−−β
β−β=
β−β .
Poderiam também ser conduzidos testes unilaterais em vez de testes
bilaterais:
0ii1
0ii0
:H:H
β>ββ=β 0
ii1
0ii0
:H:H
β<ββ=β .
23
Teste F – para testar a significância da regressão
Este teste serve para saber se a regressão é ou não significativa.
A hipótese nula é:
H0: a equação de regressão não explica a variação na variável resposta
ou equivalentemente,
H0: não existe relação linear entre a variável dependente e o conjunto de variáveis independentes utilizadas
Matematicamente:
0 um menos pelo:H0...:H
i1
k210
≠β=β==β=β
.
Pode-se mostrar que se H0 for verdadeira, a estatística do teste
k1kn2 F
SkSSR
)1kn(SSEkSSRF ~ −−=−−
= .
Note que,
SSTSSESSTSSR
k1kn
SSESSR
k1kn
)1kn(SSEkSSRF ×
−−=×
−−=
−−=
2
2
R1R
k1kn
−×
−−= .
24
Rejeitamos H0 para valores grandes da estatística do teste F. À parte
da constante k
1kn −− a estatística F é a razão entre a variação explicada
e a não explicada em Y. É natural que digamos que a regressão é
significativa só quando a proporção da variação explicada é grande. Isto
ocorre só quando a razão F é grande. Por esta razão devemos sempre
rejeitar H0 para valores de F muito grandes.
Se H0 não for rejeitada então é o mesmo que dizer que o conjunto de
variáveis explicativas contribuem pouco para a explicação da variação
da variável dependente.
Na regressão simples para testar a significância da regressão
consideramos as hipóteses,
0:H0:H
11
10
≠β=β
e portanto a estatística teste a usar pode ser,
2nH Sobˆ
1 tS
0ˆ
01
~ −β
−β .
25
Os resultados descritos podem ser convenientemente resumidos na
tabela da ANOVA seguinte:
Fonte de
variação
Soma dos
Quadrados
Graus de
Liberdade
Quadrados
Médios
Razão F
Devido à
Regressão SSR= ( )∑
=−
n
1i
2i yy
k k
SSR
Devido aos
resíduos SSE= ( )∑
=−
n
1i
2ii yy
n-k-1 1kn
SSE−−
= 2S 2S
kSSRF =
Total SST= ( )∑
=−
n
1i
2i yy
n-1