14
1 Introdução à Introdução à Correlação e Correlação e Regressão Linear Regressão Linear Rui Carvalho Oliveira [email protected] Rui Carvalho Oliveira Correlação e Regressão Linear Estatística Descritiva – amostras bivariadas Amostras bivariadas: cada entidade (indivíduo/objecto) é caracterizado por um par de variáveis (atributos) 96 185 15 79 181 14 89 180 13 72 177 12 82 174 11 76 172 10 81 170 9 71 170 8 64 170 7 76 168 6 70 167 5 64 167 4 59 163 3 69 161 2 58 159 1 Peso (Y) Altura (X) Ind. (i) Representação: Gráfico de dispersão 0 20 40 60 80 100 120 155 160 165 170 175 180 185 190 Altura Peso Nota: as duas variáveis parecem estar relacionadas, podendo até fazer-se previsões sobre uma (Y) a partir de conhecimento sobre o valor da outra (X) Rui Carvalho Oliveira Correlação e Regressão Linear Medida de associação (linear) entre variáveis Y X Y X σ σ ) , ( cov Coeficiente de correlação: ρ = Cov (X,Y) - covariância de (X,Y) : valor esperado (médio) do produto dos desvios de X e Y relativamente às médias respectivas Cov (X,Y) = E [ ( Y-µ Y ) ( X -µ X ) ] σ 2 X = E [ (X -µ X ) 2 ] – variância de X 1 0 ρ ρ = 0 , as duas variáveis são linearmente independentes ρ = 1 , as duas variáveis têm uma relação linear perfeita (Y= α + β X ) Rui Carvalho Oliveira Correlação e Regressão Linear Produto de desvios positivo (- ) x (-) = + Produto de desvios positivo (+ ) x (+) = + Indivíduos altos (altura > média) X i x > 0 ) ( > X i x Estimação do coeficiente de correlação Medida de associação entre variáveis: coeficiente de correlação ^ ρ = r = 2 2 ) ( ) ( ) ( ) ( y y x x y y x x i i i i Exemplo: altura (X) vs peso (Y) de pessoas Indivíduos pesados (peso > média) 0 ) ( > Y i y Y i y > 0 ) X - ( ) ( > i x Y i y Tendencialmente Indivíduos baixos (altura < média) X i x < 0 ) ( < X i x Indivíduos leves (peso < média) 0 ) ( < Y i y Y i y < Tendencialmente Coeficiente de correlação positivo (r > 0) 0 ) X - ( ) ( > i x Y i y

Introdução à Altura (X) Peso (Y) ¾ Gráfico de dispersão ... · Medida de associação (linear) entre variáveis X Y X Y ... Pretende-se prever o peso (Y) de uma pessoa a partir

Embed Size (px)

Citation preview

1

Introdução à Introdução à Correlação e Correlação e

Regressão LinearRegressão Linear

Rui Carvalho [email protected]

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear Estatística Descritiva – amostras bivariadas

Amostras bivariadas: cada entidade (indivíduo/objecto) é caracterizado por um par de variáveis (atributos)

9618515

7918114

8918013

7217712

8217411

7617210

811709

711708

641707

761686

701675

641674

591633

691612

581591

Peso (Y)

Altura (X)Ind. (i) Representação: Gráfico de dispersão

0

20

40

60

80

100

120

155 160 165 170 175 180 185 190

Altura

Peso

Nota: as duas variáveis parecem estar relacionadas, podendo até fazer-se previsões sobre uma (Y) a partir de conhecimento sobre o valor da outra (X)

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear Medida de associação (linear) entre variáveis

YX

YXσσ

),(covCoeficiente de correlação: ρ =

Cov (X,Y) - covariância de (X,Y) : valor esperado (médio) do produto dos desvios de X e Y relativamente às médias respectivas

Cov (X,Y) = E [ ( Y-µY ) ( X -µX ) ]

σ2X = E [ (X -µX )2 ] – variância de X

10 ≤≤ ρ

ρ = 0 , as duas variáveis são linearmente independentes

ρ = 1 , as duas variáveis têm uma relação linear perfeita (Y= α + β X )

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear

Produto de desviospositivo

(- ) x (-) = +

Produto de desviospositivo

(+ ) x (+) = +

Indivíduos altos(altura > média)

Xix >

0 )( >−Xix

Estimação do coeficiente de correlaçãoMedida de associação entre variáveis: coeficiente de correlação

^ρ = r =

∑∑∑

−−

−−22 ) ( ) (

) ( ) (

yyxx

yyxx

ii

ii

Exemplo: altura (X) vs peso (Y) de pessoas

Indivíduos pesados(peso > média)

0 )( >−Yiy

Yiy > 0 )X - ()( >− ixYiy

Tendencialmente

Indivíduos baixos(altura < média)

Xix <

0 )( <−Xix

Indivíduos leves(peso < média)

0 )( <−Yiy

Yiy <Tendencialmente

Coeficiente de correlação positivo (r > 0)

0 )X - ()( >− ixYiy

2

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear

Carros leves(peso < média)

Xix <

0 )( <−Xix

Produto de desviosnegativo

(+ ) x (-) = -

Produto de desviosnegativo

(- ) x (+) = -

Carro pesado(peso > média)

Xix >

0 )( >−Xix

Medida de associação entre variáveis: coeficiente de correlação^ρ = r =

∑∑∑

−−

−−22 ) ( ) (

) ( ) (

yyxx

yyxx

ii

ii

Exemplo: peso (X) vs velocidade de ponta (Y) de automóveis

Velocidade baixa(velocidade<média)

0 )( <−Yiy

Yiy < 0 )X - ()( <− ixYiy

Tendencialmente

Velocidade alta(velocidade>média)

0 )( >−Yiy

Yiy >Tendencialmente

Coeficiente de correlação negativo (r < 0)

0 )X - ()( <− ixYiy

Estimação do coeficiente de correlação

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear Coeficiente de correlação

Diagramas de dispersão e respectivo coeficiente de correlação

Correlação perfeita

Correlação imperfeita

Correlação nula

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear Medida de associação (linear) entre variáveis

Coeficiente de correlação (ρ)10 ≤≤ ρ

ρ = 0 , as duas variáveis são linearmente independentes

ρ = 1 , as duas variáveis têm uma relação linear perfeita (Y= α + β X )

0 < ρ < 1, a variável independente X contem alguma informação sobre Y

é possível fazer previsões, mas estas não serão perfeitas

No exemplo Peso vs Altura: r = 0,833 correlação elevada

Deste modo, é legítimo esperar previsões razoáveis (mas não perfeitas, isto é, não isentas de erro) do peso de um indivíduo a partir doconhecimento da sua altura

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear REGRESSÃO LINEAR

Regressão: técnica estatística que permite estabelecer relações entre variáveis através das quais se procura estimar (ou prever) uma delas (a variável dependente) quando se supõem conhecidas as restantes (ditas variáveis independentes ou explicativas).

Por exemplo:- prever a procura de um produto numa região usando como variáveis explicativas a população residente, o índice de poder de compra e o número de lojas dessa região

- estimar o valor de um apartamento a partir da área, número de assoalhadas, idade e localização do mesmo

- prever as vendas de combustível num posto de abastecimento a partir da áreado mesmo, existência (ou não) de loja de conveniência, tráfego na via e população residente na área de influência do posto- .....- prever o peso de uma pessoa a partir da sua altura

- etc

3

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear REGRESSÃO LINEAR SIMPLES

Vamos considerar:• 1 só variável explicativa • relação linear do tipo Y= α + β X

Mas ... previsões não são perfeitas...

Y = α + β X + ε

ε - resíduo, ruído, erro, desvio ... (componente aleatória resultante de outros factores não considerados no modelo, erros de observação/medida, inadequação da forma funcional, variabilidade inerente ao fenómeno…)

Hipóteses sobre o resíduo aleatório ε :i. o valor médio do resíduo é nulo, quer globalmente (E[ε] = 0), quer para

cada valor de X (E[ε /X] = 0) ii. os resíduos são independentes e a sua variância ( ) não depende de X

(homocedasticidade: constância de )iii. os resíduos têm uma distribuição normal

2εσ

2εσ R

ui C

arva

lho

Oliv

eira

C

orre

laçã

o e

Reg

ress

ão L

inea

r REGRESSÃO LINEAR SIMPLES

Daquelas hipóteses sobre os resíduos resulta:

• E[ Y/X ] = E [ α + β X + ε ] = α + β X + E [ε] = α + β X

Y = α + β X + ε

Esta equação de regressão avalia o valor médio de Y para um dado valor de X …

… mas Y variará de modo aleatório à volta desse valor médio, com uma distribuição normal de variância 2

εσ

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear REGRESSÃO LINEAR SIMPLES

Y = α + β X + ε

E [ Y/X ] = α + β X Esta equação de regressão avalia o valor médio de Y para um dado valor de X …

… mas Y variará de modo aleatório àvolta desse valor médio, com uma distribuição normal de variância 2

εσ

Recta de regressãoE[ Y/X ] = α + β X R

ui C

arva

lho

Oliv

eira

C

orre

laçã

o e

Reg

ress

ão L

inea

r REGRESSÃO LINEAR SIMPLES

Hipótese de constância da variância do resíduo para todos os valores de X (homocedasticidade)

4

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear REGRESSÃO LINEAR SIMPLES

Hipótese de constância da variância do resíduo para todos os valores de X (homocedasticidade)

Admitir que X e Y têm uma distribuição conjunta normal bivariada garante homocedasticidade + distribuição normal dos resíduos (além de que a regressão de Y em X é linear)

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear Estimação dos parâmetros do modelo de regressão

Partindo de uma amostra aleatória (bi-variada) de n pares de observações da população ( xi , yi ) com i = 1, 2,..., npretende-se obter…

… uma estimativa do parâmetro α, identificada por (ou a) …

… e uma estimativa do parâmetro β, identificada por (ou b) …

… utilizando um critério de estimação

αβ

o mais correntemente utilizado é o critério dos mínimos quadrados

Y = α + β X + εR

ui C

arva

lho

Oliv

eira

C

orre

laçã

o e

Reg

ress

ão L

inea

r Estimação dos parâmetros do modelo de regressão

Critério dos mínimos quadrados

Estimativa (previsão):

Y = a + b X

Erro (ou desvio):

iYei = Yi – = Yi - ( a + b Xi )

Soma dos erros quadráticos :

SE = =∑=

n

iie

1

2 ∑=

−−n

iii XbaY

1

2)(

Para minimizar SE

⎪⎪⎩

⎪⎪⎨

=∂∂

=∂∂

⇒0

0

bSEa

SER

ui C

arva

lho

Oliv

eira

C

orre

laçã

o e

Reg

ress

ão L

inea

r Estimação dos parâmetros do modelo de regressão

Critério dos mínimos quadrados : minimização da soma do quadrado dos desvios

Min SE = ∑=

n

iie

1

2

Resulta:

⎪⎪⎪

⎪⎪⎪

−=

−−

=∑∑

XbYa

XnXYXnYX

bi

ii22 )(

Adicionalmente, a variância do resíduo 2εσ pode ser estimada por

=2εσ) ( )[ ]

22

22

+−=

−∑∑

nxbay

ne iii

5

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear Modelo de regressão linear simples - exemplo

Pretende-se prever o peso (Y) de uma pessoa a partir da sua altura (X).Recolheram-se dados sobre 15 pessoas (amostra)

961857918189180721778217476172811707117064170761687016764167591636916158159(Y)(X)

PESOALTURA

O gráfico de dispersão sugere um modelo linear para representar o peso em função da altura.

Confirme-se esta sugestão avaliando o coeficiente de correlação:r = 0,833 correlação elevada

0

20

40

60

80

100

120

155 160 165 170 175 180 185 190

Altura

Peso

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear

PESO

y = 1,1933x - 130,24R2 = 0,6945

0

20

40

60

80

100

120

155 160 165 170 175 180 185 190

Modelo de regressão linear simples - exemplo

Equação (recta) de regressão: Y = -130,24 + 1,193 X

1- Para pessoas com altura x0 = 1.70 m,a previsão do seu peso médio é )(ˆ

0xY = 72.6 kg

2- Para pessoas com altura x0 = 1.85 m,a previsão do seu peso médio é )(ˆ

0xY = 90.5 kg

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear Modelo de regressão linear simples - exemplo

ALTURA (X)

PESO (Y)

Peso previsto

Erro

Quadrado dos erros

159 58 59,5 -1,5 2,23 161 69 61,9 7,1 50,70 163 59 64,3 -5,3 27,74 167 64 69,0 -5,0 25,40 167 70 69,0 1,0 0,92 168 76 70,2 5,8 33,26 170 64 72,6 -8,6 74,30 170 71 72,6 -1,6 2,62 170 81 72,6 8,4 70,23 172 76 75,0 1,0 0,98 174 82 77,4 4,6 21,22 177 72 81,0 -9,0 80,50 180 89 84,6 4,4 19,77 181 79 85,7 -6,7 45,50 185 96 90,5 5,5 30,03

Soma 2564 1106 0 485,44 Média 170,93 73,73

Variância (estimada) do resíduo aleatório = 485,44 /(15-2) = 37,34

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear Regressão linear simples - PRECISÃO DAS ESTIMATIVAS

[ ]( )( )∑ −−

+

=−

2

20

00

/)(

xxxx

n

xXYExY

iεσ

)

Para o valor médio de Y dado que X= x0 (na população) - E[Y/X= x0]

Prova-se que ∩ t n-2

distribuição t-Studentcom (n-2) graus de liberdade

onde 00 )(ˆ xbaxY +=

1-γ %γ/2 γ/2

-tγ/2 +tγ/20

Estimativa (previsão) produzida pelo modelo de regressão do verdadeiro valor médio de Y (para X=x0)

Qual a precisão desta estimativa?

Que margens de erro lhe estão associadas?

6

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear Operações com distribuição t-Student

sDw− ∩ tk distribuição t-Student com k graus de liberdade

Para uma dada probabilidade (1-γ):

1-γ %γ/2 γ/2

-tγ/2 +tγ/2

γγγ −=⎥⎦⎤

⎢⎣⎡ +≤

−≤− 12/2/ t

sDwtP

[ ] γγγ −=+≤−≤− 12/2/ tsDwtsP

[ ] γγγ −=+≤≤− 12/2/ tswDtswP

-2.16 +2.16 95%

Exemplo para k=13 graus de liberdade 0

+2.16 - 2.16

2.5 % 2.5 %

95 %

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear Regressão linear simples - PRECISÃO DAS ESTIMATIVAS

[ ]( )( )∑ −−

+

=−

2

20

00

/)(

xxxx

n

xXYExY

iεσ

)

Para o valor médio de Y dado que X= x0 (na população) - E[Y/X= x0]

Prova-se que ∩ t n-2

distribuição t-Studentcom (n-2) graus de liberdade

onde 00 )(ˆ xbaxY +=

1-γ %γ/2 γ/2

-tγ/2 +tγ/2

Daqui resulta que o Intervalo de Confiança a (1- γ) % para o verdadeiro valor médio de Y dado X na população tem por limites os valores:

( )( )∑ −−

+±− 2

20

2,20

1ˆ)(ˆxx

xxn

txYi

n εγ σ

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear Regressão linear simples - PRECISÃO DAS ESTIMATIVAS

2- Para pessoas com altura x0 = 1.85 m,

a previsão do seu peso (médio) é = 90.5 kg

e, para um grau de confiança (1-γ)% = 95% , o intervalo de confiança

tem os limites 90.5 ± 7.5

Intervalo de confiança (a 95%) : [83 ;98] kg

)(ˆ0xY

O Intervalo de Confiança a (1- γ) % para o verdadeiro valor médio de Y dado X na população tem por limites os valores:

Exemplos, para o modelo Peso vs Altura:1- Para pessoas com altura x0 = 1.70 m,

a previsão do seu peso (médio) é = 72.6 kg

e, para um grau de confiança (1-γ)% = 95% , o intervalo de confiança

tem os limites 72.6 ± 3.4

Intervalo de confiança (a 95%) : [69.2 ; 76.0] kg

)(ˆ0xY

( )( )∑ −−

+±− 2

20

2,20

1ˆ)(ˆxx

xxn

txYi

n εγ σ

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear Regressão linear simples - PRECISÃO DAS ESTIMATIVAS

Amplitude do intervalo de confiança de E [ Y/ X = x0 ] (diferença entre a estimativa baseada na amostra e o verdadeiro valor para a população )depende de :

i. grau de confiança, que influencia tγ/2

ii. - desvio padrão (estimado) do resíduo aleatório

iii. n - tamanho da amostra

iv. - concluindo-se que, para obter maior rigor na

estimação de E[ Y/ X ], a gama de valores observados da variável

independente deve ser tão alargada quanto possível

v. - concluindo-se que, à medida que X0 se afasta de , o

intervalo se vai alargando

εσ

( )∑ − 2xxi

( )20 xx − X

7

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear Regressão linear simples - PRECISÃO DAS ESTIMATIVAS

Esta última constatação resulta de a recta ajustada pelo critério dos mínimos quadrados passar sempre pelo ponto ( )YX ,

X0 = 170 IC : 72.6 ± 3.4

X1 = 185 IC : 90.5 ± 7.5

XPara o modelo Peso vs Altura: = 170.93

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear Regressão linear simples - PRECISÃO DAS ESTIMATIVAS

Para o verdadeiro valor de Y dado que X= x0 (na população) - Y(x0)

onde 00 )(ˆ xbaxY +=

Relativamente ao modelo Peso vs Altura, até agora fizemos previsão sobre o valor médio do peso das pessoas que têm altura x0.

Agora procuramos um intervalo para o verdadeiro valor do peso de uma certa pessoa que tem altura x0 , chamado intervalo de predição

Limites do IP a (1-γ )% para o verdadeiro valor de Y dado x0 :

( )( )∑ −−

++±− 2

20

2,20

11ˆ)(ˆxx

xxn

txYi

n εγ σ

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear Regressão linear simples - PRECISÃO DAS ESTIMATIVAS

2- Para pessoas com altura x0 = 1.85 m,

a previsão do seu peso (médio) é = 90.5 kg

e, para um grau de confiança (1-γ)% = 95% , o intervalo de confiança

tem os limites 90.5 ± 15.2

Intervalo de predição (a 95%) : [75.3 ;105.7] kg

)(ˆ0xY

Limites do intervalo de predição a (1-γ )% para o verdadeiro valor de Y dado x0 :

Exemplos, para o modelo Peso vs Altura:1- Para pessoas com altura x0 = 1.70 m,

a previsão do seu peso (médio) é = 72.6 kg

e, para um grau de confiança (1-γ)% = 95% , o intervalo de predição tem

os limites 72.6 ± 13.6

Intervalo de predição (a 95%) : [59.0 ; 86.2] kg

)(ˆ0xY

( )( )∑ −−

++±− 2

20

2,20

11ˆ)(ˆxx

xxn

txYi

n εγ σ

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear

Estimador do parâmetro α, identificado por (ou a)

INFERÊNCIAS SOBRE PARÂMETROS do modelo de Regressão Linear

• Prova-se que :

E[a] = α a é um estimador centrado de α

=2aσ) ( )

( ) ⎟⎟⎠

⎞⎜⎜⎝

−+∑ 2

22 1

xxx

n iεσ)

aσα)−a ∩ t n-2

distribuição t-Student com (n-2) graus de liberdade

• Intervalo de confiança a (1-γ )% para o parâmetro α da população:

( )( )∑ −

+±− 2

2

2,2

1 axx

xn

tin εσγ

)

α

8

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear INFERÊNCIAS SOBRE PARÂMETROS do modelo de Regressão Linear

Estimador do parâmetro α, identificado por (ou a)

• Teste de hipóteses sobre o parâmetro α da população:

H0 : α = 0 H1 : α ≠ 0

aσ)a ∩ t n-2

Estatística t do parâmetro a

A hipótese α = 0 é rejeitada se a estatística sair fora do intervalo definido pelos valores críticos (- tγ /2 , +tγ /2) retirados de uma distribuição t-Student com (n-2) graus de liberdade

α

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear INFERÊNCIAS SOBRE PARÂMETROS do modelo de Regressão Linear

Parâmetro α :

Para o exemplo do modelo Peso vs Altura

2.130ˆ −==aα

( )( )

8.141012

222 =⎟

⎟⎠

⎞⎜⎜⎝

−+=∑ xx

xn i

a εσσ )) 6.37=aσ)

aσα)-a ∩ t n-2

distribuição t-Student com 13 graus de liberdade 95 %2.5% 2.5%

-2.16 +2.16

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear INFERÊNCIAS SOBRE PARÂMETROS do modelo de Regressão Linear

Intervalo de confiança a 95% para o parâmetro α da população:

aσα)-a ∩ t n-2

Distribuição t-Student com 13 graus de liberdade

95 %2.5% 2.5%

-2.16 +2.16

-130.2 ± 2.16 x 37.6 [ -211.4 ; -49.1 ]

Teste de hipótese sobre o parâmetro α da população:

H0 : α = 0 H1 : α ≠ 0

16.247.36.37

2.130a−<−=

−==

at

σ)

Estatística t do parâmetro a

Valor crítico (- tγ /2)(Retirado da distribuição t-Student

para um nível de significância de 5%)

Conclusão: o teste é significativo e a hipótese H0 (α = 0) é rejeitada (o parâmetro α é significativamente diferente de 0) R

ui C

arva

lho

Oliv

eira

C

orre

laçã

o e

Reg

ress

ão L

inea

r INFERÊNCIAS SOBRE PARÂMETROS do modelo de Regressão Linear

Estimador do parâmetro β, identificado por (ou b)• Prova-se que :

E[b] = β b é um estimador centrado de β

( )∑ −= 2

22

xxib

εσσ)

)

∩ t n-2b

bσβ

)−

distribuição t-Student com (n-2) graus de liberdade

• Intervalo de confiança a (1-γ )% para o parâmetro β da população:

( )22,2

b∑ −

±− xx

ti

n

εγ

σ)

β

9

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear INFERÊNCIAS SOBRE PARÂMETROS do modelo de Regressão Linear

Estimador do parâmetro β, identificado por (ou b)

• Teste de hipóteses sobre o parâmetro β da população:

H0 : β = 0 H1 : β ≠ 0

bσ)b ∩ t n-2

Estatística t do parâmetro β

A hipótese β = 0 é rejeitada se a estatística sair fora do intervalo definido pelos valores críticos (- tγ /2 , +tγ /2) retirados de uma distribuição t-Student com (n-2) graus de liberdade

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear INFERÊNCIAS SOBRE PARÂMETROS do modelo de Regressão Linear

Parâmetro β :

Para o exemplo do modelo Peso vs Altura

bσβ)-b ∩ t n-2

distribuição t-Student com 13 graus de liberdade 95 %2.5% 2.5%

-2.16 +2.16

193.1ˆ ==bβ

( )0484.02

22 =

−=∑ xxi

bεσσ)

) 22.0=bσ)

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear INFERÊNCIAS SOBRE PARÂMETROS do modelo de Regressão Linear

Intervalo de confiança a 95% para o parâmetro β da população:

bσβ)-b ∩ t n-2

Distribuição t-Student com 13 graus de liberdade

95 %2.5% 2.5%

-2.16 +2.16

1.193 ± 2.16 x 0.22 [ 0.719 ; 1.668 ]

Teste de hipótese sobre o parâmetro β da população:

H0 : α = 0 H1 : α ≠ 0

Estatística t do parâmetro b

Valor crítico (- tγ /2)(Retirado da distribuição t-Student

para um nível de significância de 5%)

Conclusão: o teste é significativo e a hipótese H0 (β = 0) é rejeitada (o parâmetro βé significativamente diferente de 0)

16.244.522.0

193.1b>===

bt

σ)

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear CAPACIDADE EXPLICATIVA DO MODELO DE REGRESSÃO

Sem regressão a melhor estimativa de Yi será Y ; erro de estimação, ou desvio total: dt = Yi - Y

Com o modelo de regressão a estimativa será ii XbaY +=ˆ

erro de estimação: Yi - iY ,

desvio não explicado pela regressão : dn = Yi - iY

Assim, o desvio explicado pela regressão é: de = dt - dn = iY - Y

10

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear CAPACIDADE EXPLICATIVA DO MODELO DE REGRESSÃO

Medidas de análise (síntese para todos os pontos):

Variação inicial (variação total): soma do quadrado dos desvios totais

( )2∑ −= YYST i

Variação explicada pela regressão: soma do quadrado dos desvios explicados pela regressão:

( )2ˆ∑ −= YYSR i

Variação não explicada: soma do quadrado dos desvios não explicados pela regressão:

( )22 ˆ∑∑ −== iii YYeSE

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear Regressão Linear - exemplos

Relação com o coeficiente de correlação - prova-se que :

SR = 2ρ ST

SE = (1- 2ρ ) ST

STSR

=2ρ representa a fracção da variação inicial que é explicada pela regressão

coeficiente de determinação(é uma medida da capacidade explicativa do modelo, ou da qualidade do ajustamento)

• se ρ = ± 1 → a regressão explica tudo ( SE=0 ) • à medida que ρ diminui , a capacidade explicativa diminui também,

• até que ρ = 0 significa que o modelo não tem capacidade explicativa ( SR=0 ; ST= SE )

Variação explicadaVariação não explicada

Variaçãototal

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear

Output do EXCEL

SUMMARY OUTPUT

Regression StatisticsMultiple R 0,8334R Square 0,6945Adjusted R Square 0,6710Standard Error 6,11Observations 15

ANOVAdf SS MS F Significance F

Regression 1 1103,49 1103,49 29,55 0,0001139Residual 13 485,44 37,34Total 14 1588,93

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%Intercept -130,243 37,556 -3,468 0,004162 -211,377 -49,109X Variable 1 1,193 0,220 5,436 0,000114 0,719 1,668

Modelo de regressão linear simples – exemplo Peso vs Altura RESIDUAL OUTPUT

Observation Predicted Y Residuals159 58 1 59,5 -1,49161 69 2 61,9 7,12163 59 3 64,3 -5,27167 64 4 69,0 -5,04167 70 5 69,0 0,96168 76 6 70,2 5,77170 64 7 72,6 -8,62170 71 8 72,6 -1,62170 81 9 72,6 8,38172 76 10 75,0 0,99174 82 11 77,4 4,61177 72 12 81,0 -8,97180 89 13 84,6 4,45181 79 14 85,7 -6,75185 96 15 90,5 5,48

Soma = 0,00

Altura (X) Peso (Y)

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear Análise dos resíduos da regressão

Análises e testes incidindo sobre as hipóteses de base:

•Normalidade dos resíduos•Independência dos resíduos•Homocedasticidade (constância da variância dos resíduos)

Um simples “plot” dos resíduos pode ser elucidativo:

-10

-8

-6

-4

-2

0

2

4

6

8

10

155 165 175 185X - Altura

Res

íduo

s Resíduos aparentam ser aleatórios e de variância constante

11

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear REGRESSÃO – Análise de resíduos

Homocedasticidade ?

0

10

20

30

40

50

60

1500 2000 2500 3000 3500 4000 4500

Peso

Con

sum

o (m

pg)

Diagrama de resíduos

-15

-10

-5

0

5

10

15

20

1500 2000 2500 3000 3500 4000 4500

Peso

Res

íduo

s

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear REGRESSÃO – Análise de resíduos

Homocedasticidade ?

Transformação de variáveis : logaritmo do consumo

2,0

2,5

3,0

3,5

4,0

4,5

1500 2000 2500 3000 3500 4000 4500

Peso

LN (c

onsu

mo)

Diagrama de resíduos

-0,4

-0,3

-0,2

-0,1

0

0,1

0,2

0,3

0,4

1500 2000 2500 3000 3500 4000 4500

Peso

Res

íduo

s

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear REGRESSÃO – Análise de resíduos

Relações não lineares (e variância não constante – heterocedasticidade)Exemplo: salário vs nível educacional (nº de anos de escolaridade)

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear REGRESSÃO – Análise de resíduos

Linearização por transformação de variáveis (logaritmo do salário) correspondente a modelo Salário = e Eduβα +

12

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear Regressão Linear - exemplos

Circulação de jornais (matutinos nacionais) vs população residente (por distrito)

0

20000

40000

60000

80000

0 500 1000 1500 2000 2500

PopulaçãoC

ircul

ação

jorn

ais

Coeficiente de correlação: 0.968

Circulação = -9939 + 42.9 x População423,33441Viseu

262,92842Vila Real

266,45280V.Castelo

779,614820Setúbal

460,65769Santarém

1670,676964Porto

137,51401Portalegre

2126,479180Lisboa

435,95648Leiria

196,21287Guarda

341,212048Faro

174,32062Évora

446,54783Coimbra

223,71825C.Branco

184,71111Bragança

771,414454Braga

177,71546Beja

665,515678Aveiro

População residente

Circulação JornaisDistrito

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear Regressão Linear - exemplos

Modelo “potência”: Circulação = 0.41 x (População)1.59

(ρ = 0.954)

0

10000

20000

30000

40000

50000

60000

70000

80000

90000

0 500 1000 1500 2000 2500

População

Circ

ulaç

ão jo

rnai

s Previsão (potência)Circulação Jornais

Circulação de jornais (matutinos nacionais) vs população residente (por distrito)

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear RLS- exemplos - Circulação de jornais vs população residente (por distrito)

5306445812048341,2Faro

209530055280266,4V.Castelo

194529432842262,9Vila Real

26222751825223,7C.Branco

-91818461287196,2Guarda

-141216771111184,7Bragança

-171215761546177,7Beja

-185815292062174,3Évora

-343810481401137,5Portalegre

LinearPotênciaJornaisPop.Distrito

8193082273791802126,4Lisboa

6236656017769641670,6Porto

241221663114820779,6Setúbal

237711635314454771,4Braga

192251292515678665,5Aveiro

1043071915769460,6Santarém

982568434783446,5Coimbra

937065865648435,9Leiria

882962853441423,3Viseu

LinearPotênciaJornaisPop.Distrito

-10000

0

10000

20000

30000

40000

50000

60000

70000

80000

90000

Portale

greÉvo

raBeja

Bragan

çaGua

rdaC.B

ranco

Vila R

eal

V.Cas

telo

Faro

Viseu

Leiria

Coimbr

aSan

taré

mAve

iroBrag

aSetú

bal

Porto

Lisbo

a

Circulação JornaisPrevisão (potência)Previsão (linear)

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear Regressão Linear - Exemplos

Modelo “potência”: Circulação = 0.41 x (População)1.59

(ρ = 0.954)

0

10000

20000

30000

40000

50000

60000

70000

80000

90000

0 500 1000 1500 2000 2500

População

Circ

ulaç

ão jo

rnai

s Previsão (potência)Circulação Jornais

Eliminando Lisboa, Porto e Faro

Modelo “potência”: Circulação = 0.71 x (População)1.48

(ρ = 0.942)

02000400060008000

1000012000140001600018000

100 200 300 400 500 600 700 800

População

Circ

ulaç

ão jo

rnai

s

Previsão (potência)Circulação Jornais

Viseu

Aveiro

V. Castelo

Nota: eliminando Aveiro, V. Castelo e Viseu, parâmetros mantêm-se praticamente inalterados

13

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear RLS exemplo: População em Inglaterra + País de Gales

22,5187120186118185116184114183112182110181191801

PopAno

05

101520253035404550

1800 1820 1840 1860 1880 1900 1920 1940 1960

Ano

Popu

laçã

o

461961441951401931381921361911

32,51901291891261881

PopAno

População = - 441.469 + 0.249 x AnoRegression Statistics

M ultip le R 0.995457396R Square 0.990935426Adjusted R Square 0.990287957S tandard Error 1.223482369Observations 16

ANOVA df SS MS F Significance FRegression 1 2290.98 2290.98 1530.47 1.05752E-15Residual 14 20.96 1.50Total 15 2311.94

Coefficients Standard Error t Stat P-valueIntercept -441.469 11.948 -36.948 2.3E-15X Variable 1 0.249 0.006 39.121 1.1E-15

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear Regressão Linear - exemplos

020406080

100120140160

0 500 1000 1500 2000Fluxo

Cus

to

Custo total de funcionamento de centros logísticos vs fluxo total anual (“troughput”)

121817125,59231401924

116,5665105386

109,5692113,5554101,5107

Custo anual

Fluxo(throughput)

Coeficiente de correlação: 0.956Custo anual = 99.83 + 0.022 x Fluxo

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear Regressão Linear - exemplos

Custo de fretes de transporte (por ton.) vs distância do trajecto

020406080

100

200 400 600 800Distância (km)

Cus

to/to

n

60393

72663

54440

80804

5855630221

Custo por ton.

Distância (km)

Coeficiente de correlação: 0.94Custo do frete = 18.91 + 0.078 x Distância R

ui C

arva

lho

Oliv

eira

C

orre

laçã

o e

Reg

ress

ão L

inea

r Regressão Linear - exemplos

Produção Térmica + Importação de energia eléctrica vs coeficiente de hidraulicidade

020406080

100120140160

2500 3500 4500 5500 6500 7500 8500

Produção térmica+Importação

Coe

f. de

hid

raul

icid

ade

1462800

1213000

1073400

1003700

984000

954200

944600

944900

715900

716500

578200

Coeficiente de

hidraulicidade

Produção térmica +

importação

Coeficiente de correlação: 0.914Coef. hidraulicidade = 159.6 - 0.014 x (Prod. Térmica + Importação)

14

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear CORRELAÇÃO E REGRESSÃO

É perigoso inferir sobre relações causais (tipo causa-efeito) a partir de simples correlações estatísticas entre variáveis!

•Desejavelmente, a hipótese de relação causal entre variáveis deve decorrer de um modelo teórico que estabeleça uma relação lógica entre as variáveis, servindo a análise de correlação e regressão como mais um elemento de apoio (ou invalidação) desse modelo teórico.

Exemplo: investigação da relação entre consumo de gelados per capita e taxa de delinquência juvenil

Detectada uma correlação (negativa) entre as duas variáveis, poderemos concluir (?):

• Gelados são tão bons para os jovens que contribuem para os afastar da delinquência (!!!?)

• Altos níveis de delinquência fazem os jovens perder o apetite por gelados (!!!?)

Rui

Car

valh

o O

livei

ra

Cor

rela

ção

e R

egre

ssão

Lin

ear

Talvez que a relação entre as duas variáveis resulte da influência de uma terceira variável (como o nível de rendimentos) que “explique” o comportamento conjunto das duas primeiras:

Rendimento (Z) alto ⇒ consumo de gelados (Y) alto

Rendimento (Z) alto ⇒ baixa delinquência (X)

⇒ Y ↑ ⇔ X ↓Z ↑ ⇒ Y ↑

Z ↑ ⇒ X ↓

Para relações causais do tipo ZX

Y

• Coeficiente de correlação parcial de X com Y, eliminando o efeito de Z, deve ser (aproximadamente) nulo

CORRELAÇÃO E REGRESSÃO