19
NOÇÕES SOBRE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES 1

NOÇÕES SOBRE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES 6.pdf · LINEAR SIMPLES 1 O nosso objetivo ... Investigaremos a presença ou ausência de relação linear sob dois pontos

  • Upload
    vodieu

  • View
    214

  • Download
    0

Embed Size (px)

Citation preview

NOÇÕES SOBRE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

1

O nosso objetivo é estudar a relação entre duas variáveis

quantitativas.

Exemplos:

i. Idade e altura das crianças

ii. Tempo de prática de esportes e ritmo cardíaco

iii. Tempo de estudo e nota na prova

iv. Taxa de desemprego e taxa de criminalidade

v. Expectativa de vida e taxa de analfabetismo

2

Investigaremos a presença ou ausência de relação linear sob

dois pontos de vista:

ANÁLISE DE CORRELAÇÃO

◦ Interesse em mensurar a “força” da associação entre as

variáveis (geralmente através do cálculo de algum

coeficiente).

ANÁLISE DE REGRESSÃO

◦ Interesse em realizar previsões sobre os valores da variável

dependente (resposta) a partir dos valores das variáveis

independentes (preditoras).

◦ Construir um modelo estatístico (modelo de regressão):

uma equação que mostre o relacionamento entre as

variáveis.

3

Representação gráfica de duas variáveis quantitativas:

Diagrama de dispersão.

Exemplo: Tempo de estudo e Nota da Prova de Bioestatística:

X : tempo de estudo (em horas)

Y : nota da prova

Pares de observações (Xi , Yi) para cada estudante

4

Tempo (X) Nota(Y)

3,0 4,0

3,5 3,5

4,0 7,0

5,0 6,5

7,0 4,7

8,0 8,0

9,0 7,7

11,0 8,5

12,0 9,8

5

0,00

2,00

4,00

6,00

8,00

10,00

12,00

0,00 2,00 4,00 6,00 8,00 10,00 12,00 14,00

Nota

Tempo

Diagrama de Dispersão

Diagrama de dispersão indica a possibilidade de correlação

linear.

Coeficiente de correlação de Pearson (r): É uma medida

(coeficiente) do grau de relação linear entre duas variáveis

“quantitativas”

6

dados dos médias as são e que Em

1i

2

1i

2

1

)(.)(

))((

yx

n

i

n

i

n

i

ii

yyxx

yyxx

r

Ou

7

n

yy

n

xx

n

yxyx

i

i

i

i

ii

ii

r2

22

2)()(

O coeficiente de correlação varia de -1 a 1.

Valores negativos indicam uma relação inversamente

proporcional entre as variáveis.

Exemplo: Mortalidade infantil X Percentual de mães com pré-

natal.

Valores positivos do coeficiente indicam uma relação

diretamente proporcional entre as variáveis.

Exemplo: Peso X Altura

Valores próximos a 0 (negativos ou positivos) indicam uma

relação de independência entre as variáveis.

Exemplo: Altura X Nota na Prova

8

Tipos de correlação entre as variáveis

Correlação

Linear

Positiva ou

direta

Correlação Linear

Negativa ou

inversa

SEM

Correlação

Correlação Não

linear

Casos particulares:

r = 1 correlação linear positiva e perfeita

r = -1 correlação linear negativa e perfeita

r = 0 inexistência de correlação linear

Do Exemplo anterior temos:

r=47,47

87,22. 37,16= 0,83

11

Tempo (X) Nota(Y) (x- média X) (y-média Y) (x- média X)² (y-média Y)²(x- média X)(y-média

Y)

3,00 4,00 -3,94 -2,63 15,52 6,92 10,36

3,50 3,50 -3,44 -3,13 11,83 9,80 10,77

4,00 7,00 -2,94 0,37 8,64 0,14 -1,09

5,00 6,50 -1,94 -0,13 3,76 0,02 0,25

7,00 4,70 0,06 -1,93 0,00 3,72 -0,12

8,00 8,00 1,06 1,37 1,12 1,88 1,45

9,00 7,70 2,06 1,07 4,24 1,14 2,20

11,00 8,50 4,06 1,87 16,48 3,50 7,59

12,00 9,80 5,06 3,17 25,60 10,05 16,04

Total 87,22 37,16 47,47

O coeficiente de correlação mede o grau de correlação entre

duas variáveis, mas absolutamente não significa que

necessariamente haja uma relação de causa-efeito entre as

variáveis.

Quando encontramos uma correlação que se demonstra

importante para o nosso estudo, normalmente desejamos

extrair mais informações a respeito da relação entre as

variáveis , tais como estimar um modelo (equação

matemática) que a represente, realizar predições, etc.

Um modo de avançarmos mais nesta análise é realizarmos

uma Análise de Regressão.

12

Quando realizamos uma regressão linear queremos estimar

uma função linear ( Y = a + bX) que represente a relação

entre duas variáveis. Então primeiro precisamos definir qual

será a variável independente (X), a que “tentará” explicar a

variável dependente (Y).

Portanto desejamos estimar a reta que melhor represente a

relação entre as variáveis X e Y, ou em outra palavras, o

modelo linear (reta) que exprima a reação de Y conforme X

varia.

13

dados. dos médias as são que Em yex

xbya

n

xx

n

yxyx

bi

i

ii

ii

22 )(

Utilizando as propriedades da média (estamos procurando uma

reta média) e aplicando conceitos de determinação de pontos

mínimos e máximos ( derivadas parciais), chega-se a conclusão

que os coeficientes linear (a) e angular (b) da equação de regressão

serão dados por:

• As curvas ajustadas são utilizadas para fazer predição

(previsões)

•Os erros de predição devem ser os menores possíveis.

O coeficiente de regressão b informa o número de unidades

de variação de Y ao se acrescentar uma unidade de X.

O coeficiente de correlação de Pearson é usado para qualificar

a reta ajustada, assim, quanto mais próximo de 1 ou de -1

menores serão os erros de previsão. Consequentemente,

modelos com r muito baixo não devem ser usados (

geralmente os módulos dos r’s adotados em pesquisas

biológicas devem ficar acima de 0,8.)

15

Exercício:

Um pesquisador deseja verificar se um instrumento para medir a

concentração de determinada substância no sangue está bem

calibrado. Para isto, ele tomou 15 amostras de concentrações

conhecidas (X) e determinou a respectiva concentração através do

instrumento (Y), obtendo:

a) Encontre o coeficiente de correlação, usando os seguintes dados:

X 2,0 2,0 2,0 4,0 4,0 4,0 6,0 6,0 6,0 8,0 8,0 8,0 10,0 10,0 10,0

Y 2,1 1,8 1,9 4,5 4,2 4,0 6,2 6,0 6,5 8,2 7,8 7,7 9,6 10,0 10,1

b) Obtenha a reta de regressão da variável Y em função de X.

R:

Exercício Extra: É esperado que a massa muscular de uma pessoa

diminua com a idade. Para estudar essa relação, uma

nutricionista selecionou 18 mulheres, com idade entre 40 e 79

anos, e observou em cada uma delas a idade (X) e a massa

muscular (Y).

18

Massa muscular (Y) Idade (X)

82.0 71.0

91.0 64.0

100.0 43.0

68.0 67.0

87.0 56.0

73.0 73.0

78.0 68.0

80.0 56.0

65.0 76.0

84.0 65.0

116.0 45.0

76.0 58.0

97.0 45.0

100.0 53.0

105.0 49.0

77.0 78.0

73.0 73.0

78.0 68.0

a) Calcule o coeficiente de correlação linear entre X e Y.

Denotamos as variáveis: Y = Massa Muscular e X = Idade ,

n=18

b) Ajuste uma reta de regressão para a relação entre as

variáveis Y: massa muscular (dependente) e X: idade

(independente).

19