37
Correlação e Regressão

Correlação e Regressão. Objetivo Estudar a relação entre duas variáveis quantitativas Exemplo: –Idade e alturas das crianças –Tempo de prática de esporte

Embed Size (px)

Citation preview

Page 1: Correlação e Regressão. Objetivo Estudar a relação entre duas variáveis quantitativas Exemplo: –Idade e alturas das crianças –Tempo de prática de esporte

Correlação e Regressão

Page 2: Correlação e Regressão. Objetivo Estudar a relação entre duas variáveis quantitativas Exemplo: –Idade e alturas das crianças –Tempo de prática de esporte

Objetivo

• Estudar a relação entre duas variáveis quantitativas

Exemplo: – Idade e alturas das crianças– Tempo de prática de esporte e ritmo cardíaco– Tempo de estudo e nota na prova– Taxa de desemprego e taxa de criminalidade– Expectativa de vida e taxa de analfabetismo– Vendas e Gasto com publicidade

Page 3: Correlação e Regressão. Objetivo Estudar a relação entre duas variáveis quantitativas Exemplo: –Idade e alturas das crianças –Tempo de prática de esporte

Estudo da relação entre variáveis

Investigar a presença ou ausência de relação linear sob dois pontos de vistas.

1. Quantificando a força dessa relação – Correlação;

2. Explicitando a forma dessa relação – Regressão.

Representação gráfica das duas variáveis quantitativas: Diagrama de dispersão

Page 4: Correlação e Regressão. Objetivo Estudar a relação entre duas variáveis quantitativas Exemplo: –Idade e alturas das crianças –Tempo de prática de esporte

Exemplo 1: nota da prova e tempo de estudo

X: tempo de estudo (em horas)

Y: Nota da prova

Pares de observação (Xi;Yi) Tempo Nota3,0 4,57,0 6,52,0 3,71,5 4,012,0 9,3

Diagrama de dispersão

0

2

4

6

8

10

0 5 10 15

TempoN

ota

Page 5: Correlação e Regressão. Objetivo Estudar a relação entre duas variáveis quantitativas Exemplo: –Idade e alturas das crianças –Tempo de prática de esporte

Exemplo 2: Vendas e gasto com publicidade de loja de confecções

X: Gasto com publicidade(em $ mil)

Y: Venda (em $ mil)

Pares de observação (Xi;Yi)Gasto Venda

3 74 148 1512 2814 32

Diagrama de dispersão

0

510

15

20

2530

35

0 5 10 15

Gasto com publicidade

Ven

das

Page 6: Correlação e Regressão. Objetivo Estudar a relação entre duas variáveis quantitativas Exemplo: –Idade e alturas das crianças –Tempo de prática de esporte

Coeficiente de correlação linear

É uma medida que avalia o quanto a “nuvem de pontos” no diagrama de dispersão aproxima-se de uma reta.

O coeficiente de correlação linear de Person é dado por:

Sendo,

SX e SY são os desvios padrão de X e Y, respectivamente.

Page 7: Correlação e Regressão. Objetivo Estudar a relação entre duas variáveis quantitativas Exemplo: –Idade e alturas das crianças –Tempo de prática de esporte

Formula alternativa

Page 8: Correlação e Regressão. Objetivo Estudar a relação entre duas variáveis quantitativas Exemplo: –Idade e alturas das crianças –Tempo de prática de esporte

No Exemplo 1:

Page 9: Correlação e Regressão. Objetivo Estudar a relação entre duas variáveis quantitativas Exemplo: –Idade e alturas das crianças –Tempo de prática de esporte

No Exemplo 2

Gasto com publicidade Vendas (X - média(X)) (Y - média(Y) (X - média(X)) (Y - média(Y))3 7 -5,2 -12,2 63,444 14 -4,2 -5,2 21,848 15 -0,2 -4,2 0,84

12 28 3,8 8,8 33,4414 32 5,8 12,8 74,24

Soma 41 96 0 0 193,8Média 8,2 19,2

S2X = 23,2 SX=4,82

S2Y = 108,7 SY=10,42

Então,

r = 0,9648

Page 10: Correlação e Regressão. Objetivo Estudar a relação entre duas variáveis quantitativas Exemplo: –Idade e alturas das crianças –Tempo de prática de esporte

Propriedades do coeficiente de correlação

Propriedades: -1 ≤ r ≤ 1

Classificação da correlação:

r = 1, correlação linear positiva e perfeita;

r = -1, correlação linear negativa e perfeita;

r = 0, inexistência de correlação linear.

Page 11: Correlação e Regressão. Objetivo Estudar a relação entre duas variáveis quantitativas Exemplo: –Idade e alturas das crianças –Tempo de prática de esporte
Page 12: Correlação e Regressão. Objetivo Estudar a relação entre duas variáveis quantitativas Exemplo: –Idade e alturas das crianças –Tempo de prática de esporte
Page 13: Correlação e Regressão. Objetivo Estudar a relação entre duas variáveis quantitativas Exemplo: –Idade e alturas das crianças –Tempo de prática de esporte
Page 14: Correlação e Regressão. Objetivo Estudar a relação entre duas variáveis quantitativas Exemplo: –Idade e alturas das crianças –Tempo de prática de esporte

Exemplo 3: Criminalidade e analfabetismo

Considere as duas variáveis abaixo observadas em 50 estados norte-americano (vide dados).

X: taxa de analfabetismoY: taxa de criminalidade

Na figura a seguir, temos o diagrama de dispersãode X e Y e podemos notar que, conforme aumentaa taxa de analfabetismo, a taxa de criminalidadetende a aumentar. Nota-se também umatendência linear.

Page 15: Correlação e Regressão. Objetivo Estudar a relação entre duas variáveis quantitativas Exemplo: –Idade e alturas das crianças –Tempo de prática de esporte
Page 16: Correlação e Regressão. Objetivo Estudar a relação entre duas variáveis quantitativas Exemplo: –Idade e alturas das crianças –Tempo de prática de esporte

Diagrama de dispersão

Page 17: Correlação e Regressão. Objetivo Estudar a relação entre duas variáveis quantitativas Exemplo: –Idade e alturas das crianças –Tempo de prática de esporte

Calculo da correlação

Page 18: Correlação e Regressão. Objetivo Estudar a relação entre duas variáveis quantitativas Exemplo: –Idade e alturas das crianças –Tempo de prática de esporte

Exemplo 4: Expectativa de vida e analfabetismo

Considere as duas variáveis abaixo observadas em 50 estados norte-americanos. (vide dados)

Y: expectativa de vidaX: taxa de analfabetismo

Na figura a seguir, temos o diagrama de dispersão de X e Y e podemos notar que, conforme aumenta a taxa de analfabetismo, a expectativa de vida tende a diminuir. Nota-se também uma tendência linear

Page 19: Correlação e Regressão. Objetivo Estudar a relação entre duas variáveis quantitativas Exemplo: –Idade e alturas das crianças –Tempo de prática de esporte
Page 20: Correlação e Regressão. Objetivo Estudar a relação entre duas variáveis quantitativas Exemplo: –Idade e alturas das crianças –Tempo de prática de esporte

Diagrama de dispersão

Page 21: Correlação e Regressão. Objetivo Estudar a relação entre duas variáveis quantitativas Exemplo: –Idade e alturas das crianças –Tempo de prática de esporte

Calculo da correlação

Page 22: Correlação e Regressão. Objetivo Estudar a relação entre duas variáveis quantitativas Exemplo: –Idade e alturas das crianças –Tempo de prática de esporte

Análise de regressão

A análise de regressão fornece uma função matemática que descreve a relação entre duas ou mais variáveis. A natureza da relação é caracterizada por esta função ou equação de regressão.

Esta equação pode ser usada para estimar ou predizer valores futuros de uma variável, com base em valores conhecidos ou supostos, de uma ou mais variáveis relacionadas

Page 23: Correlação e Regressão. Objetivo Estudar a relação entre duas variáveis quantitativas Exemplo: –Idade e alturas das crianças –Tempo de prática de esporte

Modelo matemático versus modelo estatístico

Modelo matemático → descreve uma relação entre diferentes variáveis (tipo – Y = a + bX) onde os valores de X estão diretamente associados aos valores de Y.

Modelo estatístico → envolve a determinação do melhor modelo ou do modelo que melhor se ajusta aos pontos, e não do modelo exato ou preciso. (Y = a + bX + e, onde e é o erro)

Page 24: Correlação e Regressão. Objetivo Estudar a relação entre duas variáveis quantitativas Exemplo: –Idade e alturas das crianças –Tempo de prática de esporte

Regressão linear simples

Objetivo : obter a equação matemática da reta que represente o melhor relacionamento numérico linear ente o conjunto de pares de dados em amostras selecionadas, dos dois conjuntos de variáveis

Equação da reta:

(1)n 1,2,...,i ,10 iii XY

Page 25: Correlação e Regressão. Objetivo Estudar a relação entre duas variáveis quantitativas Exemplo: –Idade e alturas das crianças –Tempo de prática de esporte

Regressão linear Simples

Onde:• Yi é o i-ésimo valor da variável dependente, ou variável

explicada (resposta); 0 e 1 são os parâmetros (coeficientes de regressão); • Xi é o i-ésimo valor da variável independente, ou

variável explicativa (é uma constante conhecida, fixo). i é o termo do erro aleatório com E(i)=0 e 2(i)= 2; i e j não são correlacionados (i, j)=0 para todo i,j;

i j; (covariância é nula).

Covariância (o resultado em qualquer experimento não tem efeito no termo do erro de qualquer outro experimento)

Page 26: Correlação e Regressão. Objetivo Estudar a relação entre duas variáveis quantitativas Exemplo: –Idade e alturas das crianças –Tempo de prática de esporte

Regressão linear simples

Os dados são usados para estimar 0 e 1, isto é, ajustar o modelo aos dados, para:

• quantificar a relação entre Y e X;• usar a relação para predizer uma nova resposta Y0 para

um dado valor de X0 (não incluído no estudo);• calibração – ou capacidade de predição de novas

observações, pode ser feita usando uma nova amostra e comparando os valores estimados com os observados.

- dado um valor de Y0, para o qual o correspondente valor de X0 é

desconhecido, estimar o valor de X0.

Page 27: Correlação e Regressão. Objetivo Estudar a relação entre duas variáveis quantitativas Exemplo: –Idade e alturas das crianças –Tempo de prática de esporte

Característica do modelo

nadoscorrelacio são não Y e Y .4

)constante variância()()()( .3

)

()()E(Y .2

) v.a.(Yuma é Y .1

ji

2210

22

1010i

10ii

iiii

iiii

ii

XY

ajustada

equaçãoXXE

X

O modelo de regressão (1) mostra que as respostas Yi são oriundas de uma distribuição de probabilidades com média E(Yi) = 0 +1Xi e cujas variâncias são 2, a mesma para todos os valores de X. Além disso, quaisquer duas respostas Yi e Yj não são correlacionadas.

Page 28: Correlação e Regressão. Objetivo Estudar a relação entre duas variáveis quantitativas Exemplo: –Idade e alturas das crianças –Tempo de prática de esporte

A figura mostra a distribuição de Y para vários valores de X. Mostra onde cai a observação Y1. Mostra que o erro é a diferença entre Y1 e E(Y1). Observe que as distribuições de probabilidade apresentam a mesma variabilidade.

Page 29: Correlação e Regressão. Objetivo Estudar a relação entre duas variáveis quantitativas Exemplo: –Idade e alturas das crianças –Tempo de prática de esporte

Significado dos parâmetros do modelo

0

x x+1

x=1

yyi = 0 + 1xi

xy

1

0 – intercepto, valor da média da distribuição de Y em X=0

1 – inclinação, expressa a taxa de mudança em Y, isto é, é a mudança em Y quando ocorre a mudança de uma unidade em X.

Page 30: Correlação e Regressão. Objetivo Estudar a relação entre duas variáveis quantitativas Exemplo: –Idade e alturas das crianças –Tempo de prática de esporte

Os coeficientes 0 e 1 são calculados da seguinte maneira:

1

e

0 =

Reta Ajustada(método dos mínimos quadrados)

Page 31: Correlação e Regressão. Objetivo Estudar a relação entre duas variáveis quantitativas Exemplo: –Idade e alturas das crianças –Tempo de prática de esporte

No exemplo 3: Criminalidade e analfabetismo

Reta ajustada :

Y : valor predito para taxa de criminalidade

X : taxa de analfabetismo

Interpretação de 1 :

Para um aumento de uma unidade na taxa de analfabetismo (X), a taxa de criminalidade (Y) aumenta, em média, 4,257 unidades

Page 32: Correlação e Regressão. Objetivo Estudar a relação entre duas variáveis quantitativas Exemplo: –Idade e alturas das crianças –Tempo de prática de esporte

Graficamente, temos:

Page 33: Correlação e Regressão. Objetivo Estudar a relação entre duas variáveis quantitativas Exemplo: –Idade e alturas das crianças –Tempo de prática de esporte

No exemplo 4: Expectativa de vida e analfabetismo

A reta ajustada:

Y : valor predito para a expectativa de vida

X : taxa de analfabetismo

Interpretação de 1 :

Para um aumento de uma unidade na taxa de analfabetismo (X), a expectativa de vida (Y) aumenta, em média, 1,296 anos

Page 34: Correlação e Regressão. Objetivo Estudar a relação entre duas variáveis quantitativas Exemplo: –Idade e alturas das crianças –Tempo de prática de esporte

Exemplo 5: Consumo de cerveja e temperatura

X: Consumo de cerveja diário por mil habitantes, em litros

Y: Temperatura máxima (ºC)

As variáveis foram observadas em nove localidades com as mesmas características demográficas e socioeconômicas

Page 35: Correlação e Regressão. Objetivo Estudar a relação entre duas variáveis quantitativas Exemplo: –Idade e alturas das crianças –Tempo de prática de esporte

Dados

Page 36: Correlação e Regressão. Objetivo Estudar a relação entre duas variáveis quantitativas Exemplo: –Idade e alturas das crianças –Tempo de prática de esporte

Diagrama de dispersão

Page 37: Correlação e Regressão. Objetivo Estudar a relação entre duas variáveis quantitativas Exemplo: –Idade e alturas das crianças –Tempo de prática de esporte