Author
cayopereira
View
886
Download
5
Embed Size (px)
1
9Correlação e Regressão
9-1 Aspectos Gerais
9-2 Correlação
9-3 Regressão
9-4 Intervalos de Variação e Predição
9-5 Regressão Múltipla
2
9-1 Aspectos Gerais
Dados Emparelhadoshá uma relação?
se há, qual é a equação?
usar a equação para predição
3
9-2
Correlação
4
Definição
Correlaçãoexiste entre duas variáveis quando uma delas está, de alguma forma, relacionada com a outra.
5
Suposições
1. A amostra de dados emparelhados (x,y) é uma amostra aleatória.
2. Os pares de dados (x,y) tem uma distribuição normal bivariada.
6
Definição
Diagrama de Dispersãoé um gráfico de dados amostrais emparelhados (x,y) com o eixo xhorizontal e o eixo y vertical. Cada par individual (x,y) é plotado como um ponto.
7
Diagrama de Dispersão
8
Correlação Linear Positiva
x x
yy y
x(a) Positiva (b) Positiva
Forte(c) Positiva
Perfeita
Figura 9-1 Diagramas de Dispersão
9
Correlação Linear Negativa
x x
yy y
x(d) Negativa (e) Negativa
Forte(f) Negativa
Perfeita
Figura 9-1 Diagramas de Dispersão
10
Sem Correlação Linear
x x
yy
(g) Não há Correlação
(h) Correlação não-linear
Figura 9-1 Diagramas de Dispersão
11
Notação
Sxx = Σ(x – x)2 = (Σx2) – n( x )2--
Syy = Σ(y – y)2 = (Σy2) – n( y )2--
Sxy = Σ (x – x)(y – y) = (Σxy) – n ( x )( y )-- --
12
Sxy
(Sxx) (Syy )
DefiniçãoCoeficiente de Correlação Linear r
mede o grau de relacionamento linear entre os valores emparelhados x e y em uma amostra
r =
Fórmula 9-1
Calculadoras podem fornecer r
ρ (rô) é o coeficiente de correlação linear de todos os dados emparelhados da população.
13
Notação para o Coeficiente de Correlação Linear
n número de pares de dados presentes
Σ denota a adição dos itens indicados.
Σx denota a soma de todos os valores de x.
Σx2 indica que devemos ao quadrado cada valor de x e somar os resultados.
(Σx)2 indica que devemos somar os valores de x e elevar o total ao quadrado.
Σxy indica que devemos multiplicar cada valor de x pelo valor correspondente de y e somar então todos estes produtos.
r representa o coeficiente de correlação linear para uma amostra.
ρ representa o coeficiente de correlação linear para uma população
14
Interpretando o Coeficiente de Correlação Linear
Se o valor absoluto de r excede o valor na Tabela A - 6, concluímos que há correlação linear significativa.
Caso contrário, não há evidência suficiente para apoiar a existência de uma correlação linear significativa.
15
TABELA A-6 Valores Críticos do Coeficiente de Correlação de Pearson r
456789
101112131415161718192025303540455060708090100
n,999,959,917,875,834,798,765,735,708,684,661,641,623,606,590,575,561,505,463,430,402,378,361,330,305,286,269,256
,950,878,811,754,707,666,632,602,576,553,532,514,497,482,468,456,444,396,361,335,312,294,279,254,236,220,207,196
α = .05 α = .01
16
Propriedades do Coeficiente de Correlação Linear r
1. -1 ≤ r ≤ 12. O valor de r não varia se todos os valores de
qualquer uma das variáveis são convertidos para uma escala diferentes.
3. O valor de r não é afetado pela escolha de x ou y. Permutando todos os valores de x e y, o valor de r permanecerá inalterado.
4. r mede a intensidade, ou grau, de um relacionamento linear.
17
Erros Comuns Envolvendo Correlação
1. Causalidade: É errado concluir que correlação implica causalidade.
2. Médias ou Taxas: Taxas ou médias suprimem a variação individual e podem inflacionar o coeficiente de correlação.
3. Linearidade: Pode haver alguma relação entre x e y mesmo quando não há correlação linear significativa.
18
0
50
100
150
200
250
0 1 2 3 4 5 6 7 8
Dis
tânc
ia(p
és)
FIGURA 9-2
Erros Comuns Envolvendo Correlação
Tempo (segundos)
Diagrama de dispersão da distância acima do solo e do tempo para um objeto lançado para cima
19
Teste de Hipótese FormalPara determinar se existe uma correlação linear significativa entre duas variáveisDois métodosAmbos métodos utilizam:
H0: ρ = 0 (não há correlação linear significativa)
H1: ρ ≠ 0 (correlação linear significativa)
20
Método 1: Estatística de Teste é t(segue formato apresentado anteriormente)
Estatística de Teste:
1 - r 2n - 2
rt =
Valores Críticos:
utilizar a Tabela A-3 com graus de liberdade = n - 2
21
Método 1: Estatística de Teste é t(segue formato apresentado anteriormente)
Figura 9-4
22
Método 2: Estatística de Teste é r(exige menos cálculos)
Estatística de teste: r
Valores críticos: Consulte a Tabela A-6 (não há graus de liberdade)
Não rejeitarρ = 0
Rejeitarρ = 0
Rejeitarρ = 0
0r = - 0,811 r = 0,811 1
Valor amostral:r = 0,828
-1
Figura 9-5
23
FIGURA 9-3
Teste para aCorrelação Linear
Início
Seja: H0: ρ = 0H1: ρ ≠ 0
Escolha umnível de
significância l α
Calcule r com a Fórmula 9-1
MÉTODO 1 MÉTODO 2
Se H0 é rejeitada, concluir que háCorrelação linear significativa.
Se H0 não é rejeitada, então não háevidência suficiente para concluir
pela existência de uma correlação linear.
Se o valor absoluto daestatística de teste excede os
valores críticos, rejeitar H0: ρ = 0Caso contrário, não rejeitar H0
A estatística de teste é
t =1 - r 2
n -2
r
Os valores críticos de t estão na Tabela A-3, ( n -2 graus de liberdade)
A estatística de teste é
Os valores críticos de r encontram-se na Tabela A-6
r
24
Há correlação linear significativa?
0,1222
0,6403
0,9933
1,2846
0,9934
0,8212
0,3861
1,3835
Dados do Projeto do Lixo: Análise de plástico descartadox Plástico (kg)
y Tamanho daresidência
n = 8 α = 0,05 H0: ρ = 0H1 :ρ ≠ 0
Estatística de teste é r = 0,842
25
Há correlação linear significativa?
456789
101112131415161718192025303540455060708090100
n,999,959,917,875,834,798,765,735,708,684,661,641,623,606,590,575,561,505,463,430,402,378,361,330,305,286,269,256
,950,878,811,754,707,666,632,602,576,553,532,514,497,482,468,456,444,396,361,335,312,294,279,254,236,220,207,196
α = ,05 α = ,01n = 8 α = 0,05 H0: ρ = 0
H1 :ρ ≠ 0
Estatística de teste é r = 0,842
Valores críticos são r = - 0,707 e 0,707(Tabela A-6 com n = 8 e α = 0,05)
TABELA A-6 Valores Críticos do Coeficiente de Correlação de Pearson r
26
Há correlação linear significativa?0,842 > 0,707, ou seja, a estatística de teste está na região crítica.
REJEITAMOS, pois, H0: ρ = 0 (ausência de correlação) e concluímos que há correlação linear significativa entre o Peso de plástico descartado e o tamanho das residências.
Não Rejeitarρ = 0
Rejeitarρ = 0
Rejeitarρ = 0
1- 1 r = - 0,707 r = 0,7070
Dados amostrais:r = 0,842
27
x = 3
•••III Quadrante
II Quadrante
IV Quadrante
•
y
y = 11(x, y)
x - x = 7- 3 = 4
y - y = 23 - 11 = 12
4
8
12
16
20
24
r = Σ (x -x) (y -y)(n -1) sx sy
(x, y) centróide dos pontos da amostra
•(7, 23)
FIGURA 9-6
Fórmula 9-1 é desenvolvida deJustificação para a Fórmula de r
I Quadrante
x00 1 2 3 4 5 6 7
28
9-3 RegressãoDefinição
Equação de RegressãoDada uma coleção de dados amostrais emparelhados, a equação de regressão
y = b0 + b1x^descreve a relação entre as duas variáveis
Reta de Regressão(reta de melhor ajuste ou reta de mínimos quadrados)
o gráfico da equação de regressão
29
Reta de Regressão em Diagrama de Dispersão
30
A Equação de Regressãox é a variável independente
(variável preditora)
y é a variável dependente(variável resposta)
^
y = b0 +b1x^
y = mx +b
b0 = y - intercepto
b1 = inclinação
31
Notação para a Equação de Regressão
ParâmetroPopulacional
EstatísticaAmostral
y-intercepto da equação de regressão β0 b0
Inclinação da equação de regressão β1 b1
Equação da reta de regressão y = β0 + β1 x y = b0 + b1 x^
32
Suposições1. Estamos investigando apenas relações lineares.
2. Para um dado valor de x, y é uma variável aleatória com distribuição normal (em forma de sino). Todas essas distribuições de y tem a mesma variância. E ainda, para um dado valor de x, a média da distribuição dos valores de yestá sobre a reta de regressão.(Os resultados não são afetados seriamente se os desvios da normalidade e da igualdade da variância não são grandes.)
33
Fórmula para b0 e b1
b0 = y - b1 x (intercepto y)- -
Fórmula 9-2
(Sxy)b1 = (coeficiente angular(Sxx)
Fórmula 9-3
Calculadoras ou computadores podem determinar estes valores
Fórmula 9-4
34
A reta de regressão é a que melhor se ajusta aos pontos
amostrais.
35
PrediçõesAo predizer um valor de y com base em determinado valor de x ...
1. Se não há uma correlação linear significativa, o melhor valor predito de y é y.
2. Se há uma correlação linear significativa, obtém-se o melhor valor predito de y substituindo-se o valor de x na equação de regressão.
36
Utilizar a equaçãode regressão para fazerpredições. Levar o valorDado na equação deregressão.
Calcular r etestar a hipótese
que ρ = 0
Hácorrelação
linearsignificativa
?
Dado um valor arbitrário deuma variável, o melhor valorPredito da outra variável ésua média amostral.
Sim
Não
Iniciar
FIGURA 9-7 Predizendo o Valor de uma Variável
37
Diretrizes para o Uso daEquação de Regressão
1. Se não há correlação linear significativa, não use a equação de regressão para fazer predições.
2. Ao aplicar a equação de regressão para predições, mantenha-se dentro do âmbito dos dados amostrais.
3. Uma equação de regressão baseada em dados passados não é necessariamente válida hoje.
4. Não devemos fazer predições sobre uma população diferente daquela de onde provêm os dados amostrais.
38
Qual é a melhor predição do tamanho de uma residência que descarta 0,227 kg de plástico?
0,1222
0,6403
0,9933
1,2846
0,9934
0,8212
0,3861
1,3835
Dados do Projeto Lixo: Análise de plástico descartadox Plástico (kg)
y Tamanho da residência
b0 = 0,549
b1 = 3,263
Usando uma calculadora:
y = 0,549 + 3,263 (0,227)y = 1,29
Uma residência que que descarta 0,227 kg de plástico tem aproximadamente uma pessoa.
39
DefiniçõesVariação Marginala quantia que uma variável varia quando a outra variável sofre uma variação de exatamente 1 unidadeOutlier
um ponto que está muito afastado dos demais pontos.
Pontos de Influênciapontos que afetam fortemente o gráfico da reta de regressão.
40
DefiniçõesResíduos
dado um par de dados amostrais (x,y), um resíduo é a diferença (y - y) entre um valor amostral observado y e o valor y predito com base na equação de regressão.
Propriedade dos Mínimos QuadradosUma reta verifica a propriedade dos mínimos quadrados se a soma dos quadrados dos resíduos é a menor possível.
^
Resíduos e Propriedade de Mínimos Quadrados
^
41
Resíduos e a Propriedade dos Mínimos Quadrados
x 1 2 4 5y 4 24 8 32 y = 5 + 4x
02468
101214161820222426283032
1 2 3 4 5
••
•
x
yResíduo = 7
Resíduo = -13Resíduo = -5
Resíduo = 11
^
FIGURA 9-8
•
42
9-4
Intervalo de Variação e de
Predição
43
DefiniçõesDesvio Total (de um particular ponto (x, y) em relação à média)
é a distância vertical y - y, que é a distância entre o ponto (x, y) e a reta horizontal que passa pela média amostral y.
Desvio Explicadoé a distância vertical y - y, que é a distância entre o valor predito y e a reta horizontal que passa pela média amostral y.
Desvio não-explicadoé a distância vertical y - y, que é a distância vertical entre o ponto (x, y) e a reta de regressão. (A distância y - y também é chamada resíduo, definido na Seção 9-3.)
^
^^
44
Figura 9-9 Desvios: Não-explicado, Explicado e Total
Desviototal
(y - y)
0123456789
1011121314151617181920
•
•
•
Desvionão-explicado
(y - y)
Desvioexplicado
(y - y)
(5, 19)
(5, 13)
(5, 9)
y = 3 + 2x^
y = 9
^
^
y
x0 1 2 3 4 5 6 7 8 9
45
(y - y) = (y - y) + (y - y)(desvio total) = (desvio explicado) + (desvio não-explicado)
^ ^
(variação total) = (variação explicada) + (variação não-explicada)
Σ (y - y) 2 = Σ (y - y) 2 + Σ (y - y) 2^ ^
Fórmula 9-5
46
DefiniçãoCoeficiente de determinaçãoé o valor da variação de y que é explicado pela reta de regressão
R2 = variação explicada.variação total
ousimplesmente o quadrado de r
(determinado pela Fórmula 9-1, seção 9-2)
47
Intervalos de PrediçãoDefinição
Erro-padrão da estimativa
é uma medida das diferenças (ou distâncias) entre os valores amostrais y observados e os valores preditos y obtidos através da reta de regressão.
^
48
Erro-padrão da Estimativa
Σ (y - y)2
n - 2
^se =
ou
Σ y2 - b0 Σ y - b1 Σ xyn - 2 Fórmula 9-6
se =
49
y - E < y < y + E^ ^
Intervalo de Predição para um determinado y
onde
n Sxx
(x0 – x )2
1 + +1E = tα/2 se
x0 representa o valor dado de xtα/2 tem n - 2 graus de liberdade
50
9-5 Regressão MúltiplaDefinição
Equação de Regressão Múltipla
Um relacionamento linear entre uma variável dependente y e duas ou mais variáveis independentes (x1, x2, x3 . . . , xk)
y = b0 + b1x1 + b2x2 + . . . + bkxk^
51
Notaçãoy = b0 + b1 x1+ b2 x2+ b3 x3 +. . .+ bk xk
(Forma geral da equação de regressão múltipla estimada)
n = tamanho da amostrak = número de variáveis independentes
y = valor predito da variável dependente y
x1, x2, x3 . . . , xk são as variáveis independentes
^
52
Notaçãoß0 = intercepto y, ou valor de y quando todas as
variáveis preditoras são 0.b0 = estimativa de ß0 baseada nos dados amostrais
ß1, ß2, ß3 . . . , ßk são os coeficientes das variáveis independentes x1, x2, x3 . . . , xk
b1, b2, b3 . . . , bk são as estimativas amostrais dos coeficientes ß1, ß2, ß3 . . . , ßk
53
R2 AjustadoDefiniçõesCoeficiente de determinação múltipla
uma medida do grau de ajustamento da equação de regressão múltipla aos dados amostrais
Coeficiente de determinação ajustadoo coeficiente múltiplo de determinação R2
modificado de modo a levar em conta o número de variáveis e o tamanho da amostra.
54
R2 Ajustado
R2 Ajustado = 1 - (n - 1) (1 - R2)[n - (k + 1)]
Fórmula 9-7
onde n = tamanho da amostrak = número de variáveis independentes (x)
55
Determinação da Melhor Equação de Regressão Múltipla1. Use o bom senso e considerações de ordem prática para
incluir ou excluir variáveis.2. Em vez de incluir todas as variáveis disponíveis, inclua
um número relativamente pequeno de variáveis independentes (x), eliminando as variáveis independentes que não tenham influência na variável dependente.
3. Escolha uma equação que tenha um valor de R2 ajustado com esta propriedade: Se se inclui uma variável independente adicional, o valor de R2 ajustado não é aumentado substancialmente.
4. Para um dado número de variáveis independentes (x), escolha a equação com o maior valor ajustado R2.
5. Escolha uma equação que tenha significância global, tal como determinada pelo valor P na tela do computador.