Upload
internet
View
122
Download
2
Embed Size (px)
Citation preview
Ogliari – Técnicas estatísticas para predição
CorrelaçãoCorrelação
Ogliari – Técnicas estatísticas para predição
CorrelaçãoCorrelação
• Interesse em analisar o comportamento conjunto de duas variáveis quantitativas.
• Interesse em obter uma medida estatística que indique se existe ou não uma relação linear entre duas variáveis; e se existe, qual a sua magnitude e sinal.– Exemplo: anos de experiência em programação e o tempo
gasto para realizar uma determinada tarefa.
– Número de acessos a uma página e o tamanho da população economicamente ativa.
Ogliari – Técnicas estatísticas para predição
Exemplo 1Exemplo 1
• Processo de queima de massa cerâmica para pavimento
– X1 = retração linear (%),
– X2 = resistência mecânica (MPa) e
– X3 = absorção de água (%).
Ogliari – Técnicas estatísticas para predição
Exemplo 11.1 - Dados:Exemplo 11.1 - Dados:
ensaio X1 X 2 X 3 ensaio X 1 X 2 X 3
1 8,70 38,42 5,54 10 13,24 60,24 0,58
2 11,68 46,93 2,83 11 9,10 40,58 3,64
3 8,30 38,05 5,58 12 8,33 41,07 5,87
4 12,00 47,04 1,10 13 11,34 41,94 3,32
5 9,50 50,90 0,64 14 7,48 35,53 6,00
6 8,58 34,10 7,25 15 12,68 38,42 0,36
7 10,68 48,23 1,88 16 8,76 45,26 4,14
8 6,32 27,74 9,92 17 9,93 40,70 5,48
9 8,20 39,20 5,63 18 6,50 29,66 8,98
Ogliari – Técnicas estatísticas para predição
Diagramas de dispersãoDiagramas de dispersão
• Uma representação gráfica bastante útil para se estudar a dependência entre variáveis quantitativas é o gráfico de dispersão, mostrados nos próximos slides.
Ogliari – Técnicas estatísticas para predição
Exemplo 1 - Diagramas de Exemplo 1 - Diagramas de dispersão:dispersão:
retração linear (%)
resi
stên
cia
mec
ânic
a (M
pa)
25
30
35
40
45
50
55
60
65
5 6 7 8 9 10 11 12 13 14
Interpretar a correlação entre as duas variáveis.
Ogliari – Técnicas estatísticas para predição
Exemplo 1 - Diagramas de Exemplo 1 - Diagramas de dispersão:dispersão:
retração linear (%)
abso
rção
de
água
(%
)
0
2
4
6
8
10
5 6 7 8 9 10 11 12 13 14
Interpretar a correlação entre as duas variáveis.
Ogliari – Técnicas estatísticas para predição
Exemplo 1 - Diagramas de Exemplo 1 - Diagramas de dispersão:dispersão:
resistência mecânica (Mpa)
abso
rção
de
água
(%
)
0
2
4
6
8
10
25 30 35 40 45 50 55 60 65
Interpretar a correlação entre as duas variáveis.
Ogliari – Técnicas estatísticas para predição
Indivíduo Teste (X) Tempo (Y)
A 45 343
B 52 368
C 61 355
D 70 334
E 74 337
F 76 381
G 80 345
H 90 375
Resultado de um teste (de 0 a 100) sobre conhecimento (X) e tempo gasto (minutos) para aprender a operar uma máquina (Y) para oito indivíduos.
Ogliari – Técnicas estatísticas para predição
330
340
350
360
370
380
390
0 20 40 60 80 100
Resultado do teste
Tem
po
Interpretar a correlação entre as duas variáveis.
Ogliari – Técnicas estatísticas para predição
• X e Y estão positivamente correlacionadas quando elas caminham num mesmo sentido.
• Estão negativamente correlacionadas quando elas caminham em sentidos opostos.
• As maiores correlações positivas e negativas são obtidas somente quando todos os pontos estão bem próximos à uma linha reta.
Ogliari – Técnicas estatísticas para predição
retração linear (%)
resi
stên
cia
mec
ânic
a (M
pa)
25
30
35
40
45
50
55
60
65
5 6 7 8 9 10 11 12 13 14
yx,
Idéia de construção do Coef. de Idéia de construção do Coef. de Correlação de PearsonCorrelação de Pearson
Ogliari – Técnicas estatísticas para predição
Ensaio
X Y Ensaio
X Y
1 8,70 38,42
-0,82 -2,91 10 13,24
60,24
3,72 18,91
2 11,68
46,93
2,16 5,60 11 9,10 40,58
-0,42
-0,75
3 8,30 38,05
-1,22 -3,28 12 8,33 41,07
-1,19
-0,26
4 12,00
47,04
2,48 5,71 13 11,34
41,94
1,82 0,61
5 9,50 50,90
-0,02 9,57 14 7,48 35,53
-2,04
-5,80
6 8,58 34,10
-0,94 -7,23 15 12,68
38,42
3,16 -2,91
7 10,68
48,23
1,16 6,90 16 8,76 45,26
-0,76
3,93
8 6,32 27,74
-3,20 -13,59
17 9,93 40,70
0,41 -0,63
9 8,20 39,20
-1,32 -2,13 18 6,50 29,66
-3,02
-11,67
XX YY XX YY
Ogliari – Técnicas estatísticas para predição
-20,00
-15,00
-10,00
-5,00
0,00
5,00
10,00
15,00
20,00
25,00
-4,00 -3,00 -2,00 -1,00 0,00 1,00 2,00 3,00 4,00 5,00
Retração linear
Re
sis
tên
cia
me
câ
nic
a
Ogliari – Técnicas estatísticas para predição
• Padronização (xi , yi) (xi’, yi’) :
s
x x = x
x
ii
s
y y = y
y
ii
(i = 1, 2, ..., n)
PadronizaçãoPadronização
Ogliari – Técnicas estatísticas para predição
PadronizaçãoPadronização
-2,00
-1,50
-1,00
-0,50
0,00
0,50
1,00
1,50
2,00
2,50
3,00
-2,00 -1,00 0,00 1,00 2,00 3,00
Valores padronizados de retação
Va
lore
s p
ad
ron
iza
do
s d
e
res
istê
nc
ia (0, 0)
Ogliari – Técnicas estatísticas para predição
Idéia de construção do Coef. de Idéia de construção do Coef. de Correlação de PearsonCorrelação de Pearson
s
x x = x
x
ii
s
y y = y
y
ii
(i = 1, 2, ..., n)
Considere os produtos dos valores padronizados:
xi’yi’
Ogliari – Técnicas estatísticas para predição
Sinais dos produtos dos valores Sinais dos produtos dos valores padronizados:padronizados:
Quadrante comxi’yi’ negativos
Quadrante comxi’yi’ positivos
Quadrante comxi’yi’ negativos
Quadrante comxi’yi’ positivos
x’
y’
Ogliari – Técnicas estatísticas para predição
Sinais dos produtos dos valores Sinais dos produtos dos valores padronizados:padronizados:
Quadrante comxi’yi’ negativos Quadrante com
xi’yi’ positivos
Quadrante comxi’yi’ negativos
Quadrante comxi’yi’ positivos
0'' i
ii yx
x’
y’
Ogliari – Técnicas estatísticas para predição
Sinais dos produtos dos valores Sinais dos produtos dos valores padronizados:padronizados:
Quadrante comxi’yi’ negativos
Quadrante comxi’yi’ positivos
Quadrante comxi’yi’ negativos
0'' i
ii yx
x’
y’
Quadrante comxi’yi’ positivos
Ogliari – Técnicas estatísticas para predição
Sinais dos produtos dos valores Sinais dos produtos dos valores padronizados:padronizados:
Quadrante comxi’yi’ negativos
Quadrante comxi’yi’ positivos
Quadrante comxi’yi’ negativos
Quadrante comxi’yi’ positivos
0'' i
ii yx
x’
y’
Ogliari – Técnicas estatísticas para predição
Coeficiente de correlação de Coeficiente de correlação de PearsonPearson
• Definição: é uma medida do grau de correlação entre X e Y e, também, da proximidade dos dados a uma reta.
• Esta medida varia no intervalo de -1 a 1.
Ogliari – Técnicas estatísticas para predição
Idéia de construção do Coef. de Correlação de Idéia de construção do Coef. de Correlação de PearsonPearson
• Padronização (xi, yi) (xi’, yi’) :
s
x x = x
x
ii
s
y y = y
y
ii
(i = 1, 2, ..., n)
11
n
yxr =
n
iii
Coef. de Correlação de Pearson:Coef. de Correlação de Pearson:
Ogliari – Técnicas estatísticas para predição
Valores possíveis de Valores possíveis de rr e interpretação da e interpretação da correlaçãocorrelação
+1
0
-1
Sentido Força
Negativa
Ausência
Forte
Moderada
Fraca
Positiva
Fraca
ModeradaModerada
Forte
Valorde r
Ogliari – Técnicas estatísticas para predição
Exemplo 1. Matriz de correlaçõesExemplo 1. Matriz de correlações
retração linear resistência mecânica
absorção de água
retração linear 1,00 0,75 -0,88
resistência mecânica
0,75 1,00 -0,84
absorção de água
-0,88 -0,84 1,00
Interpretar.
Ogliari – Técnicas estatísticas para predição
• Exercício: calcular o coeficiente de correlação de Pearson para a porcentagem de acertos (Y) e tamanho da cache, em mil bytes, (X), para um determinado tipo de pré-carregamento.
• (Y) 44,45 46,99 50,66 53,21
• (X) 250 300 350 400
Ogliari – Técnicas estatísticas para predição
Outra forma de calcular Outra forma de calcular rr
2222
iiii
iiii
yynxxn
yx.yxnr
• Exercício: calcular o coeficiente de correlação de Pearson para a porcentagem de acertos (Y) e tamanho da cache, em bytes, (X), para um determinado tipo de pré-carregamento usando a expressão acima.
• (Y) 44,45 46,99 50,66 53,21
• (X) 250 300 350 400
Ogliari – Técnicas estatísticas para predição
• É um parâmetro ou característica da população, representada pela letra grega e desconhecido.
Coeficiente de correlação Coeficiente de correlação populacionalpopulacional
POPULAÇÃO
(X,Y)
Ogliari – Técnicas estatísticas para predição
Coeficiente de correlação Coeficiente de correlação populacionalpopulacional
Exemplo: considere uma empresa que vende e conserta microcomputadores. Deseja-se estudar a relação entre o período de tempo do serviço de chamadas, em minutos (X) e o número de componentes eletrônicos no computador que devem ser consertados ou substituídos (Y).
Ogliari – Técnicas estatísticas para predição
Inferência sobre Inferência sobre
• Dada uma amostra aleatória simples (x1, y1), (x2,
y2), ..., (xn, yn) do par de variáveis aleatórias (X, Y), o
coeficiente r pode ser considerado uma estimativa do verdadeiro e desconhecido coeficiente .
• Podemos usar o coeficiente de correlação amostral, r, para fazer várias inferências sobre .
• Uma população que tenha duas variáveis não-correlacionadas, pode produzir uma amostra com coeficiente de correlação diferente de zero, simplesmente devido à seleção dos dados.
Ogliari – Técnicas estatísticas para predição
• Exemplo: considere uma empresa que vende e conserta computadores. Para estudar a relação entre o período de tempo do serviço de chamadas, em minutos (X), e o número de componentes eletrônicos no computador que devem ser consertados ou substituídos, uma amostra de registros foi observada. Os resultados estão apresentados na tabela a seguir:
Teste de significância de Teste de significância de
Ogliari – Técnicas estatísticas para predição
Registro y x 1 23 1 2 29 2 3 49 3 4 64 4 5 74 4 6 87 5 7 96 6 8 97 6 9 109 7
10 119 8 11 149 9 12 145 9 13 154 10 14 166 10
Ogliari – Técnicas estatísticas para predição
Teste de significância de Teste de significância de
• H0: = 0 (as variáveis X e Y são não
correlacionadas)
• H1: 0 (as variáveis X e Y são correlacionadas)
(pode também ser unilateral)
• O cálculo do coeficiente de correlação na amostra selecionada produziu:
• r = 0,994
Ogliari – Técnicas estatísticas para predição
Teste de significância de Teste de significância de
• Estatística do teste
21
2
r
nrT
a qual tem distribuição t de Student com parâmetro n-2 graus de liberdade. Com os dados da amostra, obtemos:
483199401
2149940
2,
,,
ot
a qual tem distribuição t de Student com parâmetro 14-2=12 graus de liberdade.
Ogliari – Técnicas estatísticas para predição
Teste de significância de Teste de significância de • Região crítica
– É um teste bilateral, da distribuição t de Student, obtemos para nível de significância () de 5% e 12 graus de liberdade:
Ogliari – Técnicas estatísticas para predição
• Conclusão: como t0 pertence a região de rejeição,
rejeitamos a hipótese nula (H0), isto é, existe
dependência entre tempo de chamada e número de componentes eletrônicas consertadas ou substituídas.
Teste de significância de Teste de significância de
Ogliari – Técnicas estatísticas para predição
• Hipóteses:
• Estatística do teste
• Região crítica
• Resultado da amostra
• Conclusão
Teste de significância de Teste de significância de
Ogliari – Técnicas estatísticas para predição
• Exercício– Desejamos testar se existe ou não correlação entre o número
de clientes (Y) e os anos de experiência de agentes de seguros (X). Foram sorteados cinco agentes e observamos as duas variáveis em cada agente, cujos resultados foram:
– Agentes A B C D E
– Anos 2 4 5 6 8
– Clientes 48 56 64 60 72
– Teste a hipótese de não haver correlação entre número de clientes e anos de experiência. Utilize nível de significância de 10% (=0,10).
Teste de significância de Teste de significância de
Ogliari – Técnicas estatísticas para predição
Estimação de Estimação de
• Quando nós rejeitamos H0, isto é, que é diferente de zero, é
bastante interessante construir um intervalo de confiança para o coeficiente de correlação populacional ().
• Inicialmente obtemos o intervalo de confiança de 95% para ,
dado por: 3
196195 0
n
ξμCI ξ ,:%,..
onde:
r-1
r1lnξ
2
10
Obs.: é a média da distribuição de uma transformação da estatística r.
Ogliari – Técnicas estatísticas para predição
Estimação de Estimação de
• Para o exemplo da empresa que vende e conserta computadores, o
intervalo de confiança de 95% para é dado por:
87829940
2
10 ,
,
0,994-1
1lnξ
92,287;3,46:
:
:
nξμCI ξ
591008782
314
19618782
3
196195 0
,,
,,
,:%,..
Ver exemplo
Ogliari – Técnicas estatísticas para predição
Estimação de Estimação de
• Finalmente, podemos encontrar os extremos do intervalo de confiança para o coeficiente de correlação populacional .
• Assim de:
99801
1
1
1
1
1
2
14693
9801
1
1
1
2
12872
9386
9386
46932
46932
5744
5744
28722
28722
,
ln,
,
,
,
,
,.
,.
,
,
,.
,.
e
e
e
er
r
re
e
e
er
r-1
r1ln
e = 2,7183
Ogliari – Técnicas estatísticas para predição
Estimação de Estimação de
• Obtemos o intervalo para
998098095 ,;,:%;.. ρCI
Assim, podemos afirmar que o coeficiente de correlação populacional é um número entre 0,98 e 0,998.
Ogliari – Técnicas estatísticas para predição
• Exercício – Concluímos que existe correlação entre o número de
clientes e anos de experiência dos agentes (r = 0,95). Estime o verdadeiro valor do coeficiente de correlação com confiança de 90%.
Estimação de Estimação de
Ogliari – Técnicas estatísticas para predição
Causalidade versos correlação
Pesquisadores freqüentemente são “tentados” a inferir uma relação de causa e efeito entre X e Y quando eles ajustam um modelo de regressão ou realizam uma análise de correlação. Uma associação significativa entre X e Y em ambas as situações não necessariamente implica numa relação de causa e efeito.
Exemplo: (Box, Hunter & Hunter, Statistics for Experimenters, p.8) O gráfico mostra a população de Oldemberg, Alemanha, no fim de cada um dos 7 anos (Y) contra o número de cegonhas (pássaros) naquele ano (X).
Interpretação: existe associação entre X e Y.
Freqüentemente, quando duas v. X e Y parecem estar fortemente associadas, pode ser porque X e Y estão, de fato, associadas com uma terceira variável, W. No exemplo, X e Y aumentam com W = tempo.
Correlação não necessariamente implica em causalidade