60
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática . Atlas, 2004 Estatística para Cursos de Engenharia e Estatística para Cursos de Engenharia e Informática Informática Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia São Paulo: Atlas, 2004 Cap. 11 Cap. 11 Correlação e Correlação e Regressão Regressão APOIO: Fundação de Apoio à Pesquisa Científica e Tecnológica do Estado de Santa Catarina (FAPESC) Departamento de Informática e Estatística – UFSC (INE/CTC/UFSC)

Cap 11 - Correlação e Regressão

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Estatística para Cursos de Engenharia e Estatística para Cursos de Engenharia e InformáticaInformática

Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia

São Paulo: Atlas, 2004

Cap. 11 Cap. 11 –– Correlação e Correlação e RegressãoRegressão

APOIO:Fundação de Apoio à Pesquisa Científica e Tecnológica do Estado de Santa Catarina (FAPESC)Departamento de Informática e Estatística – UFSC (INE/CTC/UFSC)

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

CorrelaçãoCorrelação

• X e Y estão positivamente correlacionadas quando elas caminham num mesmo sentido;

• Estão negativamente correlacionadas quando elas caminham em sentidos opostos.

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Exemplo 11.1Exemplo 11.1

• Processo de queima de massa cerâmica para pavimento– X1 = retração linear (%),

– X2 = resistência mecânica (MPa) e

– X3 = absorção de água (%).

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Exemplo 11.1 Exemplo 11.1 -- Dados:Dados:

8,9829,666,50185,6339,208,209

5,4840,709,93179,9227,746,328

4,1445,268,76161,8848,2310,687

0,3638,4212,68157,2534,108,586

6,0035,537,48140,6450,909,505

3,3241,9411,34131,1047,0412,004

5,8741,078,33125,5838,058,303

3,6440,589,10112,8346,9311,682

0,5860,2413,24105,5438,428,701

X 3X 2X 1ensaioX 3X 2X1ensaio

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Exemplo 11.1 Exemplo 11.1 -- Diagramas de dispersão:Diagramas de dispersão:

retração linear (%)

resi

stên

cia

mec

ânic

a (M

pa)

25

30

35

40

45

50

55

60

65

5 6 7 8 9 10 11 12 13 14

Interpretar a correlação entre as duas variáveis.

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Exemplo 11.1 Exemplo 11.1 -- Diagramas de dispersão:Diagramas de dispersão:

retração linear (%)

abso

rção

de

água

(%)

0

2

4

6

8

10

5 6 7 8 9 10 11 12 13 14

Interpretar a correlação entre as duas variáveis.

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Exemplo 11.1 Exemplo 11.1 -- Diagramas de dispersão:Diagramas de dispersão:

resistência mecânica (Mpa)

abso

rção

de

água

(%)

0

2

4

6

8

10

25 30 35 40 45 50 55 60 65

Interpretar a correlação entre as duas variáveis.

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Idéia de construção do Idéia de construção do CoefCoef. de Correlação de . de Correlação de PearsonPearson

• Padronização (xi , yi) (xi’, yi’) :

sx x

= xx

ii

−′

sy y = y

y

ii

−′

(i = 1, 2, ..., n)

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Padronização (Ex. 11.1 a):Padronização (Ex. 11.1 a):

retração linear (%)

resi

stên

cia

mec

ânic

a (M

pa)

25

30

35

40

45

50

55

60

65

5 6 7 8 9 10 11 12 13 14

( )yx,

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Padronização (Ex. 11.1 a):Padronização (Ex. 11.1 a):

valores padronizados de resistência

valo

res

padr

oniz

ados

de

retra

ção

-2

-1

0

1

2

-2 -1 0 1 2

(0, 0)

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Idéia de construção do Idéia de construção do CoefCoef. de Correlação de . de Correlação de PearsonPearson

sx x

= xx

ii

−′

sy y = y

y

ii

−′ (i = 1, 2, ..., n)

Considere os produtos dos valores padronizados:

xi’yi’

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Sinais dos produtos dos valores padronizados:Sinais dos produtos dos valores padronizados:

Quadrante comxi’yi’ negativos

Quadrante comxi’yi’ positivos

Quadrante comxi’yi’ negativos

Quadrante comxi’yi’ positivos

x’

y’

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Sinais dos produtos dos valores padronizados:Sinais dos produtos dos valores padronizados:

Quadrante comxi’yi’ negativos Quadrante com

xi’yi’ positivos

Quadrante comxi’yi’ negativos

Quadrante comxi’yi’ positivos

0'' >∑i

ii yx

x’

y’

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Sinais dos produtos dos valores padronizados:Sinais dos produtos dos valores padronizados:

Quadrante comxi’yi’ negativos

Quadrante comxi’yi’ positivos

Quadrante comxi’yi’ negativos

0'' <∑i

ii yx

x’

y’

Quadrante comxi’yi’ positivos

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Sinais dos produtos dos valores padronizados:Sinais dos produtos dos valores padronizados:

Quadrante comxi’yi’ negativos

Quadrante comxi’yi’ positivos

Quadrante comxi’yi’ negativosQuadrante com

xi’yi’ positivos

0'' ≈∑i

ii yx

x’

y’

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Idéia de construção do Idéia de construção do CoefCoef. de Correlação de . de Correlação de PearsonPearson

• Padronização (xi, yi) (xi’, yi’) :

sx x

= xx

ii

−′

sy y = y

y

ii

−′ (i = 1, 2, ..., n)

( )

11

′′∑=

n

yxr =

n

iiiCoefCoef. de Correlação de . de Correlação de PearsonPearson::

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Valores possíveis de Valores possíveis de rr e interpretação da correlaçãoe interpretação da correlação

+1

0

-1

Sentido Força

Negativa

Ausência

Forte

Moderada

Fraca

Positiva

Fraca

ModeradaModerada

Forte

Valorde r

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Exemplo 11.1. Matriz de correlaçõesExemplo 11.1. Matriz de correlações

1,00-0,84-0,88absorção de água

-0,841,000,75resistência mecânica

-0,880,751,00retração linear

absorção de água

resistência mecânica

retração linear

Interpretar.

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Outra forma de calcular Outra forma de calcular rr

( ) ( )( )( ) ( )2222

iiii

iiii

yynxxn

yx.yxnr

∑∑∑∑∑∑∑

−⋅−

−=

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Coeficiente de correlação populacionalCoeficiente de correlação populacional

⎪⎭

⎪⎬⎫

⎪⎩

⎪⎨⎧

⎟⎟⎠

⎞⎜⎜⎝

⎛ −⋅⎟⎟

⎞⎜⎜⎝

⎛ −==

Y

Y

X

X YXEYXCorr

σµ

σµ

ρ ),(

)(XEX =µ

)(YEY =µ

)(XVX =σ

)(YVY =σ

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Inferência sobre Inferência sobre ρρ

• Dada uma amostra aleatória simples (x1, y1), (x2, y2), ..., (xn, yn) do par de variáveis aleatórias (X, Y), o coeficiente r pode ser considerado uma estimativa do verdadeiro e desconhecido coeficiente ρ

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Teste de significância de Teste de significância de ρρ

• H0: ρ = 0 (as variáveis X e Y são não correlacionadas)

• H1: ρ ≠ 0 (as variáveis X e Y são correlacionadas) (pode também ser unilateral)

• Admitindo (X, Y) com distribuição normal bivariada, a Tabela 10 apresenta o valor absoluto mínimo de r para se rejeitar H0.

• Ver continuação do Exemplo 11.1 no livro.

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Regressão linear simplesRegressão linear simples

Preço do imóvel (R$)Área construída do imóvel (m2)

Tempo de resposta do sistema (s)Memória RAM do computador (Gb)

Consumo (R$)Renda (R$)

Octanagem da gasolinaQuantidade de aditivo (%)

Resistência mecânica da cerâmica (MPa)Temperatura do forno (0C)

Variável dependente, Y

Variável independente,X

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Exemplo 11.2:Exemplo 11.2:

• X = % de aditivo

• Y = Índice de octanagem da gasolina

85,06

83,95

83,74

82,13

81,62

80,51

YX

Resultados de n = 6 ensaios experimentais:

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Exemplo 11.2:Exemplo 11.2:

80,0

81,0

82,0

83,0

84,0

85,0

86,0

0 1 2 3 4 5 6 7

quantidade de aditivo (%)

índi

ce d

e oc

tana

gem

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Regressão Regressão -- ModeloModelo

Y =Predito por X, se-gundo uma função Efeito aleatório+

Parâmetros

RegressãoLinear

Simplesyi .xi ei= + +α β

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Modelo de regressão linear simplesModelo de regressão linear simples

• Em termos das variáveis: { } XYE βα +=

• Em termos dos dados: Yi = α + βxi + εi

• Suposições:– os termos de erro (ε1, ε2, ..., εn) são variáveis aleatórias

independentes;

– E{εi} = 0;

– V{εi} = σ2; e

– εi tem distribuição normal (i = 1, 2, ..., n).

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Método dos mínimos quadrados para estimar Método dos mínimos quadrados para estimar αα e e ββ

• Minimizar em relação a α e β :

yi

xi

εi

( ){ }∑∑ +−== 22iii xYS βαε

0=∂∂αS

0=∂∂βS

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Método dos mínimos quadrados para estimar Método dos mínimos quadrados para estimar αα e e ββ

• Resultado das derivadas parciais:

( ) ( ) ( )( )22 ∑∑

∑∑∑−

⋅−

ii

iiii

x xn.

yx yxn.b =

nxby

a = ii ∑∑ −

Estimativa de β:

Estimativa de α :

Reta de regressão construída com os dados:

bxay +=ˆ

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Exemplo numéricoExemplo numérico

i xi yi

1 20 98

2 25 110

3 30 112

4 35 115

5 40 122

Diagrama de dispersão

90

100

110

120

130

15 20 25 30 35 40 45

idade

tem

po d

e re

ação

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

i xi yi xi2 xi yi

1 20 98 400 1960

2 25 110 625 2750

3 30 112 900 3360

4 35 115 1225 4025

5 40 122 1600 4880

∑ 150 557 4750 16975 y = a +b.x^reta de regressão:

( ) ( ) ( )( )22 ∑∑

∑∑∑−

⋅−

ii

iiii

x xn.

yx yxn.b =

nxby

a = ii ∑∑ −

Exemplo numéricoExemplo numérico

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

∑xi ∑yi ∑xi2 ∑xi yi

150 557 4750 16975

b = 5.(16975) − (150).(557)

5.(4750) − (150)2

b = 1,06

( ) ( ) ( )( )22 ∑∑

∑∑∑−

⋅−

ii

iiii

x xn.

yx yxn.b =

Exemplo numéricoExemplo numérico

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

b = 1,06

a = 557 − (1,06).(150)

5= 79,6

y = a +b.x^reta de regressão:

^ = 79,6 + 1,06xy

∑xi ∑yi ∑xi2 ∑xi yi

150 557 4750 16975

Exemplo numéricoExemplo numérico

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Diagrama de dispersão

90

100

110

120

130

15 20 25 30 35 40 45

idade

tem

po d

e re

ação

^ = 79,6 + 1,06xy

x = 20 y = 100,8

x = 40 y = 122,0

Exemplo numéricoExemplo numérico

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Qualidade do ajusteQualidade do ajuste

• Ajustou-se uma equação de regressão entre X e Y. E a qualidade do ajuste?

– análise de variância do modelo

– análise dos resíduos

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Reta de regressão e resíduosReta de regressão e resíduos

• Valores preditos:

• Resíduos:

ii bxay +=ˆ

iii yye ˆ−=

yi

xi

eiiy

bxay +=ˆ

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Análise de variância do modeloAnálise de variância do modelo

yi

xi

eidi bxay +=ˆ

y

yyd ii −=

iii yye ˆ−=

Desvio em relação à média aritmética:

Desvio em relação à reta de regressão(resíduo da regressão):

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Somas de quadradosSomas de quadrados

SQE

variação nãoexplicada

SQR

variação explicadapela equação de

regressão

SQT

variação total

( )∑ − 2yyi = ( )∑ − 2ˆ yyi + ( )∑ − 2ˆ ii yy

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Somas de quadradosSomas de quadrados

( ) ( )ny

yyySQT iii

222 ∑∑∑ −=−=

( ) ∑∑∑∑ −−=−= iiiiii yxbyayyySQE 22ˆ

SQESQTSQR −=

Coeficiente de determinação:SQTSQE

SQTSQR

R −== 12

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Medida da qualidade do ajuste:Medida da qualidade do ajuste:Coeficiente de determinação (R2)

R2 = Variação

total

Variaçãoexplicada

=Σ (yi - y)2

Σ (yi - y)2^

0 ≤ R2 ≤ 1 Matematicamente, R2 é o quadrado do Coef. de Correlaçãode Pearson.

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Exemplo 11.2:Exemplo 11.2:

Quantidade de aditivo (%)

Índi

ce d

e oc

tana

gem

80

81

82

83

84

85

86

0 1 2 3 4 5 6 7

xy )886,0(7,79ˆ +=

%5,97975,008,1473,132 ===R

Interpretar.

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

n – 1Total

n – 2Erro

1Regressão

Razão fQMSQglFonte de variação

Análise de variância do modeloAnálise de variância do modelo

( )∑ −= 2ˆ yySQR i 1SQRQMR =

QMEQMRf =

( )∑ −= 2ˆ ii yySQE

( )∑ −= 2yySQT i

2−= nSQEQME

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Teste de significância do modelo Teste de significância do modelo

• H0: β = 0 e H1: β ≠ 0

• Distribuição de referência para a razão f : distribuição F com gl = 1 no numerador e gl = n – 2 no denominador (Tabela 6).

{ } XYE .βα +=

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Exemplo 11.2:Exemplo 11.2:

14,085Total

0,0880,354Erro

156,2613,72913,731Regressão

Razão fMQSQglFonte de variação

Usar a Tabela 6 e fazer o teste de significância do modelo.

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Distribuição f com Distribuição f com glgl = 1 e 4= 1 e 4

Possíveis valores de f, sob H0

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Valor p na distribuição FValor p na distribuição FDensidade de probabilidade F

possíveis valores da estatística F, sob H 0

dens

idad

e de

pro

babi

lidad

e

0,00

0,25

0,50

0,75

0 1 2 3 4

f

valor p

Amostra

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Abordagem clássica: regra de decisãoAbordagem clássica: regra de decisãoDensidade de probabilidade F

possíveis valores da estatística F, sob H 0

dens

idad

e de

pro

babi

lidad

e

0,00

0,25

0,50

0,75

0 1 2 3 4fc

Nível de significância adotado(p. ex., α = 5%)

(Tabela)

Aceita H0 Rejeita H0f calculado:

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Suposições do modeloSuposições do modelo

– os termos de erro (ε1, ε2, ..., εn) são variáveis aleatórias independentes;

– E{εi} = 0;

– V{εi} = σ2; e

– εi tem distribuição normal (i = 1, 2, ..., n).

• Modelo: Yi = α + βxi + εi

x

E{Y}=α +βx y

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Análise dos resíduos:Análise dos resíduos:um diagnóstico das suposições do modeloum diagnóstico das suposições do modelo

• Valores preditos:

ii bxay +=ˆ

iii yye ˆ−=

• Resíduos:

yi

xi

eiiy

bxay +=ˆ

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Análise dos resíduosAnálise dos resíduos

x

y e

x

Gráfico dos dados:(xi, yi)

Gráfico dos resíduos:(xi, ei)

As suposições do modelo parecem satisfeitas?

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Análise dos resíduosAnálise dos resíduos

As suposições do modelo parecem satisfeitas?O que pode ser feito? (Ver livro)

Gráfico dos dados:(xi, yi)

x

y

Gráfico dos resíduos:(xi, ei)

resíduo

0x

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Análise dos resíduosAnálise dos resíduos

Gráfico dos dados:(xi, yi)

Gráfico dos resíduos:(xi, ei)

As suposições do modelo parecem satisfeitas?O que pode ser feito? (Ver livro)

x

y e

0x

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Análise dos resíduosAnálise dos resíduos

Gráfico dos resíduos: (xi, ei)

As suposições do modelo parecem satisfeitas?O que pode ser feito? (Ver livro)

resíduo

0 x

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Análise dos resíduosAnálise dos resíduos

Gráfico dos dados:(xi, yi)

Gráfico dos resíduos:(xi, ei)

As suposições do modelo parecem satisfeitas?O que pode ser feito? (Ver livro)

x

y e

0x

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

Busca de um modelo adequadoBusca de um modelo adequado

• Suposição de linearidade entre x e y: uso de transformações;

• Suposição de variância constante: transformações para estabilizar a

variância ou uso do método dos mínimos quadrados generalizados;

• Suposição de independência entre as observações: transformações,

uso do método dos mínimos quadrados generalizados ou aplicação de

técnicas de séries temporais;

• Suposição de distrib. normal para os erros: uso de transformações.

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

RegressãoRegressãoModelos LinearizáveisModelos Linearizáveis

y = α + β log(x) y = α + β.log(x)

y

x log(x)

y

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

RegressãoRegressãoModelos LinearizáveisModelos Linearizáveis

y = α.βx log(y) = log(α) + log(β).x

y

x x

log(y)

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

RegressãoRegressãoTransformações para estabilizar a variânciaTransformações para estabilizar a variância

y

x

resíduo

x

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

RegressãoRegressãoTransformações para estabilizar a variância:Transformações para estabilizar a variância:

alguns resultados teóricosalguns resultados teóricos

yy ='y com distrib. de Poisson

( )yy 1sen' −=y com distrib. binomial

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004

RegressãoRegressãoTransformações para estabilizar a variânciaTransformações para estabilizar a variância

Se o desvio padrão de y aumenta proporcionalmente em relação ao valor esperado de y (σy ≈ µy)

)log(' yy =y

x

resíduo

x