25
Estatística para Cursos de Estatística para Cursos de Engenharia e Informática Engenharia e Informática Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia São Paulo: Atlas, 2004 Cap. 11 – Complemento: Cap. 11 – Complemento: Regressão Múltipla Regressão Múltipla APOIO: Fundação de Ciência e Tecnologia de Santa Catarina (FUNCITEC) Departamento de Informática e Estatística (INE/CTC/UFSC)

Estatística para Cursos de Engenharia e Informática Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia São Paulo: Atlas, 2004 Cap. 11

Embed Size (px)

Citation preview

Page 1: Estatística para Cursos de Engenharia e Informática Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia São Paulo: Atlas, 2004 Cap. 11

Estatística para Cursos de Engenharia e Estatística para Cursos de Engenharia e InformáticaInformática

Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar BorniaSão Paulo: Atlas, 2004

Cap. 11 – Complemento:Cap. 11 – Complemento:Regressão MúltiplaRegressão Múltipla

APOIO:Fundação de Ciência e Tecnologia de Santa Catarina (FUNCITEC)Departamento de Informática e Estatística (INE/CTC/UFSC)

Page 2: Estatística para Cursos de Engenharia e Informática Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia São Paulo: Atlas, 2004 Cap. 11

Regressão Múltipla• Predizer valores de uma variável dependente

(Y) em função de variáveis independentes (X1, X2, ..., Xk).

• Conhecer o quanto as variações de Xj (j = 1,...,k) podem afetar Y.

Page 3: Estatística para Cursos de Engenharia e Informática Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia São Paulo: Atlas, 2004 Cap. 11

Regressão Múltipla

(X1, X2, ..., Xk) Y

X1 = exercício aeróbicoX2 = calorias ingeridasX3 = circunferência da cintura

Y = perda de peso

Aplicação na educação física:

Page 4: Estatística para Cursos de Engenharia e Informática Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia São Paulo: Atlas, 2004 Cap. 11

Regressão Múltipla

(X1, X2, ..., Xk) Y

X1 = velocidadeX2 = potênciaX3 = agilidade

Y = IMC

Aplicação no Índice de Massa Corporal (IMC) :

Page 5: Estatística para Cursos de Engenharia e Informática Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia São Paulo: Atlas, 2004 Cap. 11

Modelo de Regressão Múltipla

• E(y) = f(X1, X2, ..., Xk) • Linear: E(y) = 0 + 1X1 + 2X2 + ... + kXk

– onde Y, X1, ..., Xk podem representar as variáveis originais ou transformadas.

– Admite-se que Y, X1, ..., Xk são variáveis contínuas.

Page 6: Estatística para Cursos de Engenharia e Informática Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia São Paulo: Atlas, 2004 Cap. 11

Modelo de Regressão Múltipla

E(y) = 0 + 1X1 + 2X2 + ... + kXk

– O coeficiente k representa a variação esperada de Y para

cada unidade de variação em Xk (k = 1, 2, ..., k),

considerando as outras variáveis independentes fixas.

Page 7: Estatística para Cursos de Engenharia e Informática Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia São Paulo: Atlas, 2004 Cap. 11

Modelo de Regressão MúltiplaAMOSTRA: variáveis obs. Y X1 X2 ... Xk

1 y1 x11 x12 ... x1k 2 y2 x21 x22

... x2k ... ... ... ... ... ...n yk xn1 xn2 ... xnk

• E(y) = 0 + 1X1 + 2X2 + ... + kXk

• yi = 0 + 1xi1 + 2xi2 + ... + kxik + ei

termoaleatório(erro)

Page 8: Estatística para Cursos de Engenharia e Informática Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia São Paulo: Atlas, 2004 Cap. 11

Modelo de Regressão MúltiplaSuposições

• yi = 0 + 1xi1 + 2xi2 + ... + kxik + ei

termoaleatório(erro)

• Os erros (ei) são independentes e variam

aleatoriamente segundo uma distribuição

(normal) com média zero e variância constante.

Page 9: Estatística para Cursos de Engenharia e Informática Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia São Paulo: Atlas, 2004 Cap. 11

Regressão Múltipla

Equação de regressãoajustada aos dados:

kk XbXbXbby ...ˆ 22110

Valores preditos: ikkiii xbxbxbby ...ˆ 22110

Resíduos: iii yye ˆˆ

Page 10: Estatística para Cursos de Engenharia e Informática Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia São Paulo: Atlas, 2004 Cap. 11

Medida do Ajuste

Coeficiente de determinação (R2)

R2 = Variação

total

Variaçãoexplicada

0 R2 1

Page 11: Estatística para Cursos de Engenharia e Informática Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia São Paulo: Atlas, 2004 Cap. 11

Regressão Múltipla: teste sobre o modelo

E(y) = 0 + 1X1 + 2X2 + ... + kXk

H0: 1 = 2 = ... = k = 0

ANOVA: através da Análise de variância, testa-se a hipótese H0 dada a seguir

Page 12: Estatística para Cursos de Engenharia e Informática Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia São Paulo: Atlas, 2004 Cap. 11

Regressão Múltipla: teste sobre um particular coeficiente

Sob H0 e considerando as suposições do modelo, t tem distrib. t de student

e

j

sb

t sendo se o erro padrão da estimativa bj

E(y) = 0 + 1X1 + 2X2 + ... + kXk

H0: j = 0

Page 13: Estatística para Cursos de Engenharia e Informática Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia São Paulo: Atlas, 2004 Cap. 11

Ex. de regressão múltipla

A academia de ginástica “Boa Forma” decidiu ilustrar uma abordagem teórica de como os exercícios aeróbicos e a ingestão de calorias podem afetar o peso. Doze dos membros estabelecidos na academia registraram cuidadosamente o número de minutos de exercícios aeróbicos que praticaram no decorrer de uma semana, juntamente com sua ingestão calórica semanal.

Page 14: Estatística para Cursos de Engenharia e Informática Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia São Paulo: Atlas, 2004 Cap. 11

Academia BOA FORMA Ex. aeróbico Cal. Ingerida(x1000) Perda de peso

(X1) (X2) (Y)1 112 11,216 0,272 190 7,552 1,263 171 10,101 0,634 148 9,560 0,635 193 8,338 1,176 235 7,252 1,717 237 7,631 1,498 176 8,097 1,139 185 8,300 1,1710 186 8,121 0,9011 228 7,212 1,4912 100 10,202 0,50

Page 15: Estatística para Cursos de Engenharia e Informática Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia São Paulo: Atlas, 2004 Cap. 11

Regressão múltipla:com variáveis independentes qualitativas• Ex. (Qualitativa.sav)

• Variável dependente: IMC;

• Variáveis independentes: – TR (dobra cutânea triciptal);– SOMA_DC (soma da dobra cutânea);– SEXO (0 = feminino, 1= masculino)

As variáveis qualitativas devem entrar no modelo na forma de variáveis indicadoras (0 - 1)

Page 16: Estatística para Cursos de Engenharia e Informática Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia São Paulo: Atlas, 2004 Cap. 11

Regressão múltipla:com variáveis independentes qualitativas

• O coeficiente de uma variável indicadora indica a variação esperada em Y quando a variável indicadora muda de 0 para 1, mantendo-se as demais variáveis constantes.– Ex: 1 é o incremento esperado no IMC pelo indivíduo ser do sexo

masculino.

E(y) = 0 + 1Sexo + 2TR + 3Soma_dc

Page 17: Estatística para Cursos de Engenharia e Informática Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia São Paulo: Atlas, 2004 Cap. 11

Seleção de variáveis:

-Ex. (seleção.sav) Variável dependente: IMC

-Backward

-Forward

-Stepwise

Page 18: Estatística para Cursos de Engenharia e Informática Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia São Paulo: Atlas, 2004 Cap. 11

MÉTODO FORWARD (passo a frente)MÉTODO FORWARD (passo a frente) Considera-se inicialmente um modelo de regressão linear simples, usando como variável auxiliar (X), aquela de maior valor da estatística t (ou menor valor de p) quando ajustada a variável dependente Y.

As etapas se sucedem quando uma variável por vez pode vir a ser incorporada; Se em uma outra etapa não houver inclusão, o processo é interrompido e as variáveis selecionadas até esta etapa definem o modelo final.

Page 19: Estatística para Cursos de Engenharia e Informática Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia São Paulo: Atlas, 2004 Cap. 11

PROCEDIMENTOPROCEDIMENTOPasso 1) ajustar todos os modelos com m variáveis (no modelo inicial m=1) e escolher a variável candidata com maior valor da estatística t para entrar no modelo, considerando que o valor de p ≤ (caso p> o modelo é interrompido);Passo 2) para cada variável não pertencente ao modelo do passo 1, ajustar um modelo de regressão considerando no modelo as variáveis que entraram no passo 1 e escolher a variável candidata que tiver o maior valor da estatística t, desde que p ≤ (caso p> o modelo é interrompido);

Page 20: Estatística para Cursos de Engenharia e Informática Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia São Paulo: Atlas, 2004 Cap. 11

Passo 3) Fazer o processo sucessivamente, até que todas as variáveis que não estão no modelo apresentem um valor de t, tal que o valor p>.

Page 21: Estatística para Cursos de Engenharia e Informática Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia São Paulo: Atlas, 2004 Cap. 11

MÉTODO BACKWARD (passo atrás)MÉTODO BACKWARD (passo atrás) Neste método incorporam-se inicialmente todas as variáveis em um modelo de regressão linear múltipla; Percorrem-se etapas, nas quais uma variável por vez pode vir a ser eliminada; Se em cada etapa não houver eliminação de alguma variável, o processo é interrompido e as variáveis restante definem o modelo final.

Page 22: Estatística para Cursos de Engenharia e Informática Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia São Paulo: Atlas, 2004 Cap. 11

PROCEDIMENTOPROCEDIMENTO

Passo 1) ajustar o modelo completo de k variáveis;Passo 2) retirar do modelo completo a variável com menor valor da estatística t (ou maior valor de p). Caso todas as variáveis apresentem p ≤ o processo é interrompido e o modelo final é selecionado;Passo 3) ajustar o modelo com k-1 variáveis e voltar ao passo 2.

Page 23: Estatística para Cursos de Engenharia e Informática Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia São Paulo: Atlas, 2004 Cap. 11

MÉTODO STEPWISE (passo a passo)MÉTODO STEPWISE (passo a passo)

Consiste em uma generalização do procedimento Forward; Após cada etapa de incorporação de uma variável, temos uma etapa em que uma das variáveis já selecionadas pode ser descartada; O procedimento chega ao final quando nenhuma variável é incluída ou descartada.

Page 24: Estatística para Cursos de Engenharia e Informática Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia São Paulo: Atlas, 2004 Cap. 11

PROCEDIMENTOPROCEDIMENTOPasso 1) ajustar todos os modelos com m variáveis (no modelo inicial m=1) e escolher a variável candidata com maior valor da estatística t para entrar no modelo, considerando que o valor de p ≤ (caso p> o modelo é interrompido);Passo 2) para cada variável não pertencente ao modelo do passo 1, ajustar um modelo de regressão considerando no modelo as variáveis que entraram no passo 1 e escolher a variável candidata que tiver o maior valor da estatística t, desde que p ≤ (caso p> o modelo é interrompido);

Page 25: Estatística para Cursos de Engenharia e Informática Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia São Paulo: Atlas, 2004 Cap. 11

Passo 3) verificar se o valor da estatística t das variáveis que estão no modelo apresentam p≤. Caso uma ou mais variáveis que já estão no modelo apresente p> , retira-se a variável do modelo que possua o maior valor de p.Passo 4) ajustar o modelo no passo 3, tal que p≤ para todas as variáveis. Voltar o passo 2 e repetir todo o processo até que todas as variáveis que estão fora do modelo tenham p>.