22
Curso de MINITAB – Universidade Federal de Ouro Preto Análise de Regressão

6 - análise de regressão - minitab

Embed Size (px)

Citation preview

Page 1: 6 - análise de regressão - minitab

Curso de MINITAB – Universidade Federal de Ouro Preto

Análise de Regressão

Page 2: 6 - análise de regressão - minitab

Curso de MINITAB – Universidade Federal de Ouro Preto

1 - Introdução Em diversas áreas de aplicação, freqüentemente há interesse em estudar a relação entre duas variáveis, como:

• Idade e altura das crianças; • Tempo de prática de esportes e ritmo cardíaco; • Tempo de estudo e nota na prova; • Taxa de desemprego e taxa de criminalidade; e • Expectativa de vida e taxa de analfabetismo.

A natureza e o grau de relação entre variáveis podem ser analisados pelas técnicas de Regressão e Correlação. Em linhas gerais, podemos dizer: a análise de regressão ocupa-se do estudo da dependência de uma variável, a variável dependente (ou variável resposta), em relação a uma ou mais variáveis, as variáveis explicativas (ou variáveis independentes), com o objetivo de estimar e/ou prever a média (da população) ou valor médio da variável dependente em termo dos valores conhecidos ou fixos das variáveis explicativas. A análise de correlação, por outro lado, consiste na medição do grau ou intensidade de associação entre duas variáveis. Quando se pode demonstrar que a variação de uma variável está de algum modo associada com a variação da outra, então podemos dizer que as duas variáveis estão correlacionadas. A análise de regressão é uma das técnicas estatísticas mais utilizadas para pesquisar e modelar o relacionamento existente entre duas ou mais variáveis. 2 - Modelo de Regressão Linear Simples (MRLS) Um modelo de regressão linear simples (MRLS) descreve uma relação entre uma variável independente (explicativa ou regressora) X e uma variável dependente (resposta) Y , nos termos seguintes:

ebb ++= XY10

onde b 0e b1

são constantes (parâmetros) desconhecidas e e é o erro aleatório.

A teoria da regressão assenta nas seguintes suposições sobre os erros: 1. Têm média zero e a mesma variância desconhecida. 2. São não correlacionados, ou seja, o valor de um erro não depende de qualquer outro

erro. 3. Os erros tem distribuição normal.

As verificações das suposições supracitadas são feitas através da Análise Residual.

Page 3: 6 - análise de regressão - minitab

Curso de MINITAB – Universidade Federal de Ouro Preto

EXEMPLO 1 Proposta: Avaliar a relação linear entre duas variáveis plotando a reta de regressão. Problema: Percebe-se que com o aumento da temperatura ambiente, o consumo de cerveja também tende a aumentar. Assim sendo, foram coletados dados para entendermos melhor a relação existente entre a temperatura ambiente e o consumo de cerveja. Dados coletados: Os dados foram coletados aleatoriamente em nove localidades com as mesmas características demográficas e sócio-econômicas. Ferramentas: Fitted Line Plot Arquivo de dados: ConsumoXTemperatura.mpj

Variável Descrição

Consumo Variável Resposta:consumo de cerveja em um dia (em 100 litros)

Temperatura Variável Explicativa: temperatura máxima (em ºC) AJUSTANDO UM MODELO LINEAR Desejamos determinar o efeito do aumento da temperatura ambiente no consumo de cerveja. Através da ferramenta Fitted Line Plot construiremos a equação de regressão. FITTED LINE PLOT 1. Abra ConsumoXTemperatura.mpj 2. Selecione Stat > Regression > Fitted Line Plot 3. Complete a caixa de diálogo como mostra a figura:

Page 4: 6 - análise de regressão - minitab

Curso de MINITAB – Universidade Federal de Ouro Preto

4. Clique em OK INTERPRETANDO OS RESULTADOS A equação de regressão é:

Consumo = 217,4 + 4,739 Temperatura Logo, para um acréscimo de 1°C na temperatura máxima há um acréscimo médio de 473,9 litros no consumo de cerveja. O “S” é uma estimativa da variabilidade média sobre a linha de regressão. Para um dado problema, melhor a equação para predizer a resposta será aquela que tiver o “S” mais baixo. O coeficiente R2 (R-Sq) mede a proporção de variabilidade presente nas observações da variável resposta que é explicada pelo uso das variáveis regressoras no modelo. Assim, 92,5% da variação do consumo de cerveja é explicada pela temperatura máxima O R2 ajustado (R-Sq (adj)) é sensível ao número de termos incluídos em um modelo, devendo ser adotado quando analisarmos um modelo múltiplo.

Usaremos os resultados da Análise de Variância (ANOVA) para saber se o MRLS é útil ou não.

Page 5: 6 - análise de regressão - minitab

Curso de MINITAB – Universidade Federal de Ouro Preto

Modelo de Regressão:

ebb ++= XY10

As hipóteses para ANOVA são: H0: b1

= 0

H1: b1≠ 0

Interpretaremos o Valor P da seguinte maneira: Valor P < α ; Rejeita-se H0 Valor P > α ; Não rejeita-se H0 Regression Analysis: Consumo versus Temperatura The regression equation is Consumo = 217,4 + 4,739 Temperatura S = 15,5509 R-Sq = 92,5% R-Sq(adj) = 91,4% Analysis of Variance Source DF SS MS F P Regression 1 20752,1 20752,1 85,81 0,000 Error 7 1692,8 241,8 Total 8 22444,9

CONCLUSÃO Considerando um nível de significância de 5% (α = 0,05) rejeitamos a hipótese nula de que o coeficiente angular da reta de regressão seja igual a zero, ou seja, podemos afirmar que a temperatura máxima apresenta um efeito significativo no consumo de cerveja. CRIANDO OS GRÁFICOS DOS RESÍDUOS O Resíduo de cada observação é a diferença entre o valor observado na amostra e o valor previsto pelo modelo. Para confirmarmos se o modelo de regressão é valido, devemos verificar todas as suposições (abaixo listadas) sobre os erros.

1. Tem média zero e a mesma variância desconhecida. 2. São não correlacionados, ou seja, o valor de um erro não depende de qualquer outro

erro. 3. Os erros têm distribuição normal.

Para isso, faz-se a Análise Residual:

Page 6: 6 - análise de regressão - minitab

Curso de MINITAB – Universidade Federal de Ouro Preto

RESIDUAL PLOTS 1. Selecione Stat > Regression > Fitted Line Plot ou pressione <CTRL + E> 2. Clique em Graphs 3. Complete a caixa de diálogo como mostra a figura a seguir

4. Clique OK em todas as caixas de diálogo

Residual

Per

cent

40200-20-40

99

90

50

10

1

Fitted Value

Res

idua

l

400350300250

20

10

0

-10

-20

Residual

Freq

uenc

y

24120-12-24

2,0

1,5

1,0

0,5

0,0

Observation Order

Res

idua

l

987654321

20

10

0

-10

-20

Normal Probability Plot of the Residuals Residuals Versus the Fitted Values

Histogram of the Residuals Residuals Versus the Order of the Data

Residual Plots for Consumo

Page 7: 6 - análise de regressão - minitab

Curso de MINITAB – Universidade Federal de Ouro Preto

GRÁFICO DE PROBABILIDADE NORMAL Usado para verificar se os resíduos se comportam de acordo com a distribuição Normal. Se os resíduos provêm de uma distribuição Normal, os pontos devem estar ao longo de uma linha reta. Nota: Neste caso o valor P do teste de normalidade dos resíduos é de 0,891. Baseando-se neste gráfico, é razoável não rejeitarmos a hipótese nula de que os resíduos provém de uma distribuição Normal. HISTOGRAMA Caso a amostra seja razoavelmente grande e se concluirmos que os resíduos provêm de uma distribuição Normal, o histograma deverá também indicar esta normalidade. RESÍDUOS VERSUS VALORES AJUSTADOS Usado para verificar não está faltando nenhum termo quadrático no modelo, se a variância é constante ao longo de todos os valores ajustados e se não existe nenhum outlier. Se observarmos a existência de qualquer padrão não aleatório neste gráfico, é sinal que algumas das suposições foram violadas. A tabela abaixo resume padrões típicos:

Padrões Indica que ... Curvolinear Um termo quadrático pode estar faltando Um ponto está longe da linha Há presença de um outlier

RESÍDUOS VERSUS VALORES ORDENADOS Representa a ordem na qual os valores foram coletados e é usado para verificarmos a independência dos resíduos. Se não existir nenhum efeito devido à ordem de coleta dos dados, os resíduos estarão espalhados aleatoriamente em torno do zero. CONSIDERAÇÕES FINAIS A Análise de Regressão Linear Simples nos revela que o consumo de cerveja está associado ao aumento da máxima temperatura ambiente . A equação encontrada mostra que para um acréscimo de 1°C na temperatura máxima há um acréscimo médio de 473,9 litros no consumo de cerveja. Devemos estar alerta durante a verificação das suposições do modelo (Análise Residual).

Page 8: 6 - análise de regressão - minitab

Curso de MINITAB – Universidade Federal de Ouro Preto

3 - Modelo de Regressão Linear Múltipla (MRLM) Em muitas aplicações da análise de regressão envolve situações onde tem-se mais de uma variável explicativa. Esse modelo de regresso recebe o nome de modelo de regressão múltipla. Em geral, a variável dependente ou resposta Y pode estar relacionada com k variáveis explicativas ou independentes. O modelo

ebbbb +++++= kkXXXY ...22110 recebe o nome de regressão linear múltipla com k variáveis explicativas. Os parâmetros , j = 0, ..., k são chamados de coeficientes de regressão. Suposições do modelo de regressão linear múltipla (MRLM)

1. Tem média zero e a mesma variância desconhecida. 2. São não correlacionados, ou seja, o valor de um erro não depende de qualquer

outro erro. 3. Os erros têm distribuição normal. As verificações das suposições supracitadas são feitas através da Análise

Residual. EXEMPLO 2 Proposta: Avaliar a relação linear entre múltiplas variáveis através da Análise de Regressão. Problema: Um engenheiro do departamento de qualidade está tentando identificar a causa do barulho nas máquinas. As seguintes variáveis foram consideradas:

• Ponto de centelhamento da vela • Razão ar-combustível • Temperatura de entrada • Temperatura de exaustão

Dados coletados: Foram coletados dados de 13 máquinas selecionadas aleatoriamente, todas funcionando à gasolina. Ferramentas:

• Matrix Plot • Correlation • Regression

Arquivo de dados: Barulho do Motor.mpj

jb

Page 9: 6 - análise de regressão - minitab

Curso de MINITAB – Universidade Federal de Ouro Preto

Variável Descrição Ponto de centelhamento da vela Variável Causa Razão ar-combustível Variável Causa Temperatura de entrada Variável Causa (°C) Temperatura de exaustão Variável Causa (°C)

Barulho Variável Resposta: Medição do barulho do motor

CRIANDO UM MATRIX PLOT Primeiro utilizaremos a matriz e o coeficiente de correlação para verificarmos se existe uma relação entre a variável resposta e a variável preditora. MATRIX PLOT

1. Abra Barulho do Motor.mpj 2. Selecione Graph > Matrix Plot 3. Selecione Matrix of Plots – Simple, então clique em OK 4. Complete a caixa de diálogo como mostra a figura:

5. Clique em Matrix Options 6. Abaixo Matrix Display, selecione Lower left 7. Clique em OK em todas as caixas de diálogos

Page 10: 6 - análise de regressão - minitab

Curso de MINITAB – Universidade Federal de Ouro Preto

INTERPRETANDO OS RESULTADOS Nota-se que as variáveis Barulho e Ponto de centelhamento da vela parecem ter uma correlação negativa e a variável Barulho parece ter uma correlação positiva com todas as demais variáveis preditoras.

Page 11: 6 - análise de regressão - minitab

Curso de MINITAB – Universidade Federal de Ouro Preto

PRÓXIMO PASSO Utilizar Correlation para avaliar a intensidade das relações lineares.

1. Selecione Stat > Basic Statistics > Correlation 2. Complete a caixa de diálogo como mostra a figura a seguir:

3. Clique em OK INTERPRETANDO OS RESULTADOS Como sugerido na Matriz, existe uma correlação negativa entre as variáveis Barulho e Ponto de centelhamento da vela (r = -0,699). Também observa-se que existe uma correlação positiva entre a variável Barulho e todas as demais variáveis preditoras Correlations: Ponto de cen; Razão ar-com; Temperatura ; Temperatura ; Barulho Ponto de cen Razão ar-com Temperatura Temperatura Razão ar-com -0,580 0,038 Temp. Entrada -0,500 0,521 0,082 0,068 Temp. Exaustão -0,723 0,587 0,291 0,005 0,035 0,335 Barulho -0,699 0,961 0,673 0,682 0,008 0,000 0,012 0,010 Cell Contents: Pearson correlation P-Value

Page 12: 6 - análise de regressão - minitab

Curso de MINITAB – Universidade Federal de Ouro Preto

PRÓXIMO PASSO Utilizar Regression para analisar o modelo de regressão múltipla com todas as variáveis preditoras. AJUSTANDO UM MODELO DE REGRESSÃO LINEAR MÚLTIPLA Regression

1. Selecione Stat > Regression > Regression 2. Complete a caixa de diálogo como mostra a figura a seguir:

3. Clique em OK INTERPRETANDO OS RESULTADOS Usaremos um α de 0,05 em todas as análises. Equação de Regressão: Barulho = 23,8 - 0,296 Ponto de centelhamento da vela + 3,19 Razão ar-combustível + 0,359 Temperatura de entrada + 0,0134 Temperatura de exaustão

Page 13: 6 - análise de regressão - minitab

Curso de MINITAB – Universidade Federal de Ouro Preto

Tabela de Coeficientes Devemos tomar cuidado quando estivermos interpretando os coeficientes de regressão múltipla. O valor P de cada variável indica somente a significância daquela variável somente naquele modelo específico. The regression equation is Barulho = 23,8 - 0,296 Ponto de centelhamento da vela + 3,19 Razão ar-combustível + 0,359 Temperatura de entrada + 0,0134 Temperatura de exaustão Predictor Coef SE Coef T P Constant 23,815 8,137 2,93 0,019 Ponto de centelhamento da vela -0,2965 0,3072 -0,97 0,363 Razão ar-combustível 3,1918 0,2398 13,31 0,000 Temperatura de entrada 0,35870 0,07848 4,57 0,002 Temperatura de exaustão 0,013376 0,005421 2,47 0,039 S = 0,510560 R-Sq = 98,8% R-Sq(adj) = 98,2% Analysis of Variance Source DF SS MS F P Regression 4 170,245 42,561 163,28 0,000 Residual Error 8 2,085 0,261 Total 12 172,331 Source DF Seq SS Ponto de centelhamento da vela 1 84,250 Razão ar-combustível 1 80,029 Temperatura de entrada 1 4,380 Temperatura de exaustão 1 1,587

CUIDADO COM A MULTICOLINEARIDADE Podemos usar a correlação para tentar identificar a fonte potencial da multicolinearidade. Se existir uma multicolinearidade que comprometa demasiadamente o modelo, o MINITAB uma mensagem na Session Window. Uma boa maneira de se escolher a variável preditora que deve ser mantida em um modelo de regressão múltipla com multicolinearidade, é construindo todas as combinações em potencial utilizando a ferramenta comparativa de modelos Best Subsets. No problema em questão, a variável Ponto de centelhamento da vela não é significatica para explicar o modelo (P = 0,363). Contudo, se removermos a variável Temperatura de Exaustão do modelo, o Ponto de centelhamento da vela passa a ser significativa (P = 0,034) ao nível de 5% de significância. Isso ocorre devido à alta correlação existente entre essas variáveis (r = -0,723), ou seja, ambas explicam a mesma parte da variabilidade da variável resposta Barulho.

Page 14: 6 - análise de regressão - minitab

Curso de MINITAB – Universidade Federal de Ouro Preto

Analisando o Best Subsets

1. Selecione Stat > Regression > Best Subsets 2. Complete a janela de acordo com a figura a seguir:

3. Clique em OK INTERPRETANDO OS RESULTADOS Variáveis: A coluna Vars indica o número de variáveis preditoras presentes no modelo correspondente. R2 (R- Sq) e R2 Ajustado (R-Sq (Adj)): em geral, adota-se o modelo com o maior R2. Mallows C-p: Em geral, adota-se o modelo em que o C-p for menor e apresentar o valor mais próximo do número de parâmetros do modelo. Lembrando que é um parâmetro do modelo. Variabilidade: S é uma estimativa da variância média sobre a linha de regressão. Em geral, desejamos que o S seja o menor possível. Best Subsets Regression: Barulho versus Pto cent da ; ar-combustív; ... Response is Barulho

b 0

Page 15: 6 - análise de regressão - minitab

Curso de MINITAB – Universidade Federal de Ouro Preto

P T t T e o a e m r m p c - p e c d n o d e t m e b e d u e x a s n a t t u v í r s e v a t Mallows l e d ã Vars R-Sq R-Sq(adj) C-p S a l a o 1 92,3 91,6 42,0 1,0989 X 1 48,9 44,2 328,9 2,8297 X 2 96,4 95,7 16,9 0,78871 X X 2 95,3 94,4 23,9 0,89735 X X 3 98,6 98,2 3,9 0,50862 X X X 3 97,9 97,2 9,1 0,63879 X X X 4 98,8 98,2 5,0 0,51056 X X X X

Conclusão Baseado nestes critérios, concluímos que o modelo que contêm as variáveis Razão ar-combustível, Temperatura de entrada e Temperatura de exaustão é o melhor. Isso porque o modelo que contêm as quatro variáveis possui uma estimativa para o S levemente maior além de não apresentar nenhum ganho significativo no R2 Ajustado. A NOVA EQUAÇÃO DE REGRESSÃO

1. Selecione Stat > Regression > Regression 2. Complete a caixa de diálogo como mostra a figura a seguir:

Page 16: 6 - análise de regressão - minitab

Curso de MINITAB – Universidade Federal de Ouro Preto

3. Clique em OK

INTERPRETANDO OS RESULTADOS Usaremos um α de 0,05 em todas as análises R2 (R- Sq) e R2 Ajustado (R-Sq (Adj)): O modelo explica 98,2% da variabilidade total da variável resposta. Nota: O R2 nunca irá decrescer quando adicionamos variáveis preditoras a um modelo, mesmo se estas novas variáveis não servirem de fato para explicar o comportamento da variável resposta, não devendo ser interpretado em modelos múltiplos. O R2 ajustado corrige este problema pois é ajustado para o número de termos presente no modelo. ANOVA As hipóteses para ANOVA são: 1. Teste T individual para os parâmetros H0: b j

= 0

H1: b j ≠ 0

Interpretaremos o Valor P da seguinte maneira: Valor P < α ; Rejeita-se H0 Valor P > α ; Não rejeita-se H0

j = 0,1,2,3

Page 17: 6 - análise de regressão - minitab

Curso de MINITAB – Universidade Federal de Ouro Preto

2. Teste F para os parâmetros H0: Todos osb j

são iguais a zero

H1: Pelo menos um b j é diferente de zero

Interpretaremos o Valor P da seguinte maneira: Valor P < α ; Rejeita-se H0 Valor P > α ; Não rejeita-se H0 Neste exemplo, o valor P do teste F é de 0,000, ou seja, rejeita-se a hipótese nula de que todos os coeficientes são iguais a zero. O teste T individual confirma isso. Regression Analysis: Barulho versus ar-combustível; Temp de entrada; ... The regression equation is Barulho = 16,5 + 3,21 ar-combustível + 0,386 Temp de entrada + 0,0166 Temp de exaustão Predictor Coef SE Coef T P Constant 16,488 2,918 5,65 0,000 ar-combustível 3,2148 0,2377 13,52 0,000 Temp de entrada 0,38637 0,07278 5,31 0,000 Temp de exaustão 0,016576 0,004273 3,88 0,004 S = 0,508616 R-Sq = 98,6% R-Sq(adj) = 98,2% Analysis of Variance Source DF SS MS F P Regression 3 170,003 56,668 219,06 0,000 Residual Error 9 2,328 0,259 Total 12 172,331 Source DF Seq SS ar-combustível 1 159,048 Temp de entrada 1 7,062 Temp de exaustão 1 3,892

ANÁLISE DE RESÍDUOS A interpretação da Análise de Resíduos ocorre da mesma forma que na Análise de Regressão Linear Simples.

j = 1,2,3

Page 18: 6 - análise de regressão - minitab

Curso de MINITAB – Universidade Federal de Ouro Preto

CONSIDERAÇÕ

ES FINAIS

A equação

de regressão é Barulho = 16,5 + 3,21 ar-combustível + 0,386 Temp de entrada

+ 0,0166 Temp de exaustão O modelo explica 98,2% da variabilidade total da variável resposta. Devemos estar alerta durante a verificação das suposições do modelo (Análise Residual).

Residual

Per

cent

1,00,50,0-0,5-1,0

99

90

50

10

1

Fitted Value

Res

idua

l

95,092,590,087,585,0

0,8

0,4

0,0

-0,4

-0,8

Residual

Freq

uenc

y

0,60,40,20,0-0,2-0,4-0,6-0,8

3

2

1

0

Observation Order

Res

idua

l

13121110987654321

0,8

0,4

0,0

-0,4

-0,8

Normal Probability Plot of the Residuals Residuals Versus the Fitted Values

Histogram of the Residuals Residuals Versus the Order of the Data

Residual Plots for Barulho

Page 19: 6 - análise de regressão - minitab

Curso de MINITAB – Universidade Federal de Ouro Preto

EXERCÍCIO 1 Um administrador de uma cadeia de supermercados deseja desenvolver um modelo com a finalidade de estimar as vendas médias semanais (em milhares de dólares) de cada supermercado, Para isto, selecionou-se uma amostra aleatória de 20 supermercados entre todos os que formam a cadeia. Ao desenvolver o modelo foi considerado entre outras variáveis explicativas (ou independentes) a variável "o número de clientes por semana”. Os dados são apresentados na tabela abaixo:

Supermercado Nº de Clientes Vendas Semanais 1 907 11,20 2 926 11,05 3 506 6,84 4 741 9,21 5 789 9,42 6 889 10,08 7 874 9,45 8 510 6,73 9 529 7,24 10 420 6,12 11 679 7,63 12 872 9,43 13 607 7,64 14 452 6,92 15 729 8,95 16 794 9,33 17 844 10,23 18 1010 11,77 19 621 7,41 Calcule a equação de regressão, faça a análise residual e interprete os resultados. Arquivo de dados: Supermercado.mpj

Page 20: 6 - análise de regressão - minitab

Curso de MINITAB – Universidade Federal de Ouro Preto

Solução do Exercício

Page 21: 6 - análise de regressão - minitab

Curso de MINITAB – Universidade Federal de Ouro Preto

Nº de Clientes

Ven

das

Sem

anai

s

1000900800700600500400

12

11

10

9

8

7

6

S 0,443029R-Sq 93,4%R-Sq(adj) 93,1%

Fitted Line PlotVendas Semanais = 2,215 + 0,009092 Nº de Clientes

Regression Analysis: Vendas Semanais versus Nº de Clientes The regression equation is Vendas Semanais = 2,215 + 0,009092 Nº de Clientes S = 0,443029 R-Sq = 93,4% R-Sq(adj) = 93,1% Analysis of Variance Source DF SS MS F P Regression 1 47,5729 47,5729 242,38 0,000 Error 17 3,3367 0,1963 Total 18 50,9096

A Equação de Regressão é: Vendas Semanais = 2,215 + 0,009092 Nº de Clientes Isto é, para cada incremento de um cliente, o modelo prevê uma estimação de um aumento nas vendas de 0,009092 mil dólares (ou 9,092 dólares). Portanto, para cada 100 clientes, esperamos que as vendas semanais aumentem, em média $ 909,2 dólares. Como o Valor P é de 0,000, conclui-se ao nível de significância de 5%, que existe uma relação linear significativa entre o número de clientes e as vendas semanais.

Page 22: 6 - análise de regressão - minitab

Curso de MINITAB – Universidade Federal de Ouro Preto

Análise Residual:

Residual

Per

cent

1,00,50,0-0,5-1,0

99

90

50

10

1

Fitted Value

Res

idua

l

12,010,59,07,56,0

0,8

0,4

0,0

-0,4

-0,8

Residual

Freq

uenc

y

0,80,40,0-0,4-0,8

4

3

2

1

0

Observation Order

Res

idua

l

18161412108642

0,8

0,4

0,0

-0,4

-0,8

Normal Probability Plot of the Residuals Residuals Versus the Fitted Values

Histogram of the Residuals Residuals Versus the Order of the Data

Residual Plots for Vendas Semanais