27
DSC/CEEI/UFCG Regressão Múltipla Equipe 3 Universidade Federal de Campina Grande Centro de Engenharia Elétrica e Informática Departamento de Sistemas e Computação Delano Oliveira, Izabela Vanessa, Jonathan Lincoln, Natã Venâncio, Savyo Igor, Solon Aguiar

Regresão Múltipla

Embed Size (px)

Citation preview

Page 1: Regresão Múltipla

DSC/CEEI/UFCG

Regressão Múltipla Equipe 3

Universidade Federal de Campina Grande Centro de Engenharia Elétrica e Informática

Departamento de Sistemas e Computação

Delano Oliveira, Izabela Vanessa, Jonathan Lincoln, Natã Venâncio, Savyo Igor, Solon Aguiar

Page 2: Regresão Múltipla

O problema... Os dados descritos no arquivo salinidade.dat referem-se à salinidade da água durante a primavera em Pamlico Sound, North Carolina (Atkinson, 1985, p. 49). A variável resposta corresponde à salinidade quinzenal da água, e as variáveis explicativas são a salinidade da água duas semanas antes, o período (de 0 a 5) e a descarga de rios . Os dados estão na ordem descrita acima.

Faça inicialmente uma análise descritiva. Ajuste um modelo normal linear para explicar salinidade quinzenal da água contra as demais variáveis selecionando as variáveis explicativas que contribuem significativamente para o modelo. Interprete os diferentes parâmetros do modelo. Estime os parâmetros do modelo e apresente os respectivos erros padrões. Avalie a qualidade do ajuste do modelo. Faça uma análise de diagnóstico para verificar se existem afastamentos sérios das suposições feitas para o modelo e se existem observações discrepantes.

2 Equipe 3

Page 3: Regresão Múltipla

O problema... Os dados descritos no arquivo salinidade.dat referem-se à salinidade da água durante a primavera em Pamlico Sound, North Carolina (Atkinson, 1985, p. 49). A variável resposta corresponde à salinidade quinzenal da água, e as variáveis explicativas são a salinidade da água duas semanas antes, o período (de 0 a 5) e a descarga de rios . Os dados estão na ordem descrita acima.

Faça inicialmente uma análise descritiva. Ajuste um modelo normal linear para explicar salinidade quinzenal da água contra as demais variáveis selecionando as variáveis explicativas que contribuem significativamente para o modelo. Interprete os diferentes parâmetros do modelo. Estime os parâmetros do modelo e apresente os respectivos erros padrões. Avalie a qualidade do ajuste do modelo. Faça uma análise de diagnóstico para verificar se existem afastamentos sérios das suposições feitas para o modelo e se existem observações discrepantes.

3 Equipe 3

Page 4: Regresão Múltipla

O problema... Os dados descritos no arquivo salinidade.dat referem-se à salinidade da água durante a primavera em Pamlico Sound, North Carolina (Atkinson, 1985, p. 49). A variável resposta corresponde à salinidade quinzenal da água, e as variáveis explicativas são a salinidade da água duas semanas antes, o período (de 0 a 5) e a descarga de rios . Os dados estão na ordem descrita acima.

Faça inicialmente uma análise descritiva. Ajuste um modelo normal linear para explicar salinidade quinzenal da água contra as demais variáveis selecionando as variáveis explicativas que contribuem significativamente para o modelo. Interprete os diferentes parâmetros do modelo. Estime os parâmetros do modelo e apresente os respectivos erros padrões. Avalie a qualidade do ajuste do modelo. Faça uma análise de diagnóstico para verificar se existem afastamentos sérios das suposições feitas para o modelo e se existem observações discrepantes.

4 Equipe 3

Page 5: Regresão Múltipla

O problema... Os dados descritos no arquivo salinidade.dat referem-se à salinidade da água durante a primavera em Pamlico Sound, North Carolina (Atkinson, 1985, p. 49). A variável resposta corresponde à salinidade quinzenal da água, e as variáveis explicativas são a salinidade da água duas semanas antes, o período (de 0 a 5) e a descarga de rios . Os dados estão na ordem descrita acima.

Faça inicialmente uma análise descritiva. Ajuste um modelo normal linear para explicar salinidade quinzenal da água contra as demais variáveis selecionando as variáveis explicativas que contribuem significativamente para o modelo. Interprete os diferentes parâmetros do modelo. Estime os parâmetros do modelo e apresente os respectivos erros padrões. Avalie a qualidade do ajuste do modelo. Faça uma análise de diagnóstico para verificar se existem afastamentos sérios das suposições feitas para o modelo e se existem observações discrepantes.

5 Equipe 3

Page 6: Regresão Múltipla

O problema... Os dados descritos no arquivo salinidade.dat referem-se à salinidade da água durante a primavera em Pamlico Sound, North Carolina (Atkinson, 1985, p. 49). A variável resposta corresponde à salinidade quinzenal da água, e as variáveis explicativas são a salinidade da água duas semanas antes, o período (de 0 a 5) e a descarga de rios . Os dados estão na ordem descrita acima.

Faça inicialmente uma análise descritiva. Ajuste um modelo normal linear para explicar salinidade quinzenal da água contra as demais variáveis selecionando as variáveis explicativas que contribuem significativamente para o modelo. Interprete os diferentes parâmetros do modelo. Estime os parâmetros do modelo e apresente os respectivos erros padrões. Avalie a qualidade do ajuste do modelo. Faça uma análise de diagnóstico para verificar se existem afastamentos sérios das suposições feitas para o modelo e se existem observações discrepantes.

6 Equipe 3

Page 7: Regresão Múltipla

Análise Descritiva

�  Quatro Variáveis: �  Salinidade quinzenal da água; �  Salinidade da água duas semanas antes; �  Período; �  Descarga dos rios.

Equipe 3 7

Page 8: Regresão Múltipla

Tipos das variáveis �  Salinidade Quinzenal

�  Salinidade duas semanas antes

�  Período

�  Descarga dos rios

Quantitativa contínua

Quantitativa contínua

Quantitativa discreta

Quantitativa contínua

Equipe 3 8

Page 9: Regresão Múltipla

Summary das variáveis analisadas

Equipe 3 9

Maior dispersão Simétrica

Assimétricas à esquerda

Assimétrica à direita

Page 10: Regresão Múltipla

Boxplot

Equipe 3 10 Figura 1 – Boxplot das variáveis analisadas

Pontos atípicos

Assimétrica à esquerda

Assimétrica à esquerda

Simétrica Assimétrica à

direita

Page 11: Regresão Múltipla

Matriz de Correlação Amostral

Equipe 3 11

Tabela 2 – Matriz de correlação amostral das variáveis analisadas

Correlação amostral pequena

Grande correlação amostral

Page 12: Regresão Múltipla

Diagramas de Dispersão

Equipe 3 12

Relação linear crescente e positiva

Page 13: Regresão Múltipla

Diagramas de Dispersão

Equipe 3 13

Pontos dispersos

Não há relação linear

Page 14: Regresão Múltipla

Diagramas de Dispersão

Equipe 3 14

Relação linear decrescente

Page 15: Regresão Múltipla

O problema... Os dados descritos no arquivo salinidade.dat referem-se à salinidade da água durante a primavera em Pamlico Sound, North Carolina (Atkinson, 1985, p. 49). A variável resposta corresponde à salinidade quinzenal da água, e as variáveis explicativas são a salinidade da água duas semanas antes, o período (de 0 a 5) e a descarga de rios . Os dados estão na ordem descrita acima.

Faça inicialmente uma análise descritiva. Ajuste um modelo normal linear para explicar salinidade quinzenal da água contra as demais variáveis selecionando as variáveis explicativas que contribuem significativamente para o modelo. Interprete os diferentes parâmetros do modelo. Estime os parâmetros do modelo e apresente os respectivos erros padrões. Avalie a qualidade do ajuste do modelo. Faça uma análise de diagnóstico para verificar se existem afastamentos sérios das suposições feitas para o modelo e se existem observações discrepantes.

15 Equipe 3

Page 16: Regresão Múltipla

Análise Inferencial

�  Primeiramente, ajustamos o modelo

�  Após realizar o ajuste inicial do modelo (segundo o “R”), os valores dos coeficientes estimados são:

Equipe 3 16

Page 17: Regresão Múltipla

Análise Inferencial

�  Ajustando o modelo pelo critério AIC:

Equipe 3 17

�  Redefinindo o modelo, temos:

iiii xxy ξβββ +++= 22110

Page 18: Regresão Múltipla

Análise Inferencial

�  Estimativa dos parâmetros com o novo modelo:

Equipe 3 18

Rejeitamos

•  Variáveis significativas para o modelo;

•  Modelo ajustado até o momento.

Page 19: Regresão Múltipla

Análise Inferencial �  Estimativa dos Parâmetros

�  Até agora, os parâmetros estimados são:

�  A reta ajustada ficará:

�  Erros padrões:

Equipe 3 19

Variabilidade ao redor da reta ajustada do

modelo

Page 20: Regresão Múltipla

Análise Inferencial

�  Interpretação dos parâmetros �  Observar arquivo .pdf

Equipe 3 20

Page 21: Regresão Múltipla

Análise Inferencial

�  Qualidade do ajuste �  Usando como medida;

�  Depois do comando summary(ajuste).

Equipe 3 21

Modelo bem ajustado pois aproxima-se de 1

Page 22: Regresão Múltipla

Análise Diagnóstico

Equipe 3 22

Influencia desproporcionalmente o

modelo

Influencia desproporcionalmente

as estimativas

Alto resíduo

Variância constante

Page 23: Regresão Múltipla

Análise Diagnóstico

Equipe 3 23

Observação fora da

banda de confiança

Page 24: Regresão Múltipla

Análise Diagnóstico

Equipe 3 24

Page 25: Regresão Múltipla

Análise Confirmatória �  Estimativas dos parâmetros do modelo excluindo a observação #

16

aumentou

diminuiu diminuiu

Diminui o risco de manter uma variável explicativa equivocadamente no modelo

Equipe 3 25

Page 26: Regresão Múltipla

Análise Confirmatória �  O único ponto destacado tem influência

proporcional sobre o modelo;

�  Essa influência não chega ser desastrosa.

P-valores continuam abaixo do nível de significância (10%)

Equipe 3 26

Page 27: Regresão Múltipla

Obrigado!

Equipe 3 27