Regresão Múltipla

Preview:

Citation preview

DSC/CEEI/UFCG

Regressão Múltipla Equipe 3

Universidade Federal de Campina Grande Centro de Engenharia Elétrica e Informática

Departamento de Sistemas e Computação

Delano Oliveira, Izabela Vanessa, Jonathan Lincoln, Natã Venâncio, Savyo Igor, Solon Aguiar

O problema... Os dados descritos no arquivo salinidade.dat referem-se à salinidade da água durante a primavera em Pamlico Sound, North Carolina (Atkinson, 1985, p. 49). A variável resposta corresponde à salinidade quinzenal da água, e as variáveis explicativas são a salinidade da água duas semanas antes, o período (de 0 a 5) e a descarga de rios . Os dados estão na ordem descrita acima.

Faça inicialmente uma análise descritiva. Ajuste um modelo normal linear para explicar salinidade quinzenal da água contra as demais variáveis selecionando as variáveis explicativas que contribuem significativamente para o modelo. Interprete os diferentes parâmetros do modelo. Estime os parâmetros do modelo e apresente os respectivos erros padrões. Avalie a qualidade do ajuste do modelo. Faça uma análise de diagnóstico para verificar se existem afastamentos sérios das suposições feitas para o modelo e se existem observações discrepantes.

2 Equipe 3

O problema... Os dados descritos no arquivo salinidade.dat referem-se à salinidade da água durante a primavera em Pamlico Sound, North Carolina (Atkinson, 1985, p. 49). A variável resposta corresponde à salinidade quinzenal da água, e as variáveis explicativas são a salinidade da água duas semanas antes, o período (de 0 a 5) e a descarga de rios . Os dados estão na ordem descrita acima.

Faça inicialmente uma análise descritiva. Ajuste um modelo normal linear para explicar salinidade quinzenal da água contra as demais variáveis selecionando as variáveis explicativas que contribuem significativamente para o modelo. Interprete os diferentes parâmetros do modelo. Estime os parâmetros do modelo e apresente os respectivos erros padrões. Avalie a qualidade do ajuste do modelo. Faça uma análise de diagnóstico para verificar se existem afastamentos sérios das suposições feitas para o modelo e se existem observações discrepantes.

3 Equipe 3

O problema... Os dados descritos no arquivo salinidade.dat referem-se à salinidade da água durante a primavera em Pamlico Sound, North Carolina (Atkinson, 1985, p. 49). A variável resposta corresponde à salinidade quinzenal da água, e as variáveis explicativas são a salinidade da água duas semanas antes, o período (de 0 a 5) e a descarga de rios . Os dados estão na ordem descrita acima.

Faça inicialmente uma análise descritiva. Ajuste um modelo normal linear para explicar salinidade quinzenal da água contra as demais variáveis selecionando as variáveis explicativas que contribuem significativamente para o modelo. Interprete os diferentes parâmetros do modelo. Estime os parâmetros do modelo e apresente os respectivos erros padrões. Avalie a qualidade do ajuste do modelo. Faça uma análise de diagnóstico para verificar se existem afastamentos sérios das suposições feitas para o modelo e se existem observações discrepantes.

4 Equipe 3

O problema... Os dados descritos no arquivo salinidade.dat referem-se à salinidade da água durante a primavera em Pamlico Sound, North Carolina (Atkinson, 1985, p. 49). A variável resposta corresponde à salinidade quinzenal da água, e as variáveis explicativas são a salinidade da água duas semanas antes, o período (de 0 a 5) e a descarga de rios . Os dados estão na ordem descrita acima.

Faça inicialmente uma análise descritiva. Ajuste um modelo normal linear para explicar salinidade quinzenal da água contra as demais variáveis selecionando as variáveis explicativas que contribuem significativamente para o modelo. Interprete os diferentes parâmetros do modelo. Estime os parâmetros do modelo e apresente os respectivos erros padrões. Avalie a qualidade do ajuste do modelo. Faça uma análise de diagnóstico para verificar se existem afastamentos sérios das suposições feitas para o modelo e se existem observações discrepantes.

5 Equipe 3

O problema... Os dados descritos no arquivo salinidade.dat referem-se à salinidade da água durante a primavera em Pamlico Sound, North Carolina (Atkinson, 1985, p. 49). A variável resposta corresponde à salinidade quinzenal da água, e as variáveis explicativas são a salinidade da água duas semanas antes, o período (de 0 a 5) e a descarga de rios . Os dados estão na ordem descrita acima.

Faça inicialmente uma análise descritiva. Ajuste um modelo normal linear para explicar salinidade quinzenal da água contra as demais variáveis selecionando as variáveis explicativas que contribuem significativamente para o modelo. Interprete os diferentes parâmetros do modelo. Estime os parâmetros do modelo e apresente os respectivos erros padrões. Avalie a qualidade do ajuste do modelo. Faça uma análise de diagnóstico para verificar se existem afastamentos sérios das suposições feitas para o modelo e se existem observações discrepantes.

6 Equipe 3

Análise Descritiva

�  Quatro Variáveis: �  Salinidade quinzenal da água; �  Salinidade da água duas semanas antes; �  Período; �  Descarga dos rios.

Equipe 3 7

Tipos das variáveis �  Salinidade Quinzenal

�  Salinidade duas semanas antes

�  Período

�  Descarga dos rios

Quantitativa contínua

Quantitativa contínua

Quantitativa discreta

Quantitativa contínua

Equipe 3 8

Summary das variáveis analisadas

Equipe 3 9

Maior dispersão Simétrica

Assimétricas à esquerda

Assimétrica à direita

Boxplot

Equipe 3 10 Figura 1 – Boxplot das variáveis analisadas

Pontos atípicos

Assimétrica à esquerda

Assimétrica à esquerda

Simétrica Assimétrica à

direita

Matriz de Correlação Amostral

Equipe 3 11

Tabela 2 – Matriz de correlação amostral das variáveis analisadas

Correlação amostral pequena

Grande correlação amostral

Diagramas de Dispersão

Equipe 3 12

Relação linear crescente e positiva

Diagramas de Dispersão

Equipe 3 13

Pontos dispersos

Não há relação linear

Diagramas de Dispersão

Equipe 3 14

Relação linear decrescente

O problema... Os dados descritos no arquivo salinidade.dat referem-se à salinidade da água durante a primavera em Pamlico Sound, North Carolina (Atkinson, 1985, p. 49). A variável resposta corresponde à salinidade quinzenal da água, e as variáveis explicativas são a salinidade da água duas semanas antes, o período (de 0 a 5) e a descarga de rios . Os dados estão na ordem descrita acima.

Faça inicialmente uma análise descritiva. Ajuste um modelo normal linear para explicar salinidade quinzenal da água contra as demais variáveis selecionando as variáveis explicativas que contribuem significativamente para o modelo. Interprete os diferentes parâmetros do modelo. Estime os parâmetros do modelo e apresente os respectivos erros padrões. Avalie a qualidade do ajuste do modelo. Faça uma análise de diagnóstico para verificar se existem afastamentos sérios das suposições feitas para o modelo e se existem observações discrepantes.

15 Equipe 3

Análise Inferencial

�  Primeiramente, ajustamos o modelo

�  Após realizar o ajuste inicial do modelo (segundo o “R”), os valores dos coeficientes estimados são:

Equipe 3 16

Análise Inferencial

�  Ajustando o modelo pelo critério AIC:

Equipe 3 17

�  Redefinindo o modelo, temos:

iiii xxy ξβββ +++= 22110

Análise Inferencial

�  Estimativa dos parâmetros com o novo modelo:

Equipe 3 18

Rejeitamos

•  Variáveis significativas para o modelo;

•  Modelo ajustado até o momento.

Análise Inferencial �  Estimativa dos Parâmetros

�  Até agora, os parâmetros estimados são:

�  A reta ajustada ficará:

�  Erros padrões:

Equipe 3 19

Variabilidade ao redor da reta ajustada do

modelo

Análise Inferencial

�  Interpretação dos parâmetros �  Observar arquivo .pdf

Equipe 3 20

Análise Inferencial

�  Qualidade do ajuste �  Usando como medida;

�  Depois do comando summary(ajuste).

Equipe 3 21

Modelo bem ajustado pois aproxima-se de 1

Análise Diagnóstico

Equipe 3 22

Influencia desproporcionalmente o

modelo

Influencia desproporcionalmente

as estimativas

Alto resíduo

Variância constante

Análise Diagnóstico

Equipe 3 23

Observação fora da

banda de confiança

Análise Diagnóstico

Equipe 3 24

Análise Confirmatória �  Estimativas dos parâmetros do modelo excluindo a observação #

16

aumentou

diminuiu diminuiu

Diminui o risco de manter uma variável explicativa equivocadamente no modelo

Equipe 3 25

Análise Confirmatória �  O único ponto destacado tem influência

proporcional sobre o modelo;

�  Essa influência não chega ser desastrosa.

P-valores continuam abaixo do nível de significância (10%)

Equipe 3 26

Obrigado!

Equipe 3 27