53
Regressão Linear Regressão Linear Simples Simples

Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

Embed Size (px)

Citation preview

Page 1: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

Regressão Linear Regressão Linear SimplesSimples

Page 2: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

ObjetivosObjetivos

►Análise de duas variáveis quantitativas:Análise de duas variáveis quantitativas:

►traçar diagramas de dispersão, para traçar diagramas de dispersão, para avaliar possíveis relações entre as duas avaliar possíveis relações entre as duas variáveis;variáveis;

►calcular o coeficiente de correlação entre calcular o coeficiente de correlação entre as duas variáveis;as duas variáveis;

►obter uma reta que se ajuste aos dados obter uma reta que se ajuste aos dados segundo o critério de mínimos quadrados.segundo o critério de mínimos quadrados.

Page 3: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

DIAGRAMAS DE DISPERSÃO E CORRELAÇÃODIAGRAMAS DE DISPERSÃO E CORRELAÇÃO

►DADOS: Começaremos a aula de hoje DADOS: Começaremos a aula de hoje trabalhando com dados referentes à trabalhando com dados referentes à porcentagem da população porcentagem da população economicamente ativa empregada no economicamente ativa empregada no setor primário e o respectivo índice de setor primário e o respectivo índice de analfabetismo para algumas regiões analfabetismo para algumas regiões metropolitanas brasileiras (exercício metropolitanas brasileiras (exercício 11 do capítulo 4).11 do capítulo 4).

Page 4: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

DADOS:DADOS:REGIÃO SET. PRIM. IND_ANALF.SÃO PAULO 2.0 17.5RIO DE JANEIRO 2.5 18.5BELÉM 2.9 19.5BELO HORIZONTE 3.3 22.2SALVADOR 4.1 26.5PORTO ALEGRE 4.3 16.6RECIFE 7.0 36.6FORTALEZA 13.0 38.4

Fonte: Indicadores Sociais para Áreas Urbanas - IBGE - 1977.

volta

Page 5: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

PROBLEMAPROBLEMA

►Será que existe alguma relação entre Será que existe alguma relação entre as variáveis porcentagem da as variáveis porcentagem da população economicamente ativa no população economicamente ativa no setor primário e índice de setor primário e índice de analfabetismo?analfabetismo?

►Em caso afirmativo, como quantificar Em caso afirmativo, como quantificar esta relação?esta relação?

Page 6: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

Diagrama de dispersãoDiagrama de dispersão

► Vejamos como obter o diagrama de dispersão Vejamos como obter o diagrama de dispersão destes dados usando o destes dados usando o R.R.

► Primeiro, vamos ler os dados:Primeiro, vamos ler os dados:

►dados<-read.table(“m:\\natalie\\aed\\dados<-read.table(“m:\\natalie\\aed\\analfab.txt”)analfab.txt”)

►names(dados)<-c(“RM”,”SP”,”AN”) names(dados)<-c(“RM”,”SP”,”AN”) #comando que fornece nomes para as #comando que fornece nomes para as variáveisvariáveis

Page 7: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

DIAGRAMA DE DISPERSÃODIAGRAMA DE DISPERSÃO

► plot(dados$SP, dados$AN, xlab="Porc. da PEA plot(dados$SP, dados$AN, xlab="Porc. da PEA no Setor Primario", ylab="Indice de no Setor Primario", ylab="Indice de

Analfabetismo", main= "Diagrama de Analfabetismo", main= "Diagrama de Dispersao”,col=“blue”)Dispersao”,col=“blue”)

Page 8: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

DIAGRAMA DE DISPERSÃODIAGRAMA DE DISPERSÃO

Page 9: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

Análise dos dadosAnálise dos dados

► Você diria que há dependência linear Você diria que há dependência linear entre estas variáveis? entre estas variáveis?

► Calcule a correlação entre elas.Calcule a correlação entre elas.► cor(dados$SP,dados$AN)cor(dados$SP,dados$AN)► 0.866561 (0.867)0.866561 (0.867)

n

i

ii

i

n

i

ii

i

n

i

n

ii

n

iiii

n

ii

n

ii

n

iii

n

y

yn

x

x

yxn

yx

yyn

xxn

yyxxn

r

1

2

2

1

2

2

1 11

1

2

1

2

1

)()(

1

)(1

)(1

))((1

Page 10: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

CORRELAÇÃOCORRELAÇÃO

► Há alguma região com comportamento diferente Há alguma região com comportamento diferente das demais? das demais?

► Em caso afirmativo, retire-a da base de dados e Em caso afirmativo, retire-a da base de dados e recalcule a correlação.recalcule a correlação.

dados

Page 11: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para
Page 12: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

Porto AlegrePorto Alegre

► Retirando os dados da região metropolitana de Porto Retirando os dados da região metropolitana de Porto Alegre temos a seguinte correlação: (observe que Porto Alegre temos a seguinte correlação: (observe que Porto Alegre está na linha 6 da base de dados).Alegre está na linha 6 da base de dados).

► dad<-matrix(0,7,2)dad<-matrix(0,7,2)► dad[,1]<-c(dados[1:5,2],dados[7:8,2])dad[,1]<-c(dados[1:5,2],dados[7:8,2])► dad[,2]<-c(dados[1:5,3],dados[7:8,3])dad[,2]<-c(dados[1:5,3],dados[7:8,3])► cor(dad[,1],dad[,2])cor(dad[,1],dad[,2])► 0.9081915 (0.908)0.9081915 (0.908)► porcentagem de variação em relação à porcentagem de variação em relação à

correlação inicial: 4,8% (em valor absoluto)correlação inicial: 4,8% (em valor absoluto)

Page 13: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

A porcentagem de variação foi calculada da seguinte forma:

r

rr i)(100

r é a correlação calculada com base em todas as observações

r(i) é a correlação calculada retirando-se a i-ésima observação.

Page 14: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para
Page 15: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

FortalezaFortaleza

►dad[,1]<-c(dados[1:7,2])dad[,1]<-c(dados[1:7,2])►dad[,2]<-c(dados[1:7,3])dad[,2]<-c(dados[1:7,3])►cor(dad[,1],dad[,2])cor(dad[,1],dad[,2])►0.8581972 (0.858)0.8581972 (0.858)► porcentagem de variação em relação à porcentagem de variação em relação à

correlação inicial: 0,96% (em valor correlação inicial: 0,96% (em valor absoluto)absoluto)

Page 16: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para
Page 17: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

RecifeRecife

►dad[,2]<-c(dados[1:6,3],dados[8,3])dad[,2]<-c(dados[1:6,3],dados[8,3])►dad[,1]<-c(dados[1:6,2],dados[8,2])dad[,1]<-c(dados[1:6,2],dados[8,2])►cor(dad[,1],dad[,2])cor(dad[,1],dad[,2])►0.9158657 (0.916)0.9158657 (0.916)► porcentagem de variação em relação à porcentagem de variação em relação à

correlação inicial: 5,7% (em valor correlação inicial: 5,7% (em valor absoluto)absoluto)

Page 18: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para
Page 19: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

SalvadorSalvador

►dad[,1]<-c(dados[1:4,2],dados[6:8,2])dad[,1]<-c(dados[1:4,2],dados[6:8,2])►dad[,2]<-c(dados[1:4,3],dados[6:8,3])dad[,2]<-c(dados[1:4,3],dados[6:8,3])►cor(dad[,1],dad[,2])cor(dad[,1],dad[,2])►0.8822678 (0.882)0.8822678 (0.882)► porcentagem de variação em relação à porcentagem de variação em relação à

correlação inicial: 1,8% (em valor correlação inicial: 1,8% (em valor absoluto)absoluto)

Page 20: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

ResumoResumo

RM retirada variação %

Porto Alegre 4,8Fortaleza 0,96Salvador 1,8Recife 5,7

Page 21: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

ComentáriosComentários

►As regiões metropolitanas que mais As regiões metropolitanas que mais influenciaram no valor da correlação influenciaram no valor da correlação foram Porto Alegre e Recife.foram Porto Alegre e Recife.

►Porto Alegre tem um comportamento Porto Alegre tem um comportamento diferente, pois sua taxa de diferente, pois sua taxa de analfabetismo é pequena comparada a analfabetismo é pequena comparada a sua PEA e as demais regiões.sua PEA e as demais regiões.

Page 22: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

ComentáriosComentários

Page 23: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

ComentáriosComentários

►Recife, ao contrário, tem uma taxa de Recife, ao contrário, tem uma taxa de analfabetismo alta demais comparada analfabetismo alta demais comparada a sua PEA e as demais regiões.a sua PEA e as demais regiões.

►Fortaleza, apesar de ser um ponto Fortaleza, apesar de ser um ponto afastado dos demais, mantém o afastado dos demais, mantém o padrão da maior parte dos pontos. padrão da maior parte dos pontos.

Page 24: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

ComentáriosComentários

Page 25: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

Gráficos de ilustraçãoGráficos de ilustração

Page 26: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

Gráficos de ilustraçãoGráficos de ilustração

Page 27: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

Gráficos de ilustraçãoGráficos de ilustração

Page 28: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

Cuidados na interpretaçãoCuidados na interpretação

► Uma correlação alta (próxima de 1 ou -1) pode Uma correlação alta (próxima de 1 ou -1) pode indicar forte dependência linear entre as indicar forte dependência linear entre as variáveis. Nesse caso, os pontos no diagrama variáveis. Nesse caso, os pontos no diagrama de dispersão espalham-se em torno de uma de dispersão espalham-se em torno de uma reta.reta.

► Pode haver variáveis cuja correlação é próxima Pode haver variáveis cuja correlação é próxima de 1 (ou -1), mas, na verdade, não são de 1 (ou -1), mas, na verdade, não são diretamente relacionadas. (correlação espúria) diretamente relacionadas. (correlação espúria)

► Uma correlação zero ou próxima de zero indica Uma correlação zero ou próxima de zero indica ausência de linearidade, podendo significar ausência de linearidade, podendo significar ausência de relação entre as variáveis ou outro ausência de relação entre as variáveis ou outro tipo de dependência entre elas.tipo de dependência entre elas.

Page 29: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

ExemploExemplo► dados<-read.table(“m:\\natalie\\aed\\dados<-read.table(“m:\\natalie\\aed\\

relquadratica.txt",header=T)relquadratica.txt",header=T)► cor(dados$x,dados$y)cor(dados$x,dados$y)► 00

Observe que existerelação de dependênciaentre x e y, porém essa.relação NÃO é linear.

Page 30: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

Correlação: Cuidados na Correlação: Cuidados na interpretaçãointerpretação

►Uma correlação amostral entre duas Uma correlação amostral entre duas variáveis próxima de 1 ou -1 pode só variáveis próxima de 1 ou -1 pode só indicar que as variáveis crescem no indicar que as variáveis crescem no mesmo sentido (ou em sentidos mesmo sentido (ou em sentidos contrários), e não que, aumentos contrários), e não que, aumentos sucessivos em uma, acarretarão sucessivos em uma, acarretarão aumentos sucessivos (ou diminuições aumentos sucessivos (ou diminuições sucessivas) na outra.sucessivas) na outra.

Page 31: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

Reta de mínimos quadradosReta de mínimos quadrados

► Quando as variáveis em análise são altamente Quando as variáveis em análise são altamente correlacionadas e de fato pode haver uma relação correlacionadas e de fato pode haver uma relação de causa e efeito entre elas, o problema de fazer de causa e efeito entre elas, o problema de fazer previsão do valor de uma delas dado o valor da previsão do valor de uma delas dado o valor da outra variável pode ser resolvido através de uma outra variável pode ser resolvido através de uma regressão linear simples (ajuste pela reta de regressão linear simples (ajuste pela reta de mínimos quadrados). mínimos quadrados).

► Em geral, uma das variáveis é considerada como Em geral, uma das variáveis é considerada como variável que pode ser controlada de alguma forma variável que pode ser controlada de alguma forma variável explicativa (independente - preditora)variável explicativa (independente - preditora) e a e a outra, sobre a qual deseja-se fazer previsões, é outra, sobre a qual deseja-se fazer previsões, é chamada chamada variável resposta (dependente)variável resposta (dependente). .

Page 32: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

EXEMPLO 2:EXEMPLO 2:

►Fonte:Fonte: http://lib.stat.cmu.edu/DASL/

►Trabalharemos com uma base de Trabalharemos com uma base de dados sobre o hábito de fumar e dados sobre o hábito de fumar e mortalidade por câncer de pulmão.mortalidade por câncer de pulmão.

Page 33: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

Exemplo 2 (cont.)Exemplo 2 (cont.)

►Descrição:Descrição: Os dados sumariam um Os dados sumariam um estudo entre homens distribuídos em estudo entre homens distribuídos em 25 grupos classificados por tipo de 25 grupos classificados por tipo de ocupação na Inglaterra. ocupação na Inglaterra.

►Dois índices são apresentados para Dois índices são apresentados para cada grupo.cada grupo.

Page 34: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

Exemplo 2: variáveisExemplo 2: variáveis

► índice de fumo:índice de fumo: razão do número médio de cigarros razão do número médio de cigarros fumados por dia por homem no particular grupo de fumados por dia por homem no particular grupo de ocupação sobre a média global de cigarros fumados ocupação sobre a média global de cigarros fumados por dia, calculada levando-se em conta todos os por dia, calculada levando-se em conta todos os homens. (média do grupo sobre média global)homens. (média do grupo sobre média global)

► índice de mortalidade:índice de mortalidade: razão da taxa de mortes razão da taxa de mortes causadas por câncer de pulmão entre os homens de causadas por câncer de pulmão entre os homens de um particular grupo de ocupação sobre a taxa global um particular grupo de ocupação sobre a taxa global de mortes por câncer de pulmão, calculada levando-de mortes por câncer de pulmão, calculada levando-se em conta todos os homens. (taxa no grupo sobre se em conta todos os homens. (taxa no grupo sobre taxa global)taxa global)

► Número de observações: Número de observações: 25 25

Page 35: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

Fumo versus câncerFumo versus câncer

►Nomes das variáveis:Nomes das variáveis: ►1.1. Grupo de ocupação: grupoGrupo de ocupação: grupo

►2.2. Índice de fumo: ifumo (100 = base)Índice de fumo: ifumo (100 = base)► ifumo=100: número médio de cigarros por dia ifumo=100: número médio de cigarros por dia

para o grupo é igual ao número médio global de para o grupo é igual ao número médio global de cigarros fumados por dia. cigarros fumados por dia.

► ifumo>100 indica grupo que fuma em média ifumo>100 indica grupo que fuma em média mais que o geral;mais que o geral;

► ifumo<100, grupo que fuma em média menos ifumo<100, grupo que fuma em média menos que o geral.que o geral.

Page 36: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

Fumo versus câncerFumo versus câncer

►3.3. Índice de Mortalidade: imorte (100 = Índice de Mortalidade: imorte (100 = base) base)

► imorte=100, número médio de mortes por câncer imorte=100, número médio de mortes por câncer de pulmão para o grupo é igual ao número médio de pulmão para o grupo é igual ao número médio global de mortes por câncer de pulmão.global de mortes por câncer de pulmão.

► imorte>100 indica grupo com incidência de imorte>100 indica grupo com incidência de mortes por câncer de pulmão maior que o geral; mortes por câncer de pulmão maior que o geral;

► imorte<100, incidência menor que o geral.imorte<100, incidência menor que o geral.

►arquivo: fumo.txt no diretório m:\\natalie\\arquivo: fumo.txt no diretório m:\\natalie\\aedaed

Page 37: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

Fumo versus câncerFumo versus câncer

►Analise estes dados avaliando se há Analise estes dados avaliando se há relação entre estes índices. relação entre estes índices.

►Construa o diagrama de dispersão e Construa o diagrama de dispersão e calcule a correlação.calcule a correlação.

Page 38: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para
Page 39: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

ablineabline

Para inserir as retas tracejadas em x=100 e em y=100 após ter construído o diagrama, use os comandos:

abline(h=100,lty=2)abline(v=100,lty=2)

Page 40: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

Indice de fumo versus mortalidade por Indice de fumo versus mortalidade por câncer de pulmãocâncer de pulmão

A partir do diagrama de dispersão é possível perceber claramente uma correlação positiva entre as duas variáveis em análise.

cor(dados$ifumo,dados$imorte)

[1] 0.7162398

No contexto deste exemplo faz sentido prever o índice de mortalidade porcâncer de pulmão num particular grupo, dado o índice de fumo do grupo.

Page 41: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

Reta de mínimos quadradosReta de mínimos quadrados

►O comando no O comando no RR que calcula os que calcula os coeficientes da reta de mínimos coeficientes da reta de mínimos quadrados é quadrados é lm(...)lm(...), de , de linear model.linear model.

►No caso específico deste exemplo No caso específico deste exemplo podemos pedir podemos pedir

reta<-reta<-lm(dados$imorte~dados$ifumo)lm(dados$imorte~dados$ifumo)

Page 42: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

Reta de mínimos quadradosReta de mínimos quadrados

►Obtém-se Obtém-se Coefficients:Coefficients:(Intercept) dados$ifumo(Intercept) dados$ifumo -2.885 1.088 -2.885 1.088

É o coeficiente linear da reta de mínimos quadrados

É o coeficiente angular da reta de mínimos quadrados

Modelo ajustado:

Indice de morte=-2.885+1.088x(indice de fumo)

Page 43: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

Gráfico da reta obtidaGráfico da reta obtida

Para inserir o gráfico da reta obtida no ajuste de mínimos quadrados nodiagrama de dispersão dos pontos, basta, após obter o diagrama de dispersão,pedir abline(reta$coefficients)

Page 44: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

pointspoints

Para inserir o ponto médio no gráfico use o comando:

points(mean(dados$ifumo),mean(dados$imorte),pch=“*”,col=“red”,cex=2)

Page 45: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

ComentáriosComentários

►Depois de proposto um modelo é Depois de proposto um modelo é fundamental realizar a etapa de fundamental realizar a etapa de validação do modelo em que boa parte validação do modelo em que boa parte consiste numa análise exploratória consiste numa análise exploratória detalhada dos resíduos do modelo. detalhada dos resíduos do modelo.

►Apenas após a etapa de validação e a Apenas após a etapa de validação e a escolha do modelo é que podemos escolha do modelo é que podemos partir para a etapa de previsões.partir para a etapa de previsões.

Page 46: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

Valores ajustadosValores ajustados

►Após ajustar a reta, usando a função Após ajustar a reta, usando a função lmlm várias informações ficam várias informações ficam disponíveis, entre elas os valores disponíveis, entre elas os valores ajustados da variável resposta pela ajustados da variável resposta pela reta obtida.reta obtida.

►reta$fitted (#usando reta<-reta$fitted (#usando reta<-lm(dados$imorte~dados$ifumo lm(dados$imorte~dados$ifumo fornece os valores ajustados)fornece os valores ajustados)

Page 47: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

ResíduosResíduos

Resíduos da reta de mínimos quadrados: reta$residuals

round(reta$residuals,digits=2) 1 2 3 4 5 6 7 8 9 10 11 3.15 -30.11 -1.36 28.66 31.73 -7.04 0.17 14.74 11.18 -20.04 7.92 12 13 14 15 16 17 18 19 20 21 22 18.78 -27.48 -22.92 23.99 22.26 -20.06 4.24 5.82 3.69 -12.73 -11.08 23 24 25 14.13 -19.77 -17.89

O resíduo do modelo é definido pela diferença entreO valor observado da variável resposta e o valorAjustado pelo modelo.

Page 48: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

Análise dos resíduosAnálise dos resíduos

> stem(round(reta$residuals,digits=2))

-2 | 073000 -0 | 83171 0 | 0344681459 2 | 2492

Ramo-e-folhas dos resíduos:

Também avaliamos o histograma, e o gráficodos resíduos versus os valores ajustados.

Page 49: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

Valores ajustadosValores ajustados

Valores ajustados da reta de mínimos quadrados: reta$fitted

round(reta$fitted,digits=2)

80.85 146.11 124.36 99.34 123.27 108.04 117.83 98.26 92.82 108.04 96.08 110.22 113.48 118.92 120.01 116.74 133.06 141.76 122.18 111.31 91.73 96.08 105.87 79.77 68.89

Page 50: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

Critério de mínimos Critério de mínimos quadradosquadrados

►Como são obtidos os coeficientes da Como são obtidos os coeficientes da reta de mínimos quadrados?reta de mínimos quadrados?

Nossos dados podem ser pensados como uma coleção bivariada: ),(),...,,(),,( 2211 nn yxyxyx

Foi considerado adequado o modelo x

para explicar y .

Page 51: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

Critério de mínimos Critério de mínimos quadradosquadrados

► Critério de Mínimos quadrados: Critério de Mínimos quadrados: escolha escolha e e de tal maneira que seja minimizada de tal maneira que seja minimizada a soma de quadrados dos resíduos: a soma de quadrados dos resíduos:

2

11

2 )( i

n

ii

n

ii xyr

Page 52: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

Critério de mínimos Critério de mínimos quadradosquadrados

►Solução:Solução:

2

1

1

)(

))((

n

ii

n

iii

xx

xxyyb

xbya

Coeficiente de inclinação da reta

Coeficiente linear da reta (intercepto)

Page 53: Regressão Linear Simples. Objetivos Análise de duas variáveis quantitativas: Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para

Resumo: lista de novas Resumo: lista de novas funçõesfunções

►cor: cor: calcula a correlação;calcula a correlação;► lm: lm: ajustaajusta a reta de mínimos a reta de mínimos

quadrados;quadrados;►abline: abline: insere uma reta num insere uma reta num plotplot;;►points: points: insere pontos(x,y) num insere pontos(x,y) num plotplot;;►round(x,digits=n);round(x,digits=n); arredonda os arredonda os

valores em valores em xx para n casas decimais. para n casas decimais.