76
REGRESSÃO LINEAR

REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

Embed Size (px)

Citation preview

Page 1: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

REGRESSÃO LINEAR

Page 2: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por exemplo, uma correlação fortemente positiva entre as

variáveis X e Y não significa afirmar que variações da variável X provocam variações na variável Y, ou vice-versa.

O coeficiente de correlação sozinho não identifica a relação causa-efeito entre as duas variáveis; entretanto, numa regressão linear a relação causa-efeito deve ser definida no início da análise.

Iniciaremos com a apresentação da relação linear simples entre duas amostras ou variáveis aleatórias, e termina com a apresentação da relação de dependência linear múltipla entre três ou mais amostras ou variáveis aleatórias.

Page 3: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

Na regressão linear simples será deduzida e analisada a reta que melhor explica essa relação, tendo previamente definido a variável independente e a variável dependente. A regressão linear múltipla será apresentada através

de um exemplo resolvido com a ferramenta de análise Regressão.

Todos os dias, a mídia se encarrega de informar resultados de análises e pesquisas do tipo: O valor da empresa depende do lucro futuro, a taxa

de juro depende da inflação. O salário depende da escolaridade do trabalhador etc.

Page 4: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

O objetivo da análise de regressão é encontrar uma função linear que permita: Descrever e compreender a relação entre uma variável

dependente e uma ou mais variáveis independentes. Projetar ou estimar uma variável em função de uma ou mais

variáveis independentes; por exemplo, as vendas para diferentes valores de investimento em propaganda, a demanda em função do preço unitário e do investimento em propaganda etc.

Page 5: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

Exemplo O objetivo do diretor de vendas de uma rede de varejo é

analisar a relação entre o investimento realizado em propaganda e as vendas das lojas da rede, para realizar projeções de vendas de futuros investimentos em propaganda.

A tabela seguinte registra uma amostra representativa extraída dos registros históricos das lojas de tamanho equivalente, com os valores de Propaganda e Vendas em milhões.

Analisar a possibilidade de definir um modelo que represente a relação entre as duas variáveis ou amostras.

Page 6: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

Solução Para analisar a relação entre as duas variáveis foi construído o

gráfico de dispersão das vendas anuais em função do investimento anual em propaganda. Nesse gráfico pode-se ver que, nos últimos dez anos, o aumento de investimento em propaganda gerou aumento das vendas, e vice-versa.

0

100

200

300

400

500

600

0 10 20 30 40 50Propaganda

Ve

nd

as

Page 7: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

O gráfico de dispersão mostra que as vendas e o investimento em propaganda estão correlacionados de forma positiva, com um coeficiente de correlação próximo de +1.

Uma reta como a linha tracejada no gráfico de dispersão acima poderá ser utilizada para realizar projeções das vendas futuras em função do investimento em propaganda. A linha tracejada foi ajustada tentando equilibrar os pontos

acima da reta com os pontos abaixo dela. Essa reta é uma das muitas possíveis retas que poderiam ser

ajustadas.

Page 8: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

Modelo do Ajuste de uma Reta O ajuste de uma reta é um modelo linear que relaciona a

variável dependente y e a variável independente x por meio da equação de uma reta do tipo:

É importante observar que, da mesma forma como a média resume uma variável aleatória, a reta de regressão resume a relação linear entre duas variáveis aleatórias e, conseqüentemente, da forma como a média varia entre amostras do mesmo tamanho extraídas da mesma população, as retas também variarão entre amostras da mesma população.

bxay

Page 9: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

O objetivo deste Exemplo é ajustar uma reta a partir dos valores das amostras retiradas da população, considerando que o investimento em propaganda é a variável independente x, e as vendas anuais, a variável dependente y.

Uma primeira forma de fazer isso é ajustar manualmente essa reta tentando equilibrar os pontos acima e abaixo dessa reta, como foi feito no gráfico deste Exemplo.

Como esse procedimento permite o ajuste de diversas retas, é necessário estabelecer um objetivo de eficiência de ajuste possível de medir, como é mostrado a seguir.

Page 10: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

Uma primeira forma é ajustar uma reta horizontal de valor igual à média dos valores da variável dependente y, que é uma reta de regressão com b=0. Esse critério não necessita de regressão, entretanto, será

uma referência útil para medir o grau de explicação da reta de regressão.

Outra forma é ajustar uma reta que divida os pontos observados de forma que a soma dos desvios seja nula. Entretanto, como há muitas retas que cumprem com essa

condição, esse critério não poderá ser utilizado. Outra forma é ajustar uma reta de forma que minimize a soma

dos quadrados dos desvios, lembrando a definição de variância.

Page 11: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por
Page 12: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

Verifique que se aumentar ou diminuir o valor do intercepto ao redor de 380, mantendo a declividade igual a zero, a soma dos quadrados dos desvios sempre aumentará. Por quê?

Porque o valor de intercepto é a própria média da amostra y, e esse valor é sempre um mínimo.

Page 13: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

O modelo do slide anterior foi preparado para este Exemplo com o objetivo de mostrar o que ocorre com a tentativa de ajuste manual com pouca precisão da reta de regressão.

Clicando nos dois controles giratórios pode-se tentar outros valores de intercepto combinado com valores diferentes de declividade. Por exemplo, fixando um valor menor de declividade, será

possível ajustar o valor de intercepto que minimiza o resultado da célula H16, ou conseguir a soma mínima dos quadrados dos desvios dos dez valores da amostra y com relação à reta de regressão.

Dentre todos esses possíveis valores mínimos deve haver um que seja o menor de todos. O slide seguinte mostra o mínimo encontrado manualmente, intercepto 110, declividade 10 e erro 34.050.

Page 14: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por
Page 15: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

O procedimento manual para encontrar a soma mínima dos quadrados dos desvios dos dez valores da amostra y com relação à reta de regressão é bastante trabalhoso e com resultado aproximado.

É claro que melhorando a escala dos controles giratórios será possível ajustar essa aproximação. Entretanto, sempre haverá um erro, pois nem todos os pares de valores das duas amostras estarão contidos na reta ajustada, eles estarão distribuídos ao redor dessa reta.

Somente se os pares de valores formassem uma reta o erro seria zero. Entretanto, o procedimento manual de ajuste da regressão tem o crédito de visualizar o caminho para estabelecer o critério de ajuste da reta de regressão.

O objetivo é encontrar os coeficientes a e b da reta de regressão que minimizam a soma dos quadrados dos desvios dos valores da amostra y com relação aos correspondentes valores da reta de regressão.

Page 16: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por
Page 17: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

Com a equação obtida com o comando linha de tendência será possível representar o comportamento das vendas em função do investimento em propaganda com um modelo linear e realizar projeções.

Mas qual o critério utilizado pelo comando linha de tendência para obter os coeficientes dessa reta de regressão?

A resposta a essa questão o leitor deve ter deduzido, os coeficientes a e b da reta de regressão minimizam a soma dos quadrados dos desvios dos valores da amostra y com relação aos correspondentes valores da reta de regressão.

Outra questão, quão bem a reta representa o fenômeno amostrado se alguns dos pontos do gráfico de dispersão não estão contidos na reta de regressão?

Page 18: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

Coeficientes de Regressão

Page 19: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

Coeficientes de Regressão

Page 20: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por
Page 21: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por
Page 22: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por
Page 23: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por
Page 24: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por
Page 25: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

Se os n pares de valores das duas amostras formassem uma reta, então a equação da reta ajustada representaria esses n pares de valores.

Entretanto, nem todos os n pares de valores estarão contidos na reta, eles estarão distribuídos ao redor da reta ajustada.

A minimização da soma dos quadrados dos desvios é apenas uma propriedade desejada de ajuste da reta e, portanto, não garante que se tenha a melhor reta ajustada.

Page 26: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

O método de ajuste pelo método dos quadrados mínimos é preferível, pois: Obtém as melhores estimativas, pois elas serão não-

viesadas. Onera os desvios maiores, fato desejável que evita grandes

desvios. Permite realizar testes de significância na equação de

regressão. A reta de regressão passa pelo ponto formado pelos valores

das médias das duas amostras.

Page 27: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

Exemplo

Com os dados das amostras na próxima planilha obter a reta de regressão linear.

Page 28: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por
Page 29: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

Coeficiente b Substituindo os resultados parciais obtidos na planilha do slide

anterior:

Coeficiente a Substituindo os resultados parciais obtidos na planilha do slide

anterior :

Portanto, a equação da reta de regressão procurada é:

7381,9270302.810

800.3270455.112102

b

07,11710

2707381,9800.3

a

xy 74,907,117ˆ

Page 30: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por
Page 31: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por
Page 32: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por
Page 33: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

Projeção Uma das aplicações da regressão linear é projetar valores da

variável dependente para valores definidos da variável independente.

Para projetar valores de deve-se tomar o cuidado de escolher valores de x dentro do intervalo de valores da amostra independente x. De outra maneira, as interpolações dentro do intervalo de x

são permitidas, entretanto, não devem ser realizadas projeções extrapolando o intervalo da amostra x.

y

Page 34: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

As Medidas Estatísticas Embora as expressões dos coeficientes de regressão a e b não

mostrem que estão sendo utilizadas medidas estatísticas das séries de valores de onde foram obtidos, esses conceitos estão presentes nessas expressões.

Se nas expressões de a e b forem realizadas transformações algébricas adequadas, obteremos outra forma de calcular a e b, como mostram as expressões seguintes deduzidas no final do Apêndice 2.

2x

xyb

xbya

Page 35: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

Considerando que:

O coeficiente b poderá ser calculado com a expressão:

Prescindindo dos índices do coeficiente de correlação, as expressões dos coeficientes de regressão com coeficiente de correlação r serão:

yxxyxy r

2x

yxxyrb

x

yrb

xbya

Page 36: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

Como regra geral, recomenda-se lembrar que: O coeficiente b é o resultado de dividir a covariância das

variáveis pela variância da variável independente. De outra maneira, o coeficiente b é o resultado de multiplicar

o coeficiente de correlação das variáveis pelo resultado de dividir o resultado de multiplicar o desvio padrão da variável dependente pelo desvio padrão da variável independente.

O coeficiente a é o resultado de subtrair o produto do coeficiente b pela média da variável independente da média da variável dependente.

Page 37: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

Uma vantagem adicional desse procedimento de cálculo é a possibilidade de calcular as duas possíveis retas de regressão linear com as mesmas medidas estatísticas, permutando apenas as posições das variáveis.

Por exemplo, se y for a variável independente e x a variável dependente, os coeficientes da reta de regressão

serão calculados com as fórmulas:

)(ˆ yfx

y

x

y

xy rb

ybxa

2

Page 38: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

MEDIDAS DE VARIAÇÃO

Nem todos os valores das amostras estão contidos na reta de regressão, e quanto mais afastados estiverem pior, a reta representará a relação entre as amostras.

A reta obtida pelo método dos quadrados mínimos é um resumo útil da tendência entre as variáveis, pois não explica perfeitamente os dados.

Quão útil é a reta de regressão obtida pelo procedimento apresentado? Para responder essa pergunta primeiro será analisada a característica dos desvios.

Page 39: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

Vamos supor que escolhemos como modelo de regressão a reta de regressão horizontal , a equação que representa a média da variável dependente y.

Nesse caso, o coeficiente b da reta de regressão é igual a zero e, conseqüentemente, o coeficiente de correlação também é nulo.

Embora a reta da média pouco explique, ela é um ponto importante de partida para medir variações. Analisando a reta de regressão com os coeficientes a e b, pode-se ver que a maioria dos valores das amostras está dispersa ao redor da reta, como mostra a figura do slide seguinte para um par de valores fora da reta.

yy ˆ

Page 40: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por
Page 41: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

Variação total é o resultado da soma dos quadrados dos desvios dos valores y com relação à média:

Variação explicada é o resultado da soma dos quadrados dos desvios dos valores estimados com relação à média:

Variação não-explicada é o resultado da soma dos quadrados dos desvios de y com relação aos valores projetados:

n

ii yySST

1

2)(

n

ii yySSR

1

2)ˆ(

n

iii yySSE

1

2)ˆ(

Page 42: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

Demonstra-se que:

n

i

n

ii

n

ii yyyyyy

1

2

1

2

1

2 )ˆ()ˆ()(

Page 43: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

Coeficiente de Determinação

O coeficiente de determinação r2 é definido como a relação que mede a proporção da variação total da variável dependente, que é explicada pela variação da variável independente:

Substituindo as expressões matemáticas na expressão anterior temos:

total Variaçãoexplicada Variação

r 2

n

ii

n

ii

yy

yy

r

1

2

1

2

2

)(

)ˆ(

Page 44: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

Coeficiente de Determinação A expressão mostra que o coeficiente de determinação r2

é sempre um número positivo entre zero e um. Da própria fórmula pode-se deduzir que quanto maior for r2

melhor será o poder de explicação da reta de regressão.

Page 45: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

Coeficiente de Determinação O coeficiente de determinação r2, também denominado r-

quadrado, é sempre um número positivo dentro do intervalo (0; 1) e deve ser interpretado como a proporção da variação total da variável dependente y, que é explicada pela variação da variável independente x.

Observe que o coeficiente de correlação mede as variações dos dados da amostra y com relação aos valores projetados da reta, sempre na direção de y.

Page 46: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

Embora na determinação do coeficiente de correlação não seja necessário separar as variáveis entre independente e dependente, há uma relação importante entre correlação e regressão. Uma delas é a declividade da reta de regressão, que é função do coeficiente de correlação.

Demonstra-se também que o coeficiente de determinação é igual ao quadrado do coeficiente de correlação, e vice-versa.

Partindo do coeficiente de correlação r=0,859366 obtido na planilha do Exemplo 15.4, se obtém o valor do coeficiente de determinação r2=0,8593662 que é o mesmo valor já determinado.

Page 47: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

O coeficiente de correlação é mais indicado para medir a força da relação linear entre as variáveis, e o coeficiente de determinação é mais apropriado para medir a explicação da reta de regressão. Dessa maneira, para apreciar o ajuste de uma reta é melhor utilizar o coeficiente de determinação que mede o sucesso da regressão em explicar y.

O coeficiente de correlação também pode ser calculado a partir do coeficiente de determinação. Entretanto, como o coeficiente de determinação é sempre positivo, o sinal de r será o mesmo que o sinal do coeficiente b da reta de regressão.

Page 48: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

Erro Padrão da Estimativa Ao ajustar uma reta, espera-se que ela explique o grupo de valores

amostrados. Embora a reta de regressão tenha sido obtida minimizando a soma

dos quadrados dos desvios, sempre haverá uma variabilidade dos dados ao redor da reta, exceto se os dados fizerem parte da própria reta de regressão.

O desvio padrão dos dados ao redor da reta de regressão é denominado erro padrão da estimativa Se cuja medida é obtida da variância com (n-2) graus de liberdade definida com a fórmula, onde SSE mede a parte não explicada pela regressão:

O conceito do erro padrão da estimativa é equivalente ao do desvio padrão que mede a variabilidade dos valores da amostra ao redor da média aritmética desses valores.

22

)ˆ(1

2

nSSE

n

yy

S

n

iii

e

Page 49: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

O erro padrão da estimativa é também uma medida da qualidade do ajustamento da reta.

Atendidas as premissas da regressão linear, por exemplo, espera-se que aproximadamente 95% dos valores da amostra y se encontrem no intervalo 2Se de seus respectivos valores projetados pela reta de regressão.

Page 50: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

Premissas A amostragem aleatória utilizada para obter a reta de

regressão captura alguns pontos da população. A regressão linear realizada é uma estimativa da relação entre

as variáveis, relação que é desconhecida. Portanto, os coeficientes de regressão a e b são estimativas

pontuais dos correspondentes parâmetros da população e .

O valor e (resíduo) representa a dispersão na população, pois não há um relacionamento perfeito entre as duas variáveis na população. De outra maneira, há outras variáveis não consideradas na

regressão que também influem na relação, pois a regressão foi realizada com apenas duas variáveis do experimento.

exy

bxay

ˆ

ˆ

Page 51: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

Devido à variabilidade amostral, deve-se aceitar que cada amostra aleatória gerará uma equação de regressão diferente. Portanto, o coeficiente a é um estimador de e b é um

estimador de . Se toda a população fosse amostrada, o coeficiente a seria

igual a e b igual a . A dispersão na população significa que há diversos valores de

y para cada valor de x. Portanto, para cada valor de x há uma distribuição de

freqüências de y que o modelo de regressão linear supõe seja uma distribuição normal denominada distribuição condicional, pois depende da condição x.

Todas as distribuições condicionais de y têm o mesmo desvio padrão, denominado desvio padrão condicional.

Page 52: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

As premissas do modelo de regressão linear são: Para cada valor de x há um grupo de valores de y, e todos os

grupos de y têm distribuição normal com o mesmo desvio padrão.

As médias das distribuições normais de y pertencem à reta de regressão.

A média dos desvios ou erros é nula, pois a variância é mínima.

A variância dos desvios é constante e igual à variância da população, pois se supõe que todos os desvios têm a mesma variância.

Os desvios são variáveis aleatórias independentes e têm distribuição normal. Portanto, o coeficiente de correlação entre os desvios tomados dois a dois é nulo, e os desvios e a variável independente x não têm nenhuma correlação.

Page 53: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

Intervalo de Projeção

Qual é a variação do valor projetado y para um determinado x considerando as possíveis amostras da mesma população?

A resposta dependerá do objetivo da projeção: A média de todas as projeções y para um determinado x.

Projeção denominada média y. A projeção de um único valor y para um determinado x.

Projeção denominada específico y.

Page 54: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por
Page 55: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

Operando com o modelo, podemos observar as seguintes características: O ponto com coordenadas iguais às médias das amostras x e y

pertence à reta de regressão. O intervalo de confiança da projeção da Média y é menor do que

da projeção Específico y. A estimativa correspondente à média da amostra x tem o menor

intervalo de todas as estimativas dentro do intervalo de amostragem de x.

Quanto mais afastado de sua média o valor x estiver, maior será o erro de estimativa. Pela forma das curvas do intervalo, as estimativas fora do intervalo de amostragem de x não devem ser realizadas.

Variando o nível de significância na célula C22 será possível verificar o comportamento do intervalo de estimativa.

Page 56: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

FdeA - Regressão

Page 57: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por
Page 58: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

R-quadrado ajustado. O coeficiente de determinação ajustado é uma medida

utilizada em regressão linear múltipla. Partindo da regressão linear simples, com uma única variável

independente, o significado do coeficiente de determinação é a porcentagem de explicação dessa regressão.

Ao adicionar uma ou mais variáveis independentes, demonstra-se que o r2 não deverá diminuir, devendo aumentar em alguns casos. O tenta compensar o aumento natural de explicação provocado pelo aumento do número de variáveis independentes e o tamanho da amostra, sendo calculado com a expressão:

2r

2r

222 11

rknk

rr

705824,073851,011110

173851,02

r

Page 59: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

A figura seguinte mostra a segunda parte.

Page 60: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por
Page 61: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por
Page 62: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por
Page 63: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

A figura seguinte mostra a terceira parte.

Page 64: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

Há casos em que é possível saber antecipadamente que a reta de regressão passa pela origem. Por exemplo, um provedor de Internet cujo faturamento

depende somente da venda de contratos mensais de fornecimento de acessos, se não tiver contratos, não terá faturamento. Outro caso, a reta de regressão entre os custos mensais de envio de produtos vendidos mensalmente pela TV com despesas de envio incluídas também passa pela origem, pois se num mês não for vendido nenhum produto, as despesas de envio serão igual a zero.

A fórmula da declividade b da equação :

n

ii

n

iii

x

yx

b

1

2

1

bxy ˆ

Page 65: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

Completando os resultados da FdeA - Regressão

Page 66: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

Resíduos A análise dos resíduos é um procedimento gráfico que

permite analisar o ajuste da reta de regressão. As medidas de variação que definiram o coeficiente de

determinação e o erro de estimativa partiram do conceito de desvios medidos a partir da média da amostra y dos desvios medidos ao redor da reta de regressão.

Ao desvio do valor projetado com relação ao valor observado é denominado resíduo, como mostra a fórmula:

ii yye ˆ

Page 67: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

Lembrando que uma das premissas do modelo de regressão linear estabelece que a média dos desvios ou erros é nula, pois a variância é mínima, a forma do gráfico dos desvios em função dos valores x da amostra ajudará a verificar o acerto da reta de regressão.

Se os desvios não mantêm nenhum padrão com os valores x, pode-se deduzir que a reta de regressão é uma boa representação dos dados observados, como mostra o gráfico seguinte construído pela ferramenta.

x Plotagem de resíduos

-150

-100

-50

0

50

100

150

0 10 20 30 40 50

x

Resí

du

os

ii yye ˆ

Page 68: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por
Page 69: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

x Plotagem de ajuste de linha

0100200300400500600

0 20 40 60x

y

y

Previsto(a) y

Plotagem de probabilidade normal

0100200300400500600

0 20 40 60 80 100Percentil da amostra

y

Page 70: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

REGRESSÃO LINEAR MÚLTIPLA

O modelo de regressão linear que foi apresentado é o mais simples deles e nem sempre atende à modelagem mais complexa.

Por exemplo, as vendas não dependem somente do investimento em propaganda, pois há uma parte da variação das vendas que não é explicada pela propaganda.

Da mesma maneira, a demanda de um determinado produto pode ser explicada pela combinação do preço unitário e do investimento em propaganda.

Page 71: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

Em geral, a aplicação quantitativa de conceitos econômicos requer a estimação de funções de oferta, demanda, custo etc.

Os modelos lineares com mais de uma variável independente são denominados modelos de regressão linear múltipla.

O desenvolvimento da equação de regressão linear múltipla é similar ao da equação de regressão linear simples incluindo a dependência de duas ou mais variáveis independentes.

Page 72: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

Dispondo de um grupo de amostras do mesmo tamanho, sendo uma variável dependente y e n variáveis independentes xi, o objetivo é determinar os coeficientes da equação da reta:

cujos coeficientes minimizam a soma dos quadrados dos desvios da variável com relação a y.

nnxbxbxbay 2211ˆ

Page 73: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

Exemplo

O analista de marketing de uma rede de varejo acredita que um modelo que relacione a quantidade (y em milhares) de peças de roupa íntima vendidas por trimestre com o preço médio de (x1 em $) e o investimento em propaganda (x2 em $milhares) poderá ser útil para projetar a quantidade de peças do trimestre seguinte e reduzir o custo unitário ocasionado pelo menor risco de encalhe.

Para encontrar essa relação linear foi extraída a amostra de valores trimestrais registrada na tabela seguinte.

Determinar a equação de regressão e analisar quão bem ela se ajusta às necessidades do analista.

Page 74: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por
Page 75: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por
Page 76: REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por

21 44,0046,7145,818ˆ xxy