Aula Parte11 Regressao Linear

Embed Size (px)

Citation preview

REGRESSO LINEAR

O coeficiente de correlao no mede a relao causa-efeito entre duas variveis, apesar de que essa relao possa estar presente. Por exemplo, uma correlao fortemente positiva entre as variveis X e Y no significa afirmar que variaes da varivel X provocam variaes na varivel Y, ou vice-versa. O coeficiente de correlao sozinho no identifica a relao causaefeito entre as duas variveis; entretanto, numa regresso linear a relao causa-efeito deve ser definida no incio da anlise. Iniciaremos com a apresentao da relao linear simples entre duas amostras ou variveis aleatrias, e termina com a apresentao da relao de dependncia linear mltipla entre trs ou mais amostras ou variveis aleatrias.

Na regresso linear simples ser deduzida e analisada a reta que melhor explica essa relao, tendo previamente definido a varivel independente e a varivel dependente.

A regresso linear mltipla ser apresentada atravs de um exemplo resolvido com a ferramenta de anlise Regresso. O valor da empresa depende do lucro futuro, a taxa de juro depende da inflao. O salrio depende da escolaridade do trabalhador etc.

Todos os dias, a mdia se encarrega de informar resultados de anlises e pesquisas do tipo:

O objetivo da anlise de regresso encontrar uma funo linear que permita: Descrever e compreender a relao entre uma varivel dependente e uma ou mais variveis independentes. Projetar ou estimar uma varivel em funo de uma ou mais variveis independentes; por exemplo, as vendas para diferentes valores de investimento em propaganda, a demanda em funo do preo unitrio e do investimento em propaganda etc.

Exemplo

O objetivo do diretor de vendas de uma rede de varejo analisar a relao entre o investimento realizado em propaganda e as vendas das lojas da rede, para realizar projees de vendas de futuros investimentos em propaganda. A tabela seguinte registra uma amostra representativa extrada dos registros histricos das lojas de tamanho equivalente, com os valores de Propaganda e Vendas em milhes. Analisar a possibilidade de definir um modelo que represente a relao entre as duas variveis ou amostras.

Soluo Para analisar a relao entre as duas variveis foi construdo o grfico de disperso das vendas anuais em funo do investimento anual em propaganda. Nesse grfico pode-se ver que, nos ltimos dez anos, o aumento de investimento em propaganda gerou aumento das vendas, e vice-versa.

Vendas

600 500 400 300 200 100 0 0 10 20 30 Propaganda 40 50

O grfico de disperso mostra que as vendas e o investimento em propaganda esto correlacionados de forma positiva, com um coeficiente de correlao prximo de + . Uma reta como a linha tracejada no grfico de disperso acima poder ser utilizada para realizar projees das vendas futuras em funo do investimento em propaganda. A linha tracejada foi ajustada tentando equilibrar os pontos acima da reta com os pontos abaixo dela. Essa reta uma das muitas possveis retas que poderiam ser ajustadas.

Modelo do Ajuste de uma Reta

O ajuste de uma reta um modelo linear que relaciona a varivel dependente y e a varivel independente x por meio da equao de uma reta do tipo:

y ! a bx

importante observar que, da mesma forma como a mdia resume uma varivel aleatria, a reta de regresso resume a relao linear entre duas variveis aleatrias e, conseqentemente, da forma como a mdia varia entre amostras do mesmo tamanho extradas da mesma populao, as retas tambm variaro entre amostras da mesma populao.

O objetivo deste Exemplo ajustar uma reta a partir dos valores das amostras retiradas da populao, considerando que o investimento em propaganda a varivel independente x, e as vendas anuais, a varivel dependente y. Uma primeira forma de fazer isso ajustar manualmente essa reta tentando equilibrar os pontos acima e abaixo dessa reta, como foi feito no grfico deste Exemplo. Como esse procedimento permite o ajuste de diversas retas, necessrio estabelecer um objetivo de eficincia de ajuste possvel de medir, como mostrado a seguir.

Uma primeira forma ajustar uma reta horizontal de valor igual mdia dos valores da varivel dependente y, que uma reta de regresso com b= . Esse critrio no necessita de regresso, entretanto, ser uma referncia til para medir o grau de explicao da reta de regresso. Outra forma ajustar uma reta que divida os pontos observados de forma que a soma dos desvios seja nula. Entretanto, como h muitas retas que cumprem com essa condio, esse critrio no poder ser utilizado. Outra forma ajustar uma reta de forma que minimize a soma dos quadrados dos desvios, lembrando a definio de varincia.

Verifique que se aumentar ou diminuir o valor do intercepto ao redor de 8 , mantendo a declividade igual a zero, a soma dos quadrados dos desvios sempre aumentar. Por qu? Porque o valor de intercepto a prpria mdia da amostra y, e esse valor sempre um mnimo.

O modelo do slide anterior foi preparado para este Exemplo com o objetivo de mostrar o que ocorre com a tentativa de ajuste manual com pouca preciso da reta de regresso. Clicando nos dois controles giratrios pode-se tentar outros valores de intercepto combinado com valores diferentes de declividade. Por exemplo, fixando um valor menor de declividade, ser possvel ajustar o valor de intercepto que minimiza o resultado da clula H , ou conseguir a soma mnima dos quadrados dos desvios dos dez valores da amostra y com relao reta de regresso. Dentre todos esses possveis valores mnimos deve haver um que seja o menor de todos. O slide seguinte mostra o mnimo encontrado manualmente, intercepto , declividade e erro . .

O procedimento manual para encontrar a soma mnima dos quadrados dos desvios dos dez valores da amostra y com relao reta de regresso bastante trabalhoso e com resultado aproximado. claro que melhorando a escala dos controles giratrios ser possvel ajustar essa aproximao. Entretanto, sempre haver um erro, pois nem todos os pares de valores das duas amostras estaro contidos na reta ajustada, eles estaro distribudos ao redor dessa reta. Somente se os pares de valores formassem uma reta o erro seria zero. Entretanto, o procedimento manual de ajuste da regresso tem o crdito de visualizar o caminho para estabelecer o critrio de ajuste da reta de regresso. O objetivo encontrar os coeficientes a e b da reta de regresso que minimizam a soma dos quadrados dos desvios dos valores da amostra y com relao aos correspondentes valores da reta de regresso.

Com a equao obtida com o comando linha de tendncia ser possvel representar o comportamento das vendas em funo do investimento em propaganda com um modelo linear e realizar projees. Mas qual o critrio utilizado pelo comando linha de tendncia para obter os coeficientes dessa reta de regresso? A resposta a essa questo o leitor deve ter deduzido, os coeficientes a e b da reta de regresso minimizam a soma dos quadrados dos desvios dos valores da amostra y com relao aos correspondentes valores da reta de regresso. Outra questo, quo bem a reta representa o fenmeno amostrado se alguns dos pontos do grfico de disperso no esto contidos na reta de regresso?

Coeficientes de Regresso

Coeficientes de Regresso

Se os n pares de valores das duas amostras formassem uma reta, ento a equao da reta ajustada representaria esses n pares de valores. Entretanto, nem todos os n pares de valores estaro contidos na reta, eles estaro distribudos ao redor da reta ajustada. A minimizao da soma dos quadrados dos desvios apenas uma propriedade desejada de ajuste da reta e, portanto, no garante que se tenha a melhor reta ajustada.

O mtodo de ajuste pelo mtodo dos quadrados mnimos prefervel, pois: Obtm as melhores estimativas, pois elas sero noviesadas. Onera os desvios maiores, fato desejvel que evita grandes desvios. Permite realizar testes de significncia na equao de regresso. A reta de regresso passa pelo ponto formado pelos valores das mdias das duas amostras.

Exemplo

Com os dados das amostras na prxima planilha obter a reta de regresso linear.

Coeficiente b Substituindo os resultados parciais obtidos na planilha do slide anterior: 10 v 112 . 455 270 v 3 . 800 b! ! 9,7381 2 10 v 8 . 302 270 Coeficiente a Substituindo os resultados parciais obtidos na planilha do slide anterior :a!

3 . 800 9, 7381 v 270 ! 117 ,07 10

Portanto, a equao da reta de regresso procurada :

y ! 117 ,07 9, 74 x

Projeo

Uma das aplicaes da regresso linear projetar valores da varivel dependente para valores definidos da varivel independente. Para projetar valores de y deve-se tomar o cuidado de escolher valores de x dentro do intervalo de valores da amostra independente x. De outra maneira, as interpolaes dentro do intervalo de x so permitidas, entretanto, no devem ser realizadas projees extrapolando o intervalo da amostra x.

As Medidas Estatsticas

Embora as expresses dos coeficientes de regresso a e b no mostrem que esto sendo utilizadas medidas estatsticas das sries de valores de onde foram obtidos, esses conceitos esto presentes nessas expresses. Se nas expresses de a e b forem realizadas transformaes algbricas adequadas, obteremos outra forma de calcular a e b, como mostram as expresses seguintes deduzidas no final do Apndice .a ! y bx W xy b ! 2 Wx

Considerando que:

W xy ! r xy W x W y

O coeficiente b poder ser calculado com a expresso:b! r xy W x W yW2 x

Prescindindo dos ndices do coeficiente de correlao, as expresses dos coeficientes de regresso com coeficiente de correlao r sero:a ! y bx Wy b !r W x

Como regra geral, recomenda-se lembrar que: O coeficiente b o resultado de dividir a covarincia das variveis pela varincia da varivel independente. De outra maneira, o coeficiente b o resultado de multiplicar o coeficiente de correlao das variveis pelo resultado de dividir o resultado de multiplicar o desvio padro da varivel dependente pelo desvio padro da varivel independente. O coeficiente a o resultado de subtrair o produto do coeficiente b pela mdia da varivel independente da mdia da varivel dependente.

Uma vantagem adicional desse procedimento de clculo a possibilidade de calcular as duas possveis retas de regresso linear com as mesmas medidas estatsticas, permutando apenas as posies das variveis.

x ! f (y)

Por exemplo, se y for a varivel independente e x a varivel dependente, os coeficientes da reta de regresso sero calculados com as frmulas:a ! x by b ! Wxy !r Wx W2 Wy y

MEDIDAS DE VARIAO

Nem todos os valores das amostras esto contidos na reta de regresso, e quanto mais afastados estiverem pior, a reta representar a relao entre as amostras. A reta obtida pelo mtodo dos quadrados mnimos um resumo til da tendncia entre as variveis, pois no explica perfeitamente os dados. Quo til a reta de regresso obtida pelo procedimento apresentado? Para responder essa pergunta primeiro ser analisada a caracterstica dos desvios.

Vamos supor que escolhemos como modelo de regresso a reta de regresso horizontal y ! y , a equao que representa a mdia da varivel dependente y. Nesse caso, o coeficiente b da reta de regresso igual a zero e, conseqentemente, o coeficiente de correlao tambm nulo. Embora a reta da mdia pouco explique, ela um ponto importante de partida para medir variaes. Analisando a reta de regresso com os coeficientes a e b, pode-se ver que a maioria dos valores das amostras est dispersa ao redor da reta, como mostra a figura do slide seguinte para um par de valores fora da reta.

Variao total o resultado da soma dos quadrados dos desvios dos valores y com relao mdia:n

SST !

i !1

( yi y ) 2

Variao explicada o resultado da soma dos quadrados dos desvios dos valores estimados com relao mdia:n

SSR !

i !1

( yi y ) 2

Variao no-explicada o resultado da soma dos quadrados dos desvios de y com relao aos valores projetados:n

SSE !

i !1

( yi yi ) 2

Demonstra-se que:n n n

i !1

( yi y ) 2 !

i !1

( yi y ) 2

i !1

( y y )2

Coeficiente de Determinao

O coeficiente de determinao r definido como a relao que mede a proporo da variao total da varivel dependente, que explicada pela variao da varivel independente:Variao explicada r ! Variao total2

Substituindo as expresses matemticas na expresso anterior temos:n

r 2 ! i !1n i !1

( yi y ) 2 ( yi y ) 2

Coeficiente de Determinao

A expresso mostra que o coeficiente de determinao r sempre um nmero positivo entre zero e um. Da prpria frmula pode-se deduzir que quanto maior for r2 melhor ser o poder de explicao da reta de regresso.

Coeficiente de Determinao

O coeficiente de determinao r2, tambm denominado rquadrado, sempre um nmero positivo dentro do intervalo ( ; ) e deve ser interpretado como a proporo da variao total da varivel dependente y, que explicada pela variao da varivel independente x. Observe que o coeficiente de correlao mede as variaes dos dados da amostra y com relao aos valores projetados da reta, sempre na direo de y.

Embora na determinao do coeficiente de correlao no seja necessrio separar as variveis entre independente e dependente, h uma relao importante entre correlao e regresso. Uma delas a declividade da reta de regresso, que funo do coeficiente de correlao. Demonstra-se tambm que o coeficiente de determinao igual ao quadrado do coeficiente de correlao, e viceversa. Partindo do coeficiente de correlao r= ,8 9 obtido na planilha do Exemplo . , se obtm o valor do 2 que o mesmo coeficiente de determinao r2= ,8 9 valor j determinado.

O coeficiente de correlao mais indicado para medir a fora da relao linear entre as variveis, e o coeficiente de determinao mais apropriado para medir a explicao da reta de regresso. Dessa maneira, para apreciar o ajuste de uma reta melhor utilizar o coeficiente de determinao que mede o sucesso da regresso em explicar y. O coeficiente de correlao tambm pode ser calculado a partir do coeficiente de determinao. Entretanto, como o coeficiente de determinao sempre positivo, o sinal de r ser o mesmo que o sinal do coeficiente b da reta de regresso.

Erro Padro da Estimativa

Ao ajustar uma reta, espera-se que ela explique o grupo de valores amostrados. Embora a reta de regresso tenha sido obtida minimizando a soma dos quadrados dos desvios, sempre haver uma variabilidade dos dados ao redor da reta, exceto se os dados fizerem parte da prpria reta de regresso. O desvio padro dos dados ao redor da reta de regresso denominado erro padro da estimativa Se cuja medida obtida da varincia com (n-2) graus de liberdade definida com a frmula, onde SSE mede a parte no explicada pela regresso:n

Se !

i !1

( yi yi ) 2 n 2!

SS n 2

O conceito do erro padro da estimativa equivalente ao do desvio padro que mede a variabilidade dos valores da amostra ao redor da mdia aritmtica desses valores.

O erro padro da estimativa tambm uma medida da qualidade do ajustamento da reta. Atendidas as premissas da regresso linear, por exemplo, espera-se que aproximadamente 9 % dos valores da amostra y se encontrem no intervalo 2vSe de seus respectivos valores projetados pela reta de regresso.

Premissas

A amostragem aleatria utilizada para obter a reta de regresso captura alguns pontos da populao. A regresso linear realizada uma estimativa da relao entre as variveis, relao que desconhecida. Portanto, os coeficientes de regresso a e b so estimativas pontuais dos correspondentes parmetros da populao E e F.

y ! a bx y ! E Fx e

O valor e (resduo) representa a disperso na populao, pois no h um relacionamento perfeito entre as duas variveis na populao. De outra maneira, h outras variveis no consideradas na regresso que tambm influem na relao, pois a regresso foi realizada com apenas duas variveis do experimento.

Devido variabilidade amostral, deve-se aceitar que cada amostra aleatria gerar uma equao de regresso diferente. Portanto, o coeficiente a um estimador de E e b um estimador de F. Se toda a populao fosse amostrada, o coeficiente a seria igual a E e b igual a F. A disperso na populao significa que h diversos valores de y para cada valor de x. Portanto, para cada valor de x h uma distribuio de freqncias de y que o modelo de regresso linear supe seja uma distribuio normal denominada distribuio condicional, pois depende da condio x. Todas as distribuies condicionais de y tm o mesmo desvio padro, denominado desvio padro condicional.

As premissas do modelo de regresso linear so: Para cada valor de x h um grupo de valores de y, e todos os grupos de y tm distribuio normal com o mesmo desvio padro. As mdias das distribuies normais de y pertencem reta de regresso. A mdia dos desvios ou erros nula, pois a varincia mnima. A varincia dos desvios constante e igual varincia da populao, pois se supe que todos os desvios tm a mesma varincia. Os desvios so variveis aleatrias independentes e tm distribuio normal. Portanto, o coeficiente de correlao entre os desvios tomados dois a dois nulo, e os desvios e a varivel independente x no tm nenhuma correlao.

Intervalo de Projeo

Qual a variao do valor projetado y para um determinado x considerando as possveis amostras da mesma populao? A resposta depender do objetivo da projeo: A mdia de todas as projees y para um determinado x. Projeo denominada mdia y. A projeo de um nico valor y para um determinado x. Projeo denominada especfico y.

Operando com o modelo, podemos observar as seguintes caractersticas: O ponto com coordenadas iguais s mdias das amostras x e y pertence reta de regresso. O intervalo de confiana da projeo da Mdia y menor do que da projeo Especfico y. A estimativa correspondente mdia da amostra x tem o menor intervalo de todas as estimativas dentro do intervalo de amostragem de x. Quanto mais afastado de sua mdia o valor x estiver, maior ser o erro de estimativa. Pela forma das curvas do intervalo, as estimativas fora do intervalo de amostragem de x no devem ser realizadas. Variando o nvel de significncia E na clula C22 ser possvel verificar o comportamento do intervalo de estimativa.

FdeA - Regresso

R-quadrado ajustado. O coeficiente de determinao ajustado r 2 uma medida utilizada em regresso linear mltipla. Partindo da regresso linear simples, com uma nica varivel independente, o significado do coeficiente de determinao a porcentagem de explicao dessa regresso. Ao adicionar uma ou mais variveis independentes, demonstra-se que o r2 no dever diminuir, devendo aumentar em alguns casos. O r 2 tenta compensar o aumento natural de explicao provocado pelo aumento do nmero de variveis independentes e o tamanho da amostra, sendo calculado com a expresso: k 2 2 r !r v 1 r2 n k 1

r 2 ! 0 , 73851

1 1 v 0 , 73851 ! 0 , 705824 10 1 1

A figura seguinte mostra a segunda parte.

A figura seguinte mostra a terceira parte.

H casos em que possvel saber antecipadamente que a reta de regresso passa pela origem. Por exemplo, um provedor de Internet cujo faturamento depende somente da venda de contratos mensais de fornecimento de acessos, se no tiver contratos, no ter faturamento. Outro caso, a reta de regresso entre os custos mensais de envio de produtos vendidos mensalmente pela TV com despesas de envio includas tambm passa pela origem, pois se num ms no for vendido nenhum produto, as despesas de envio sero igual a zero. A frmula da declividade b da equao :n

xi v yib ! i !1n

y ! bx

i !1

x i2

Completando os resultados da FdeA - Regresso

Resduos A anlise dos resduos um procedimento grfico que permite analisar o ajuste da reta de regresso. As medidas de variao que definiram o coeficiente de determinao e o erro de estimativa partiram do conceito de desvios medidos a partir da mdia da amostra y dos desvios medidos ao redor da reta de regresso. Ao desvio do valor projetado com relao ao valor observado denominado resduo, como mostra a frmula: e ! yi yi

Lembrando que uma das premissas do modelo de regresso linear estabelece que a mdia dos desvios ou erros nula, pois a varincia mnima, a forma do grfico dos desvios em funo dos valores x da amostra ajudar a verificar o acerto da reta de regresso. Se os desvios no mantm nenhum padro com os valores x, pode-se deduzir que a reta de regresso uma boa representao dos dados observados, como mostra o grfico seguinte construdo pela ferramenta. e ! yi yix lotagem de resduos 150 100 Resduos 50 0 -50 0 -100 -150 x 10 0 30 40 50

x P otage 600 500 400 300 200 100 0 0 20 x

de a uste de nha

y Pre o(a) y

y

40

60

P otage 600 500 400 300 200 100 0 0 20

de

obab dade no

a

y

Pe

40 60 ent da a ost a

80

100

REGRESSO LINEAR MLTIPLA

O modelo de regresso linear que foi apresentado o mais simples deles e nem sempre atende modelagem mais complexa. Por exemplo, as vendas no dependem somente do investimento em propaganda, pois h uma parte da variao das vendas que no explicada pela propaganda. Da mesma maneira, a demanda de um determinado produto pode ser explicada pela combinao do preo unitrio e do investimento em propaganda.

Em geral, a aplicao quantitativa de conceitos econmicos requer a estimao de funes de oferta, demanda, custo etc. Os modelos lineares com mais de uma varivel independente so denominados modelos de regresso linear mltipla. O desenvolvimento da equao de regresso linear mltipla similar ao da equao de regresso linear simples incluindo a dependncia de duas ou mais variveis independentes.

Dispondo de um grupo de amostras do mesmo tamanho, sendo uma varivel dependente y e n variveis independentes xi, o objetivo determinar os coeficientes da equao da reta:

y ! a b1 x1 b 2 x 2 . b n x ncujos coeficientes minimizam a soma dos quadrados dos desvios da varivel com relao a y.

Exemplo

O analista de marketing de uma rede de varejo acredita que um modelo que relacione a quantidade (y em milhares) de peas de roupa ntima vendidas por trimestre com o preo mdio de (x1 em $) e o investimento em propaganda (x2 em $milhares) poder ser til para projetar a quantidade de peas do trimestre seguinte e reduzir o custo unitrio ocasionado pelo menor risco de encalhe. Para encontrar essa relao linear foi extrada a amostra de valores trimestrais registrada na tabela seguinte. Determinar a equao de regresso e analisar quo bem ela se ajusta s necessidades do analista.

y ! 818 ,145 7,046 x 1 0 , 44 x 2