Upload
paulo-sergio
View
111
Download
0
Embed Size (px)
Citation preview
1
FACULDADE SÃO JUDAS TADEUCURSO CIÊNCIAS CONTABEIS
ALUNOS: PAULO SERGIO DA ROSAFERNADO ILHA
ANALISE DE REGRESSÃO
PORTO ALEGRE, 30 DE MAIO 2012
2
Sumário
Introdução………………………………………………………………....…03
1. Analise de Regressão……………………………………………………...04
2. Regressão Linear Simples............................................................................06
3. Regressão Linear Múltipla...........................................................................09
4. Pressupostos na Analise de Regressão.........................................................13
5. Métodos de seleção de variáveis..................................................................15
6. Analise de dados recorrendo ao SPSS.........................................................16
7. Analise de dados recorrendo ao EVIEWS...................................................16
8. Conclusão.....................................................................................................17
Referencias bibliográficas................................................................................18
3
Introdução:
A análise de regressão pode ser utilizada para investigar e modelar o relacionamento
existente entre as diversas variáveis de um processo, sendo baseada na idéia
relativamente simples de se empregar uma equação para expressar o relacionamento
entre estas variáveis.
Neste trabalho procuramos apresentar a análise de regressão voltada para a pesquisa
cientifica destacando sua importância, utilização, as regressões lineares simples e
múltiplas, os pressupostos, os métodos de seleção de variáveis e a analise de dados
recorrendo aos sistemas SPSS e EVIEWS.
4
1. Analise de Regressão
Para a tomada de decisões existe uma necessidade cada vez maior de se prever e
descrever o comportamento de determinadas variáveis (dados), ao estudar as relações
entre estas variações o pesquisador conseguirá resolver com agilidade e eficiência os
problemas pertinentes a sua pesquisa cientifica.
São utilizadas duas técnicas neste estudo a REGRESSÃO e a CORRELAÇÃO que são
basicamente implementadas para compreender a analise de dados amostrais e a partir
deles obter informações sobre a natureza deste relacionamento e se duas ou mais
variáveis são relacionadas.
A analise de regressão é utilizada com o propósito de previsão nas áreas de negócios
empresariais e em pesquisas acadêmicas. Ela busca descrever e determinar uma função
matemática sobre o comportamento de determinada variável chamada de dependente,
tendo como base os valores de uma ou mais variáveis independentes. A analise de
correlação tem como objetivo mensurar o grau de relacionamento entre as variáveis.
O objetivo da analise de regressão é a estimação de dados (valores) da variável
dependente que foi selecionada pelo pesquisador com base nos valores das variáveis
independentes (valores conhecidos) ou fixados por ele. De maneira geral a variável
dependente não pode ser controlada pelo pesquisador, por outro lado as independentes
podem ser controladas, esta é a premissa para a utilização da regressão.
A seguir seguem exemplos onde podem ser empregados quando se deseja utilizar a
técnica da analise de regressão:
a) Estimar as vendas de veículos usados e novos (variável dependente) a partir
dos gastos com propaganda (variável independente).
b) Estabelecer relação entre as variações na macroeconomia (cambio, taxa de
juros, renda e etc.), e o resultado do exercício de organização (lucros ou prejuízos).
c) Descobrir quais os dados do parecer da empresa de auditoria independente
que impactaram no preço das ações da companhia.
d) Estimar salários de uma companhia a partir do tempo de casa, número de
horas e assiduidade do funcionário.
5
Observação: Os exemplos apresentados acima envolvem uma variável independe e
outros mais de uma.
Quando a situação problema apresenta (prevê) uma variável dependente e uma única
independente é denominada REGRESSÃO SIMPLES.
Quando a situação problema apresenta (prevê) uma variável dependente e mais de uma
independente é denominada REGRESSÃO MULTIPLA.
É possível se elaborar gráficos com duas variáveis, este gráfico é denominado diagrama
de dispersão, que permite analisar o comportamento destas variações, a analise deste
diagrama pode sugestionar a relação funcional entre as duas variáveis, onde se pode ser
exemplificado em uma reta, uma curva exponencial dentre outras.
Segue gráfico que tem forma linear onde a relação sugerida entre as variáveis é Y e Xı:
700 . .
600 . . .
500 . . .
Y . . . . .
400 . . . . . . . . . . . .
300 . . . . .
200
100 2 4 6 8 10 12 14 16
Xı Gráfico: Diagrama de dispersão com reta linear.
Importante: “Quando a relação funcional entre as variáveis é linear surge à
regressão linear”.
6
A analise multivariada que permite analisar a relação existente entre uma única variável
dependente e duas ou mais independentes e fazer projeções a partir desta descoberta
podemos chamar de regressão linear múltipla.
A equação ou modelo de regressão é a combinação linear de variáveis independentes
usados coletivamente para prover a variável dependente. Uma generalização seria a
regressão linear múltipla, cujo modelo estatístico é dado por:
Y= βо + βı Xı + β2 X2 + ..........+βn + Xn + Ɛ
Onde,
Y: É variável dependente,
X1, X2......Xn: São as variáveis independentes.
βо, βı, β2.......βn: São os parâmetros de regressão.
Ɛ: É o termo que representa o resíduo ou erro da regressão.
O termo βо é o coeficiente linear, representa o valor da intersecção da reta de regressão
com o eixo Y quando X é igual a zero.
Os termos βı, β2, βn são os chamados coeficientes angulares.
Os modelos de regressão apresentam os seguintes pressupostos básicos:
a) Y é a variável aleatória
b) A esperança matemática dos resíduos é nula, ou seja a média dos resíduos é
nula.
c) A variância de Ɛ (termos de erro) é constante e igual a σ² (condição de
homoscedasticidade dos resíduos).
d) Os resíduos são independes entre si.
e) Os resíduos têm distribuição normal.
2. Regressão Linear Simples
Constitui uma tentativa de estabelecer uma equação matemática linear (linha
reta) que descreva o relacionamento entre duas variáveis. Da mesma forma como
usamos a média para resumir uma variável aleatória, a reta de regressão é usada
para resumir a estimativa linear entre duas variáveis aleatórias (Lapponi, 1997,
p.344).
7
Existem formas diversas de utilização de equações de regressão:
a) Estimar valores de uma variável, com base em valores conhecidos da outra.
b) Em situações em que as duas variáveis medem aproximadamente a mesma
coisa, mas uma delas é relativamente dispendiosa, ou difícil de lidar, enquanto que a
outra não.
c) Explicar valores de uma variável em termos da outra, ou seja, confirmar uma
relação de causa e efeito entre duas variáveis.
d) Predizer valores futuros de uma variável. Ex: Aplicar testes para avaliar o
sucesso de um ingressante na escola ou no emprego.
2.2. A Equação Linear (a reta de regressão)
Principais características:
1) O coeficiente angular da reta é dado pela tangente da reta e se denomina “b”.
2) A cota da reta em determinado ponto é o coeficiente linear denominado “a”,
que é o valor de Y quando X=0.
Fórmula:
Nesse modelo se verifica que: (Lapponi, p. 345)
1) Para um valor Xi podem existir um ou mais valores de Yi amostrados.
2) Para esse mesmo valor Xi se terá apenas um valor projetado .
3) Para cada valor de Xi existirá um desvio di (ou erro ei) dos valores de .
4) Sempre teremos observações que não são pontos da reta.
2.3 Determinação de equação matemática
Na regressão, os valores y são preditos com base em valores dados ou conhecidos de x.
A variável y é chamada variável dependente, e a variável x, variável independente.
Que critério devemos aplicar para obter os valores dos coeficientes a e b?
Existem 2 critérios (Lapponi, p.345):
1) Ajustar um reta horizontal de valor igual à média dos valores de y, isto é, ,
pois a média é uma reta de regressão com b = 0.
8
2) Ajustar uma reta que divida os pontos observados de forma que a soma dos
desvios seja nula. No entanto, a simples soma dos desvios leva à
compensação dos desvios positivos e negativos, como já se viu no cálculo da
variância.
2.4 O método dos mínimos quadrados
O critério é encontrar os coeficientes a e b da reta de regressão que minimizem a soma
dos quadrados dos desvios. (Lapponi, p. 346)
Características importantes:
1) A soma dos desvios verticais dos pontos em relação à reta é zero.
2) A soma dos quadrados desses desvios é mínima (isto é, nenhuma outra reta
daria menor soma de quadrados de tais desvios).
Simbolicamente, o valor que é minimizado é:
Onde:
yi = valor observado de y
yc = o valor calculado de y utilizando-se a equação de mínimos quadrados com o valor
de x correspondente a yi.
Os coeficientes são calculados pelas fórmulas abaixo.
Tendo presente que Cov(x,y) = rxy x y, o coeficiente b será igual a estas quatro
fórmulas possíveis:
Fatos importantes da equação de regressão:
1) Trata-se de uma média
2) Seria muito arriscado extrapolar essa equação para fora do âmbito dos dados
3) A reta de regressão tem a interessante propriedade de passar sempre pelo
ponto (x, y).
9
Uma vantagem adicional destas várias formas de cálculo é que com os mesmos dados é
possível calcular as duas possíveis retas de regressão linear, permutando as variáveis de
dependente (Y) para independente (X) e vice-versa, tendo presente que:
1) O valor do coeficiente b é obtido como resultado da divisão da covariância
das duas variáveis aleatórias pela variância da variável independente.
2) O valor do coeficiente a é obtido como resultado da subtração da média da
variável dependente menos o produto do coeficiente b pela média da
variável independente.
3) Isto poderá indicar o sentido da relação causa-efeito ou explanatória.
Minimizar a soma dos quadrados dos desvios não garante que se tenha obtido a melhor
reta ajustada, é apenas uma propriedade desejada de ajuste de reta. (Lapponi, p. 346)
O método de ajuste dos mínimos quadrados é preferível por que:
1) Obtém as melhores estimações, isto é, as estimativas não terão
tendenciosidade.
2) Oneram os desvios maiores, fato desejável que evita grandes desvios.
3) Permite realizar testes de significância na equação de regressão.
4) A reta de regressão passa pelo ponto formado pelos valores das médias das
duas séries de observações.
3. Regressão linear múltipla
A regressão múltipla envolve três ou mais variáveis, portanto, estimadores. Ou seja,
ainda uma única variável dependente, porém duas ou mais variáveis independentes
(explanatórias).
A finalidade das variáveis independentes adicionais é melhorar a capacidade de
predição em confronto com a regressão linear simples. Isto é, reduzir o coeficiente do
intercepto, o qual, em regressão, significa a parte da variável dependente explicada por
outras variáveis, que não a considerada no modelo.
10
Mesmo quando estamos interessados no efeito de apenas uma das variáveis, é
aconselhável incluir as outras capazes de afetar Y, efetuando uma análise de regressão
múltipla, por 2 razões:
a) Para reduzir os resíduos estocásticos. Reduzindo-se a variância residual
(ERRO PADRÃO DA ESTIMATIVA), aumenta a força dos testes de
significância;
b) Para eliminar a tendenciosidade que poderia resultar se simplesmente
ignorássemos uma variável que afeta Y substancialmente.
Uma estimativa é tendenciosa quando, por exemplo, numa pesquisa em que se deseja
investigar a relação entre a aplicação de fertilizante e o volume de safra, atribuímos
erroneamente ao fertilizante os efeitos do fertilizante mais a precipitação pluviométrica.
O ideal é obter o mais alto relacionamento explanatório com o mínimo de variáveis
independentes, sobretudo em virtude do custo na obtenção de dados para muitas
variáveis e também pela necessidade de observações adicionais para compensar a perda
de graus de liberdade decorrente da introdução de mais variáveis independentes.
3.1 Modelo matemático
A equação da regressão múltipla tem a forma seguinte:
Yc = a + b1x1 + b2x2 + ... + bkxk, onde:
a = intercepto do eixo y;
bi = coeficiente angular da i-ésima variável;
k = número de variáveis independentes.
ou, como define WONNACOTT (1981, p. 326):
Yi = + xi + zi + ei
é interpretado geometricamente como o coeficiente angular do plano, na medida em
que nos deslocamos na direção do eixo dos X’s, mantendo Z constante: é, assim, o
feito marginal da variável X sobre Y.
é o coeficiente do plano na medida em que nos movemos na direção do eixo dos Z’s,
mantendo X constante: é, assim, o efeito marginal da variável Z sobre Y. Enquanto
11
uma regressão simples de duas variáveis resulta na equação de uma reta, um problema
de três variáveis implica num plano, e um problema de k variáveis implica em um
hiperplano.
Também na regressão múltipla, as estimativas dos mínimos quadrados são obtidas pela
escolha dos estimadores que minimizam a soma dos quadrados dos desvios entre os
valores observados Yi e os valores ajustados Yc.
3.2 Comparação entre regressão simples e múltipla
Suponha uma investigação sobre os benefícios de um sistema de irrigação em
determinada região. Ao considerar-se uma regressão simples para se estimar o volume
da safra (Y) em função dos índices pluviométricos (r) de vários anos, encontrou-se a
seguinte equação:
Y = 60 – 1,67r
Erro padrão do coeficiente b = 4,0
O coeficiente negativo estaria indicando que a chuva (índice pluviométrico) reduz a
safra, sugerindo que há algo errado. Ao acrescentar-se a variável temperatura (t),
efetuou-se uma regressão múltipla representada pela equação:
Y = 60 + 5,71r + 2,95t
Erro padrão dos coeficientes: b1 = 2,68 e b2 = 0,69
A precipitação pluviométrica tem, de fato, o efeito esperado de aumentar a safra, os
outros fatores permanecendo iguais (isto é, quando a temperatura é constante).
Enquanto a regressão múltipla enfatiza e isola a relação direta e a regressão simples não
o faz; ao invés disso, o coeficiente de regressão simples reflete os efeitos tanto diretos
como indiretos (em nosso exemplo, o efeito direto positivo da precipitação
pluviométrica sobre a safra, e seu efeito negativo indireto – o aumento do índice
pluviométrico leva à redução da temperatura, que provoca uma redução na safra).
3.3 Variáveis binárias (0-1)
3.3.1. Inclusão de Variáveis Binárias
Imagine uma investigação sobre a relação entre a aquisição de títulos do governo (B) e a
renda nacional (Y). Observações anuais realizadas mostram que a relação dos títulos em
função da renda acusa dois padrões distintos – um para o tempo de guerra e outro para o
tempo de paz. A relação normal de B para Y (reta inferior) está sujeita a uma mudança
12
para cima (reta superior) durante o período de guerra (ver figura abaixo). Dessa forma,
B deve ser relacionado com Y e com outra variável – a guerra (W).
W não representa uma série completa de valores, mas apenas dois: fixamos em 1 o seu
valor para todo o período de guerra e em 0 para os anos de paz (W é uma variável do
tipo 0-1 ou variável muda ou ainda variável DUMMY ou binária).
E(B) = 0 + Y + W
Onde:
W = 0, para os anos de paz E(B) = 0 + Y
W = 1, para os anos de guerra E(B) = 0 + Y +
3.3.2. Tendenciosidade Causada pela Exclusão da Variável Muda
Pela análise da figura, pode-se observar que o fato de ignorarmos uma variável favorece
a tendenciosidade e aumenta a variância residual.
Se deixarmos de calcular a regressão múltipla, incluindo a variável muda guerra, e
calcularmos erroneamente a regressão simples de B sobre Y, ela acusará coeficiente
angular demasiadamente grande, provocando uma tendenciosidade para cima, causada
pelo fato de os anos de guerra acusarem ligeira tendência para serem anos de renda
elevada.
Assim, as vendas mais altas de títulos, que deveriam ser atribuídas em parte à época de
guerra, seriam erroneamente atribuídas à renda somente.
B
Y
Se D = 0:Yc = a + b1.X
Yc = a + b1.X + b2.D
Se D = 1:Yc = (a+b2) + b1.X
13
3.4 Quantos regressores devem ser repetidos?
Somente a teoria estatística clássica não nos proporciona orientação absolutamente
firme para aceitar H0: a aceitação deve basear-se também em julgamento extra-
estatístico.
Assim, se existe uma crença a priori de que a variável índice pluviométrico, por
exemplo, afeta o nível de colheita, esta variável deve ser mantida, mesmo que o teste
confirmasse fracamente a hipótese H0 de que não haveria influência. Só se for igual a
zero ou negativo é que os resultados estatísticos contradizem nossa crença a priori,
A crença a priori desempenha papel chave, não só na especificação inicial de quais
regressores devem permanecer na equação, mas também na decisão sobre que
regressores devem ser abandonados à luz da evidência estatística, assim como na
decisão sobre como o modelo eventualmente será utilizado.
Isso levou alguns estatísticos a sugerirem o nível de 1% para variáveis “duvidosas”,
mantendo o nível de 5% para as outras variáveis que já se esperava afetarem Y.
3.5. Regressão e analise da variância (ANOVA)
Há três casos principais de aplicação da regressão múltipla:
a) Regressão “padrão”: é a regressão somente sobre valores numéricos.
b) Análise da variância (ANOVA): equivale somente à regressão sobre variáveis
mudas.
c) Análise da covariância (ANOCOVA): é a regressão sobre variáveis mudas e
variáveis numéricas.
Em resumo, a regressão padrão é o instrumento mais poderoso quando a variável
independente, X, é numérica. Já a análise da variância é adequada quando a variável
independente é um conjunto de categorias não-ordenadas.
4. Pressupostos na analise de regressão
A seguir apresentaremos os pressupostos requeridos para analise de regressão, a
aplicação apropriada de um procedimento estatístico depende do cumprimento desse
conjunto de pressupostos.
a) Normalidade dos resíduos
b) Homoscedasticidade dos resíduos
c) Linearidade dos coeficientes
14
d) Ausência de autocorrelação serial nos resíduos
e) Multicolinariedade entre as variáveis independentes
a) Normalidade dos resíduos: O conjunto dos resíduos produzidos em todo o intervalo
das observações deve apresentar a distribuição normal (normalidades dos resíduos),
indicando, assim, que os casos amostrados se dispõem normalmente em toda a extensão
da população.
b) Homoscedasticidade dos resíduos: O conjunto de resíduos referentes a cada
observação de X deve ter variância constante ou homogênea em toda a extensão das
variáveis independentes, isto é a dispersão de Y em relação às observações de X deve
manter consistência ou ser constante em todas as dimensões desta variável, esta
característica pode ser definida como homoscedasticidade, ou seja, dispersão
homogênea das ocorrências de Y em relação a cada observação de X.
c) Linearidade dos coeficientes: Representa o grau em que a variação na variável
dependente é associada com a variável independente de forma estritamente linear. A
variação da variável é explicada se dará em proporção direta com a variação da variável
explanatória. De outra maneira a relação acima pode ser representada matematicamente
por uma função de primeiro grau.
d) Ausência de autocorrelação serial nos resíduos: Pressupõe que a correlação entre
os resíduos, ao longo do espectro das variáveis independentes, é zero. Isto implica em
que o efeito de uma observação de dada variável X é nulo sobre as observações
seguintes.
e) Multicolinariedade entre as variáveis independentes:
Na Regressão Simples: Quando os valores de X acusam pequena (ou nenhuma)
variação, o efeito de X sobre Y já não pode ser sensivelmente investigado. Mas
se o problema é predizer Y – ao invés de investigar a dependência de Y em
relação a X – a concentração dos valores de X aí é que não terá mesmo
influência, desde que limitemos nossa predição a este mesmo pequeno intervalo
de valores de X. Nestes casos, nosso melhor ajustamento para Y não será uma
reta, mas antes um ponto (X, Y).
15
Na Regressão Linear Múltipla: O melhor ajustamento para Y, neste mesmo
contexto, não é um plano, mas sim uma reta. Quando duas variáveis
independentes X e Z são colineares, ou quase colineares (isto é, altamente
correlacionadas), temos o problema da multicolinearidade (no caso de 2
variáveis, apenas colinearidade).
5. Métodos de seleção de variáveis
Será tratado a seguir os três métodos utilizados para a escolha da variáveis e seu uso
mais freqüente, pois na maioria das pesquisas , existe um grande número de variáveis
independentes disponíveis que podem ser escolhidas para a inclusão na equação de
regressão.
a) Especificação confirmatória
b) Abordagem combinatória
c) Métodos de busca seqüencial
a) Especificação confirmatória: O conjunto de variáveis é completamente
especificado pelo pesquisador, ele tem o poder absoluto sobre a equação que resultará
de sua seleção e fica responsável pelo lançamento das variáveis de acordo com sua
vontade, especificação ou necessidade.
b) Abordagem combinatória: Nesse método, todas as possíveis combinações de
variáveis independentes são examinadas, e aquela variável estatística mais preditiva é
identificada, é na verdade utilizada a metodologia da tentativa e erro, com busca
generalizada por todas as possíveis combinações de variáveis, é um método bastante
trabalhoso, é só com ajuda de computadores os procedimentos se tornam viáveis.
c) Métodos de busca seqüencial: Estimam a variável estatística primeiramente com um
conjunto de variáveis independentes e, a partir dele, acrescentam ou eliminam variáveis
até alcançar a melhor medida dentro do critério utilizado.
c.1 Adição de forward e eliminação de backward: São processo de tentativa e
erro.
16
c.2 Estimação de stepwise: Chamado por etapas passo a passo, possibilita
examinar a contribuição adicional de cada variável independente ao modelo,
pois cada variável é considerada inclusão antes do desenvolvimento da equação.
6. Analise de dados recorrendo ao SPSS
O SPSS é um software apropriado para a elaboração de análises estatísticas de matrizes
de dados. O seu uso permite gerar relatórios tabulados, gráficos e dispersões de
distribuições utilizadas na realização de análises descritivas e de correlação entre
variáveis. Os principais tópicos que são utilizados na analise de dados são:
Manipulação de Arquivos de Dados → abrir e guardar matrizes de dados;
Edição de Dados → Criar e editar matrizes de dados;
Transformação de Dados → recodificar variáveis e criar novas variáveis a partir
de cálculos com as variáveis já existentes;
Seleção de Casos → seleção de casos para realização da análise;
Análise Descritiva dos Dados → tabelas de freqüência, medidas de tendência
central e dispersão;
Análise de Correlação entre Variáveis → testa a independência entre variáveis e
a intensidade da correlação entre elas.
7. Analise de dados recorrendo ao EVIEWS
Assim como o SPSS o EVIEWS é um software estatístico a principal sua principal
vantagem é a liberdade de trabalho que ele proporciona ao pesquisador, não se
prendendo a métodos de seleção de variáveis, a outra vantagem é sua facilidade de
operacionalização e deixa o pesquisador mais à vontade nas suas estimações, cabe
ressaltar que o software não é o astro principal ele dever servir apenas como
coadjuvante do pesquisador.
17
Conclusão:
Entendemos que ao a utilizarmos um método de analise de regressão voltado para a
pesquisa cientifica deve-se dar importância ao o que realmente interessa, ou seja, o
pesquisador deve dominar ou pelo menos ter conhecimento do tema escolhido.
O acesso a técnicas avançadas não se justifica se o pesquisador não utilizar a analise de
regressão de forma correta, o objetivo principal é atender os propósitos da pesquisa e
suas necessidades. Importante lembrar que mesmo com conhecimentos variados
disponíveis em diversos softwares existentes no mercado o que realmente faz a
diferença é a interpretação dos resultados, ela é fundamental para que o trabalho não
caia em lugar comum, ou seja, saber o real motivo dos levantamentos e para que a
pesquisa esta sendo efetuada.
18
Referências Bibliográficas:
CORRAR, Luiz J. e PAULO, Edilson e FILHO, José Maria Dias. Analise
Multivariada. São Paulo: Atlas, 2009.
REGRESSÃO LINEAR SIMPLES - Erudito
www.erudito.fea.usp.br/.../ REGRESSÃO %20 LINEAR %20 SIMPLES - ...
Página visitada em 27/05/12.
ANÁLISE DE DADOS RECORRENDO AO SPSS 11.5 ...
docentes.ismt.pt/~m_pocinho/manual_SPSS.pdf
Página visitada em 27/05/12.
REGRESSÃO LINEAR MÚLTIPLA - Erudito
www.erudito.fea.usp.br/.../445/.../Regressão%20Múltipla_Dummy.do...
Página visitada em 27/05/12.