16
Análise de Regressão Linear (SPSS) Autor: Filipe Mahaluca Page 1 ANÁLISE DE RESULTADOS O sucesso de um programa de investimento em papéis de outros países depende, em grande parte, do controle do risco soberano dos países constantes no portfólio. Um meio de se avaliar o risco é através da taxa de juros praticada pelo país. Uma amostra de 40 países forneceu os valores anualizados das taxas de risco e de juros praticadas em 1997. Analise os dados através de um modelo de regressão linear simples construído para se estimar o risco soberano esperado do país em função da taxa de juros por ele praticada. Solução Neste caso você deve fazer a regressão linear, pois se deseja explicar uma variável quantitativa (taxa de risco) por meio de outra variável quantitativa (taxa de juros). A variável que você quer explicar chama-se variável dependente, ou variável explicada (também chamada de resposta ou endógena) - Y. A outra é conhecida como variável independente, ou explicativa (ou exógena) - X. Então, a primeira coisa a ser feita nesse tipo de problema é identificar quem é a variável Y (dependente - aquela que você quer prever, estimar) e quem é a variável X (aquela que irá ajudar você a estimar a variável Y). Após digitar os dados, ou abrir o arquivo que contém os dados, no SPSS, deve-se ‘rodar’ a regressão.

Análise de Regressão Linear Simples (SPSS)

Embed Size (px)

DESCRIPTION

2014

Citation preview

Page 1: Análise de Regressão Linear Simples (SPSS)

Análise de Regressão Linear (SPSS)

Autor: Filipe Mahaluca Page 1

ANÁLISE DE RESULTADOS

O sucesso de um programa de investimento em papéis de outros países depende, em grande

parte, do controle do risco soberano dos países constantes no portfólio. Um meio de se avaliar o

risco é através da taxa de juros praticada pelo país. Uma amostra de 40 países forneceu os

valores anualizados das taxas de risco e de juros praticadas em 1997.

Analise os dados através de um modelo de regressão linear simples construído para se estimar

o risco soberano esperado do país em função da taxa de juros por ele praticada.

Solução

Neste caso você deve fazer a regressão linear, pois se deseja explicar uma variável quantitativa

(taxa de risco) por meio de outra variável quantitativa (taxa de juros). A variável que você quer

explicar chama-se variável dependente, ou variável explicada (também chamada de resposta

ou endógena) - Y. A outra é conhecida como variável independente, ou explicativa (ou exógena)

- X.

Então, a primeira coisa a ser feita nesse tipo de problema é identificar quem é a variável Y

(dependente - aquela que você quer prever, estimar) e quem é a variável X (aquela que irá

ajudar você a estimar a variável Y).

Após digitar os dados, ou abrir o arquivo que contém os dados, no SPSS, deve-se ‘rodar’ a

regressão.

Page 2: Análise de Regressão Linear Simples (SPSS)

Análise de Regressão Linear (SPSS)

Autor: Filipe Mahaluca Page 2

COMO RODAR A REGRESSÃO LINEAR SIMPLES NO SPSS

Primeiramente deve-se selecionar ANALYZE

REGRESSION

LINEAR

Como temos apenas uma variável independente (X), a regressão linear é simples.

Na próxima tela selecionamos a variável dependente (Y = taxa de risco) e a variável

independente (X = taxa de juros).

O método selecionado será o Enter.

Page 3: Análise de Regressão Linear Simples (SPSS)

Análise de Regressão Linear (SPSS)

Autor: Filipe Mahaluca Page 3

Após isto, seleciona-se STATISTICS.

Como a regressão é SIMPLES, seleciona-se apenas os itens: "estimates","confidence intervals",

"model fit", "descriptives" e "casewise diagnostics".

Obs.: quando o "casewise diagnostics" for selecionado, aparecerá: "Outliers outside 3 standards

deviations".

Deixe assim. Isso quer dizer que os resíduos que estiverem acima ou abaixo de 3 desvios

padrões serão considerados outliers.

Após isto selecione CONTINUE.

Selecione então a tecla PLOTS.

Aqui serão feitos os gráficos utilizados para verificar a existência de outlier (ou valor influente),

e também verificar as premissas do modelo.

Page 4: Análise de Regressão Linear Simples (SPSS)

Análise de Regressão Linear (SPSS)

Autor: Filipe Mahaluca Page 4

Selecione para Y o "ZRESID". Ele corresponde ao resíduo padronizado.

Para a variável X selecione "ZPRED". Este é o valor de Y estimado padronizado.

Selecione NORMAL PROBABILITY PLOT. Este gráfico é também conhecido como PP-Plot e será

utilizado para testar a premissa da Normalidade.

Após isto, selecione CONTINUE.

Selecione então a tecla SAVE.

Quando selecionamos qualquer item no SAVE, o SPSS irá salvar na base de dados (Data view) os

valores correspondentes aos itens que forem selecionados.

Page 5: Análise de Regressão Linear Simples (SPSS)

Análise de Regressão Linear (SPSS)

Autor: Filipe Mahaluca Page 5

O "Cook's" é a distância de Cook e será utilizada para se verificar a existência de valores

influentes. Caso seja próximo ou maior do que 1, será um valor influente. Isso significa dizer que

existe uma (ou mais) observação que influencia o modelo. Caso essa observação seja retirada, os

valores dos coeficientes serão alterados, o modelo será todo alterado.

O "Leverage value" funciona da mesma forma.

O "Studentized delected" irá sinalizar a existência de um outlier. Para isso seria necessário ter a

tabela t de Student.

Após isto selecione CONTINUE e depois OK.

Obs.: não mexa no botão OPTIONS.

A regressão linear simples será realizada. O próximo passo é analisar o seu resultado.

Page 6: Análise de Regressão Linear Simples (SPSS)

Análise de Regressão Linear (SPSS)

Autor: Filipe Mahaluca Page 6

COMO ANALISAR O RESULTADO DA REGRESSÃO LINEAR SIMPLES

Serão apresentados aqui todos os quadros que foram gerados pelo SPSS.

Após cada quadro é mencionada a utilidade dele.

Regression

Este quadro apresenta a média e o desvio padrão de cada variável. Quanto maior for o desvio

padrão em relação à média, mais dispersa será a distribuição da variável, dificultando a sua

estimação (variável Y). E também, caso a variável X possua dispersão alta, isto irá resultar em

uma regressão com estimativas não tão boas, se compararmos com uma regressão na qual a

variável X possui baixa dispersão.

Devemos, então, calcular o CV (coeficiente de variação). O CV é calculado dividindo-se o desvio

padrão pela média.

Caso o CV seja maior do que 50%, sugerimos alteração na variável. Essa alteração pode ser o

logarítimo ou a raiz quadrada da variável. Com isso, a variável ficará menos dispersa e o

resultado da regressão será melhor, ou seja, estaremos estimando Y mais eficientemente.

Interpretação

Para este nosso exemplo, teremos:

Variável Y - taxa de risco

CV = 15,3 / 32,4 = 0,47

Variável X - taxa de juros

CV = 22,1 / 63,2 = 0,34

Como os coeficientes de variação da variável Y e da variável X são menores do que 50%,

considera-se que ambas as variáveis não possuem dispersão alta. Dessa forma, não se sugere

transformação nas variáveis.

Page 7: Análise de Regressão Linear Simples (SPSS)

Análise de Regressão Linear (SPSS)

Autor: Filipe Mahaluca Page 7

Esta tabela apresenta as correlações (de Pearson) entre as variáveis.

Como se trata de uma regressão simples, só é apresentado o coeficiente de correlação entre X e

Y.

O valor do coeficiente de correlação mede a força da relação entre duas variáveis. O sinal

indica se essa relação é diretamente proporcional (sinal positivo) ou inversamente proporcional

(sinal negativo).

Quanto mais próximo de 1 (ou de -1), maior será a relação linear entre duas variáveis. Costuma-

se considerar que a relação é alta, quando o coeficiente de correlação está acima de 0,7 ou

0,8, (ou abaixo de -0,7 ou -0,8). Quando queremos avaliar se o coeficiente de correlação e alto

ou baixo, desconsideramos o sinal.

Interpretação

Neste caso, temos:

O coeficiente de correlação entre as variáveis Taxa de Risco e Taxa de Juros é igual a -0,578. Isso

indica que a relação entre essas duas variáveis é inversa, uma vez que o sinal é negativo. Com isso,

se a Taxa de Juros subir, a Taxa de Risco irá cair e vice-versa.

Além disso, considera-se uma relação linear fraca entre as variáveis Taxa de Risco e Taxa de Juros,

pois o valor de 0,578 (o módulo de -0,578) é bem inferior a 0,7.

Page 8: Análise de Regressão Linear Simples (SPSS)

Análise de Regressão Linear (SPSS)

Autor: Filipe Mahaluca Page 8

Este quadro apresenta o método que foi utilizado para a seleção das variáveis no modelo. Como

a regressão é simples, o método foi o Enter (o que o SPSS coloca como padrão). Com isso, a

Variables Entered, é apenas a Taxa de Juros (X).

Não fazemos análises deste quadro.

Este quadro aparece quando você seleciona Model Fit no quadro Statistics.

Ele apresenta o coeficiente de correlação (R), em módulo (ou seja, desconsidera o sinal).

A análise desse coeficiente já foi feita acima, no quadro Correlations.

Na segunda coluna é apresentado o R Square.

R Square = coeficiente de determinação.

Ele fornece a capacidade preditiva do modelo. Diz qual é a proporção da variação total que é

explicada pela relação entre X e Y.

O valor do R2 é uma das medidas para se escolher o melhor modelo (na regressão simples).

Quanto mais próximo de 1 melhor. Acima de 0,70 já está bom.

Interpretação

No nosso exemplo

Pode-se dizer que 33,4% da variação total é explicada pela relação entre Taxa de Juros e Taxa de

Risco.

Page 9: Análise de Regressão Linear Simples (SPSS)

Análise de Regressão Linear (SPSS)

Autor: Filipe Mahaluca Page 9

Esse coeficiente de determinação de 33,4% indica que o modelo possui uma baixa capacidade

preditiva.

A terceira coluna apresenta do R² ajustado.

Neste caso não iremos analisá-lo, pois ele só é útil na Regressão Linear Múltipla (quando temos

mais de um ‘X’).

A quarta coluna apresenta o Std Error of the Estimate. Ele é o desvio padrão do modelo, e é

usado para compararmos diversos modelos e escolhermos o melhor (o que possuir menor desvio

padrão).

O desvio padrão do modelo é a raiz quadrada da variância residual do modelo (Mean Square

Residual).

A unidade dele é a mesma unidade de Y.

No nosso exemplo

O desvio padrão do modelo é igual a 12,67 %.

Obs.: a unidade das variáveis X e Y é % (taxa em %).

Neste quadro iremos fazer o teste F. É o ‘teste do modelo’. Com ele vamos testar se o modelo

completo (com a variável X) é melhor do que o modelo reduzido (só com beta zero).

O teste F tenta avaliar a importância relativa dos resíduos devido à entrada da nova variável,

sobre os resíduos da regressão sem esta variável. Este teste é mais útil no caso de regressão

múltipla, quando se pretende escolher as variáveis que no conjunto melhoram o modelo. Quanto

maior for o valor de F, maior será a evidência da inclusão da variável X no modelo.

Procedimento para o teste F (na regressão simples):

{

Page 10: Análise de Regressão Linear Simples (SPSS)

Análise de Regressão Linear (SPSS)

Autor: Filipe Mahaluca Page 10

Testamos aqui o modelo reduzido (H0) contra o modelo completo (H1). O alpha não será divido

por dois, pois a curva do F só tem uma cauda, ele será sempre positivo.

Compara-se o Sig. (valor-p) com o valor de alpha. Caso o Sig seja menor do que alpha, rejeita-

se H0 e conclui-se que o modelo completo (com a variável independente) é melhor do que o

modelo reduzido (que só contém a média).

Caso contrário, não se rejeita H0, com de significância, e diz-se que o modelo reduzido é

melhor do que o modelo completo.

Interpretação No nosso exemplo

Teste F - teste do modelo

{

Nível de significância (alpha) = 5%

Sig = 0,000

Como Sig é menor que o nível de significância (alpha), rejeita-se H0 e conclui-se que o modelo

completo (o que contém a variável independente, a variável Taxa de Juros) é melhor do que o

modelo reduzido (o que não contém a variável Taxa de Juros (X)).

Em outras palavras: existe relação linear entre X e Y.

Outra informação: A variância residual do modelo é igual a 160,72%2

Esse quadro fornece os coeficientes (beta zero e beta1), com isso, podemos montar o modelo.

Temos que olhar para os "Unstandardized Coefficients".

São apresentados, também, os intervalos de confiança.

Não podemos esquecer-nos de fazer o teste t (teste do coeficiente).

Page 11: Análise de Regressão Linear Simples (SPSS)

Análise de Regressão Linear (SPSS)

Autor: Filipe Mahaluca Page 11

Interpretação

Faremos, então:

Variável X - Taxa de Juros

Teste t para Beta 1 - teste do coeficiente

{

= 0,05 Como Sig (da variável Taxa de Juros, referente ao coeficiente beta 1) é igual a 0,000, ou seja,

menor do que alpha (0,05), rejeita-se H0 e conclui-se que há evidência de relação linear entre a

Taxa de Juros (X) e a Taxa de Risco (Y).

O modelo linear será:

Y= 57,75 - 0,4 (X)

Interpretação do modelo:

Beta zero = 57,75

Se a Taxa de Juros (X) for igual a zero, a Taxa de Risco será igual a 57,75 %.

Beta 1 = -0,4

A cada unidade adicional na variável Taxa de Juros (X), a variável Taxa de Risco (Y) diminui em

0,4.

(Mesmo não fazendo sentido economicamente falando, uma vez que a relação está inversa, o

modelo é este. Talvez o problema esteja no conjunto de países da amostra).

Quanto ao intervalo de confiança, podemos dizer que existe 95% de confiança verdadeiro beta 1

(o beta 1 da população) pertencer ao intervalo [-0,58 ; -0,21].

Este quadro aparecerá quando for diagnosticado algum caso de possível outlier (ou valor

influente).

Se o resíduo padronizado estiver acima de 3 desvios (tanto positivo quanto negativo), a

observação será uma candidata a outlier. Ela poderá ser outlier ou valor influente.

Page 12: Análise de Regressão Linear Simples (SPSS)

Análise de Regressão Linear (SPSS)

Autor: Filipe Mahaluca Page 12

Interpretação

No exemplo

O primeiro país (case 1) possui o resíduo padronizado acima de 3. Portanto, ele é um candidato a

outlier.

Neste quadro olharemos para o "Std Residual". Se este for menor que -3 ou maior do que 3,

existem candidatos a outlier ou valor influente.

Para isso vamos ver a Cook's Distance, se o Maximum estiver maior de 1 é porque existe

alguma (ou algumas) observações que são valores influentes. Neste caso iremos até a base de

dados (Data view), e na coluna "Coo_1" iremos procurar quem é (ou quem são) essa observação.

No caso estudado as observações são países.

Se caso o Maximun estiver menor do que 1 é porque não existem valores influentes. Logo, a

observação que estiver excedendo 3 desvios padrões será considerada outlier.

Interpretação

No exemplo

Como a distância de Cook (Cook's Distance) máxima é menor do que 1, o país Argentina, que

possui resíduo padronizado acima de 3 desvios, não é considerado valor influente, mas sim um

outlier.

Page 13: Análise de Regressão Linear Simples (SPSS)

Análise de Regressão Linear (SPSS)

Autor: Filipe Mahaluca Page 13

Sugere-se que essa observação seja retirada do banco de dados e que a regressão linear seja

rodada novamente. Com isso, iremos comparar os resultados das duas regressões (com esta

observação e sem ela) e será muito provável que os resultados melhorem (desvio padrão do modelo

diminua e o R2 aumente).

Resta-nos verificarmos as premissas do modelo!!!

São cinco as premissas a serem verificadas e faremos isso com o auxílio dos gráficos abaixo.

Page 14: Análise de Regressão Linear Simples (SPSS)

Análise de Regressão Linear (SPSS)

Autor: Filipe Mahaluca Page 14

Premissas básicas do modelo:

Devem ser verificadas para assegurar a adequabilidade do modelo.

São elas:

1. Linearidade

2. ~ Normal Normalidade

3. E( ) = 0

4. ( ) constante Homocedasticidade

5. cov , ) = 0 Independência

A primeira é a premissa de linearidade. Pode ser verificada pelo teste F. Se rejeitar H0 é

porque existe relação linear, então, a premissa foi satisfeita.

Outra forma de verificar é usando o gráfico dos resíduos (Regression Standardized Residuals)

versus valores ajustados, no qual os pontos devem estar distribuídos de forma aleatória

(totalmente sem formas definidas). Caso eles estejam em forma de parábola, a premissa estaria

Page 15: Análise de Regressão Linear Simples (SPSS)

Análise de Regressão Linear (SPSS)

Autor: Filipe Mahaluca Page 15

sendo violada, então, deve-se incluir uma variável quadrática (x2) no modelo, ou buscar novas

formas de relação.

A segunda premissa é a da normalidade (distribuição Normal). Deve-se observar o gráfico

chamado P-P Plot. Caso as observações estejam na reta ou próximas da reta diagonal,

aceitamos a normalidade. Essa premissa é fundamental, pois toda inferência é feita com base

nas distribuições (t, F) que vêm da Normal. Se a Normal for violada, os testes que serão feitos

não irão servir pra nada. Se não tiver normalidade, não pode-se testar os parâmetros, realizar

o modelo.

A quarta premissa é a de homocedasticidade, que é o mesmo que dizer que a variância dos

erros é constante. Caso não seja, deve-se usar o método dos mínimos quadrados ponderados.

Essa premissa será observada no gráfico dos resíduos (na vertical) versus valores ajustados (na

horizontal). Se os pontos estiverem em forma de buzina é porque existe problema e essa

premissa está sendo violada.

A premissa da independência dos erros pode ser observada no mesmo gráfico dos resíduos

versus valores ajustados. Se os pontos estiverem distribuídos aleatoriamente (sem formas) é

porque não há problema. Mas caso eles estejam distribuídos como retas paralelas, a premissa

estará sendo violada. Esse problema ocorre mais em séries temporais.

Interpretação

A premissa da linearidade foi verificada por meio do teste F. Como rejeitou-se H0, concluiu-

se que existe relação linear entre X e Y;

Por meio do gráfico P-P Plot, verificou-se a premissa da Normalidade. Como os pontos

estão bem próximos da linha diagonal (de probabilidade acumulada), a premissa da

Normalidade foi satisfeita.

A homocedasticidade (variância dos erros constante) foi verificada através do Scattreplot

(Valores preditos X Resíduos padronizados). Como os pontos não formaram a figura de um

gramofone (buzina), a premissa da homocedasticidade foi satisfeita.

A independência dos erros foi verificada através do Scatterplot (Valores preditos X Resíduos

padronizados). Como os pontos não formaram linhas paralelas, a premissa da independência

foi satisfeita.

Page 16: Análise de Regressão Linear Simples (SPSS)

Análise de Regressão Linear (SPSS)

Autor: Filipe Mahaluca Page 16

Conclusão

Ao realizar a regressão linear, constatou-se que existe uma relação linear significativa entre as

variáveis Y (Taxa de Risco) e X (Taxa de Juros), para a amostra estudada. Dessa forma, podemos

estimar a Taxa de Risco a partir da Taxa de Juros, através do modelo de regressão linear

Ou

(Taxa de juros)

Base de Dados

País Taxa de Risco (%) Taxa de Juros (%)

21 26,7 64,4

22 26,4 77,6

23 26,3 83,8

24 26,3 68,9

25 26,1 76,0

26 25,7 94,5

27 24,8 70,8

28 24,5 79,5

29 24,4 26,4

30 23,8 85,3

31 23,4 66,4

32 23,0 93,4

33 22,0 78,4

34 21,8 87,6

35 20,6 72,6

36 19,6 94,7

37 19,2 87,1

38 18,5 87,6

39 17,6 33,6

40 15,4 93,4

País Taxa de Risco (%) Taxa de Juros (%)

1 87,0 31,8

2 74,1 32,6

3 64,8 36,2

4 53,7 72,9

5 47,5 56,7

6 46,3 43,3

7 46,0 45,0

8 41,4 30,6

9 39,6 51,9

10 38,4 29,6

11 35,6 24,5

12 34,3 69,6

13 31,6 38,6

14 31,5 44,4

15 30,7 62,2

16 30,0 46,6

17 28,3 83,0

18 28,0 75,5

19 27,0 55,8

20 26,9 78,2