RLS - usando o SPSS

Embed Size (px)

Citation preview

  • 7/31/2019 RLS - usando o SPSS

    1/18

    [email protected]

    1

    RREEGGRREESSSSOO LLIINNEEAARRSSIIMMPPLLEESS eexxeemmpplloo uussaannddoo oo SSPPSSSS

    O sucesso de um programa de investimento em papis de outros pases depende,

    em grande parte, do controle do risco soberano dos pases constantes no portflio.

    Um meio de se avaliar o risco atravs da taxa de juros praticada pelo pas. Uma

    amostra de 40 pases forneceu os valores anualizados das taxas de risco e de juros

    praticadas em 1997.

    Analise os dados atravs de um modelo de regresso linear simples construdo

    para se estimar o risco soberano esperado do pas em funo da taxa de juros por

    ele praticada.

    Soluo

    Neste caso voc deve fazer a regresso linear, pois se deseja explicar uma varivel

    quantitativa (taxa de risco) por meio de outra varivel quantitativa (taxa de juros). Avarivel que voc quer explicar chama-se varivel dependente, ou varivel explicada

    (tambm chamada de resposta ou endgena) - Y. A outra conhecida como varivel

    independente, ou explicativa (ou exgena) - X.

    Ento, a primeira coisa a ser feita nesse tipo de problema identificar quem a

    varivel Y (dependente - aquela que voc quer prever, estimar) e quem a varivel X

    (aquela que ir ajudar voc a estimar a varivel Y).

    Aps digitar os dados, ou abrir o arquivo que contm os dados, no SPSS, deve-se

    rodar a regresso.

  • 7/31/2019 RLS - usando o SPSS

    2/18

    [email protected]

    2

    COMO RODAR A REGRESSO LINEAR SIMPLES NO SPSS

    Primeiramente deve-se selecionar ANALYZEREGRESSION

    LINEAR

    Como temos apenas uma varivel independente (X), a regresso linear simples.

    Na prxima tela selecionamos a varivel dependente (Y = taxa de risco) e a varivel

    independente (X = taxa de juros).

    O mtodo selecionado ser o Enter.

  • 7/31/2019 RLS - usando o SPSS

    3/18

    [email protected]

    3

    Aps isto, seleciona-se STATISTICS.

    Como a regresso SIMPLES, seleciona-se apenas os itens: "estimates","confidence

    intervals", "model fit", "descriptives" e "casewise diagnostics".

    Obs.: quando o "casewise diagnostics" for selecionado, aparecer: "Outliers outside 3

    standards deviations".

    Deixe assim. Isso quer dizer que os resduos que estiverem acima ou abaixo de 3

    desvios padres sero considerados outliers.

    Aps isto selecione CONTINUE.

    Selecione ento a tecla PLOTS.

    Aqui sero feitos os grficos utilizados para verificar a existncia de outlier (ou valor

    influente), e tambm verificar as premissas do modelo.

  • 7/31/2019 RLS - usando o SPSS

    4/18

    [email protected]

    4

    Selecione para Y o "ZRESID". Ele corresponde ao resduo padronizado.

    Para a varivel X selecione "ZPRED". Este o valor de Y estimado padronizado.

    Selecione NORMAL PROBABILITY PLOT. Este grfico tambm conhecido como PP-

    Plot e ser utilizado para testar a premissa da Normalidade.

    Aps isto, selecione CONTINUE.

    Selecione ento a tecla SAVE.

    Quando selecionamos qualquer item no SAVE, o SPSS ir salvar na base de dados (Data

    view) os valores correspondentes aos itens que forem selecionados.

  • 7/31/2019 RLS - usando o SPSS

    5/18

    [email protected]

    5

    O "Cook's" a distncia de Cook e ser utilizada para se verificar a existncia de

    valores influentes. Caso seja prximo ou maior do que 1, ser um valor influente. Isso

    significa dizer que existe uma (ou mais) observao que influencia o modelo. Caso essa

    observao seja retirada, os valores dos coeficientes sero alterados, o modelo ser

    todo alterado.

    O "Leverage value" funciona da mesma forma.

    O "Studentized delected" ir sinalizar a existncia de um outlier. Para isso seria

    necessrio ter a tabela t de Student.

    Aps isto selecione CONTINUE e depois OK.

    Obs.: no mexa no boto OPTIONS.

    A regresso linear simples ser realizada. O prximo passo analisar o seu resultado.

  • 7/31/2019 RLS - usando o SPSS

    6/18

    [email protected]

    6

    COMO ANALISAR O RESULTADO DA REGRESSO LINEAR

    SIMPLES

    Sero apresentados aqui todos os quadros que foram gerados pelo SPSS.

    Aps cada quadro mencionada a utilidade dele. E, em itlico e azul, feita a anliseestatstica.

    Regression

    Este quadro apresenta a mdia e o desvio padro de cada varivel. Quanto maior for o

    desvio padro em relao mdia, mais dispersa ser a distribuio da varivel,

    dificultando a sua estimao (varivel Y). E tambm, caso a varivel X possua disperso

    alta, isto ir resultar em uma regresso com estimativas no to boas, se compararmos

    com uma regresso na qual a varivel X possui baixa disperso.

    Devemos, ento, calcular o CV (coeficiente de variao). O CV calculado dividindo-seo desvio padro pela mdia.

    Caso o CV seja maior do que 50%, sugerimos alterao na varivel. Essa alterao pode

    ser o logartimo ou a raiz quadrada da varivel. Com isso, a varivel ficar menos

    dispersa e o resultado da regresso ser melhor, ou seja, estaremos estimando Y mais

    eficientemente.

    Para este nosso exemplo, teremos:

    Varivel Y - taxa de risco

    CV = 15,3 / 32,4 = 0,47

    Varivel X - taxa de juros

    CV = 22,1 / 63,2 = 0,34

    Como os coeficientes de variao da varivel Y e da varivel X so menores do que

    50%, considera-se que ambas as variveis no possuem disperso alta. Dessa forma,

    no se sugere transformao nas variveis.

    Descriptive Statistics

    32,4700 15,3355 40

    63,2750 22,1824 40

    Taxa de Risco

    Taxa de Juros

    Mean Std. Dev iation N

  • 7/31/2019 RLS - usando o SPSS

    7/18

    [email protected]

    7

    Esta tabela apresenta as correlaes (de Pearson) entre as variveis.

    Como se trata de uma regresso simples, s apresentado o coeficiente de correlao

    entre X e Y.

    O valor do coeficiente de correlao mede a fora da relao entre duas variveis. O

    sinal indica se essa relao diretamente proporcional (sinal positivo) ou

    inversamente proporcional (sinal negativo).

    Quanto mais prximo de 1 (ou de -1), maior ser a relao linear entre duas variveis.

    Costuma-se considerar que a relao alta, quando o coeficiente de correlao est

    acima de 0,7 ou 0,8, (ou abaixo de -0,7 ou -0,8). Quando queremos avaliar se o

    coeficiente de correlao e alto ou baixo, desconsideramos o sinal.

    Neste caso, temos:

    O coeficiente de correlao entre as variveis Taxa de Risco e Taxa de Juros igual a

    -0,578. Isso indica que a relao entre essas duas variveis inversa, uma vez que o

    sinal negativo. Com isso, se a Taxa de Juros subir, a Taxa de Risco ir cair e vice-versa.

    Alm disso, considera-se uma relao linear fraca entre as variveis Taxa de Risco e

    Taxa de Juros, pois o valor de 0,578 (o mdulo de -0,578) bem inferior a 0,7.

    Correlations

    1,000 -,578

    -,578 1,000

    , ,000

    ,000 ,

    40 40

    40 40

    Taxa de Risco

    Taxa de Juros

    Taxa de Risco

    Taxa de Juros

    Taxa de Risco

    Taxa de Juros

    Pearson Correlation

    Sig. (1-tailed)

    N

    Taxa de Risco Taxa de Juros

  • 7/31/2019 RLS - usando o SPSS

    8/18

    [email protected]

    8

    Este quadro apresenta o mtodo que foi utilizado para a seleo das variveis nomodelo. Como a regresso simples, o mtodo foi o Enter (o que o SPSS coloca comopadro). Com isso, a VariablesEntered, apenas a Taxa de Juros (X).

    No fazemos anlises deste quadro.

    Este quadro aparece quando voc seleciona ModelFit no quadro Statistics.

    Ele apresenta o coeficiente de correlao (R), em mdulo (ou seja, desconsidera osinal).

    A anlise desse coeficiente j foi feita acima, no quadro Correlations.

    Na segunda coluna apresentado o R Square.

    R Square = R2 coeficiente de determinao.Ele fornece a capacidade preditiva do modelo. Diz qual a proporo da variao totalque explicada pela relao entre X e Y.

    O valor do R2 uma das medidas para se escolher o melhor modelo (na regressosimples).

    Variables Entered/Removedb

    Taxa de

    Jurosa , Enter

    Model

    1

    Variables

    Entered

    Variables

    Remov ed Method

    All requested v ariables entered.a.

    Dependent Variable: Taxa de Riscob.

    Model Summaryb

    ,578a ,334 ,317 12,6777

    Model

    1

    R R Square

    Adjusted

    R Square

    Std. Error of

    the Estimate

    Predictors: (Constant), Taxa de Jurosa.

    Dependent Variable: Taxa de Riscob.

    102 R

  • 7/31/2019 RLS - usando o SPSS

    9/18

    [email protected]

    9

    Quanto mais prximo de 1 melhor. Acima de 0,70 j est bom.

    No nosso exemplo

    Pode-se dizer que 33,4% da variao total explicada pela relao entre Taxa de Juros

    e Taxa de Risco.

    Esse coeficiente de determinao de 33,4% indica que o modelo possui uma baixa

    capacidade preditiva.

    A terceira coluna apresenta do R ajustado.

    Neste caso no iremos analis-lo, pois ele s til na Regresso Linear Mltipla

    (quando temos mais de um X).

    A quarta coluna apresenta o Std Error of the Estimate. Ele o desvio padro do

    modelo, e usado para compararmos diversos modelos e escolhermos o melhor (oque possuir menor desvio padro).

    O desvio padro do modelo a raiz quadrada da varincia residual do modelo (Mean

    Square Residual).

    A unidade dele a mesma unidade de Y.

    No nosso exemplo

    O desvio padro do modelo igual a 12,67 %.

    Obs.: a unidade das variveis X e Y % (taxa em %).

  • 7/31/2019 RLS - usando o SPSS

    10/18

    [email protected]

    10

    Neste quadro iremos fazer o teste F. o teste do modelo. Com ele vamos testar se o

    modelo completo (com a varivel X) melhor do que o modelo reduzido (s com beta

    zero).

    O teste F tenta avaliar a importncia relativa dos resduos devido entrada da nova

    varivel, sobre os resduos da regresso sem esta varivel. Este teste mais til no

    caso de regresso mltipla, quando se pretende escolher as variveis que no conjunto

    melhoram o modelo. Quanto maior for o valor de F, maior ser a evidncia da incluso

    da varivel X no modelo.

    Procedimento para o teste F (na regresso simples):

    H0: Y = 0 +

    H1: Y = 0 + 1X +

    Testamos aqui o modelo reduzido (H0) contra o modelo completo (H1). O alpha no

    ser divido por dois, pois a curva do F s tem uma cauda, ele ser sempre positivo.

    Compara-se o Sig. (valor-p) com o valor de alpha. Caso o Sig seja menor do que alpha,

    rejeita-se H0 e conclui-se que o modelo completo (com a varivel independente)

    melhor do que o modelo reduzido (que s contm a mdia).

    Caso contrrio, no se rejeita H0, com de significncia, e diz-se que o modelo

    reduzido melhor do que o modelo completo.

    ANOVAb

    3064,405 1 3064,405 19,066 ,000a

    6107,519 38 160,724

    9171,924 39

    Regression

    Residual

    Total

    Model

    1

    Sum ofSquares df Mean Square F Sig.

    Predictors: (Constant), Taxa de Jurosa.

    Dependent Variable: Taxa de Riscob.

  • 7/31/2019 RLS - usando o SPSS

    11/18

    [email protected]

    11

    No nosso exemplo

    Teste F - teste do modelo

    H0: Y =0 +

    H1: Y =0 +1X +

    Nvel de significncia (alpha) = 5%

    Sig = 0,000

    Como Sig menor que o nvel de significncia (alpha), rejeita-se H0 e conclui-se que o

    modelo completo (o que contm a varivel independente, a varivel Taxa de Juros)

    melhor do que o modelo reduzido (o que no contm a varivel Taxa de Juros (X)).

    Em outras palavras: existe relao linear entre X e Y.

    Outra informao: A varincia residual do modelo igual a 160,72%2.

    Esse quadro fornece os coeficientes (beta zero e beta1), com isso, podemos montar omodelo. Temos que olhar para os "Unstandardized Coefficients".

    So apresentados, tambm, os intervalos de confiana.

    No podemos esquecer-nos de fazer o teste t (teste do coeficiente).

    Coefficientsa

    57,755 6,128 9,425 ,000 45,350 70,160

    -,400 ,092 -,578 -4,366 ,000 -,585 -,214

    (Constant)

    Taxa de Juros

    Model

    1

    B Std. Error

    Unstandardized

    Coeff icients

    Beta

    Standardi

    zed

    Coeff icien

    ts

    t Sig. Lower Bound Upper Bound

    95% Confidence Interv al for B

    Dependent Variable: Taxa de Riscoa.

  • 7/31/2019 RLS - usando o SPSS

    12/18

    [email protected]

    12

    Faremos, ento:

    Varivel X - Taxa de Juros

    Teste t para Beta 1 - teste do coeficiente

    H0:1 = 0

    H1:10

    = 0,05

    Como Sig (da varivel Taxa de Juros, referente ao coeficiente beta 1) igual a 0,000, ou

    seja, menor do que alpha (0,05), rejeita-se H0 e conclui-se que h evidncia de relao

    linear entre a Taxa de Juros (X) e a Taxa de Risco (Y).

    O modelo linear ser:

    = 57,75 - 0,4 (X)

    Interpretao do modelo:

    Beta zero = 57,75

    Se a Taxa de Juros (X) for igual a zero, a Taxa de Risco ser igual a 57,75 %.

    Beta 1 = -0,4

    A cada unidade adicional na varivel Taxa de Juros (X), a varivel Taxa de Risco

    (Y) diminui em 0,4.

    (Mesmo no fazendo sentido economicamente falando, uma vez que a relaoest inversa, o modelo este. Talvez o problema esteja no conjunto de pases

    da amostra).

    Quanto ao intervalo de confiana, podemos dizer que existe 95% de confiana

    verdadeiro beta 1 (o beta 1 da populao) pertencer ao intervalo [-0,58 ; -0,21].

  • 7/31/2019 RLS - usando o SPSS

    13/18

    [email protected]

    13

    Este quadro aparecer quando for diagnosticado algum caso de possvel outlier (ou

    valor influente).

    Se o resduo padronizado estiver acima de 3 desvios (tanto positivo quanto negativo),a observao ser uma candidata a outlier. Ela poder ser outlier ou valor influente.

    No exemplo

    O primeiro pas (case 1) possui o resduo padronizado acima de 3. Portanto, ele um

    candidato a outlier.

    Neste quadro olharemos para o "Std Residual". Se este for menor que -3 ou maior do

    que 3, existem candidatos a outlier ou valor influente.

    Para isso vamos ver a Cook's Distance, se o Maximum estiver maior de 1 porque

    existe alguma (ou algumas) observaes que so valores influentes. Neste caso iremos

    Casewise Diagnosticsa

    3,309 87,00 45,0476 41,9524

    Case Number

    1

    Std. Residual Taxa de Risco

    Predicted

    Value Residual

    Dependent Variable: Taxa de Riscoa.

    Residuals Statisticsa

    19,9124 47,9647 32,4700 8,8642 40

    -1,417 1,748 ,000 1,000 40

    2,0069 4,0756 2,7719 ,6013 40

    19,5241 49,6233 32,4840 8,9571 40

    -26,7283 41,9524 -1,20E-15 12,5141 40

    -2,108 3,309 ,000 ,987 40

    -2,187 3,444 -,001 1,022 40

    -28,7676 45,4337 -1,40E-02 13,4149 40

    -2,308 4,097 ,020 1,107 40

    ,002 3,056 ,975 ,850 40

    ,000 ,492 ,037 ,092 40

    ,000 ,078 ,025 ,022 40

    Predicted Value

    Std. Predicted Value

    Standard Error of

    Predicted Value

    Adjusted Predicted Value

    Residual

    Std. Residual

    Stud. Residual

    Deleted Residual

    Stud. Deleted Residual

    Mahal. Distance

    Cook's DistanceCentered Leverage Value

    Minimum Maximum Mean Std. Dev iation N

    Dependent Variable: Taxa de Riscoa.

  • 7/31/2019 RLS - usando o SPSS

    14/18

    [email protected]

    14

    at a base de dados (Data view), e na coluna "Coo_1" iremos procurar quem (ou

    quem so) essa observao. No caso estudado as observaes so pases.

    Se caso o Maximun estiver menor do que 1 porque no existem valores influentes.

    Logo, a observao que estiver excedendo 3 desvios padres ser considerada outlier.

    No exemplo

    Como a distncia de Cook (Cook's Distance) mxima menor do que 1, o pas

    Argentina, que possui resduo padronizado acima de 3 desvios, no considerado valorinfluente, mas sim um outlier.

    Sugere-se que essa observao seja retirada do banco de dados e que a regresso

    linear seja rodada novamente. Com isso, iremos comparar os resultados das duas

    regresses (com esta observao e sem ela) e ser muito provvel que os resultados

    melhorem (desvio padro do modelo diminua e o R2 aumente).

    Resta-nos verificarmos as premissas do modelo!!!

    So cinco as premissas a serem verificadas e faremos isso com o auxlio dos grficos

    abaixo.

    Charts

    Normal P-P Plot of Regression Standar

    Dependent Variable: Taxa de Risco

    Observed Cum Prob

    1,00,75,50,250,00

    1,00

    ,75

    ,50

    ,25

    0,00

  • 7/31/2019 RLS - usando o SPSS

    15/18

    [email protected]

    15

    Premissas bsicas do modelo:

    Devem ser verificadas para assegurar a adequabilidade do modelo.

    So elas:1. Linearidade

    2. i ~ Normal - Normalidade

    3. E(i) = 0

    4. 2(i) constante Homocedasticidade

    5. cov(i,j) = 0 Independncia

    Scatterplot

    Dependent Variable: Taxa de Risco

    Regr ession Standardized Predicted Value

    2,01,51,0,50,0-,5-1,0-1,5

    4

    3

    2

    1

    0

    -1

    -2

    -3

  • 7/31/2019 RLS - usando o SPSS

    16/18

    [email protected]

    16

    A primeira a premissa de linearidade. Pode ser verificada pelo teste F. Se rejeitar H0

    porque existe relao linear, ento, a premissa foi satisfeita.

    Outra forma de verificar usando o grfico dos resduos (Regression Standardized

    Residuals) versus valores ajustados, no qual os pontos devem estar distribudos de

    forma aleatria (totalmente sem formas definidas). Caso eles estejam em forma de

    parbola, a premissa estaria sendo violada, ento, deve-se incluir uma varivel

    quadrtica (X2) no modelo, ou buscar novas formas de relao.

    A segunda premissa a da normalidade (distribuio Normal). Deve-se observar o

    grfico chamado P-P Plot. Caso as observaes estejam na reta ou prximas da reta

    diagonal, aceitamos a normalidade. Essa premissa fundamental, pois toda inferncia

    feita com base nas distribuies (t, F) que vm da Normal. Se a Normal for violada, os

    testes que sero feitos no iro servir pra nada. Se no tiver normalidade, no pode-se

    testar os parmetros, realizar o modelo.

    A quarta premissa a de homocedasticidade, que o mesmo que dizer que a

    varincia dos erros constante. Caso no seja, deve-se usar o mtodo dos mnimosquadrados ponderados. Essa premissa ser observada no grfico dos resduos (na

    vertical) versus valores ajustados (na horizontal). Se os pontos estiverem em forma de

    buzina porque existe problema e essa premissa est sendo violada.

    A premissa da independncia dos erros pode ser observada no mesmo grfico dos

    resduos versus valores ajustados. Se os pontos estiverem distribudos aleatoriamente

    (sem formas) porque no h problema. Mas caso eles estejam distribudos como

    retas paralelas, a premissa estar sendo violada. Esse problema ocorre mais em sries

    temporais.

  • 7/31/2019 RLS - usando o SPSS

    17/18

    [email protected]

    17

    No nosso exemplo:

    Premissas bsicas:

    1. Linearidade2. Normalidade3. E(i) = 04. Homocedasticidade5. Independncia

    A premissa da linearidade foi verificada por meio do teste F. Como rejeitou-se H0,

    concluiu-se que existe relao linear entre X e Y;

    Por meio do grfico P-P Plot, verificou-se a premissa da Normalidade. Como os pontos

    esto bem prximos da linha diagonal (de probabilidade acumulada), a premissa da

    Normalidade foi satisfeita.

    A homocedasticidade (varincia dos erros constante) foi verificada atravs do

    Scattreplot (Valores preditos X Resduos padronizados). Como os pontos no formaram

    a figura de um gramofone (buzina), a premissa da homocedasticidade foi satisfeita.

    A independncia dos erros foi verificada atravs do Scatterplot (Valores preditos X

    Resduos padronizados). Como os pontos no formaram linhas paralelas, a premissa da

    independncia foi satisfeita.

    ................

    Ao realizar a regresso linear, constatou-se que existe uma relao linear significativa

    entre as variveis Y (Taxa de Risco) e X (Taxa de Juros), para a amostra estudada.

    Dessa forma, podemos estimar a Taxa de Risco a partir da Taxa de Juros, atravs do

    modelo de regresso linear

    = 57,75 - 0,4 X

    ou

    = 57,75 - 0,4 (Taxa de Juros)

  • 7/31/2019 RLS - usando o SPSS

    18/18

    [email protected]

    18

    Base de dados

    Pas Taxa de Risco (%) Taxa de Juros (%)

    Argentina 87,0 31,8

    Turquia 74,1 32,6

    Brasil 64,8 36,2

    Taiwan 53,7 72,9

    Portugal 47,5 56,7

    Mxico 46,3 43,3

    Venezuela 46,0 45,0

    Nigria 41,4 30,6

    Grcia 39,6 51,9

    Filipinas 38,4 29,6

    Zimbbue 35,6 24,5

    Hong Kong 34,3 69,6

    Chile 31,6 38,6

    Colmbia 31,5 44,4

    Korea 30,7 62,2

    ndia 30,0 46,6

    Norway 28,3 83,0

    Itlia 28,0 75,5

    Tailndia 27,0 55,8

    Austrlia 26,9 78,2

    Malsia 26,7 64,4

    Singapura 26,4 77,6

    ustria 26,3 83,8

    Nova Zelndia 26,3 68,9

    Finlndia 26,1 76,0

    Japo 25,7 94,5

    Espanha 24,8 70,8

    Sucia 24,5 79,5

    Paquisto 24,4 26,4

    Frana 23,8 85,3

    Ireland 23,4 66,4Alemanha 23,0 93,4

    Blgica 22,0 78,4

    Reino Unido 21,8 87,6

    Dinamarca 20,6 72,6

    Suia 19,6 94,7

    Canad 19,2 87,1

    Netherlands 18,5 87,6

    Jordan 17,6 33,6

    EUA 15,4 93,4