98
Ana Filipa Antunes Viriato Silva Licenciatura em Matemática Modelação do Risco de Crédito numa Carteira de Crédito ao Consumo Dissertação para obtenção do Grau de Mestre em Matemática e Aplicações, no ramo de Actuariado, Estatística e Investigação Operacional Orientadores : Professora Doutora Gracinda Rita Diogo Guer- reiro, Professora Auxiliar, Faculdade de Ciências e Tecnologias, UNL, Portugal Professor Doutor Manuel Leote Tavares Inglês Es- quível, Professor Associado, Faculdade de Ciên- cias e Tecnologias, UNL, Portugal Júri: Presidente: Professor Doutor Jorge Orestes Lasbarrères Cerdeira Arguente: Professor Doutor José Faias Vogal: Professor Doutor Manuel Leote Tavares Inglês Esquível Setembro, 2014

Modelação do Risco de Crédito numa Carteira de Crédito ... · Ana Filipa Antunes Viriato Silva Licenciatura em Matemática Modelação do Risco de Crédito numa Carteira de Crédito

Embed Size (px)

Citation preview

Ana Filipa Antunes Viriato Silva

Licenciatura em Matemtica

Modelao do Risco de Crdito numa Carteirade Crdito ao Consumo

Dissertao para obteno do Grau de Mestre emMatemtica e Aplicaes, no ramo de Actuariado, Estatstica e

Investigao Operacional

Orientadores : Professora Doutora Gracinda Rita Diogo Guer-reiro, Professora Auxiliar, Faculdade de Cinciase Tecnologias, UNL, PortugalProfessor Doutor Manuel Leote Tavares Ingls Es-quvel, Professor Associado, Faculdade de Cin-cias e Tecnologias, UNL, Portugal

Jri:

Presidente: Professor Doutor Jorge Orestes Lasbarrres Cerdeira

Arguente: Professor Doutor Jos Faias

Vogal: Professor Doutor Manuel Leote Tavares Ingls Esquvel

Setembro, 2014

Modelao do Risco de Crdito numa Carteira de Crdito ao Consumo

Copyright c Ana Filipa Antunes Viriato Silva, Faculdade de Cincias e Tecnologia, Uni-versidade Nova de Lisboa

A Faculdade de Cincias e Tecnologia e a Universidade Nova de Lisboa tm o direito,perptuo e sem limites geogrficos, de arquivar e publicar esta dissertao atravs de ex-emplares impressos reproduzidos em papel ou de forma digital, ou por qualquer outromeio conhecido ou que venha a ser inventado, e de a divulgar atravs de repositrioscientficos e de admitir a sua cpia e distribuio com objectivos educacionais ou de in-vestigao, no comerciais, desde que seja dado crdito ao autor e editor.

Modelao do Risco de Crdito numa Carteirade Crdito ao Consumo

Dissertao para obteno do Grau de Mestre emMatemtica e Aplicaes, no ramo de Actuariado, Estatstica e

Investigao Operacional

Ana Filipa Antunes Viriato Silva

Licenciatura em Matemtica

Agradecimentos

Agradeo aos meus orientadores, Professora Doutora Gracinda Rita Guerreiro e Profes-sor Doutor Manuel L. Esquvel por todos os conhecimentos valiosos que me transmiti-ram, pelo apoio, pela experincia, pela dedicao e por toda a disponibilidade ao longodesta dissertao. E pelo convite na participao na construo de um artigo, foi muitogratificante.

Ao Professor Doutor Jos Fernandes, pela sua disponibilidade no tratamento de da-dos e instituio bancria que nos forneceu os dados para que fosse possvel realizaresta dissertao.

Aos meus colegas e amigos deste percurso pela amizade, pelo apoio, pelo incentivoconstante e por todos os momentos que foram passados em conjunto.

Por ltimo e com mxima importncia, minha famlia pelo carinho, pela pacincia epelo apoio incondicional, que sem ele nunca teria chegado ao fim deste grande projecto.E por estarem sempre por perto nas alturas em que era preciso um gigante empurro.

v

Resumo

A anlise de risco de crdito nas instituies bancrias e a mensurao do risco deextrema importncia para as instituies, uma vez que a concesso de crdito a suaprincipal actividade. A capacidade de distinguir bom e mau cliente um processodecisivo na constituio do crdito, pelo que so aplicados modelos de Credit Scoring ,modelos quantitativos que consistem numa anlise estatstica qualidade do crdito.

O objectivo desta dissertao estimar a probabilidade de incumprimento de cadacliente em funo das variveis scio-econmicas e demogrficas, tendo por base dadosde uma carteira de crdito ao consumo de uma Instituio Bancria de Cabo Verde, atra-vs de uma tcnica estatstica multivariada: a Regresso Logstica.

Adicionalmente, estima-se a taxa de recuperao do crdito, para clientes incumpri-dores, recorrendo Regresso Beta, com base no histrico do crdito de cada cliente.

Neste trabalho prope-se, ainda, um modelo para a estimao do spread a aplicar a umnovo cliente assumido pela instituio bancria, em funo da probabilidade de default(incumprimento) e da taxa de recuperao estimada.

Palavras-chave: Risco de Crdito, Regresso Logstica, Regresso Beta, Probabilidadede Default, Taxa de Recuperao, Spread

vii

Abstract

The analysis of credit risk in banking institutions and the measurement of risk is ofextreme importance to institutions, since the granting of credit is their main activity. Theability to distiguish good and bad clients, is a decisive process in the constitution ofthe credit and therefore Credit Scoring models are implemented, quantitive models thatconsist of a statistical analysis of the credit quality.

The puporse of this dissertation is to estimate the probability of default of each clientdepending on the socio-economic and demographic variables, taking the database of aconsumer credit portfolio of a Cape Verde bnk, over a multivariate statistical technique:Logistic Regreesion.

Additionally, a recovery rate of the credit is estimated, for defaulting clients using aBeta Regression, based on client history.

This survey also proposes a model for determining the spread to apply for a newclient assumed by the banking institution, and the spread is a function of the probabilityos default and of the recovery rate.

Keywords: Credit Risk, Logistic Regression, Beta Regression, Probability of Default,Recovery Rate, Spread

ix

Contedo

1 Introduo 1

2 Risco de Crdito e Spread 32.1 Modelos de anlise de Risco de Crdito . . . . . . . . . . . . . . . . . . . . 3

2.1.1 Risco de Crdito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32.1.2 Modelos de Risco de Crdito . . . . . . . . . . . . . . . . . . . . . . 42.1.3 Modelos de Classificao de Risco . . . . . . . . . . . . . . . . . . . 5

2.2 Estimao do Spread . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.2.1 Spread . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.2.2 Medidas de Risco de Crdito . . . . . . . . . . . . . . . . . . . . . . 112.2.3 Estimao do Spread - uma proposta de modelao . . . . . . . . . 11

3 Modelos Lineares Generalizados 153.1 A Famlia Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153.2 Mdia e Varincia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.3 As componentes dos Modelos Lineares Generalizados . . . . . . . . . . . . 173.4 Metologia dos Modelos Lineares Generalizados . . . . . . . . . . . . . . . 183.5 Estimao dos parmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.5.1 Mtodo dos Scores de Fisher . . . . . . . . . . . . . . . . . . . . . . 193.6 Testes de Hipteses sobre . . . . . . . . . . . . . . . . . . . . . . . . . . . 203.7 Modelo de Regresso Logstica . . . . . . . . . . . . . . . . . . . . . . . . . 223.8 Modelo de Regresso Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.9 Qualidade de Ajustamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.9.1 Funo Desvio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.10 Anlise de Resduos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.11 Seleco dos Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.11.1 Mtodo Stepwise para a escolha das covariveis . . . . . . . . . . . 313.11.2 Critrio de Informao Akaike . . . . . . . . . . . . . . . . . . . . . 31

3.12 Observaes discordantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

xi

xii CONTEDO

4 Modelao de Risco de Crdito - Aplicao 354.1 A Carteira de Crdito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

4.1.1 Base de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.1.2 Definio de Cliente incumpridor . . . . . . . . . . . . . . . . . . . 374.1.3 Anlise Estatstica das Variveis . . . . . . . . . . . . . . . . . . . . 39

4.2 Probabilidade de Default - Regresso Logstica . . . . . . . . . . . . . . . . 454.2.1 Ajustamento dos dados - Probabilidade de Default . . . . . . . . . . 454.2.2 Anlise dos resduos . . . . . . . . . . . . . . . . . . . . . . . . . . . 504.2.3 Estimao da probabilidade de Default . . . . . . . . . . . . . . . . . 54

4.3 Proporo das Prestaes Pagas - Regresso Beta . . . . . . . . . . . . . . . 574.3.1 Ajustamento dos dados - Proporo de Prestaes Pagas . . . . . . 584.3.2 Anlise de Resduos . . . . . . . . . . . . . . . . . . . . . . . . . . . 624.3.3 Estimao da Proporo das Prestaes Pagas . . . . . . . . . . . . 65

4.4 Taxa de Recuperao do Crdito - Regresso Beta . . . . . . . . . . . . . . 674.4.1 Ajustamento de dados - Taxa de Recuperao . . . . . . . . . . . . 674.4.2 Anlise de Resduos . . . . . . . . . . . . . . . . . . . . . . . . . . . 694.4.3 Estimao da Taxa de Recuperao . . . . . . . . . . . . . . . . . . . 70

4.5 Estimao do Spread - Metodologia Actuarial . . . . . . . . . . . . . . . . . 72

5 Concluso 75

Lista de Figuras

4.1 Histogramas Variveis Qualitativas . . . . . . . . . . . . . . . . . . . . . . . 404.2 Caixa-e-Bigodes: Varivel Valor Emprstimo . . . . . . . . . . . . . . . . . . 414.3 Caixa-e-Bigodes: Prazo e Prestaes Pagas . . . . . . . . . . . . . . . . . . . . 414.4 Histogramas Variveis Quantitativas . . . . . . . . . . . . . . . . . . . . . . 424.5 1 Critrio: Varivel default vs variveis Quantitativas . . . . . . . . . . . . 434.6 1 Critrio: Relao entre a varivel default e as variveis Quantitativas . . 434.7 2 Critrio: Relao entre a varivel default e as variveis Quantitativas . . 444.8 2 Critrio: Varivel default vs variveis Quantitativas . . . . . . . . . . . . 454.9 Prob. default: Desvios residuais reduzidos - 1 Critrio . . . . . . . . . . . . 514.10 Prob. default: Observaes com repercusso Elevada - 1 Critrio . . . . . . 524.11 Prob. default: Distncias de Cook - 1 Critrio . . . . . . . . . . . . . . . . . 524.12 Prob. default: Desvios residuais reduzidos - 2 Critrio . . . . . . . . . . . . 534.13 Prob. default: Observaes com repercusso Elevada - 2 Critrio . . . . . . 534.14 Prob. default: Distncias de Cook - 2 Critrio . . . . . . . . . . . . . . . . . 544.15 Distribuio da probabilidade de default da carteria . . . . . . . . . . . . . 564.16 PPagas: Anlise de Resduos - 1 Critrio . . . . . . . . . . . . . . . . . . . 634.17 PPagas: Distncias de Cook - 1 Critrio . . . . . . . . . . . . . . . . . . . . 634.18 PPagas: Anlise de Resduos - 2 Critrio . . . . . . . . . . . . . . . . . . . 644.19 PPagas: Distncias de Cook - 2 Critrio . . . . . . . . . . . . . . . . . . . . 644.20 Distribuio da Proporo das Prestaes Pagas da carteria . . . . . . . . . . . 674.21 Taxa de Recuperao - Anlise de Resduos . . . . . . . . . . . . . . . . . . 694.22 Taxa de Recuperao - Distncias de Cook . . . . . . . . . . . . . . . . . . . 704.23 Distrituio da Taxa de Recuperao da carteira . . . . . . . . . . . . . . . . . 72

xiii

Lista de Tabelas

2.1 Rating da agncia Standard & Poors . . . . . . . . . . . . . . . . . . . . . . . 9

4.1 Definio das Variveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364.2 Descrio das Categorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374.3 Definio de Cliente incumpridor . . . . . . . . . . . . . . . . . . . . . . . . 384.4 Definio de Cliente incumpridor . . . . . . . . . . . . . . . . . . . . . . . . 384.5 Anlise Preliminar das Variveis . . . . . . . . . . . . . . . . . . . . . . . . 394.6 Prob. default: Modelo Completo - 1 Critrio . . . . . . . . . . . . . . . . . . 464.7 Prob. default: Modelo de ajustamento final - 1 Critrio . . . . . . . . . . . 484.8 Prob.Default: Modelo Completo - 2 Critrio . . . . . . . . . . . . . . . . . . 494.9 Prob. default: Modelo de ajustamento final - 2 Critrio . . . . . . . . . . . 504.10 Prob. default: Cliente Padro . . . . . . . . . . . . . . . . . . . . . . . . . . . 554.11 Prob. default: Ajustamento da Probabilidade de default . . . . . . . . . . . . 554.12 Clientes Ilustrativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 564.13 Prob. default: Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 564.14 Prob. default: Odds Ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 574.15 PPagas: Modelo Completo - 1 Critrio . . . . . . . . . . . . . . . . . . . . 594.16 PPagas: Modelo final de ajustamento - 1 Critrio . . . . . . . . . . . . . . 604.17 PPagas: Modelo Completo - 2 Critrio . . . . . . . . . . . . . . . . . . . . 614.18 PPagas: Modelo final de ajustamento - 2 Critrio . . . . . . . . . . . . . . 624.19 PPagas: Cliente Padro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 654.20 PPagas: Ajustamento da Proporo das Prestaes Pagas . . . . . . . . . . . . 664.21 Proporo em Dvida - Modelo Completo . . . . . . . . . . . . . . . . . . . 684.22 Proporo em Dvida - Modelo de ajustamento final . . . . . . . . . . . . . 694.23 Modelo de regresso para LGD: Cliente Padro . . . . . . . . . . . . . . . . 714.24 Modelo de regresso para LGD . . . . . . . . . . . . . . . . . . . . . . . . . 714.25 Exemplos - Estimao do spread . . . . . . . . . . . . . . . . . . . . . . . . . 73

xv

1Introduo

Nas ltimas dcadas, devido crise financeira, tm vido a ocorrer profundas mudanasno seio das instituies bancrias, pelo que se tornou fundamental para estas contro-lar o risco de crdito. Muitas destas mudanas foram originadas pela competitividadedos mercados, pela expanso dos mercados de capitais, pelas alteraes desregulares dataxa de juro, por spreads altos ou pelo aumento da probabilidade de incumprimento. Eacresceu a necessidade de controlar e de gerir eficazmente o risco de modo a aferir a pro-babilidade de incumprimento na concesso de um crdito.

Em Cabo Verde, em comparao com outras economias similares, o diferencial dastaxas de juro ou spread das instituies bancrias, geralmente, alto, o que condicionade certa forma o seu desenvolvimento no sector. E a anlise de risco um processo essen-cialmente intuitivo, baseado na experincia dos analistas de crdito, pelo que, perante acrescente presso para a maximizao das receitas das instituies, estas foram levadasa procurar mecanismos mais eficientes para seleccionar novos clientes com baixo perfilde risco e ao mesmo tempo controlar e minimizar as perdas. O aparecimento de novastecnologias, o aumento da procura por crdito, bem como por uma questo de qualidadede servio, a necessidade de responder o mais rpido possvel s solicitaes levou aodesenvolvimento e aplicao de sofisticados modelos estatsticos na gesto de risco decrdito, designados por Credit Scoring.

Assim, o objectivo desta dissertao, com base na carteira de crdito ao consumo deuma Instituo Bancria de Cabo Verde, passa por estimar a probabilidade de default(incumprimento) da carteira e do cliente atravs da Regresso Logstica, em funo devariveis scio-econmicas e demogrficas. O objectivo final passa por calcular o spread

1

1. INTRODUO

de um cliente novo com inteno de constituir um crdito, bem como o spread da carteira,aplicando um modelo em tempo discreto, sendo necessrio estimar, tambm, a taxa derecuperao do cliente, como componente necessria ao clculo do spread, utilizando aRegresso Beta. Resultados prvios haviam sido obtidos por [Fer12], numa verso preli-minar da base de dados recolhida.

Um breve resumo da estruturao deste trabalho, no captulo 2 so apresentados osmodelos de crdito de risco, como o seu conceito e as suas diversas caractersticas. ,tambm, descrito uma proposta de modelao para o spread, um modelo a tempo dis-creto, do qual originou um artigo [EGFS14]. No captulo 3 apresentado um alargadoresumo sobre os Modelos Lineares Generalizados, e em particular, e com mais detalhe, aRegresso Logstica e a Regresso Beta, com o objectivo de serem aplicados na estimaoda probabilidade de default e da taxa de recuperao. Por fim, no captulo 4 onde seencontra a fundamentao prtica deste trabalho e consiste na exposio dos resultadosobtidos para a estimao da probabilidade de default atravs de uma tcnica estatsticamultivariada, a Regresso Logstica; para a estimao da taxa de recuperao, tendo sidoutilizado a Regresso Beta e para estimao do spread em funo das ltimas componen-tes referidas, atravs de um modelo proposto. Como anlise complementar, estimou-sea proporo de prestaes pagas, tendo por objectivo estimar a percentagem de emprs-timo que se encontrar pago no vencimneto do contrato de crdito.

Esta dissertao, na persperctiva do risco de crdito, tem a sua importncia, uma vezque proposto um modelo de estimao do spread atravs de uma metodologia actua-rial e que teve como resultado a construo de um artigo ([EGFS14]). E contribuiu-secom uma anlise detalhada de uma carteira de crdito ao consumo de uma InstituioBancria de Cabo Verde, tendo-se avaliado questes importantes como: a estimao daprobabilidade de incumprimento, a estimao da taxa de recuperao e como consequn-cia a estimao do spread em funo das estimaes anteriores.

2

2Risco de Crdito e Spread

A concesso de crdito uma das principais componentes da actividade das instituiesbancrias e de algumas instituies financeiras, pelo que fundamental que as entidadesanalisem as propostas, adoptando procedimentos que lhes permitam, eficaz e eficiente-mente aferir o risco dos crditos e melhorar a forma de corrigir o surgimento de aconte-cimentos negativos para as instituies.

No mbito desta dissertao pretende-se apresentar um modelo que sirva de base anlise de risco de um cliente de crdito, com base nas caractersticas do cliente e do cr-dito solicitado, bem como identificar a probabilidade de default e a taxa de recuperaodo crdito concedido. Estas duas medidas permitiro definir um spread adequado quepermita ao credor a compensao do risco de incumprimento do contrato.

2.1 Modelos de anlise de Risco de Crdito

2.1.1 Risco de Crdito

O Risco de Crdito algo que est presente no quotidiano de qualquer instituio, sejauma empresa da rea financeira, como uma empresa de servio comercial ou industriale define-se como a possibilidade de perdas resultantes do no recebimento de valorescontratados junto a clientes. Para determinar o risco de crdito de um cliente, com maiorou menor exactido, pode-se proceder a avaliaes do risco.

3

2. RISCO DE CRDITO E SPREAD 2.1. Modelos de anlise de Risco de Crdito

A palavra crdito deriva do latim creditum e significa confiana ou segurana de al-guma coisa e para uma instituo bancria ou financeira, refere-se principalmente acti-vidade de colocar um valor disposio de um tomador sob a forma de um emprstimoou financiamento, mediante compromisso de pagamento do valor constitudo por em-prstimo numa data futura.

O risco de crdito resulta da possibilidade de perdas resultantes pelo no recebimentode valores contratados junto a clientes, ou seja, risco de crdito pode ser definido pelasperdas geradas por um evento de default do tomador ou pela decadncia da sua quali-dade de crdito e entenda-se por default, a incapacidade para cumprir as condies deuma obrigao, resultando da uma dvida do devedor perante o credor, a instituio queconstituiu o contrato de crdito.

O risco de crdito pode-se dividir entre trs componentes, o risco de default, o riscode exposio e o risco de recuperao. O risco de default est associado probabilidadede ocorrer um acontecimento de default, isto , de incumprimento por parte do tomadornum certo perodo de tempo. O risco de exposio deriva da incerteza em relao ao va-lor de crdito no momento de default. O risco de recuperao refere-se incerteza quantoao valor que pode ser recuperado pelo credor no caso de incumprimento do cliente e estedepende do tipo de default ocorrido e das caractersticas do processo de crdito, como va-lor, prazo e garantias. O risco de default tambm designado por risco cliente, pois estvinculado s caractersticas intrnsecas do tomador de crdito, os riscos de exposio e derecuperao so nomeados de risco operao, uma vez que esto associados a factoresespecficos do crdito, ver [And04].

A mensurao do risco de crdito um processo essencial para as instituies ban-crias ou financeiras, uma vez que quantifica a possibilidade da instituio vir a sofrerperdas em processos de crdito e o risco de default constitui a principal varivel desseprocesso. De forma a estudar esta varivel foram desenvolvidos os Modelos de Risco deCrdito.

2.1.2 Modelos de Risco de Crdito

Os Modelos de Risco de Crdito so ferramentas e aplicaes que tm por objectivo prin-cipal mensurar o risco de tomadores ou de uma carteira de crdito como um todo. Se-gundo [And04], os modelos de risco podem ser classificados em trs grupos: os modelosde classificao de risco, os modelos estocsticos de risco de crdito e os modelos de riscode carteira.

4

2. RISCO DE CRDITO E SPREAD 2.1. Modelos de anlise de Risco de Crdito

Os modelos de classificao de risco so modelos que avaliam o risco de um tomadorou de um crdito, atribundo uma medida que representa a probabilidade de ocorrnciade default e geralmente expressa na forma de uma classificao de risco - rating - ou depontuao - score. Os modelos estocsticos de risco de crdito tm por objectivo avaliar ocomportamento estocstico, no determinstico, do risco de crdito ou das variveis queo determinam. O modelo de risco de carteira visa estimar a distribuio estatstica dasperdas ou de valor de uma carteira de crdito, a partir da qual so estraidas medidas quequantificam o risco da carteira.

Cada uma das categorias acima descritas possui diferentes objectivos em relao aoque se pretende prever ou modelar. Nos modelos de classificao de risco de crdito, o fe-nmeno que se pretende modelar a ocorrncia ou no de um evento de incumprimento.Os modelos estocsticos tm o seu foco na modelao do comportamento de variveis re-lacionadas com o evento de default de um devedor. J nos modelos de carteira, o objectivo modelar a distribuio de perdas na carteira.

Neste captulo, ir-se- apresentar com mais detalhe os modelos de classificao derisco.

2.1.3 Modelos de Classificao de Risco

Os modelos de risco de classificao tm como objectivo analisar o crdito de forma aauxiliar o credor na tomada de uma deciso a partir da avaliao de diversas informa-es sobre o tomador de crdito, originando uma avaliao do risco. Uma boa gesto derisco de crdito por parte das instituies financeiras indispensvel, para que se evite ainsolvncia das mesmas, uma vez que a concesso de crdito constitui, como j referido,uma das suas principais actividades.

A anlise de crdito pode ser tratada tendo em conta duas metodologias: a qualitativae a quantitativa. A anlise quantitativa utiliza informao proveniente de modelos esta-tsticos e economtricos que permitem uma mensurao do risco do tomador de crdito,atravs de Modelos de Scoring e de Rating. A anlise qualitativa remete para julgamentossubjectivos por parte do analista de crdito, em relao capacidade de pagamento dotomador de crdito, designados por Modelos Especialistas.

Por definio, os Modelos Especialistas, envolvem decises individuais quanto de-ciso de conceder ou no o crdito, segundo um conjunto de regras. Neste processo, adeciso baseia-se na experincia na rea, na disponibilidade de informaes e na sensibi-lidade de cada analista quanto ao risco do negcio. As informaes que so necessriaspara a anlise subjetiva da capacidade financeira dos clientes so tradicionalmente co-nhecidas como os Cs do crdito: Carter - inteno de um cliente pagar a sua dvida

5

2. RISCO DE CRDITO E SPREAD 2.1. Modelos de anlise de Risco de Crdito

-, Capacidade - habilidade de um cliente em honrar os seus compromissos -, Capital -situao financeira em termos de decomposio, aplicao e financiamento -, Colateral- garantias que podem ser oferecidas pelo cliente - e Condies - Sensibilidade da ca-pacidade de pagamento em funo dos fatores externos. [Sec02] prope mais um C, oConglomerado - informaes referentes situao de empresas do mesmo grupo econ-mico -, que actualmente considerado nas anlises de crdito das intituies financeiras.

A principal vantagem da abordagem qualitativa a especifidade com que tratadocada caso, a principal desvastagem a sua dependncia na experincia do avaliador, obaixo volume de produo e o envolvimento pessoal do concedente do crdito. Por ou-tro lado, na anlise quantitativa, as regras so bem definidas em relao s caractersticasdos clientes e s operaes de crdito, e so baseadas, em geral, em modelos estatsticos.

2.1.3.1 Modelos de Credit Scoring

Os modelos de Credit Scoring so normalmente utilizados para avaliao de um clienteque pretende constituir um crdito, a partir de caractersticas do proponente e de infor-maes sobre o prprio crdito, como o seu valor, prazo, garantias, por exemplo. Osmodelos so baseados em tcnicas de anlise estatstica e geram uma pontuao (score)que representa a propenso de risco associada ao tomador de crdito. Embora a medidade risco seja normalmente fornecida numa escala contnua, esta pode ser categorizadapara originar uma medida ordinal.

Na extensa literatura sobre risco de crdito existem vrias definies de Credit Sco-ring. Por exemplo, [Lew92] define Credit Scoring como um processo em que a informaosobre o solicitante convertida em nmeros que, de forma combinada, forma um score,que representa o perfil de risco do solicitante. [Mes97] acrescenta que Credit Scoring um mtodo estatstico utilizado para prever a probabilidade de um solicitante entrar emincumprimento. Usando dados histricos, o Credit Scoring isola as caractersticas dos cli-entes que entraram em situao de default, produzindo, ento, um score que a instituioutiliza para classificar o candidato ao crdito em termos de risco e para decidir quanto aprovao do crdito.

Para [CAN98], os modelos tradicionais de Credit Scoring atribuem pesos, determina-dos estatsticamente, de modo a que se possa criar um score de crdito. E este repre-sentivo do risco de perda. Segundo [ACn ], pode ser estabelecida uma pontuo mximapara a qual aceite o crdito, de modo a que se possa comparar o score de um novocliente. O objectivo pr-identificar factores chave que determinem a probabilidade dedefault, de modo a que a sua combinao ou ponderao possa produzir uma pontuaoquantitativa que auxilie na avaliao do risco.

6

2. RISCO DE CRDITO E SPREAD 2.1. Modelos de anlise de Risco de Crdito

Segundo [Lew92], o primeiro modelo estatstico de anlise de crdito foi desenvol-vido em meados de 1945. Os primeiros modelos destinavam-se ao crdito ao consumoe o uso dos modelos foi expandido devido massificao do mercado de crdito, o queobrigou os analistas a uma maior rapidez e homogeneidade no tratamento dos seus cli-entes. Por outro lado, a evoluo dos sistemas informticos possibilitou o tratamentoestatstico adequado a esse aumento de dados. Embora o uso de mtodos de Credit Sco-ring seja direccionado para a deciso de conceder ou no o crdito, algumas instituiestambm os utilizam para determinar o montante de crdito a ser concedido, como refere[CAN98].

Em resumo, a metodologia bsica para o desenvolvimento de um modelo de CreditScoring, segundo [SA02], deve ter em conta as seguintes etapas: planeamento e defini-es, os mercados e produtos de crdito para os quais o sistema ser desenvolvido, bemcomo a definio de cliente incumpridor; identificao dos factores, caracterizao docandidato ao crdito e seleco das variveis significativas para o modelo; planeamentoamostral e colecta de dados; determinao da frmula de classificao atravs de tcnicasestatsticas; determinao do ponto de corte a partir do qual o cliente classificado comocumpridor ou bom pagador, ou seja, o ponto a partir do qual a instituio financeirapode aprovar a concesso do crdito.

Tipos de Credit Scoring

Segundo [ACn ], os modelos de Credit Scoring so divididos em duas categorias: Mo-delos de Aprovao de Crdito (Credit Scoring propriamente dito) e os de Modelos de Classifi-cao Comportamental, tambm conhecidos como Behavioural Scoring.

Os modelos de Credit Scoring propriamente ditos, so ferramentas que do suporte avaliao da capacidade de crdito para novos clientes, sendo o principal objectivoestimar a probabilidade de um novo requerente de crdito se tornar incumpridor numdeterminado perodo.

O modelo Behavioural Scoring uma ferramenta que tem em considerao os aspectoscomportamentais e as actividades dos clientes existentes na instituio e prev eventosassociados ao risco de crdito, como o incumprimento e os pagamentos em dia, entre ou-tras caractersticas. E tem como objectivo estimar a probabilidade de incumprimento deum cliente que j possuiu um produto ou um crdito com a mesma instituio financeira.

Os modelos de aprovao de crdito destinam-se essencialmente concesso e vo-lume de crdito, os modelos de classificao comportamental so usados para gesto dos

7

2. RISCO DE CRDITO E SPREAD 2.1. Modelos de anlise de Risco de Crdito

limites de crdito, cobrana preventiva e outras estratgias.

Os modelos de Credit Scoring so baseados em tcnicas de anlise estatstica multi-variada como modelos de Regresso linear, Regresso Logstica ou em modelos de inte-ligncia artificial como redes neuronais. Nesta dissertao ir-se- utilizar a formulaomais comum dos modelos, a probabilidade default ser obtida atravs de um modelo deRegresso Logstica.

Vantagens e Desvantagens dos modelos de Credit Scoring

Segundo [ACn ] as principais vantagens dos modelos Credit Scoring so:

Consistncia: so modelos bem elaborados que utilizam a experincia da institui-o e ajudam a administrar objectivamente os crditos dos clientes j existentes edos novos requerentes;

Facilidade: os modelos de Credit Scoring buscam a simplicidade e a fcil intrepreta-o, com instalao relativamente fcil;

Melhor organizao da informao de crdito: a sistematizao e organizao dasinformaes contribuem para a melhoria do processo de concesso de crdito;

Reduo metodologia subjectiva: a utilizao do mtodo quantitativo com regrasclaras e bem definidas contribui para a diminuio da subjectividade na avaliaodo risco de crdito;

Maior eficincia do processo: aumenta a qualidade do servio prestado ao cliente,trazendo reduo de tempo e maior eficincia a este processo.

[Sem09] e [ACn ] enunciam as principais desvantagens dos modelos de Credit Scoring:

Custo de desenvolvimento: desenvolver um sistema de Credit Scoring acarreta custo,no somente com a instalao do sistema, mas tambm com o suporte para a suaconstruo, como por exempo, profissionais capacitados e equipamentos;

Escassez e qualidade dos dados: os modelos, normalmente, so desenvolvidos combase nas observaes presentes nas bases de dados das instituies, em que a qua-lidade nem sempre salvaguardada;

Excesso de confiana nos modelos: algumas estatsticas podem estimar por valoressuperiores a eficcia dos modelos, provocando com que alguns analistas, princi-palmente os menos experientes, considerem-nos perfeitos sem questionar os seusresultados;

Interpretao equivocada das classificaes: um sistema complexo t, e eventuaiserros no desenvolvimento do modelo de Credit Scoring, podem acarretar custos paraa instituio ou resultar em situaes danosas na concesso do crdito.

8

2. RISCO DE CRDITO E SPREAD 2.1. Modelos de anlise de Risco de Crdito

2.1.3.2 Modelos de Rating

Os modelos de Credit Rating, segundo [And04], so modelos que utilizam um sistema demensurao de risco de crdito baseado em pontuao - rating - e enquadram os riscosem classes de risco, previamente definidas. s classes de risco so atribudas notasque refletem diferentes graus de risco, de acordo com uma escala pr-determinada, que parte integrante do modelo de avaliao. A definio da escala resulta a partir de opi-nies tcnicas sobre a capacidade futura, a responsabilidade jurdica e a vontade de umdevedor efectuar, dentro do prazo, o pagamento das obrigaes por ele contradas. Logo,os ratings de crdito so uma opinio prospectiva sobre a qualidade de crdito.

Actualmente, as instituies financeiras desenvolvem internamente os seus prpriosmodelos de Credit Rating ou utilizam os que so facultados por agncias de rating, orga-nizaes que se especializam em avaliar o risco de crdito, como por exemplo Standard &Poors e Fitch Ratings. Cada agncia aplica a sua prpria metodologia para medir a qua-lidade de crdito e usa uma escala de ratings especfica para publicar opinies de ratings.Normalmente, os ratings so expressos por meio de letras que variam, por exemplo, deAAA a D, para comunicar a opinio da agncia sobre o nvel relativo de risco de cr-dito. A Tabela 4.1 representa um exemplo de rating da agncia de rating Standard & Poors.

Classificao SignificadoAAA Capacidade extremamente forte para honrar compromissos financeiros;

Rating mais altoAA Capacidade muito forte para honrar compromissos financeirosA Forte capacidade para honrar compromissos financeiros, porm de al-

guma forma suscetvel a condies econmicas adversasBBB Capacidade adequada para honrar compromissos financeiros, porm mais

sujeito a condies econmicas adversasBBB- Considerado o nvel mais baixo da categoria de grau de investimento pe-

los participantes do mercadoBB+ Considerado o nvel mais alto da categoria de grau especulativo pelos par-

ticipantes do mercadoBB Menos vulnervel no curto prazo, porm enfrenta atualmente grande sus-

cetibilidade a condies adversas de negciosB Mais vulnervel a condies adversas de negcios, porm atualmente

apresenta capacidade para honrar compromissos financeirosCCC Atualmente vulnervel e dependente de condies favorveis de negcios

para honrar seus compromissos financeirosCC Atualmente fortemente vulnervelC Um pedido de falncia foi registrado ou aco similar, porm os pagamen-

tos das obrigaes financeiras continuam sendo realizadosD Inadimplente em seus compromissos financeiros.

Tabela 2.1: Rating da agncia Standard & Poors

Uma vez que eventos e desenvolvimentos futuros no so previsveis, a atribuiode um rating de crdito no uma cincia exacta, por exemplo um crdito cujo rating AA considerado pela agncia de rating como tendo uma qualidade de risco inferior doque um crdito com o rating BBB, o rating AA no uma garantia de que no haver

9

2. RISCO DE CRDITO E SPREAD 2.2. Estimao do Spread

ocorrncia de default, apenas que esta menos provvel no primeiro caso do que no se-gundo.

As classificaes de rating no so fixas, so revistas regularmente e existem vriasrazes que levam a um ajuste nos ratings. Podem estar relacionadas com as alteraes ge-rais no ambiente econmico ou de negcios, ou estarem mais estreitamente relacionadascom circunstncias particulares que afetam uma indstria especfica, entidade ou ttulode dvida individual.

Vantagens e Desvantagens dos modelos de Credit Rating

Segundo [Fin03], o sistema de rating de risco de crdito desenvolvido pelas agnciasde rating possui uma vantagem evidente, facilita uma viso mais abrangente do mercado,por incorporar um universo de empresas e anlises. No caso de sistemas prprios dosbancos e grandes empresas, a enorme vantagem est na sistematizao do processo deinterpretao dos riscos, uma vez que o modelo j tem a definio bsica dos riscos aserem identificados e traz as respectivas pontuaes j pr-definidas, tornando as ava-liaes mais homogneas. E a desvantangem do sistema de rating de risco de crdito que este est sujeito a variaes qualitativas, influenciadas pela competncia tcnica eexperincia dos avaliadores, pela metodologia de mensurao de riscos empregada, pelomodelo de coleta, anlise e avaliao de dados; uniformidade e consistncia de aplica-o da metodologia, qualidade e confiabilidade das fontes de informaes utilizadas nodesenvolvimento da anlise. evidente que a qualidade e confiabilidade das fontes deinformaes , de entre os itens acima referidos, o mais importante para a validao dequalquer sistema de rating, sem ele, o sistema estar seriamente prejudicado.

2.2 Estimao do Spread

2.2.1 Spread

O spread define-se pela diferena entre o preo de compra e o preo de venda, aplicadopelas instituies financeiras, numa transao monetria como a transao de um ttulo.Por outro lado, o chamado spread bancrio um valor percentual definido pela diferenaentre a taxa de juro que as instituies financeiras pagam na aquisio do dinheiro e aque cobram aos clientes. tambm conhecida como taxa de risco.

Para as instituies bancrias ou financeiras, o spread define-se como a medida derisco de crdito que um determinado cliente representa e o seu valor provm da an-lise de vrios factores do cliente e do emprstimo em causa. Mas, mais especificamente,quanto menor o risco para a instituio menor ser o spread, reduzindo assim o custo

10

2. RISCO DE CRDITO E SPREAD 2.2. Estimao do Spread

do emprstimo para o cliente.

Para definir um spread adequado para um cliente, que permita ao credor a compen-sao do risco de incumprimento do contrato, necessrio identificar a probabilidade dedefault e a taxa de recuperao do crdito concedido.

2.2.2 Medidas de Risco de Crdito

O risco de crdito um dos riscos mais comuns numa instituio financeira ou bancria,uma vez que a concesso de crdito a sua maior actividade e o risco de crdito o riscode perda devido a uma falta de pagamento por parte do tomador de crdito.

Desta forma, necessrio analisar e quantificar o risco de crdito, com inteno deidentificar o nvel de risco presente numa operao de crdito. Para avaliar o incumpri-mento de clientes utilizam-se essencialmente os indicadores seguintes:

Probabilidade de Default (PD) : probabilidade de um cliente entrar em incumpri-mento num dado horizonte temporal;

Processos de Exposio (Exposure at Default - EAD) : valor em dvida pelo cliente, instituio, no momento do incumprimento;

Taxa de Recuperao (Recovery Rate - R) : a percentagem do montante de crditoconcedido que a instituio financeira recupera, em caso de ocorrer default;

Loss Given Default (LGD) : valor que a instituio perde efectivamente, quando umcliente entra em incumprimento e pode ser definida, tambm, atravs da taxa derecuperao, R = 1 L.

2.2.3 Estimao do Spread - uma proposta de modelao

Na gesto de risco de crdito um dos processos mais importantes a definio adequadado spread a aplicar num contrato de crdito. Pelo que o objectivo desta seco proporum modelo de estimao do spread em funo da taxa de recuperao e da probabilidadede default.

Primeiramente ir-se- apresentar as definies das variveis e parmetros necess-rios para a construo do modelo de estimao do spread.

A evoluo dos cash-flows de um crdito pode ser descrito como um processo esto-cstico (Xt)t, com o conjunto de tempo pertecente a um subconjunto dos nmerosinteiros. Em funo da complexidade da evoluo dos cash-flows, pode-se recorrer mo-delao deste fenmeno atravs de um processo de Markov ou at mesmo atravs de

11

2. RISCO DE CRDITO E SPREAD 2.2. Estimao do Spread

uma martingala, como usual na literatura, ver, por exemplo [MFE05].

Para efeitos de modelao dos cash-flows dos clientes incumpridores, o tempo de de-fault (incumprimento) deve ser, pelo menos, uma varivel aleatria. Donde necessrioque seja um tempo de paragem e associada a esta varivel ter-se- a probabilidade deincumprimento, pelo que dever ser um parmetro de interesse do modelo. Note-se que,uma hiptese natural, seria a de que corresponde ao tempo de paragem relativamente filtrao natural do processo (Xn)n{0,1,...,T}, ou seja para { n} An, com An sigma-lgebra gerada por Xk, para 0 k n, onde o tempo de incio de incumprimento definido perfeitamente pelas variveis aletrias Xk da carteira at ao tempo presentepara qualquer n. No entanto, devido natureza do modelo que se ir propor, esta hip-tese no ser necessria.

A recuperao dos cash-flows deve ser tambm representada por um processo de Mar-kov. No entanto, informao sobre a recuperao nem sempre fivel, existem geral-mente dvidas sobre a sua qualidade, pelo que neste processo ir-se- considerar comoum parmetro constante .

Por ltimo, usualmente, considera-se, que o spread dever ser um processo de Markov,como se pode ver em [MFE05]. Teoricamente, o spread de crdito s(t, T ), no tempo t e commaturidade T , para uma obrigao de cupo zero com possibilidade de incumprimento(defaultable zero coupon bond) com preo no tempo t dado por p1(t, T ) e tal que:

p1(t, T )(1 + s(t, T ))Tt = p0(t, T ) (2.1)

sendo p0(t, T ) o preo no tempo t de uma obrigao de cupo zero livre de incuprimento(default-free zero coupon bond) com vencimento em T . A partir de (2.1) pode ser obtida umaexpresso que descreve o spread:

s(t, T ) = Tt

p1(t, T )

p0(t, T ) 1. (2.2)

Como referido, o propsito do modelo que se ir propor, determinar o spread emfuno da taxa de recuperao e da probabilidade de default, pelo que, no que se segue,se apresenta uma metodologia actuarial para a modelao do spread.

Modelo de uma carteira em tempo discreto - Metodologia actuarial

Seja (Xn)n{0,1,...,T} um processo estocstico que descreve os valores das obrigaesda carteira para um credor. Considere-se (,A,P) um espao de probabilidade em queas variveis aleatrias Xn, para n {0, 1, . . . , T}, so definidas para cada , dondeXn() o valor, para o credor, da obrigao do cliente na data n {0, 1, . . . , T}.

12

2. RISCO DE CRDITO E SPREAD 2.2. Estimao do Spread

Suponha-se que as obrigaes na carteira, representadas por (Xn)n{0,1,...,T} no estosujeitas a incumprimento, tendo-se que X0 0 e que XT representa o valor total do em-prstimo concedido..

Note-se que, o incumprimento pode ocorrer num tempo aleatrio , que se designacomo tempo de incumprimento da carteira, de modo que para cada n {0, 1, . . . , T}, setem { n} A.

De acordo com [EGFS14], o modelo assume os seguintes pressupostos:

1. Existe uma funo F : R 7 R e um parmetro [0, 1], designado de taxa derecuperao da carteira que, para um tempo de maturidade T , se tem:

E [F (XT , )] = E [XT ] . (2.3)

2. Seja (Xn)n{0,1,...,T} um conjunto de variveis aleatrias que denotam um processoestocstico descrito para os valores das obrigaes, as quais esto agora sujeitas aincumprimento. Desta forma, para a funo F , no tempo de idade T , ter-se-:

XT = XT I{>T} + F (XT , )I{T}.

Note-se que, se o evento de ocorrncia de default no ocorrer ento, XT = XT e se odefault ocorrer antes do vencimento do contrato ter-se- que XT = F (XT , ).

3. A taxa de juro de risco r e o spread, calculado, na maturidade T , e denotado por sT ,so ambos constantes.

4. O processo da carteira de obrigaes (Xn)n{0,1,...,T} e o tempo de incumprimento da carteira so independentes.

Com este conjunto de hipteses, pelo princpio do valor esperado da metodologiaactuarial, mostra-se que o spread, sT , uma funo do incuprimento e da taxa de recupe-rao, como se pode ver em [Fer12].

Teorema 1: No mbito do princpio do valor esperado da metodologia actuarial, tem-se que,

E[XT (1 + r)

T ] = E [XT (1 + r)T (1 + sT )] , (2.4)e se E [XT ] 6= 0, o spread na data T dado por:

sT =(1 )P [ T ]

1 (1 )P [ T ]. (2.5)

13

2. RISCO DE CRDITO E SPREAD 2.2. Estimao do Spread

A demonstrao do Teorema 1 imediata recorrendo s propriedades do valor espe-rado.

Considere-se que e so variveis aleatrias que representam a taxa de recupe-rao e a probabilidade de default de cada cliente da carteira, respectivamente, e que XT = F (X , ). Assim, a probabilidade de default da carteira dada por:

E [] = P [ T ] ,

e a taxa de recuperao da carteira por:

= E [] .

Como referido em [EGFS14], se e forem variveis aleatrias independentes,pode-se definir o spread para cada cliente individual de uma carteira como:

scliente :=(1 )

1 (1 ) . (2.6)

Note-se que, no caso de (1 ) 1, tem-se a aproximao scliente (1 ) e se(1 )P [ T ] 1, pode-se considerar que sT (1 )P [ T ] e portanto, ter-se-:

E [scliente] E [(1 ) ] = E [1 ]E [] sT . (2.7)

Nesta seco, apresentou-se um modelo para a estimao do spread de uma carteira decrdito, atravs de uma metodologia actuarial, em funo da probabilidade de default e dataxa de recuperao, e ainda, se estabelece uma ligao entre a formulao da estimaodo spread dos clientes e da carteira, uma vez que se mostrou que possvel definir osspreads individuais de cada cliente de uma forma coerente.

14

3Modelos Lineares Generalizados

Os Modelos Lineares e Generalizados (MLG), introduzidos por Nelder e Wedderburn em1972, foram desenvolvidos com o objectivo de unificar modelos anteriormente desenvol-vidos. Os autores mostraram que uma srie de tcnicas estatsticas, estudadas separa-damente, podem ser formuladas de uma forma unificada, como uma classe de modelosde regresso. So casos particulares dos modelos lineares generalizados, por exemplo, omodelo linear de regresso linear clssico, o modelo de regresso logstica, o modelo deregresso beta, entre outros.

Nesta dissertao, os Modelos Lineares Generalizados sero a base do estudo que sepretende realizar pelo que se far uma exposio acerca deste tema, tendo como principalreferncia [TS00].

3.1 A Famlia Exponencial

Diz-se que uma varivel aleatria Y tem distribuio pertencente Famlia Exponencial,ver [MN89] se a sua funo de densidade de probabilidade (f.d.p.) ou funo de massade probabilidade (f.m.p.) se puder escrever na forma:

f(yi|, ) = exp{y b()a()

+ c(y, )

}(3.1)

onde e so parmetros escalares e a(), b() e c(, ) so funes reais conhecidas. Soexemplos de distribuies da Famlia Exponencial as distribuies Normal, Gama, Bino-mial, Poisson, etc.

15

3. MODELOS LINEARES GENERALIZADOS 3.2. Mdia e Varincia

O parmetro designado por parmetro de localizao na forma cannica e , pa-rmetro estritamente positivo, denominado por parmetro de escala. Admite-se aindaque a funo b() diferencivel e que o suporte da distribuio no depende dos parme-tros. Desta forma, a Famlia Exponencial obedece s usuais condies de regularidade,ver [RS01].

3.2 Mdia e Varincia

Seja Y uma varivel aleatria pertencente Famlia Exponencial com funo de probabi-lidade definida como em (3.1). A funo log-verosimilhana ser dada por:

l(i;, yi) = ln[f(yi|i, )] =yii b(i)

a()+ c(yi, ). (3.2)

A funo Score definida por:

S(i) =l(i;,Yi)

i,

tendo-se para a Famlia Exponencial,

S(i) =i b(i)a()

(3.3)

bem comoS(i)i

= b(i)a()

onde b(i) e b(i) correspondem primeira e segunda derivada de b(i), respectiva-mente.

Sob as condies de regularidade, ver [RS01], sabe-se que

E[S(i)] = 0

eE[S2(i)] = E

[(l(i;,Yi)

i

)2]= E

[2l(i;,Yi)

2i

]Desta forma, a partir das equaes anteriores pode se estabelecer que:

i = E[Yi] = b(i) e V[Yi] = a()b(i). (3.4)

A primeira equao de (3.4) permite verificar que o parmetro cannico funo de, uma vez que

i = b1(i). (3.5)

16

3. MODELOS LINEARES GENERALIZADOS 3.3. As componentes dos Modelos Lineares Generalizados

A segunda equao de (3.4) permite concluir que Y funo do parmetro cannico sendo, portanto, devido a (3.7), funo do valor mdio . Assim, a funo b() expressaa relao entre a mdia e a varincia e designa-se por funo de varincia, escrevendo-se

V[] = b(i). (3.6)

3.3 As componentes dos Modelos Lineares Generalizados

comum referir-se que os Modelos Lineares Generalizados (MLG) so constitudos portrs componentes:

Componente Aleatria

Esta componente do modelo estabelece que as variveis aleatrias Yi, que se preten-dem modelar, so independentes com distribuio pertencente Famlia Exponencial,em que

E[Yi|xi] = i = b(i), i = 1, ..., n.

Componente Estrutural ou Sistemtica

A componente sistemtica dos MLG, tambm designada de preditor linear, consistenuma combinao linear das variveis preditoras (ou covariveis) dada por

i = xTi

onde xi um vector de especificao de dimenso p tal que xi = (1, xi1, xi2, ..., xi(p1))T

e um vector de parmetros de dimenso p.

Funo de Ligao

Outra caracterstica destes modelos a relao entre o valor esperado e o preditorlinear , que se estabelece atravs de

i = h(i) = h(xiT)

onde h(), designada por funo de ligao, uma funo montona e diferencivel, talque g() = h1().

Quando o preditor linear coincide com o parmetro cannico, isto , i = i, ento afuno de ligao denomina-se de funo de ligao cannica.

17

3. MODELOS LINEARES GENERALIZADOS 3.4. Metologia dos Modelos Lineares Generalizados

3.4 Metologia dos Modelos Lineares Generalizados

Existem trs fases que se devem seguir para modelar dados atravs dos Modelos LinearesGeneralizados:

Formulao dos modelos;

Ajustamentos dos modelos;

Seleco e validao dos modelos.

Numa primeira fase, a formulao do modelo, h a necessidade de examinar cuidado-samente os dados, para se determinar uma distribuio adequada que defina a varivelresposta e que permita seleccionar as covariveis que melhor explicitam o modelo emestudo. Deve-se ainda escolher a funo de ligao, que depende do tipo de varivel res-posta e do estudo particular que se pretende efectuar.

A fase seguinte, o ajustamento do modelo, consiste na estimao dos parmetros domodelo, isto , na estimao do vector dos coeficientes associados s covariveis e res-pectivos erros padro. Determinam-se intervalos de confiana e realizam-se testes deajustamento, que permitam avaliar a qualidade do mesmo.

Numa ltima fase, procura-se encontrar submodelos que ainda se adequem aos da-dos, bem como procurar divergncias que possam existir entre os dados e os valorespreditos, localizar resduos excessivos e possveis outliers e/ou observaes influentes.

3.5 Estimao dos parmetros

Aps a formulao do modelo que se considera adequado, h a necessidade de proceder realizao de inferncias sobre esse modelo. Os Modelos Lineares Generalizados ba-seiam essa inferncia na metodologia de mxima verosimilhana, ou seja, os parmetros que melhor explicitam os dados observados so estimados pelo mtodo de mximaverosimilhana. No mbito dos MLG, as equaes de mxima verosimilhana no tm,regra geral, uma soluo analtica, sendo necessrio recorrer a mtodos numricos paraa sua resoluo.

Tendo em vista os Modelos Lineares Generalizados, [NW72] construiram um algo-ritmo para a resoluo de tais equaes, o que em muito contribuiu para o sucesso destesmodelos, por se tratar de um algoritmo bastante geral, adaptvel aos vrios MLG e facil-mente implementvel de um ponto de vista computacional. Este algortmo designadode Mtodo Iterativo de Mnimos Quadrados Ponderados e baseia-se no mtodo dos Scores deFisher, que se descreve na seco que se segue.

18

3. MODELOS LINEARES GENERALIZADOS 3.5. Estimao dos parmetros

3.5.1 Mtodo dos Scores de Fisher

Considere-se uma amostra de n observaes e um Modelo Linear Generalizado definidopor:

f(yi|i, ) = exp{yii b(i)

a()+ c(yi, )

}(3.7)

com funo de ligao h(i) = xTi .

Considerando a independncia entre as variveis Yi, a funo log-verosimilhana, emfuno de i, ser dada por:

l(, ,y) =

ni=1

yii b(i)a()

+

ni=1

c(yi, ). (3.8)

Uma vez que i = E[Yixi] = b(i) e tendo em conta a funo de ligao h(i) = i =pj=1 xijj pode verificar-se que a funo de log-verosimilhana tambm uma funo

dos parmetros de interesse .

Assim, os estimadores de mxima verosimilhana para so obtidos como soluesdo sistema de equaes de verosimilhana

l()

j=

ni=1

li()

j= 0, j = 1, ..., p. (3.9)

A funo Score, referida em (3.3), obtida aplicando as regras de derivao da funocomposta sobre a equao anterior, donde se obtm o elemento genrico do Vector dosScores,

sj =ni=1

yi iV[Yi]

ii

xij , j = 1, ..., p (3.10)

pelo que as equaes de mxima verosimilhana para sero dadas por:

ni=1

1

V[Yi](yi i)xij

ii

= 0, j = 1, ..., p (3.11)

Como j referido anteriormente, as equaes de mxima verosimilhana no so defcil resoluo, o que introduz a necessidade de resoluo das mesmas atravs de mto-dos numricos.

O Mtodo dos Scores de Fisher, uma generalizao do mtodo de Newton-Raphson, in-troduz um algoritmo que permite a resoluo de mxima verosimilhana para ModelosLineares Generalizados e pode ser encontrado com mximo de detalhe em [TS00].

19

3. MODELOS LINEARES GENERALIZADOS 3.6. Testes de Hipteses sobre

3.6 Testes de Hipteses sobre

Os testes de hipteses sobre os parmetros do modelo ajustado auxiliam na seleco dascovariveis que devero ser incorporadas no modelo adoptado. Consoante o seu nvelde significncia, pode-se afirmar que um determinado parmetro tem ou no influnciano modelo.

Em relao a esta questo, vrios cenrios possveis podem ser definidos:

Hiptese de nulidade de um nico parmetro j , j = 1, ..., p:

H0 : j = 0 versus H1 : j 6= 0. (3.12)

Esta hiptese corresponde a testar um submodelo com todas as covariveis do mo-delo excepo da covarivel xj , relativamente ao parmetro j .

Hiptese de nulidade de vrios parmetros

H0 : r = 0 versus H1 : r 6= 0. (3.13)

Esta hiptese corresponde a testar um modelo sem as r covariveis relativas aosparmetros supostos sob a hiptese H0.

Em suma, estas hipteses permitem testar a validade estatstica de submodelos domodelo original e ser-nos-o teis na escolha do melhor modelo de ajustamento aosdados.

As hipteses acima formuladas podem ser generalizadas por um teste da seguinteforma

H0 : C = versus H1 : C 6= , (3.14)

onde C uma matriz q p, com q p, de caracterstica completa q e um vector dedimenso r previamente especificado.

Os testes mais usuais para testar as hipteses acima referidas so o Teste de Wald, oTeste de Wilks (tambm denominado por Teste de Razo de Verosimilhanas) e o Teste deRao (ou teste de Score).

Seguidamente ir-se- apresentar detalhadamente os dois primeiros teste menciona-dos, por serem os testes mais usuais.

20

3. MODELOS LINEARES GENERALIZADOS 3.6. Testes de Hipteses sobre

Teste de Wald

A estatstica de Wald,W , baseada na normalidade assimpttica do estimador de m-xima verosimilhana de .

Dado que o vectorC uma transformao linear de ento, pelas propriedades dadistribuio Normal Multivariada e I() matriz de informao de Fiscer, tem-se que:

C Nq(C,C I1() CT

)(3.15)

e, sob a hiptese nula, a estatstica

W = (C )T [C I1() CT ]1(C ) (3.16)

tem uma distribuio assimpttica 2, com q graus de liberdade.

Assim, ao nvel de significncia , a hiptese nula rejeitada, se o valor da estatsticafor superior ao quantil de probabilidade 1 de um 2q .

Para o teste de hipteses referido em (3.12), designando por jj o j-simo elementoda diagonal de I1(), a Estatstica de Wald, resume-se a,

W = (j j)T [jj ]1(j j)

pelo que, sob H0,

W = 2j

jj 21

Assim, ao nvel de significncia , a hiptese nula rejeitada, se o valor observado daestatstica for superior ao quantil de probabilidade 1 de um 21.

Em geral, a estatstica de Wald a mais utilizada para testar hipteses nulas sobre com-ponentes individuais, ainda que tambm se use para testar hipteses do tipo r = 0,quando o subvector r representa o vector correspondente a uma recodificao de umavarivel policotmica. Esta estatstica muito til na comparao de modelos quandose comea a formar o modelo maximal (modelo que contm o maior nmero de parme-tros) e depois se consideram modelos alternativos exclundo covariveis, devido, essen-cialmente, utilizao da estimativa no restrita de mxima verosimilhana.

21

3. MODELOS LINEARES GENERALIZADOS 3.7. Modelo de Regresso Logstica

Teste de Razo de Verosimilhanas

A Estatstica de Razo de Verosimilhanas, tambm conhecida por Estatstica de Wilks, definida por:

= 2 ln maxH0 L()maxH0H1 L()

= 2{l() l()} (3.17)

onde , o estimador de mxima verosimilhana restrito, o valor de que maximiza averosimilhana sob a hiptese nula e l() corresponde ao mximo da funo log-verosimilhana.

O Teorema de Wilks estabelece que, sob certas condies de regularidade,ver [Gey12],a estatstica tem, sob a hiptese nula, uma distribuio assinttica de um 2, onde o n-mero de graus de liberdade igual diferena entre o nmero de parmetros a estimarsobreH0H1 (neste caso p) e o nmero de parmetros a estimar sobH0 (neste caso pr).

Assim, sob H0, = 2{l() l()} 2q . (3.18)

Consequentemente, ao nvel de significncia , a hiptese nula rejeitada, se o valorda estatstica for superior ao quantil de probabilidade 1 de um 2q .

A Estatstica de Razo de Verosimilhanas a mais utilizada para comparar modelos queesto encaixados, isto , modelos em que um submodelo de outro.

No mbito deste trabalho os casos particulares dos Modelos Lineares Generalizados,como a Regresso Logstica e a Regresso Beta, assumem um papel preponderante na es-timao do risco de crdito de um cliente. Neste sentido nas seces seguintes apresentar-se- uma anlise detalhada de cada umas destas regresses.

3.7 Modelo de Regresso Logstica

A funo Logstica surgiu em 1789, com os estudos de crescimento populacional deMalthus. Segundo [Cra02], Alphonse Quetelet, astrnomo Belga, e o seu discpulo Pierre-Franois Verhust (1804-1849), 40 anos depois, recuperaram a ideia de Malthus para des-crever o crescimento populacional em Frana, Blgica e Rssia antes de 1833. Apesar deestar encontrada a ideia bsica do modelo logstico, s em 1845, Pierre-Franois Verhustpublicou a formulao utilizada nos estudos de crescimento da populao a que chamoude funo logstica.

Ainda no sc. XIX, a mesma funo foi utilizada para descrever as reaces qumi-cas autocatalticas, mas na maior parte do sculo esteve esquecido e s foi redescobertoem 1920 por Raymond Pearl, discpulo de Karl Peason, e Lowell Reed que o aplicaram

22

3. MODELOS LINEARES GENERALIZADOS 3.7. Modelo de Regresso Logstica

igualmente ao estudo do crescimento da populao dos Estados Unidos da Amrica. Oprimeiro estudo acadmico que aborda a regresso no domnio de Credit Scoring foi pu-blicado em 1980 e, desde ento, tornou-se a tcnica estatstica de eleio nos desenvolvi-mentos de modelos de Credit Scoring.

O modelo de Regresso Logstica um caso particular dos Modelos Lineares Gene-ralizados e especialmente til para modelar dados binrios. frequentemente utilizadaem cincias mdicas e sociais; no domnio dos seguros; em instituies financeiras, tendoainda outras designaes como modelo logstico, modelo logit e classificador de mximaentropia1.

Trata-se de uma tcnica estatstica utilizada para produzir, a partir de um conjunto deobservaes, um modelo que permite a predio dos valores de uma varivel categrica,frequentemente binria, a partir de um conjunto de variveis explicativas contnuas e/oucategricas. Nos modelos de Credit Scoring, a varivel dependente, ocorrncia de default, de natureza binomial ou dicotmica, ou seja, pode apenas assumir dois valores, zeroou um, sendo que um cliente incumpridor representado pelo valor 1.

Assim, a Regresso Logstica, trata-se de um modelo de regresso para variveis de-pendentes (ou resposta) binomialmente distribudas, Yi B(1, i), onde i a probabili-dade de sucesso para Y . um modelo linear generalizado, Yi = 0+1x1+ ...+pxp+i,onde (x1, ..., xp)T um vector que corresponde s variveis explicativas, (1, ..., p)T umvector de parmetros e i um vector de erros aleatrios. Este modelo usa como funo deligao a funo logit:

i = log(

i1i

).

Podemos supor que temos n variveis resposta independentes, ver [TS00], e Yi B(1, i) ou Yi Ber(i), ou seja,

f(yi|i) = iyi(1 i)1yi , yi = 0, 1 , i = 1, ..., n

e que, a cada indivduo i est associado um vector de covariveis xi, i = 1, ..., n.

Como E[Yi] = i e se tem para esta regresso i = ln(

i1i

), fazendo i = i = xTi ,

conclui-se que a associao entre o valor esperado da varivel resposta e as covariveis feita atravs da funo de ligao cannica, funo logit. Assim, a probabilidade desucesso, i = P [Yi = 1|X = xi], est relacionada com o vector xi atravs de

i =exp(xTi )

1 + exp(xTi ). (3.19)

1medida da desordem de um sistema

23

3. MODELOS LINEARES GENERALIZADOS 3.7. Modelo de Regresso Logstica

Portanto, Logit(i) = log(

i1i

)= log(ei) = i e

Logit(i) = 0 + 1X1 + ...+ pXp.

Como os valores possveis de i se situam no intervalo [0, 1], o valor de i frequente-mente interpretado como a probabilidade de default. A principal vantagem da RegressoLogstica a capacidade de estimar as probabilidades individuais de cada cliente entrarem incumprimento, sendo este um dos objectivos deste trabalho.

Odds Ratio

Odds, ou razo de chance, e probabilidade so expresses que contm a mesma infor-mao mas expressam-se de maneiras diferentes. A probabilidade de um acontecimento definida atravs da proporo de acontecimentos favorveis sobre o nmero total deacontecimentos (Lei de Laplace), enquanto que o Odds representam uma razo de proba-bilidades. Assim, sendo A um acontecimento de uma amostra aletatria, tem-se que:

O(A) = P (A)1P (A) e P (A) =O(A)

1+O(A) .

Define-se Odds Ratio ou quociente de razes de chances relativo a dois eventos A e Bao quociente das respectivas Odds e denota-se habitualmente por . Assim a Odds Ratiodos eventos A e B ser definida como

A,B =OAOB

= P (A)1P (A)/P (B)

1P (B) =P (A)

P (A)

P (B)

P (A)= P (A)P (B)

P (B)P (A).

O Odds Ratio uma medida antiga, tendo sido usada por Snow num clssico trabalhode identificao do factor de risco de propagao da clera em Londres, em 1853. utilizado como medida de associao em estudos de caso-controlo.Considerando a Regresso Logstica, sendo i a probabilidade de sucesso de um evento,neste caso de um cliente vir a ser incumpridor, o odds define-se como:

oddsi =i

1i , i = 1, ..., n

e, atendendo definio de odds ratio, pode-se definir log-odds, semelhana da funode ligao,

Logit(i) = log(oddsi) = log(

i1i

).

Como um dos objectivos deste trabalho estudar a probabilidade de default de umcliente, ento esta medida ser til para comparar clientes com caractersticas diferentes.A odds ratio entre os nveis de uma covarivel pode ser interpretada como o aumentoestimado na probabilidade de sucesso aquando do aumento de uma unidade no valor

24

3. MODELOS LINEARES GENERALIZADOS 3.8. Modelo de Regresso Beta

predito dessa mesma varivel, no caso de variveis contnuas, mantendo todas as restan-tes covariveis constantes. Se a varivel for categrica, a comparao efectuada combase nos nveis da mesma, como referido em [Nun11].

3.8 Modelo de Regresso Beta

A anlise de Regresso Beta, aprofundada em [FCN04], til para modelar variveiscontnuas que assumem valores no intervalo ]0, 1[, como ocorre, por exemplo, com ta-xas e propores. A Regresso Beta desenvolvida assumindo que a varivel respostasegue uma distribuio Beta, sendo esta uma distribuio muito flexvel para modelarpropores, uma vez que a sua funo densidade pode tomar formas bastante distintas,dependendo dos valores dos seus parmetros.

Nos casos em que a varivel resposta assume valores no intervalo [a, b] (com a < bconhecidos e a, b R), em [FCN04] sugerida uma transformao da varivel respostade Yi = 0 + 1x1 + ... + pxp + i para yiaba , para que se possa usar a Regresso Beta.Mas se a varivel resposta assume os valores extremos 0 e 1, uma transformao til, yi(n1)+0.5

n , sendo n a dimenso da amostra, tambm referida em [FCN04]. Esta suges-to ser-nos- til na formulao de alguns modelos de ajustamento realizados adianteneste trabalho.

A Regresso Beta baseia-se numa parametrizao alternativa da funo densidadeBeta, em termos da mdia das variveis e do parmetro de preciso. Usualmente, paraY Beta(p, q), a funo densidade Beta expressa como:

f(y; p, q) =(p+ q)

(p)(q)yp1(1 y)q1 , 0 < y < 1, (3.20)

onde p, q > 0 e () a conhecida funo Gama.

[FCN04], tendo em ateno a modelao recorrendo a modelos lineares generaliza-dos, proposeram uma reparametrizao da funo de densidade descrita anteriormente,definindo = pp+q e = p+ q, obtendo-se:

f(y;, ) =

()((1 ))y1(1 y)(1)1 , 0 < y < 1, (3.21)

com 0 < < 1 e > 0.

Assim Y Beta(, ) e tem-se que E[Y ] = e V[Y ] = (1)1+ .

O parmetro conhecido como parmetro de preciso, uma vez que, para fixo, maior quanto menor for a varincia deY e 1 designado como parmetro de disperso.

25

3. MODELOS LINEARES GENERALIZADOS 3.9. Qualidade de Ajustamento

Considerando Y1, ..., Yn variveis independentes, tais que Yi Beta(, ), i = 1, ..., n,a Regresso Beta definida como,

h(i) =nj=1

xTj j = i (3.22)

onde = (1, ..., p)T um vector de dimenso (k 1) de parmetros de regressodesconhecidos (k < n), xi = (xi1, ..., xip)T representa o vector de covariveis e i o pre-dictor linear. h() a funo de ligao, estritamente montona e diferencivel de ordemdois. Alguns exemplos de funo de ligao usais na Regresso Beta so as funes logit:h() = log( 1), probit: h() =

1() (onde () funo de distribuio Normal), log-log: h() = log(log()) e Cauchy: h() = tg(( 0.5)).

Neste trabalho, nos ajustamentos que se apresentam no captulo 4, tomar-se- comocomo funo de ligao a funo logit, tendo-se que:

i =exp(xTi )

1 + exp(xTi ), i = 1, ..., n (3.23)

com as mesma definies apresentadas acima.

3.9 Qualidade de Ajustamento

Uma vez encontrado um modelo adequado de ajustamento aos dados e testada a signi-ficncia dos parmetros includos no modelo, surge a questo da qualidade do modeloadoptado. Quando se trabalha com muitas covariveis, tem-se interesse em saber qual omodelo que, com menor nmero de variveis explicativas, oferece uma melhor interpre-tao do problema em questo e que ainda se ajuste bem aos dados. O teste que indica seo modelo adoptado o melhor modelo baseado no valor da Funo Desvio.

Dado que no processo de seleco do modelo h uma srie de modelos que so tidosem considerao, comece-se por descrever os dois tipos de modelos mais usualmente re-feridos: o Modelo Completo e o Modelo Nulo.

O Modelo Completo ou Saturado corresponde a um Modelo Linear Generalizado comtantos parmetros 1, ..., n quantas as observaes y1, ..., yn. Neste modelo, os valoresajustados i e as observaes yi confudem-se entre si pois o modelo ajusta-se perfeita-mente aos dados, ou seja, as estimativas de mxima verosimilhana dos i so as pr-prias observaes, isto , i = yi.

26

3. MODELOS LINEARES GENERALIZADOS 3.9. Qualidade de Ajustamento

O Modelo Nulo o modelo mais simples, em que se considera apenas um parmetro,que representa a mdia , comum a todas as observaes yi. um modelo simples masque raramente captura a estrutura inerente aos dados.

3.9.1 Funo Desvio

Na prtica, pretende-se encontrar um modelo cujo nmero de parmetros se encontre en-tre o nmero de parmetros de cada um dos modelos acima descritos. A Funo Desvioir auxiliar na escolha do modelo a adoptar.

Sejam E e S as estimativas de mxima verosimilhana para o modelo em estudo eo modelo saturado, respectivamente.

O quociente = l(E)

l(S)

mede o afastamento entre as verosimilhanas dos modelo acima referidos, pelo que quantomenor o valor de , melhor ser o modelo ajustado e um valor muito elevado indicarum ajustamento de fraca qualidade.

Logaritmizando a expresso anterior, obtm-se

log = l(E) l(S) (3.24)

com l(S) e l(E) o mximo da funo log-verosimilhana para o modelo saturado e omodelo em estudo, respectivamente.

O desvio , portanto, definido como uma medida de afastamento entre o modelosaturado e o modelo ajustado, calculado atravs da expresso:

D = 2[l(S) l(E)

].

Mostra-se, ver [Dob02], que

D = 2[l(S) l(E)

] 2np.

Considere-se, agora, a funo log-verosimilhana de um Modelo Linear Generali-zado, ver (3.2) com a finalidade de se especificar a Funo de Desvio e o Desvio Reduzido,

logL() = l() =ni=1

1

(yiq(i) b(q(i))) + c(yi, ) (3.25)

em que q(i) representa a relao funcional entre i e i.

27

3. MODELOS LINEARES GENERALIZADOS 3.9. Qualidade de Ajustamento

Como para o modelo saturado se tem i = yi e sendo a estimativa de mxima ve-rosimilhana de i para o modelo em estudo, ento o Desvio Reduzido obtido atravsde:

D(y,) = 2(l(M ) l(S)

)= 2

ni=1

1

([yiq(i) b(q(i))] [yiq(yi) b(q(yi))])

=D(y,)

sendo D(y,) o Desvio para o modelo em anlise, dado por:

D(y,) = 2ni=1

([yiq(i) b(q(i))] [yiq(yi) b(q(yi))]) . (3.26)

de notar que a Funo Desvio pode ser interpretada como soma ponderada dasdistncias entre as estimativas para os valores mdios i e as observaes yi, sendo aindapossvel decompor a funo desvio como

D(y,) =ni=1

di (3.27)

ou seja, pode ser decomposta como a soma de parcelas di que medem a diferena dos lo-garitmos das verosimilhanas observada e ajustada para cada observao. A soma destascomponentes assim uma medida da discrepncia total entre as duas log-verosimilhanas.

Verifica-se, facilmente, que o Desvio uma funo no negativa, sendo que para omodelo saturado toma o valor zero, e vai crescendo medida que as covariveis vosendo retiradas do modelo.

Uma outra propriedade do Desvio a aditividade para modelos encaixados. Suponha-se que M1 e M2 so dois modelos intermdios, com M2 encaixado em M1, ou seja, somodelos do mesmo tipo, mas o modelo M2 contm menos parmetros que o modelo M1.Designando D(y; j) o desvio do modelo Mj , j = 1, 2, ento a estatstica da razo deverosimilhanas para comparar estes dois modelos resume-se a

2(lM2(2) lM1(1)) =D(y;2)D(y;1)

.

Sob a hiptese do modelo M1 ser verdadeiro, tem-se

D(y;2)D(y;1)

2p1p2 ,

onde pj representa a dimenso do vector para o modelo Mj , j = 1, 2. A comparao

28

3. MODELOS LINEARES GENERALIZADOS 3.10. Anlise de Resduos

de modelos encaixados pode assim ser feita com base da diferena dos desvios de cadamodelo.

Para os dois casos particulares dos Modelos Lineares Generalizados descritos nestecaptulo apresentam-se em seguida os resultados da Funo Desvio para ambas as regres-ses.

No caso da Regresso Logstica, tem-se que:

D(y, ) = 2ni=1

[yi log

(yii

)+ (1 yi) log

(1 yi1 i

)](3.28)

com Yi = 0 + 1x1 + ...+ ixi + i e i =exp(xTi )

1+exp(xTi ).

No caso da Regresso Beta,

D(y,,) =ni=1

2(l(i, ) l(i, )) (3.29)

onde l() a funo de mxima verosimilhana para o modelo e i o resultado del(i,)i

= 0. Se for um parmetro conhecido, a funo desvio D(y, , ), onde estimador da funo de mxima verosimilhana.

3.10 Anlise de Resduos

A anlise de resduos consiste num conjunto de tcnicas utilizadas para aferir a ade-quabilidade de um modelo aos dados, so tcnicas destinadas a verificar a validade dashipteses efectuadas sobre o modelo, nomeadamente no que diz respeito escolha dadistribuio, da funo de ligao e de termos do preditor linear, como tambm parapara ajudar a verificar se h observaes mal ajustadas, isto , que no so bem explica-das pelo modelo. Um resduo Ri deve exprimir a discrepncia entre o valor observado yie o valor i ajustado pelo modelo.

A escolha mais comum para avaliao dos resduos corresponde aos Resduos de Pear-son, definidos por:

RPi =yi iV[Yi]

. (3.30)

Estes resduos apresentam, no entanto, a desvantagem de ter uma distribuio bastanteassimtrica para modelos no normais.

29

3. MODELOS LINEARES GENERALIZADOS 3.11. Seleco dos Modelos

Os Resduos Standartizados de Pearson introduzem uma correco aos resduos de Pear-son, para fazer face ao facto de i serem parmetros estimados, e so calculados como

RPi =RPi

(1 hii)(3.31)

sendo hii o elemento da diagonal principal da matriz Hessiana

H = D1/2X(XTDX)1XTD1/2 (3.32)

onde D = diag( 1V[i]).

Pode ainda considerar-se um outro tipo de resduo, baseado na funo desvio, deno-minado por Desvio Residual:

RDi =RDi

(1 hii), (3.33)

com RDi = idi, em que i = sinal(yi i) e di so elementos da funo de desvio.

A anlise de resduos, nomeadamente no que diz respeito a adaptao de um modelo,pode ser realizada atravs de uma avaliao informal dos resduos, ou seja, analisando ogrfico dos valores dos resduos contra os valores ajustados, o que nos permite analisarmais facilmente a existncia de outliers que podero no ser includos no modelo.

3.11 Seleco dos Modelos

Quando se ajusta um modelo a uma varivel resposta e se pretende encontrar o melhormodelo, por vezes passa-se pelo processo de adio ou remoo de covariveis ao mo-delo inicialmente considerado. Os Modelos Lineares Generalizados contm diversos fe-nmenos aleatrios modelados, geralmente, a partir um nmero elevado de covariveisque podem ser potencialmente importantes para explicar a variabilidade entre os dados.Tambm tem interesse estudar a influncia de possveis iteraes entre as covariveis.

Por vezes, adicionar uma varivel explicativa ao modelo incorpora mais informao,o que se traduz num melhor ajustamento. No entanto, estatsticamente, verifica-se quecada varivel no necessria ao modelo (que no incorpora informao til ao modelo),diminui a preciso das estimativas para os parmetros de regresso.

A incluso de variveis explicativas no modelo aumenta o nmero de parmetros p aestimar e diminui os erros yi yi do ajustamento. Um valor elevado de p tende a aumen-tar a qualidade do ajustamento, diminuindo os desvios, embora quantos mais parmetrosforem necessrios estimar, maior ser a varincia das estimativas de j , j = 1, ..., p.

30

3. MODELOS LINEARES GENERALIZADOS 3.11. Seleco dos Modelos

Os critrios, medidas e metodologias que se seguem pretendem dar algumas indi-caes acerca da incluso/excluso de variveis, at que se decida pelo modelo maisadequado.

Nesta seco segue-se de perto a dissertao [Val10].

3.11.1 Mtodo Stepwise para a escolha das covariveis

O mtodo stepwise utilizado, principalmente, quando se quer considerar, no incio, umnmero relativamente elevado de variveis independentes para incluir na funo, mastambm pode ser em modelos iniciais nulos. A cada passo as variveis menos teis - quemenos explicitam o modelo - so eliminadas, ou no caso de se iniciar com o modelo nulo,as variveis mais significativas so adicionadas, e apenas so retiradas as covariveis quemenos explicam o modelo.

Os mtodos stepwise podem ter duas dinmicas diferentes; a forward stepwise e backwardstepwise. Resumidamente, o mtodo backward stepwise parte de um modelo inicial comtodas as possveis variveis, que vo sendo eliminadas a cada passo at ser atigindo omodelo final. O mtodo forward stepwise inicia-se com um modelo sem nenhuma vari-vel explicativa (modelo nulo) e a cada passo so includas as variveis relevantes at aobteno do modelo final.

O mtodo stepwise baseia-se no valor dos p-values relativos aos testes de razo de vero-similhanas de Wilks, entre modelos com incluso ou excluso de variveis explicativas,para definir quais as covariveis que devem ser includas do modelo final. Em suma,o mtodo processa-se da seguinte forma: comea por se calcular o valor do p-value ob-tido pelo teste de Wald e, com base neste, escolhe-se qual a varivel que deve sair (ouentrar) no modelo final. Quanto menor (ou maior) for o valor do p-value mais (menos)importante considerada a covarivel. Aps a escolha da covarivel, faz-se uma segundaanlise ao seu grau de importncia atravs do valor do p-value do teste de razo de ve-rosimilhanas entre os modelos que a incluem e excluem, e assim se toma uma decisoacerca da excluso (ou incluso) da varivel no modelo final.

3.11.2 Critrio de Informao Akaike

Existem outros critrios que podem ser utilizados para a seleco de modelos, critriosque tm em considerao a complexidade do modelo. Estes baseiam-se, essencialmente,na penalizao na funo de log-verosimilhana, introduzindo um factor de correcocomo modo de penalizao da complexidade do modelo.

31

3. MODELOS LINEARES GENERALIZADOS 3.12. Observaes discordantes

O Critrio de Informao de Akaike foi desenvolvido por Hirotugu Akaike, sob onome de Akaike Information Criterion (AIC), em 1971, e foi proposto por Akaike em1974, sendo uma medida de equilbrio entre a qualidade do ajustamento e o nmero deparmetros includos no modelo. fundamentado no conceito de entropia, e ofereceuma medida relativa informao perdida quando um determinado modelo utilizado.Pode ser usado para descrever o equlibrio entre a varincia e a tendenciosidade (bias)da construo do modelo ou, por outras palavras, entre a preciso e a complexidade domodelo.

O AIC no um teste ao modelo no sentido de testar hipteses, mas sim um teste en-tre modelos, ou seja, uma ferramenta para seleccionar um modelo de entre um conjuntode modelos. O AIC classifica os modelos e o que tiver o menor AIC deve ser consideradoo melhor modelo.

A estatstica correspondente para o modelo em H0 ,

AIC = 2l(;,y) + 2p (3.34)

onde l(;,y) corresponde funo de log-verosimilhana que se tem vindo a conside-rar.

Em suma, um ajustamento de boa qualidade traduz-se num valor elevado para a fun-o verosimilhana, com o menor nmero de parmetros possvel, logo pode concluir-seque o ajustamento tanto melhor quanto menor for o valor de AIC.

3.12 Observaes discordantes

A anlise dos resduos permite averiguar a existncia de desvios sistemticos do modelo.No entanto, tambm interessante investigar se existem desvios isolados do modelo, isto, observaes mal ajustadas, que se distinguem das outras por no seguirem o mesmopadro, sendo tais observaes denominadas por observaes discordantes. Na anlise dosdesvios isolados existem trs noes importantes: a repercusso, a influncia e a consistn-cia.

32

3. MODELOS LINEARES GENERALIZADOS 3.12. Observaes discordantes

Medida de repercusso ("leverage")

A medida de repercusso mede o efeito que a observao tem nos valores preditos.Assim pode-se considerar que um ponto tem repercusso elevada se

hii >2p

n, (3.35)

onde p =n

i=1 hii e hii H, ver (3.32).

Medida de influncia

Uma observao diz-se influente se uma sua ligeira modificao ou a sua exclusodo modelo produz alteraes significativas no ajustamento do modelo. Uma medidafrequente para a influncia de uma observao i a distncia de Cook. A distncia deCook representa o efeito de excluir uma dada observao e, em valor absoluto, dadapor:

Ci = |RiP |(n pp hi

1 hi)1/2, (3.36)

em que RPi o resduo indicado em (3.31), p =n

i=1 hii e hii H (ver (3.32)).

Medida de consistncia

Uma observao inconsistente , em geral, uma observao com um resduo elevado.Esta inconsistncia pode ser devida a um valor extremo da varivel resposta ou de umaou mais covariveis. Uma observao consistente deve seguir a tendncia sugerida pelasrestantes observaes, no entanto, pode haver observaes consistentes com repercusseselevadas. Para se estudar a existncia de observaes inconsistentes utiliza-se um tipo deresduo, o Resduo de Verosimilhana, dado por:

RiG = i

(1 hii)(RDi )2 + hii(RPi )2, (3.37)

onde i = sinal(yi i), hii H (ver (3.32)) e RPi e RDi os resduos standartizados dePearson e os devios residuais, referidos em (3.31) e (3.33), respectivamente.

Assim, observaes com valores elevados de RGi podem ser consideradas inconsis-tentes. Grficos de RGi contra i, hii ou i podem ser teis para estudar as observaesquanto sua consistncia.

Os Modelos Lineares Generalizados tm como objectivo principal estudar a relaoentre variveis, avaliar o efeito de uma ou mais variveis explicativas ou independentessobre uma varivel dependente ou resposta, pelo que a sua metodologia de extrema

33

3. MODELOS LINEARES GENERALIZADOS 3.12. Observaes discordantes

importncia neste presente trabalho.

Nesta dissertao pretende-se modelar a probabilidade de default de um cliente emfuno de covariveis que caracterizam o cliente e o crdito contratado e estimar a taxa derecuperao em funo das mesmas variveis, assim ir-se- utilizar os casos particularesdos Modelos Lineares Generalizados, a Regresso Logstica e a Regresso Beta.

34

4Modelao de Risco de Crdito -

Aplicao

Neste captulo pretende-se estimar o spread adequado ao perfil de risco de um novo clien-te, aquando do momento de concesso. Para tal, recorrer-se- ao modelo de estimaodo spread proposto no captulo 2 e em [EGFS14]. Tornando-se necessrio efectuar a es-timao da probabilidade de default e da taxa de recuperao para as quais se utilizamos modelos de Regresso Logstica e Beta, respectivamente. No que se refere probabili-dade de default utilizou-se como proxy da varivel aleatria correspondente dois possveiscritrios de classificao de ocorrncia de default. O que permitiu uma anlise do impactoda definio de cliente incumpridor no risco/spread associado a cada cliente. Por fim,e como anlise complementar da carteira, estudou-se a proporo das prestaes pagas,estimando-se, em caso de ocorrncia de default, a percentagem do emprstimo que seencontrar pago.

4.1 A Carteira de Crdito

4.1.1 Base de dados

Os dados utilizados no estudo foram cedidos por uma instituio bancria de Cabo Verdee representam a carteira de crdito ao consumo no perodo compreendido entre Janeirode 2003 e Outubro de 2011.

35

4. MODELAO DE RISCO DE CRDITO - APLICAO 4.1. A Carteira de Crdito

A base de dados contm a informao de 22.044 processos encerrados, tendo-se obser-vado dois sub-conjuntos de caractersticas: as caractersticas / variveis scio-demogrficas,que caracterizam o cliente no momento do emprstimo, e as variveis scio-econmicas,que identificam as caractersticas do emprstimo.

A Tabela 4.1 ilustra as caractersticas dos clientes utiliadas como variveis explicati-vas para o desenvolvimento do estudo pretendido.

Varivel Cdigo da Varivel DescrioVariveis Scio-DemogrficasIdade Idade Idade do ClienteGnero Genero Gnero do ClienteEstado Civil Civil Estado Civil do ClienteHabilitaes Habilitacoes Habilitaes Literrias do ClienteActividade Profissional ActProfissional Actividade Profissional do ClienteEntidade Patronal EntPatronal Tipo de Entidade Patronal do ClienteAgncia Agencia Localizao da Agncia da Instituio

BancriaVariveis Econmicas do EmprstimoValor do Emprstimo VEmprest Montante de crdito cedido pela insti-

tuio bancriaPrazo Prazo N de prestaes mensaisTaxa Nominal TxN Taxa de juro nominalValor da Prestao VPrest Montante que o Cliente paga em cada

prestaoPrestaes Pagas PrestPagas N de prestaes liquidadas pelo Clien-

te no final do contratoTipo de Garantia Garantia Garantia apresentada pelo Cliente

Tabela 4.1: Definio das Variveis

As variveis fornecidas pela Instituio Bancria vinham categorizadas de acordocom os critrios definidos inteiramente pela instituio. Na Tabela 4.2 descreve-se ascategorias de cada varivel e o nmero de processos existentes em cada categoria.

Sabe-se que para preparao da base de dados, foram consideradas algumas resti-es de acordo com a Instituio Bancria, com objectivo de eliminar possveis erros oumesmo valores atpicos. Pelo que, se rejeitaram clientes de acordo com os seguintes cri-trios: montante de emprstimo inferior ou igual a 3.000 e superior a 2.500.000 ECV (Es-cudos Cabo-verdianos); idade inferior a 17 e superior a 70 anos; taxa nominal inferior a2, 5%, uma vez que so os funcionrios da instituio que usufruem desta mesma taxa esuperior ou igual a 40%.

36

4. MODELAO DE RISCO DE CRDITO - APLICAO 4.1. A Carteira de Crdito

Varivel Categoria Grupo N de processosIdade 1 Inferior a 27 2642

2 Entre 27 e 28 16813 Entre 29 e 32 31994 Entre 33 e 42 72415 Superior a 42 7281

Gnero F Feminino 9036M Masculino 13008

Estado Civil 1 Casado, Divorciado, Separado 57512 Solteiro, Unio de Facto, Vivo, Missing 16293

Habilitaes 1 Habilitaes Desconhecidas 42992 Escolaridade Obrigatria 114543 Ensino Secundrio 39994 Curso Mdio e formao profissional 11345 Curso Superior 1158

Act.Profissional 1 Act. Desconhecida, Domstica, Estudante e Pequena/Mdia Empresa 23352 Outros 67623 Liberal/Quadro Superior, Operrio especializado ou no especializado e Quadro Mdio 15364 Emp. Escritrio, Comrcio e Servios 11411

Entidade Patronal 1 Instituies Financeiras, Instituos e Servios Autnomos 16392 Aposentado/Pensionista, Cmara Municipal, Ministrios 112393 Grandes Empresas, Hotelaria e Restaurao 28994 No Declarou 36725 PME, Conta Prpria, Outras 2595

Agncia 1 4, 7, 14, 18, 28 e 29 21762 5 e 10 26463 6, 23, 26 e 30 11014 1, 2, 8, 9, 11 e 24 102375 3, 12, 19, 22, 25, 27, 31 e 32 5884

Valor do Empstimo 1 107.600 4408(ECV) 2 ]107.600, 200.000[ 4504

3 [200.000, 512.320[ 87614 512.320 4371

Taxa Nominal 1 < 12,5 29742 12,5 19070

Valor da Prestao 1 6.120 5323(ECV) 2 ]6.120, 9.742] 5720

3 ]9.742, 14.570] 44724 > 14.570 6529

Prestaes Pagas 1 Inferior a 18 52102 Entre 18 e 23 40173 Entre 24 e 34 61354 Superior a 34 6682

Prazo 1 Inferior a 13 43192 Entre 13 e 24 38713 Entre 25 e 36 69484 Entre 37 e 48 44635 Superior a 48 2243

Tipo de Garantia 1 Depsitos, Hipoteca s/ Imveis, Junto da Instituio, Outras Entidades, Outras Hipotecas 79402 Outras Caues, Penhor 14104

Tabela 4.2: Descrio das Categorias

4.1.2 Definio de Cliente incumpridor

Uma das variveis de interesse neste modelo ser a qualidade de crdito de cada cliente,ou seja, a medida com probabilidade de um cliente entrar em default, isto , em incumpri-mento. Ne extensa literatura sobre o risco de crdito, existem inmeras definies para avriavel resposta. Com o objectivo de analisar a probabilidade de default de um cliente,neste trabalho, seleccionaram-se dois critrios para definir a varivel resposta.

37

4. MODELAO DE RISCO DE CRDITO - APLICAO 4.1. A Carteira de Crdito

O primeiro critrio considerado, referido em [Sid06], tem por base o nmero de diasem atraso no pagamento das prestaes do emprstimo: considera-se incumpridor o cli-ente que esteve pelo menos uma vez, durante o contrato de emprstimo, com mais denoventa dias de atraso no pagamento de uma prestao. O segundo critrio define comocliente incumpridor aquele que, no vencimento do processo de emprstimo, tem ummontante em dvida estritamente positivo, ou seja, se possui valores em dvida dataque o processo deveria ser encerrado.

Na Tabela 4.3 apresentado um resumo de ambas as definies.

Critrio Definio1 Critrio No foram realizados pagamentos por um perodo superior a 90 dias,

pelo menos uma vez durante o contrato2 Critrio No vencimento do processo de emprstimo, montante em dvida estri-

tamente positivo

Tabela 4.3: Definio de Cliente incumpridor

A Tabela 4.4 resume a classificao dos clientes da base de dados, de acordo com cadaum dos critrios de incumprimento adoptados.

Critrio Situao N %

1 Critrio Cumpridor 19.657 89,17%Incumpridor 2.387 10,83%

2 Critrio Cumpridor 17.344 78,68%Incumpridor 4.700 21,32%

Tabela 4.4: Definio de Cliente incumpridor

Como se pode observar na Tabela 4.3, o primeiro critrio de incumpridor envolve2.387 processos encerrados, o que representa 10, 83% da carteira e o segundo critrioabrange 4.700 processos, o que afigura 21, 32% da exposio.

Desde j se pode notar que o critrio adoptado para classificao de default prepon-derante na quantificao do risco, o que se ver com mais detalhe nas seces que seseguem.

38

4. MODELAO DE RISCO DE CRDITO - APLICAO 4.1. A Carteira de Crdito

4.1.3 Anlise Estatstica das Variveis

A Estatstica Descritiva tem como objectivo descrever e analisar a informao que nos fornecida, caracterizando assim o conjunto de dados de que se dispe. Esta secoiniciar-se- com uma anlise preliminar das estatsticas descritivas e posteriormente umaanlise grfica que, muitas vezes, expe a informao acerca das variveis que consti-tuem a carteira de crdito e das relaes entre as mesmas, de forma mais visvel.

Na Tabela 4.5, so apresentadas as frequncias relativas para cada categoria das va-riveis definidas anteriormente na Tabela 4.2. Uma outra forma de analisar os dados daTabela 4.5 recorrendo a histogramas e a diagramas de caixa-e-bigodes.

Idade Gnero Est.Civil Habilitaes Act.Profissional Ent.Patronal Agncia1: 11,99% F: 40,99% 1: 26,09% 1: 19,50% 1: 10,59% 1: 7,44% 1: 9,87%2: 7,63% M: 59,01% 2: 73,91% 2: 51,96% 2: 30,68% 2: 50,98% 2: 12,00%3: 14,51% 3: 18,14% 3: 6,97% 3: 13,15% 3: 4,99%4: 32,85% 4: 5,14% 4: 51,76% 4: 16,66% 4: 46,44%5: 33,03% 5: 5,25% 5: 11,77% 5: 26,69%

V.Emprstimo Prazo Tx.Nominal V.Prestao P.Pagas T.Garantia1: 10,59% 1: 19,59% 1: 13,49% 1: 24,15% 1: 26,63% 1: 36,02%2: 30,68% 2: 17,56% 2: 86,51% 2: 25,95% 2: 18,22% 2: 63,98%3: 6,97% 3: 31,52% 3: 20,29% 3: 27,83%4: 51,76% 4: 21,15% 4: 29,62% 4: 30,31%

5: 10,18%

Tabela 4.5: Anlise Preliminar das Variveis

Os histogramas da Figura 4.1 ilustram os dados das variveis scio-demogrficas.

Construiram-se ainda alguns grficos do tipo caixa-e-bigodes para ilustrar algumasdas variveis quantitativas envolvidas no estudo.

A caixa delimitada superior e inferiormente por dois traos que localizam a alturacorrespondente respectivamente ao primeiro e terceiro quartil. O trao intermdio quedivide a caixa em duas partes corresponde mediana e permite identificar assimetriasnos dados. Os d