40
FUNDAÇÃO UNIVERSIDADE FEDERAL DE RONDÔNIA - UNIR CAMPUS DE JI-PARANÁ DEPARTAMENTO DE MATEMÁTICA E ESTATÍSTICA DHAIANY BUENO GOMES MODELO DE PREVISÃO DE INADIMPLÊNCIA: EMPREGANDO A REGRESSÃO LOGÍSTICA Ji-Paraná Rondônia Brasil 2014

modelo de previsão de inadimplência: empregando a regressão

Embed Size (px)

Citation preview

Page 1: modelo de previsão de inadimplência: empregando a regressão

FUNDAÇÃO UNIVERSIDADE FEDERAL DE RONDÔNIA - UNIR

CAMPUS DE JI-PARANÁ

DEPARTAMENTO DE MATEMÁTICA E ESTATÍSTICA

DHAIANY BUENO GOMES

MODELO DE PREVISÃO DE INADIMPLÊNCIA: EMPREGANDO A

REGRESSÃO LOGÍSTICA

Ji-Paraná Rondônia – Brasil

2014

Page 2: modelo de previsão de inadimplência: empregando a regressão

DHAIANY BUENO GOMES

MODELO DE PREVISÃO DE INADIMPLÊNCIA: EMPREGANDO A

REGRESSÃO LOGÍSTICA

Trabalho de Conclusão de Cursoapresentadoà Fundação Universidade Federal de Rondônia – Campus de Ji- Paraná, como parte das exigências do Curso de Graduação em Estatística, para obtenção do título de Estatístico.

Orientador: Nerio Aparecido Cardoso

Ji-Paraná

Rondônia – Brasil 2014

Page 3: modelo de previsão de inadimplência: empregando a regressão

Gomes, Dhaiany Bueno

G633m

2014

Modelo de previsão de inadimplência: empregando a regressão

logística / Dhaiany Bueno Gomes; orientador, Nerio Aparecido

Cardoso. -- Ji-Paraná, 2014

35 f. : 30 cm

Trabalho de conclusão do curso de Estatística. – Universidade

Federal de Rondônia, 2014

Inclui referências

1.Análise estatística. 2. Estatística matemática . I. Cardoso, Nerio

Aparecido. II. Universidade Federal de Rondônia. III. Titulo

CDU 519

Bibliotecária: Marlene da Silva Modesto Deguchi CRB 11/ 601

Page 4: modelo de previsão de inadimplência: empregando a regressão
Page 5: modelo de previsão de inadimplência: empregando a regressão

UNIVERSIDADE FEDERAL DE RONDÔNIA CAMPUS DE JI-PARANÁ

DEPARTAMENTO DE MATEMÁTICA E ESTATÍSTICA

TÍTULO:MODELO DE PREVISÃO DE INADIMPLÊNCIA:

EMPREGANDO A REGRESSÃO LOGÍSTICA

AUTORA:DHAIANY BUENO GOMES

O presente Trabalho de Conclusão de Curso foi defendido como parte dos

requisitos para obtenção do título de Bacharel em Estatística e aprovado pelo

Departamento de Matemática e Estatística, Fundação Universidade Federal de

Rondônia, Campus de Ji- Paraná, no dia 12 de dezembro de 2014.

_____________________________________ Prof.Me. Nerio Aparecido Cardoso

Universidade Federal de Rondônia

_____________________________________ Prof.GrBruno Soares de Castro

Universidade Federal de Rondônia

_____________________________________ Prof. Gr Érica Vieira Nogueira

Universidade Federal de Rondônia

Ji-Paraná, 12 de Dezembro de 2014.

Page 6: modelo de previsão de inadimplência: empregando a regressão

AGRADECIMENTOS

A Deus em primeiro lugar, de quem creio proceder todo o conhecimento e

sabedoria.

A minha mãe, Maria Tereza Bueno, meu irmão Samuel Victor Bueno, minha prima

Bruna Cristiane e minha tia que acompanharam de perto minha caminhada até o fim

do curso.

Aos meus avós João Bueno (Im Memoriam) e Leopoldina Silva Bueno (Im

Memoriam), que foram meus maiores incentivadores nos estudos.

Aos colegas de curso, que tiveram paciência e companheirismo em me ajudar nos

momentos em que precisei deles.

As minhas amigas Erica Vieira, Luana Lúcia que me incentivaram a fazer o Trabalho

de Conclusão do Curso.

As minhas amigas Angélica, Vânia e Joelma que me suportaram nos momentos de

estresse e me fizeram rir no caminho para faculdade.

As minhas amigas Jéssica S. de Abreu, Daiane Gonçalves e Karina Fiuza pela

amizade e palavras de incentivo.

Ao meu pai, e minha irmãs pelo apoio e palavras de incentivo.

Aos meus professores do curso pelo conhecimento transmitido.

Ao professor Dilson Henrique Ramos Evangelista que foi meu orientador no inicio

deste trabalho.

Ao professor Nerio Aparecido Cardoso que também me orientou neste trabalho.

Page 7: modelo de previsão de inadimplência: empregando a regressão

RESUMO

O presente Trabalho tem por objetivo auxiliar a tomada de decisão

relacionada à concessão de crédito através dos conhecimentos que aborda uma

análise de regressão logística, suprimindo o risco que a empresa tem ao conceder

crédito. A maioria das empresas adotam a subjetividade, frequentemente por meio

de gestores que não conseguem descrever os processos para a tomada de decisão,

embora consigam apontar os fatores que influenciam as decisões. Desta forma, este

trabalho será realizado por meio de uma pesquisa quantitativa. A amostra é

composta de 150 clientes no cadastro da empresa A que trabalha no ramo de venda

de peças de moto, formada por 08 lojas, sendo 01 em Presidente Médici – RO,01

em Ji- Paraná – RO, 01 em Ariquemes – RO, 01 em Porto Velho – RO, 01 em

Guajará – Mirim – RO, 01 em Cacoal – RO, 01 em Cuiabá- MT e 01 em Rio Branco

– AC.Os principais resultados obtidos mostram que apenas três variáveis

independentes se apresentaram significativas e puderam ser inseridas no modelo,

foram elas idade (51 a 78 anos), tipo de ocupação autônomo e tipo de ocupação

outros. O poder preditivo do modelo foi de 75,3%. O estudo remete à necessidade

de ampliação do banco de dados da empresa, um controle mais rígido referente ao

preenchimento dos dados cadastrais e a inserção de mais características do cliente,

a fim de identificar as variáveis que mais influenciam a inadimplência.

Palavras-chave:Regressão Logística. Inadimplência. Clientes.Modelo de Previsão.

Page 8: modelo de previsão de inadimplência: empregando a regressão

ABSTRACT

The present work aims to help the decision making process related the

granting of credit through knowledge that addresses a logistic regression analysis,

removing the risk that the company has to grant credit. Most companies adopts

subjectivity, frequently by means of managers who fail to describe the processes for

decision-making, although able to point out the factors that influence decisions. Thus,

this work will be carried by means of a quantitative research. The sample is

composed of 150 clients in the registration of the enterprise A who works in the

motorcycle parts sales branch, consisting of 08 stores, including 01 in Presidente

Medici - RO, 01 in Ji-Paraná - RO, 01 in Porto Velho - RO, 01 in Porto Velho - RO,

01 in Guajará - Mirim - RO, 01 in Cacoal - RO, 01 in Cuiabá-MT and 01 in Rio Branco

- AC.The main results show that only three independent variables presented

significant and could be included in the model, they were age (51-78 years), type of

autonomousoccupation and other type of occupation.The predictive power of the

model was 75.3%.The study remits to need for expanding the enterprise database,

stricter control regarding the filling in of cadastral data and the insertion of more

customer characteristics in order to identify the variables that most influence the

default.

Keywords: Logistic Regression. Default.Clients.Prediction model.

Page 9: modelo de previsão de inadimplência: empregando a regressão

LISTA DE FIGURAS

Figura 1: Curva em S - A curva da Regressão Logística descreve a relação existente

entre à probabilidade associada à ocorrência de determinado evento e um conjunto

de variáveis dependentes.......................................................................................... 20

Figura 2. Passos para a análise logística no SPSS. ................................................. 35

Figura 3. Seleção da variável dependente ............................................................... 36

Figura 4. Classificação das covariáveis categóricas . .............................................. 36

Figura 5. Caixa de diálogo Salvar ............................................................................. 37

Figura 6. Caixa de diálogo Opões. ........................................................................... 37

Page 10: modelo de previsão de inadimplência: empregando a regressão

LISTA DE TABELAS

Tabela 1: Elementos de ajuste do modelo ........................................................................ 19

Tabela 2: Variáveis Identificadas no sistema de Cadastro da empresa A, para a

construção do modelo. Presidente Médici, Out 2013 ...................................................... 24

Tabela 3: Criação de variáveis Dummies para as variáveis Independentes.

Presidente Médici, Out 2013 ................................................................................................ 24

Tabela 4: Estatística de Wald com os dados da empresa A. Presidente Médici, Out

2013. ........................................................................................................................................ 26

Tabela 5: Estatística de Pseudos – R – Quadrado realizada com os dados da

empresa A. Presidente Médici, Out 2013. ......................................................................... 26

Tabela 6: Resultados do teste de Hosmer e Lemeshow obtidos com os dados da

empresa A. Presidente Médici, Out 2013 . ........................................................................ 27

Tabela 7: Resultado do teste Qui – Quadrado para o teste de Hosmer e Lemeshow

obtido com os dados da empresa A. Presidente Médici, Out 2013 ............................... 28

Tabela 8: Matriz de Classificação Original do Modelo. Presidente Médici, Out 2013 28

Tabela 9: Matriz de Classificação Realizada do Modelo. Presidente Médici, Out 2013

.................................................................................................................................................. 28

Tabela 10: Coeficientes das variáveis independentes e Estatística de

Wald.Presidente Médici, Out 2013 ..................................................................................... 29

Page 11: modelo de previsão de inadimplência: empregando a regressão

SUMÁRIO

1. INTRODUÇÃO ............................................................................................................................. 10

1.1 OBJETIVOS ............................................................................................................................ 12

1.1.1 OBJETIVO GERAL .................................................................................................................. 12

1.1.2 OBJETIVO ESPECÍFICO ........................................................................................................ 12

1.2 JUSTIFICATIVA ........................................................................................................................... 12

2. REVISÃO BIBLIOGRÁFICA ........................................................................................................ 13

2.1 INCLUSÃO DE TODAS AS VARIÁVEIS DEPENDENTES NO MODELO PARA QUE

SE OBTENHA MAIOR ESTABILIDADE ..................................................................................... 14

2.2 O VALOR ESPERADO DO ERRO DEVE SER ZERO ...................................................... 14

2.3 INEXISTÊNCIA DEAUTOCORRELAÇÃO ENTRE OS ERROS ...................................... 14

2.4 INEXISTÊNCIA DE CORRELAÇÃO ENTRE OS ERROS E AS VARIÁVEIS

INDEPENDENTES ......................................................................................................................... 15

2.5 AUSÊNCIA DE MULTICOLINEARIDADE PERFEITA ENTRE AS VARIÁVEIS

INDEPENDENTES. ........................................................................................................................ 15

3. METODOLOGIA ............................................................................................................................ 23

4. RESULTADOS E DISCUSSÃO .................................................................................................. 26

5. CONCLUSÃO ................................................................................................................................. 31

CONSIDERAÇÕES FINAIS ............................................................................................................. 32

REFERÊNCIAS .................................................................................................................................. 33

APÊNDICE ...................................................................................................................................... 35

Page 12: modelo de previsão de inadimplência: empregando a regressão

10

1. INTRODUÇÃO

De acordo com Eifert (2003), inadimplência consiste no não pagamento até a

data de vencimento de um compromisso financeiro com outrem, quando feita

negociação de prazos entre as partes, para aquisição de bem durável ou não

durável, ou prestação de serviços, devidamente executados.

No Brasil a taxa de inadimplência do comércio varejista avançou 6,65% em

fevereiro de 2013, na comparação com o mesmo mês do ano anterior, segundo

informou a Confederação Nacional de Dirigentes Lojistas (CNDL) em conjunto com o

Serviço de Proteção ao Crédito (SPC Brasil).

De acordo com Roque Pellizaro Junior, presidente da CNDL, o aumento do

atraso no pagamento de contas é consequência das medidas de estímulo ao

consumo somado à falta de planejamento do consumidor.

Com vista a diminuir a taxa de inadimplência às empresas realizam a análise

de crédito. Segundo Schrickel (1995, p.27) a análise de crédito tem como objetivo, "a

habilidade de fazer uma decisão de crédito, dentro de um cenário de incertezas e

constantes mutações e informações incompletas". A análise de crédito, segundo o

autor, é a identificação dos riscos, a evidenciação de conclusões quanto à

capacidade de pagamento do tomador e recomendações relativas à melhor

estruturação e tipo de concessão do limite.

Segundo Santos (2000,p.29), o processo de análise e concessão de crédito

recorre ao uso de duas técnicas: a técnica subjetiva, baseada no julgamento

humano e a técnica objetiva ou estatística, baseada em conhecimentos estatísticos.

Na maioria das empresas, mas especificamente no mercado de crédito

concedido à pessoa física, a correta decisão é essencial para a sobrevivência de

empresas comercias que utilizam o crédito como impulsionador de vendas. A

avaliação de crédito é feita com base em uma variedade de informações observadas

no cadastro do cliente e consulta ao Serviço de Proteção ao Crédito (S.P.C). Os

gerentes analisam essas informações de maneira subjetiva e muitas vezes não

Page 13: modelo de previsão de inadimplência: empregando a regressão

11

conseguem explicar os processos de tomada de decisões, embora consigam

apontar os fatores que influenciam as decisões (MENDES FILHO, 1996).

Para Silva(2003), os métodos estatísticos multivariados tem sido

considerados ferramentas bastante poderosas na administração do risco de

inadimplência existente na concessão de crédito. Sendo assim, esse estudo mostra-

se de extrema relevância para a análise de concessão de crédito, tendo como

vantagem um padrão mantido nas decisões e maior agilidade no processo.

As informações são coletadas por meio de um questionário estruturado, com

perguntas claras e objetivas para garantir a uniformidade e a padronização dos

resultados.

A pesquisa qualitativa, visa entender e interpretar comportamentos, atitudes e

motivações que influenciam ou determinam a escolha de produtos e marcas. Ela é

utilizada tanto para aprofundar conhecimentos que já tenham sido quantificados,

quanto para montar uma base de conhecimentos para posteriormente testá-los

quantitativamente.

A pesquisa quantitativatem como objetivo identificar a presença e medir a

frequência e intensidade de comportamentos, atitudes e motivações de um

determinado publicoalvo.

Opresente trabalho será realizado por meio de uma pesquisa quantitativa,

pois os dados serão ainda quantificados, para se conhecer o comportamento dos

adimplentes e inadimplentes. A finalidade de um modelo matemático somado a um

risco é reconhecer com um determinado grau de confiabilidade um comportamento

padrão dos inadimplentes diante da concessão de crédito. Para construção de um

modelo matemático é preciso observar os pressupostos para identificar qual método

estatístico é mais eficiente para descrever os dados gerados pela empresa de forma

a aumentar o poder de predição (SILVA, 2003).

O modelo matemático que descreve a inadimplência, assim que construído,

permitirá a classificação de um novo aspirante a crédito em um dos grupos,

“provável adimplente“ ou “provável inadimplente” com um determinado nível de

confiabilidade.

Por isso, o objetivo deste trabalho é encontrar um modelo matemático que

determine, com um determinado grau de confiabilidade, as variáveis que influênciam

o comportamento padrão dos inadimplentes. Pretende-se com isso, auxiliar a

tomada de decisão do analista minimizando possíveis erros.

Page 14: modelo de previsão de inadimplência: empregando a regressão

12

1.1 OBJETIVOS

1.1.1 OBJETIVO GERAL

É propor um modelo matemático para auxiliar a tomada de decisão da

concessão de crédito, que é feita na empresa em estudo de forma subjetiva,

baseada no julgamento humano.

1.1.2 OBJETIVO ESPECÍFICO

É utilizar a regressão logística na identificação de variáveis que permitam

evidenciar o comportamento de clientes inadimplentes de uma determinada

empresa, a partir de informações cadastrais fornecidas pela mesma.

1.2 JUSTIFICATIVA

A concessão de crédito é uma forma de empréstimo que muitas empresas

fornecem aos seus clientes, o retorno dos recursos emprestados é fator

determinante para novas concessões e, até mesmo para a sobrevivência do próprio

negócio. Saber se um cliente provavelmente honrará com seus compromissos é

indispensável na hora de tomar uma decisão com vistas a concessão de crédito.

Os modelos de previsão quantitativos são muito utilizados para auxiliar a

análise de crédito, tendo como vantagens maior rapidez nas solicitações de crédito,

padrão mantido nas decisões e um menor número de pessoas necessárias para

esta atividade.

Para a construção do modelo de previsão será utilizada o método estatístico

multivariado de regressão logística.

Page 15: modelo de previsão de inadimplência: empregando a regressão

13

2. REVISÃO BIBLIOGRÁFICA

A análise multivariada, pode ser definida como o conjunto de métodos que

permitem a análise simultânea de dados para um ou mais conjuntos de fatores, e

que considera o comportamento de mais de duas variáveis analisadas

simultaneamente(Corrar et al ,2007).

De acordo com Corraretal (2007), a regressão logística surgiu por volta dos

anos 60, um dos primeiros estudos que mais contribuíram para conferir a

notoriedade a esse recurso da estatística multivariada foi o famoso Estudo do

Coração(Framingham Heart Study), realizado com a colaboração da Universidade

de Boston, na cidade de Framingham, em Massachusetts. Os modelos logísticos

foram criados para atender a necessidade de modelos que explicassem melhor

dados qualitativos.

As variáveis qualitativas são variáveis que não possuem valores quantitativos,

sendo definidas por categorias ou classificações. Podem ser classificadas em

variáveis nominais (sexo, estado civil, etc) e variáveis ordinais (escolaridade, etc).A

variável dependente sofre influencia de variáveis quantitativas e qualitativas. As

variáveis quantitativas são facilmente mensuradas em alguma escala o que não

ocorre com as variáveis qualitativas, uma vez que essas indicam a presença ou a

ausência de uma qualidade ou atributo(Corraret al ,2007).

SegundoCorraret al (2007), com a análise de regressão logística o

pesquisador consegue contornar certas restrições encontradas em modelos

multivariados, com destaque para a homogeneidade de variância e a normalidade

na distribuição dos erros. Ainda assim, é necessário observar os seguintes

requisitos: a inclusão de todas as variáveis dependentes no modelo para que se

obtenha maior estabilidade; o valor esperado do erro deve ser zero; inexistência de

autocorrelação entre os erros; inexistência de correlação entre os erros e as

Page 16: modelo de previsão de inadimplência: empregando a regressão

14

variáveis independentes e ausência de multicolinearidade perfeita entre as variáveis

independentes. A seguir será descrito os pressupostos que devem ser verificados.

2.1 INCLUSÃO DE TODAS AS VARIÁVEIS DEPENDENTES NO

MODELO PARA QUE SE OBTENHA MAIOR ESTABILIDADE

Em modelos de regressão múltipla é necessário determinar um

subconjunto de variáveis independentes que melhor explique a variável

resposta, isto é, dentre todas as variáveis explicativas disponíveis devemos

encontrar um subconjunto de variáveis importantes para o modelo. Para

isto, utiliza-se uma técnica denominada de seleção de variáveis, onde se

utiliza todos os modelos possíveis de variáveis dependentes, e

considerando critérios de avaliação seleciona-se o melhor deles.

2.2 O VALOR ESPERADO DO ERRO DEVE SER ZERO

A não observação desse pressuposto compromete a consistência da

estimativa do erro. O valor esperado do erro ser igual a zero significa que

os fatores não incluídos no modelo (que compõem o termo do erro), não

afetam de maneira sistemática o valor médio da variável dependente.

Segundo Kennedy (2009, p. 109), “o erro pode ter uma média diferente de

zero devido a presença de erros de mensuração sistematicamente

positivos ou negativos no calculo da variável dependente”.

2.3INEXISTÊNCIA DEAUTOCORRELAÇÃO ENTRE OS ERROS

O modelo de regressão pressupõe que a correlação entre os

resíduos, ao longo do espectro das variáveis independentes, é zero;

sendo assim o efeito de uma observação de dada variável X é nulo sobre

as observações seguintes; portanto, não há causalidade entre os resíduos

e a variável X, e, por consequência, a variável Y só sofre influencias da

própria variável X considerada e não dos efeitos de X1 sobre X2 e desta

Page 17: modelo de previsão de inadimplência: empregando a regressão

15

sobre Y.Em outras palavras, os resíduos são independentes entre si e só

se observa o efeito de X sobre Y, ou seja, não existe autocorrelação

residual. A ausência de autocorrelação serial pode ser identificada através

de gráficos ou testes estatísticos, como DURBIN – WATSON e

BREUSCH – GODFREY.

2.4 INEXISTÊNCIA DE CORRELAÇÃO ENTRE OS ERROS E AS

VARIÁVEIS INDEPENDENTES

Para que esse pressuposto seja atendido é necessário que todas

as variáveis teoricamente importantes, sejam incorporadas no modelo

matemático. Pois, se uma variável X1 esta correlacionada com outra

variável explicativa, e esta última não for incorporada no modelo, as

estimativas serão viesadas. Segundo Lewis – Beck (1980) a uma certa

dificuldade em satisfazer esse pressuposto em desenhos de pesquisa não

experimentais .

2.5AUSÊNCIA DE MULTICOLINEARIDADE PERFEITA ENTRE AS

VARIÁVEIS INDEPENDENTES.

Segundo Gujarati(2000,p.318), o termo multicolinearidade foi

cunhado por Ragnar Frish em 1934. Originalmente, significa a existência

de uma “perfeita” ou “exata“ relação linear entre algumas ou todas as

variáveis explicativas de um modelo de regressão. A situação ideal para

todo o pesquisador seria ter diversas variáveis independentes

correlacionadas com a variável dependente, mas com pouca correlação

entre elas próprias. O diagnostico de multicolinearidade pode ser feito

observando-se modelos que apresentem coeficientes de determinação

(R²) altos e coeficientes de regressão (angular e linear) não significativos,

ou seja, Sig maior que α. Ou, ainda por meio de testes estatísticos, como

o FARRAR e GLAUBER e FIV (Fator de Inflação da Variância).

Page 18: modelo de previsão de inadimplência: empregando a regressão

16

De acordo com Corraretal (2007), a técnica de regressão logística

se destaca, pela possibilidade de contornar certas restrições encontradas

em outros modelos multivariados. Entretanto, o modelo de regressão

logística é sensível à colinearidade entre as variáveis (HAIR et al., 2005).

Por isso, Corraretal (2007) indica o uso do método stepwise como uma

das ações corretivas para o problema de multicolinearidade, na escolha

das variáveis que irão compor o modelo considerado.

Hosmer e Lemeshow (1989) mostraram que a utilização do método de

regressão logística é adequada em muitas situações, porque permite que se analise

o efeito de uma ou mais varáveis dependentes (categóricas ou métricas) sobre uma

variável resposta dicotômica, representando a presença (1) ou ausência (0) de uma

característica. A regressão logística tem por finalidade encontrar um modelo

explicativo para o comportamento da probabilidade de sucesso, em termos das

variáveis dependentes. Dessa forma, a regressão logística é especificamente

apresentada para prever a probabilidade entre um intervalo de 0 a 1 de um evento

ocorrer.Dessa forma, um método para quantificar esses atributos é construir

variáveis artificiais que assumam valores de 1 ou 0 ( indicando ausência e presença

de um atributo) que são conhecidas pela literatura de variáveis dummy. O par (0,1)

pode ser transformado em qualquer outro par por uma equação linear tal que:

Z= a+bD (b ≠ 0 ) (1)

Onde:

a e b são constantes e D= 1ou 0.

Quando D=1 tem-se:

Z=a+b;

e quando D=0 tem-se:

Z = a

Assim, o par (0,1) se torna (a,a+b). Observa-se que a atribuição de valores é

arbitraria, exigindo cuidado na hora da interpretação dos resultados.

O valor esperado das variáveis dependentes passa por um processo de

transformação logística em que são transformadas numa razão de probabilidades e

posteriormente em uma variável de base logarítmica. A regressão múltipla emprega

Page 19: modelo de previsão de inadimplência: empregando a regressão

17

o método de mínimos quadrados, que minimiza a soma das diferenças quadradas

entre os valores reais e previstos da variável dependente. Entretanto, devido à

natureza não linear dessa transformação, utiliza-se o método de máxima

verossimilhança, no lugar do método de mínimos quadrados utilizado na regressão

linear, para estimar os coeficientes (HAIR et al., 2005 ).

Portanto, a regressão logística maximiza a probabilidade de que um evento

ocorra, ao invés de minimizar os desvios quadrados (mínimos quadrados).

No modelo de regressão logística, com apenas uma variável independente X:

E(Yi) = π x =

eβ0+β1

1+eβ0+β1 (2)

Onde:

π (x) = probabilidade de a variável resposta ser igual a 1 dado que X=x.

A definição de π (x) mostrada na equação deriva de uma transformação de

variáveis denominada transformação logit da probabilidade π (x). O principal objetivo

dessa transformação é permitir que a equação de regressão logística g(x) tenha

características lineares e, assim permita que valores entre −∞ e +∞ sejam

assumidos pela variável dependente. A equação 3 mostra como é feita a

transformaçãologit:

g(x) = ln π(x)

1-π(x) = β

0+β

1x (3)

Onde:

π(X)

1-π(x)é comumente chamada de Odds;

β0 + β1x é denominada como a equaçãorespostalogit;

-∞<g(x) <+∞para todo x tal que-∞< x <+∞.

De uma forma geral, o método da máxima verossimilhança tem como função

retornar valores para os parâmetros desconhecidos β0 e β1 de forma a maximizar a

probabilidade de se obter a sequência observada de dados.

A primeira etapa para a aplicação do método consiste na definição e

modelagem da equação de verossimilhança, que expressa a probabilidade de

obtenção da sequência observada como equação dos parâmetros β0e β1. Como a

Page 20: modelo de previsão de inadimplência: empregando a regressão

18

variável resposta Y assume somente os valores 0 ou 1, a equação apresentada

anteriormente fornece a probabilidade condicional de Y ser igual a 1 dado x, ou seja,

P(Y=1/x). Da mesma maneira, tem-se que 1- 𝜋(𝑥) representa a probabilidade

condicional de Y ser igual a 0 dado x, P(Y= 0/x).

ζ x =π(xi)yi [1-π(xi)]

1-yi (4)

Sendo: π xi = f (β0, β

1)

Como as observações 𝑌𝑖 são todas independentes, tem-se que a equação de

verossimilhança τ β para uma amostra de tamanho n é dada por:

τ β = π(xi)yin

i=1 (1-π(xi)) 1-yi (5)

Com baseno método da máxima verossimilhança, as estimativas para β0 e β

1

são obtidas de forma a maximizar a expressão acima, porém, por facilidades

matemáticas, o mais usual é a utilização do logaritmo dessa equação, definido

como:

L β =ln τ(β) = {yi

ni=1 ln π xi +(1-y

i)ln[1-π(x

i)]} (6)

Para que seja possível determinar os valores de β que maximizam L(β) é

necessário derivar a equação em relação à β0 e β

1 e igualar à expressão resultante

a zero. As equações obtidas dessa forma, conhecidas como expressões de

verossimilhança, são as seguintes:

[yi

ni=1 -π(xi)]=0 (7)

xini=1 [y

i-π(xi)]=0 (8)

No caso dos modelos de regressão logística, as expressões 7 e 8 são não

lineares em β0

e β1

, sendo necessária a utilização de métodos de resolução

Page 21: modelo de previsão de inadimplência: empregando a regressão

19

iterativos para obter suas soluções, tais como o método de mínimos quadrados

ponderado apresentado por McCullagh e Nelder (1989).

O método iterativo de mínimos quadrados ponderados é um algoritmo

numérico de resolução utilizado no contexto de Modelos Lineares Generalizados,

esse método trabalha com uma aproximação de segunda ordem da equação log-

verossimilhança (fórmula de Taylor), com desenvolvimento em torno duma

estimativa do vetor β.

De acordo com Hairet al. (2005), a regressão logística se assemelha em

muitos pontos à regressão múltipla, mas se difere basicamente no sentido de prever

a probabilidade de um evento ocorrer.

Tabela 1: Elementos de ajuste do modelo

Correspondência de elementos primários de ajuste do modelo

Regressão múltipla Regressão logística

Soma total de quadrados -2LL do modelo base

Soma de quadrado do erro -2LL do modelo proposto

Soma de quadrados da regressão Diferença de–LL* para modelos base e

proposto

Teste F de ajuste de modelo Teste de qui – quadrado da diferença -

2LL

Coeficiente de determinação (R²) Medidas pseudo R²

Fonte: Hairet al (p. 288, 2005).

Observa-se na Tabela 1 que os métodos básicos para testar o ajuste geral do

modelo são comparáveis, com as diferenças surgindo dos métodos de estimação

nas duas técnicas.

Page 22: modelo de previsão de inadimplência: empregando a regressão

20

Os valores de probabilidade podem ser qualquer valor entre 0 e 1, mas o

valor previsto deve ser limitado, de modo a recair no intervalo de 0 a 1. Para definir

uma relação delimitada por 0 e 1, a regressão logística usa uma relação assumida

entre as variáveis independentes e dependente que lembra uma curva em forma de

S ( Hair et al, 2005), conforme é observado na Figura 1.

Figura 1:Curva em S - A curva da Regressão Logística descreve a relação existente entre à probabilidade associada à ocorrência de determinado evento e um conjunto de variáveis

dependentes. Fonte: Hair et al. (2005, p. 284).

O modelo de regressão logística é obtido pelo procedimento de comparação

da probabilidade de um evento ocorrer com a probabilidade de não ocorrer. De

acordo com Hairet al. (2005), esta razão pode ser expressa segundo a Equação 9.

Prob evento ocorrer

Prob evento não ocorrer = eβ0+β1X1+…+βnXn (9)

Os coeficientes estimados (β0, β1, ..., βn) são medidas das variações na

proporção das probabilidades, chamada de razão de desigualdade. São expressos

em logaritmos, necessitando serem transformados para facilitar a interpretação. Um

coeficiente positivo revela que a variável observada aumenta a probabilidade de

Page 23: modelo de previsão de inadimplência: empregando a regressão

21

ocorrência do evento, enquanto que um valor negativo diminui a probabilidade

prevista.

Hairetal (2005) apresenta as seguintes medidas de avaliação do modelo

logístico:

Log LikelihoodValue (-2LL) – trata-se de um indicador que mede o

ajuste da estimação do modelo com o valor -2 vezes o logaritmo do

valor da verossimilhança, chamado de -2LL. O valor mínimo para -2LL

é 0, o que corresponde a um ajuste perfeito, assim quanto menor o

valor de -2LL, melhor o ajuste do modelo;

Pseudos-R-Quadrado – são coeficientes que cumprem um papel

semelhante ao Coeficiente de Determinação da Regressão Múltipla. O

valor R² logit varia de 0 a 1, a medida que o modelo proposto aumenta

o ajuste, o -2LL diminui. O valor pseudo – quadrado R² possui duas

outras medidas semelhantes. A medida R² de Cox e Snell e a medida

de Negelkerke. A medida R² de Cox e Snell opera do mesmo modo,

com valores maiores indicando maior ajuste do modelo. Entretanto,

esta medida é limitada no sentido de que não pode atingir o valor

máximo de 1, de forma que Nalgelkerke propôs uma modificação que

tinha o domínio de 0 a 1. As duas medidas adicionais são interpretadas

como refletindo a quantia de variação explicada pelo modelo logístico,

com 1 indicando ajuste perfeito. O pseudo R² para um modelo logit

(R²logit) pode ser calculado com a equação:

Rlogit2

=- 2LLnulo- ( - 2LLmodelo)

- 2LLnulo

(10)

Teste Hosmer e Lemeshow – é um teste Qui – quadrado(𝜒2) que

consiste em dividir o número de observações em cerca de dez classes

e, em seguida, comparar as frequências preditas com as observadas

para verificar se existem diferenças significativas entre as

classificações realizadas pelo modelo e a realidade observada. Espera-

se que uma convergência de indicações dessas medidas forneça o

suporte necessário ao pesquisadorpara a avaliação geral do modelo;

Teste Wald – sua finalidade é aferir o grau de significância de cada

coeficiente da equação logística, inclusive a constante, mais

Page 24: modelo de previsão de inadimplência: empregando a regressão

22

precisamente, verificar se cada parâmetro estimado é

significativamente diferente de zero. Se o coeficiente logístico é

estatisticamente significante, podemos interpretá-lo em termos de

como o mesmo impacta a probabilidade estimada e consequentemente

a previsão de pertinência a grupo. A estatística Wald segue uma

distribuição Qui-quadrado e quando a variável dependente tem um

único grau de liberdade pode ser calculada elevando-se ao quadrado a

razão entre o coeficiente que esta sendo testado e o respectivo erro-

padrão, conforme a equação:

Wald = (b/S.E)2 (11)

Onde:

b = coeficiente de uma variável independente incluída no modelo

S.E = erro – padrão (standard error).

De acordo com Corraretal (2007), comparada com outras técnicas de

dependência, a regressão logística acolhe com mais facilidade variáveis categóricas.

Segundo Corrar et al (2007) a regressão logística se caracteriza como uma

técnica estatística que permite estimar a probabilidade de ocorrência de determinado

evento em face de um conjunto de variáveis independentes, pois trabalha com uma

escala de resultados que vai de 0 a 1 e tende a ser mais útil e a apresentar

resultados mais confiáveis, tendo em vista que o referido modelo é mais flexível

quanto às suposições iniciais.

Para a construção de um modelo que melhor represente as observações, é

necessário a avaliação de variáveis que devem ser inserida ou retirada do modelo

para evitar problemas de multicolinearidade. Para a seleção inicial das variáveis

independentes que devem compor o modelo, pode-se utilizar o método stepwise, a

qual seleciona a melhor combinação destas variáveis para compor o modelo ideal.

Corraretal(2007) indica o método stepwise como uma das ações corretivas para os

efeitos de multicolinearidade. O procedimento de avaliação das variáveis

dependentes desconsidera variáveis que apresentem sinais de multicolinearidade,

optando por manter no modelo apenas aquelas de maior significância estatística

(SELAU, 2011).

Page 25: modelo de previsão de inadimplência: empregando a regressão

23

3. METODOLOGIA

Por confidencialidade a empresa que participou deste trabalho será

renomeada de empresa A. O ramo de atividade da empresa A é a distribuição no

atacado e no varejo de peças de motos em oficinas. A empresa foi fundada no ano

de 1994 e em 2014 é um grupo formado por 08 unidades, sendo 01 em Presidente

Médici – RO,01 em Ji- Paraná – RO, 01 em Ariquemes – RO, 01 em Porto Velho –

RO, 01 em Guajará – Mirim – RO, 01 em Cacoal – RO, 01 em Cuiabá- MT e 01 em

Rio Branco – AC.

A empresa conta com o setor de análise de crédito localizada na matriz, em

Presidente Médici – RO, responsável pela a análise do candidato à cliente através

do comprovante de renda, de residência, referencias comerciais, consultas ao

Serviço de Proteção ao Crédito (S.P.C)

A primeira etapa realizada no trabalho foi determinar o tamanho da amostra.

Como sugere Hairet al. (2005), para cada variável independente são necessárias 20

observações no mínimo.A amostra contém as pessoas constantes no Cadastro da

Empresa A, formada pelos cadastros preenchidos de forma correta, sem dados

faltantes, sendo mantido total sigilo das informações.

O período de coleta de dados durou aproximadamente dois meses,

encerrando-se no mês de novembro de 2013, na cidade de Presidente Médici - RO.

Durante esse período foram coletados dados de 150 pessoas.Estas

informações estavam disponíveis no sistema de informações interno da empresa

através de um programa chamado MCIMulticontrole Integrado, especifico para esse

fim.

A empresa adota como critério para caracterizar um cliente inadimplente o

atraso a 30 dias no pagamento de suas operações.

As análises de dados foram realizadas pelo software SPSS®Statistics 20.

No presente caso foi atribuído o valor 1para representar o estado de

inadimplência e 0 para o de adimplência.

Page 26: modelo de previsão de inadimplência: empregando a regressão

24

Para a identificação inicial das variáveis independentes, tomou- se por base

estudos realizados anteriormente sobre o assunto e nas informações disponíveis no

sistema de cadastro da empresa. As variáveis pré-selecionadas estão na Tabela 2.

Tabela 2: Variáveis Identificadas no sistema de Cadastro da empresa A, para a construção do

modelo. Presidente Médici, Out 2013

Variáveis Descrição

Gênero Feminino ou Masculino

Idade Idade do Cliente em Anos

Estado civil Casado, Solteiro, Divorciado, Viúvo e Outros

Tipo de ocupação Assalariado, Autônomo, Funcionário Publico,

Outros

Tipo de Residência Própria, Alugada, Funcional, Com Parentes

Renda mensal Valor da Renda (R$)

Fonte: Dados do cadastro da empresa A.

Para incluir asvariáveis Estado Civil, Tipo de Ocupação, Tipo de Residência e

Idade na análise, foi necessário categorizá-las. O resultado dessa recodificação está

contido na Tabela 3.

Tabela 3: Criação de variáveis Dummies para as variáveis Independentes. Presidente Médici, Out 2013

Variáveis independentes Variáveis Dummy

Estado Civil

Solteiro ESTSOL

Casado ESTCASA

Divorciado ESTDIVO

Viúvo ESTVIU

Outros ESTOUTR

Tipo de Ocupação

Assalariado TOASSA

Autônomo TOAUTO

Funcionário Publico TOFUNC

Aposentado TOAPOS

Outros TOOUTR

Page 27: modelo de previsão de inadimplência: empregando a regressão

25

Tipo De Residência

Própria TRPROP

Alugada TRALUG

Funcional TRFUNC

Com Parentes

Idade

21 a 30 anos

31 a 40 anos

41 a 50 anos

51 a 78 anos

TRPAREN

IDADE1

IDADE2

IDADE3

IDADE4

Fonte: Dados do cadastro da empresa A.

A variável idade foi dividida em 4 faixas: 21 a 30 anos(IDADE1), 31 a 40 anos

(IDADE2), 41 a 50 anos (IDADE3) e 51 a 78 anos (IDADE4).

As variáveis independentes foram transformadas, com o auxilio do software

SPSS, em variáveis dummy (0 ou 1). Com esse método evitam-se a presença da

não linearidade das características das variáveis no cálculo da análise multivariada.

Após copilados os dados e testada sua consistência, deve ser verificado à

qualidade de preenchimento e a presença de observações faltantes (missing),

eliminando os dados inconsistentes ou atípicos.

Page 28: modelo de previsão de inadimplência: empregando a regressão

26

4. RESULTADOS E DISCUSSÃO

Os resultados obtidos com os dados cadastrais da empresa A, na cidade de

Presidente Médici – RO, no ano de 2013, por meio da regressão logística e suas

devidas interpretações, serão apresentados a seguir com o auxílio de tabelas.

A amostra utlilizada na construção do modelo contem 150 cadastros de

clientes. Para a seleção das variáveis foi utilizado o método stepwise.

Para avaliar a qualidade de um modelo logístico, utiliza-se as medidas de

avaliação. O primeiro passo é avaliar a significância da constante incluída no

modelo, por meio da Estatística de Wald:

Tabela 4:Estatística de Waldcom os dados da empresa A. Presidente Médici, Out 2013.

B S.E.

(erro padão) Wald Diferenciação Significância

Constante -0,461 0,168 7,571 1 0,006

Fonte: Dados do software SPSS

Observa-se da tabela 4 que o coeficiente da constante incluida no modelo é -

0,461, o S.E. (erro padrão) é de 0,168, o valor Wald é de 7,571,o grau de liberdade

igual a 1 e significância igual a 0,006.

A estatística Wald, avalia a significância da constante incluida no modelo,

esta mesma estatística será utlizada para avaliar também a significância dos

coeficientes de cada variável independente. A constante deste modelo é significativa

ao nível de significância de 0,05.

Os valores apurados para as medidas que representam o ajuste geral do

modelo, podem ser verificados na Tabela 5.

Tabela 5: Estatística de Pseudos – R –Quadradorealizada com os dados da empresa A. Presidente

Médici, Out 2013.

- 2 Log Likelihood Cox & Snell R Square Nagelkerke R Square

152,372 0,268 0,365

Fonte: Dados do software SPSS

Page 29: modelo de previsão de inadimplência: empregando a regressão

27

Os valores verificados para as medidas de avaliação da capacidade preditiva

do modelo logístico Log Likelihood (-2LL) = 152,372, Cox- Snell R2= 0,268 e

Nagelkerke R2= 0,365.

Através deles podemos concluir que o modelo explica 26,8% e 36,5%,

respectivamente, das variações registradas na variável dependente.

Corrar et al (2007), sugere que os pesquisadores usem essas estatisticas

apenas como uma medida aproximada do poder preditivo, não conferindo muita

importancia a cada um deles isoladamente.

O teste de Hosmer e Lemeshow avalia as diferenças entre as classificações

observadas e as previstas pelo modelo. Se as diferenças forem significativas o grau

de acurácia do modelo não é bom.

Tabela 6: Resultados do teste de Hosmer e Lemeshowobtidos com os dados da empresa A.

Presidente Médici, Out 2013 .

Grupo

Situação do Cliente: Adimplente

Situação do Cliente: Inadimplente

Total

Observado Esperado Observado Esperado

1 15 14,047 0 0,953 15

2 13 13,442 2 1,558 16

3 12 13,643 4 2,357 15

4 12 11,986 3 3,014 15

5 11 10,364 4 4,636 15

6 9 8,691 6 6,309 15

7 8 7,150 7 7,850 15

8 3 5,727 12 9,273 15

9 7 4,241 8 10,759 15

10 2 2,709 12 11,291 14

Fonte: Dados do software SPSS.

Na tabela 6 verifica-se os resultados do Teste de Hosmer e Lemeshow, onde

dividiu-se o número de observações em dez classes e em seguida comparou-se as

frequencias preditas com as observadas para verificar se existiam diferenças

significativas entre as classificações realizadas pelo modelo e a realidade

observada.

Page 30: modelo de previsão de inadimplência: empregando a regressão

28

A tabela 7 apresenta os resultados finais do teste:

Tabela 7: Resultado do teste Qui – Quadrado para o teste de Hosmer e Lemeshow obtido com os

dados da empresa A. Presidente Médici, Out 2013

Qui- Quadrado Diferenciação Significância

2,388 6 0,881

Fonte: Dados do software SPSS.

O valor encontrado do Qui – Quadrado foi 2,388, com grau de liberdade igual

a 6 e significância igual a 0,881.

O teste de Hosmer e Lemeshow trata-se de um teste Qui – Quadrado, o

cálculo nos leva a uma estatística 2,388 e um nível de significância de 0,881. Ao

nível de 0,05 de significância não rejeita-se a hipotése de que os valores preditos

não são significativamente diferentes dos observados. Portanto, o modelo pode ser

utilizado para estimar a probabilidade de um determinado cliente se tornar

inadimplente em função das variáveis independentes.

A matriz de classificação do modelo proposto, contendo a comparação entre a

classificação original e a classificação realizada, das observações da amostra, está

contida nas tabelas 8 e 9.

Tabela 8: Matriz de Classificação Original do Modelo. Presidente Médici, Out 2013

Observado

Previsão do Modelo (Classificação Original)

Adimplente Inadimplente Nível de Acerto%

Adimplente

93 0 100

Inadimplente

57 0 0

Média da Acurácia

62

Fonte: Dados do software SPSS.

Tabela 9: Matriz de Classificação Realizada do Modelo. Presidente Médici, Out 2013

Observado

Previsão do Modelo (Classificação Realizada)

Adimplente Inadimplente Nível de Acerto%

Adimplente

73 20 78,5

Inadimplente

17 40 70,2

Média da Acurácia

75,3

Page 31: modelo de previsão de inadimplência: empregando a regressão

29

Fonte: Dados do software SPSS.

A matriz de classicação do modelo original indica um percentual de a certo de

62%, e a matriz de classificação do modelo realizada indica um percentual de acerto

de 75,3%.

Comparando-se as tabelas, observa-se um aumento no percentual de

acertos, após a inclusão das variáveis independentes no modelo.

A tabela 10 apresenta os coeficientes das variáveis do modelo, bem como as

estatísticas de Wald e os valores de probabilidade do teste Wald.

Tabela 10: Coeficientes das variáveis independentes e Estatística de Wald.Presidente Médici, Out

2013

VARIÁVEIS Coeficientes Estatística de

Wald SIGNIFICÂNCIA

SEXM -0, 132 0,041 0,839

ESTSOL -21, 816 0 1

ESTCASA -21, 655 0 1

ESTDIVO -21, 898 0 1

ESTVIU -44, 563 0 0,999

IDADE2 0, 722 1,753 0,186

IDADE3 0, 522 0,638 0,424

IDADE4 1, 645 4,173 0, 041

TOAPOS 17, 793 0 1

TOFUNP -0, 475 0,154 0,695

TOAUTO -1, 738 7,093 0,008

TOOUTR -2, 971 27,010 0,000

TRPROP 1, 668 1,718 0,190

TRALUG 1, 125 0,645 0,422

TRPAREN 1, 917 1,729 0,188

RE 0 0,602 0,438

Fonte: Dados do software SPSS.

A estatística de Wald sugere que nem todas as variáveis poderão ser

utilizadas no modelo. Apenas três variáveis se mostraram significativas, a um nível

de significância de 0,05, TOAUTO, TOOUTR e IDADE4.

Os coeficientes da variável TOAUTO E TOOUTR são negativos, isso significa

que uma variação positiva em tais variáveis contribui para diminuir a probabilidade

de um cliente se tornar inadimplente. A variável IDADE4, pelo contrário, possui sinal

Page 32: modelo de previsão de inadimplência: empregando a regressão

30

positivo, indicando que uma variação positiva nessa variável concorre para aumentar

a probabilidade de o cliente se tornar inadimplente.

De acordo com os coeficientes encontrados, o modelo logístico é apresentado

na equação :

P(Y=1) = 1

1+exp(1,645 IDADE4- 1,738TOAUTO-2,971 TOOUTR

Page 33: modelo de previsão de inadimplência: empregando a regressão

31

5.CONCLUSÃO

O objetivo deste trabalho foi melhorar a previsão do risco de concessão de

crédito, através da regressão logística. A utilização dos modelos de previsão de risco

de credito deve ajudar o analista na tomada de decisão, associando a análise

subjetiva à informação obtida com o modelo de previsão de risco de crédito, no

intuito de aumentar os acertos na decisão, diminuindo assim o número de clientes

classificados incorretamente.

Os resultados dos testes para avaliação da capacidade preditiva do modelo

logístico proposto, Qui- Quadrado, Cox- Snell R², Nagelkerke R², Teste de Hosmer e

Lemeshow e a matriz de classificação com um poder preditivo de 75,3%, indicam

que o modelo permitirá a identificaçãodas variáveis que impactam a inadimplência

na empresa estudada.

As variáveis que mostraram-se significativas ao nível de 0,05 de confiança

foramapenasidade (51 a 78 anos), tipo de ocupação autônomo e tipo de ocupação

outros.

De acordo com a analista da empresa em estudo, as características dos

clientes que mais influenciam sua tomada de decisão de concessão de crédito são

exatamente a idade, e o tipo de ocupação deste.

Page 34: modelo de previsão de inadimplência: empregando a regressão

32

CONSIDERAÇÕES FINAIS

Algumas dificuldades foram encontradas para a realização da pesquisa, a

pequena quantidade de variáveis disponíveis na base de dados pode acarretar a

exclusão de aspectos importantes na concessão de credito e também em relação

aos cadastros preenchidos, os quais em sua maioria possuíam dados faltantes,

sendo assim não podendo ser aproveitados para a pesquisa.

Page 35: modelo de previsão de inadimplência: empregando a regressão

33

REFERÊNCIAS

DIÁRIO, COMÉRCIO, INDÚSTRIA & SERVIÇOS. Inadimplência do comércio sobe

6,6% em fevereiro na pesquisa CNDL. Disponível em:

<http://www.dci.com.br/financas/inadimplencia-do-comercio-sobe-6,6-em-fevereiro-

na-pesquisa-cndl-id337519.html>. Acesso em: 20 de jul. 2013.

CORRAR, L. J.; PAULO, E.; DIAS FILHO, J. M. Análise multivariada: para cursos de

administração, ciências contábeis e economia. São Paulo: Atlas, 2007.

EIFERT, D. S. Análise Quantitativa na Concessão de Crédito versus inadimplência:

um estudo empírico. Porto Alegre: UFRGS, 2003. Dissertação (Mestrado em

Administração), Programa de Pós-Graduação em Administração, Universidade

Federal do Rio Grande do Sul, 2003.

HAIR, J. F., ANDERSON, R. E., TATHAM, R. L. e BLACK, W. C. Análise

Multivariada deDados.5. ed.Porto Alegre: Bookman, 2005.

HOSMER, D.W.; LEMESHOW, S. Applied Logistic Regression. New York: John

Wiley & Sons, 1989.

KENNEDY, Peter (2002). “Sinning in the Basement: What Are the Rules? The Ten

Commandments of Applied Econometrics,”Journal of Economic Surveys, Wiley

Blackwell, vol. 16: 569-589.

LEWIS-BECK, Michael (1980). Applied Regression: an introduction.Series

Quantitative Applications in the Social Sciences.SAGE University Paper.

MCCULLAGH, P. E NELDER, J. A. (1989).Generalized Linear Models,2nd. Edition.

Chapman and Hall, London.

Page 36: modelo de previsão de inadimplência: empregando a regressão

34

MENDESFILHO, E.F., CARVALHO, A.C.P.L.F.; MATIAS, A.B. Utilização de redes

neurais artificiais na análise de risco de crédito a pessoas físicas. In:III Simpósio

Brasileiro de Redes Neurais, Recife.Ancis 1996.

REBELO, E; VALLE, P.O. O uso de regressoresdummy na especificaçãode modelos

com parâmetros Variáveis. Revista de Estatística, 3ºquadrimestre de 2002, pp.17-40.

SCHRICKEL, K. W.. Análise de crédito: concessão e gerência de empréstimos. 2º

Ed., São Paulo: Atlas, 1995.

SELAU, L.P.R.; RIBEIRO, J.L.D. Systematic approach to construct credit risk

forecast models.PesquisaOperacional, v.31,p.117,2011.

SANTOS,J.O. Análise de Crédito: Empresa, Pessoas Física, Agronegócios

ePecuária. 3. Ed. São Paulo: Atlas, 2009.

Page 37: modelo de previsão de inadimplência: empregando a regressão

35

APÊNDICE

Para realizar a análise de regressão logística no software SPSS Statistics20,

om os dados do sistema de cadastro de clientes da empresa A, vamos até a opção

Analisar → Regressão → Logística Binária.

Figura 2. Passos para a análise logística no SPSS.

O próximo passo é a identificação da variável dependente, que nesse caso é

a condição do cliente (adimplente ou inadimplente) e das variáveis

independentesque formarão o modelo, conforme a figura baixo:

Page 38: modelo de previsão de inadimplência: empregando a regressão

36

Figura 3. Seleção da variável dependente

Selecionada a variável dependente, transferem-se as demais para o campo

das covariáveis, para isso seleciona-se a opção categórico, conforme a figura

abaixo.

Figura 4. Classificação das covariáveiscategóricas .

Realizada a classificação das covariáveis, seleciona-se a opção continuar.

A seguir temos a opção Salvar, clicando sobre ela aparecerá a seguinte caixa

de diálogo:

Page 39: modelo de previsão de inadimplência: empregando a regressão

37

Figura 5. Caixa de diálogo Salvar

Nessa guia pode-se salvar as estatísticas de interesse, para este trabalho

foram salvas as probabilidades previstas para o modelo.

Logo após vamos até as Opções, e selecionamos Diagramas de

Classificação, Qualidade do ajuste de Hosmer- Lemeshow, CI para exp(B) e

marcamos as saídas que queremos, conforme a figura abaixo:

Figura 6. Caixa de diálogo Opões.

A partir deste quadro obtém –se os resultados de interesse.

Para esta análise as opções de interesse são diagramas de classificação,

qualidade do ajuste de Hosmer – Lemeshow e o CI para exp (B).O teste Hosmer –

Lemeshow tem como objetivo verificar se existem diferenças significativas entre os

Page 40: modelo de previsão de inadimplência: empregando a regressão

38

valores preditos e os observados. O CI para exp (B) é o intervalo de confiança de

cada coeficiente estimado, no presente trabalho é de 95%.O limite de classificação

sugere um ponto de corte para a classificação dos indivíduos em um determinado

grupo, o limite utilizado neste trabalho é de 0,5.A probabilidade por Etapa traz os

critérios para inclusão ou exclusão de variáveis no modelo e ao lado o número de

iterações que o software devera realizar.

A opção Inicialização não foi usada neste trabalho, ela serve como uma

alternativa para as estimativas paramétricas quando os pressupostos desses

métodos estão em dúvida (como no caso dos modelos de regressão com resíduos

heteroscedásticos aptos para pequenas amostras).