12
1 Estudo comparativo entre modelos de classificação para Behavior Scoring em procedimentos de análise de risco de crédito Autoria: Rosalvo Ferreira de Oliveira Neto, Roberto Maurício Bokowski Sobrinho, Andre Marques Cavalcanti Resumo Este trabalho apresenta uma comparação de desempenho entre os modelos de classificação baseados em Redes Neurais Artificiais, Regressão Logística e Árvore de Decisão, aplicados ao banco de dados de um conhecido benchmark da importante competição internacional, para um problema de Behavior scoring. A comparação foi realizada através do processo de validação cruzada estratificada 10 fold para definir os intervalos de confiança para a avaliação de desempenho, medido pela área da curva Receiver Operating Characteristic (ROC). O teste t-Student emparelhado unicaudal mostrou que o modelo de Rede Neural Artificial possui o melhor desempenho com o nível de confiança de 95%. Palavras-chave: bahavior scoring, redes neurais artificiais, avaliação de risco. Introdução Credit scoring e Behavior scoring são ferramentas que auxiliam as instituições financeiras a decidir sobre a concessão de crédito aos consumidores com base no risco de crédito de suas solicitações (Thomas, 2000). O objetivo dessas ferramentas é atribuir uma pontuação “scoreque permita identificar o quão próximo o consumidor está de dois grupos: "bom" que é provável cumprir com suas obrigações financeiras ou um grupo de "mau”, cujo pedido deve ser negado devido à sua alta probabilidade de faltar com seus compromissos na instituição financeira. Credit scoring é utilizado quando um novo consumidor faz uma solicitação de crédito. Apenas informações demográficas, como idade, sexo, renda entre outras variáveis, são levadas em consideração na atribuição do escore. Behavior scoring é utilizado quando um consumidor, que já possui histórico de transações na base de dados da instituição, está solicitando crédito (Banasiak, 2001). Neste caso, além das informações demográficas, informações comportamentais também são levadas em consideração, como histórico de pagamentos em dia, em atraso, quantidade de empréstimos, entre outras. O objetivo da análise estatística é encontrar na base de dados o perfil que separe os clientes bons dos clientes maus. O modelo de Behavior Scoring, usado como uma ferramenta automática, fornece informação instantânea ao analista e, tendo um maior poder preditivo do que o modelo de Credit Scoring, aumenta a eficiência do analista de crédito. Os pontos fortes destes dois modelos são a precisão e a eficácia, ou o que pode ser chamado de decisão eficiente. A maior precisão de análise de crédito dos modelos de Behavior Scoring vem do poder matemático capaz de analisar centenas de elementos de dados de risco de crédito para encontrar um conjunto capaz de fornecer uma melhor estimativa de predição, em seguida, de forma otimizada ponderar as variáveis de entrada para maximizar o poder preditivo do modelo. A saída de um modelo de Behavior Scoring é interpretado como a probabilidade do cliente honrar sua dívida com a instituição, ou seja, ser um bom cliente. Na indústria de crédito, modelos de Behavior Scoring e Credit Scoring em geral, são confundidos com "Sistemas Especialistas" ou "Sistemas baseado em Regras" que utilizam a

Rosalvo Ferreira de Oliveira Neto, Roberto Maurício ......1 Estudo comparativo entre modelos de classificação para Behavior Scoring em procedimentos de análise de risco de crédito

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Rosalvo Ferreira de Oliveira Neto, Roberto Maurício ......1 Estudo comparativo entre modelos de classificação para Behavior Scoring em procedimentos de análise de risco de crédito

 

1  

Estudo comparativo entre modelos de classificação para Behavior Scoring em procedimentos de análise de risco de crédito Autoria: Rosalvo Ferreira de Oliveira Neto, Roberto Maurício Bokowski Sobrinho, Andre Marques Cavalcanti

Resumo

Este trabalho apresenta uma comparação de desempenho entre os modelos de classificação baseados em Redes Neurais Artificiais, Regressão Logística e Árvore de Decisão, aplicados ao banco de dados de um conhecido benchmark da importante competição internacional, para um problema de Behavior scoring. A comparação foi realizada através do processo de validação cruzada estratificada 10 fold para definir os intervalos de confiança para a avaliação de desempenho, medido pela área da curva Receiver Operating Characteristic (ROC). O teste t-Student emparelhado unicaudal mostrou que o modelo de Rede Neural Artificial possui o melhor desempenho com o nível de confiança de 95%.

Palavras-chave: bahavior scoring, redes neurais artificiais, avaliação de risco.

Introdução

Credit scoring e Behavior scoring são ferramentas que auxiliam as instituições financeiras a decidir sobre a concessão de crédito aos consumidores com base no risco de crédito de suas solicitações (Thomas, 2000). O objetivo dessas ferramentas é atribuir uma pontuação “score” que permita identificar o quão próximo o consumidor está de dois grupos: "bom" que é provável cumprir com suas obrigações financeiras ou um grupo de "mau”, cujo pedido deve ser negado devido à sua alta probabilidade de faltar com seus compromissos na instituição financeira.

Credit scoring é utilizado quando um novo consumidor faz uma solicitação de crédito. Apenas informações demográficas, como idade, sexo, renda entre outras variáveis, são levadas em consideração na atribuição do escore. Behavior scoring é utilizado quando um consumidor, que já possui histórico de transações na base de dados da instituição, está solicitando crédito (Banasiak, 2001). Neste caso, além das informações demográficas, informações comportamentais também são levadas em consideração, como histórico de pagamentos em dia, em atraso, quantidade de empréstimos, entre outras. O objetivo da análise estatística é encontrar na base de dados o perfil que separe os clientes bons dos clientes maus. O modelo de Behavior Scoring, usado como uma ferramenta automática, fornece informação instantânea ao analista e, tendo um maior poder preditivo do que o modelo de Credit Scoring, aumenta a eficiência do analista de crédito. Os pontos fortes destes dois modelos são a precisão e a eficácia, ou o que pode ser chamado de decisão eficiente. A maior precisão de análise de crédito dos modelos de Behavior Scoring vem do poder matemático capaz de analisar centenas de elementos de dados de risco de crédito para encontrar um conjunto capaz de fornecer uma melhor estimativa de predição, em seguida, de forma otimizada ponderar as variáveis de entrada para maximizar o poder preditivo do modelo. A saída de um modelo de Behavior Scoring é interpretado como a probabilidade do cliente honrar sua dívida com a instituição, ou seja, ser um bom cliente.

Na indústria de crédito, modelos de Behavior Scoring e Credit Scoring em geral, são confundidos com "Sistemas Especialistas" ou "Sistemas baseado em Regras" que utilizam a

Page 2: Rosalvo Ferreira de Oliveira Neto, Roberto Maurício ......1 Estudo comparativo entre modelos de classificação para Behavior Scoring em procedimentos de análise de risco de crédito

 

2  

experiência do próprio gerente de crédito para escolher quais variáveis serão analisadas e criar um processo automatizado de decisão baseado nestas regras. Basicamente, Sistemas Especialistas replicam em código de programa de computador as etapas da análise manual realizada por um gestor de crédito. Portanto, Sistemas Especialistas fornecem rapidez ao processo de avaliação de crédito por minimizar a intervenção do analista de crédito em operações de rotina. No entanto, o ponto fraco de um sistema especialista é sua incapacidade de trazer maior precisão ao processo de avaliação de crédito. As principais vantagens dos modelos de Behavior Scoring em relação aos Sistemas Especialistas são:

1) O modelo de Behavior Scoring é baseado em uma análise estatística sobre o histórico de pagamento da base de dados de crédito do cliente e seus resultados de desempenho de crédito. O desempenho de crédito é normalmente medido entre 6 e 24 meses a partir da data de concessão de crédito e é classificado em bom crédito versus desempenho ruim de crédito. Por exemplo, o desempenho ruim de crédito pode ser definido como um atraso de 60 dias ou mais em uma parcela, e bom caso contrário. Vale ressaltar que a definição de mau cliente é um critério da instituição financeira e por isso pode variar de instituição para instituição.

2) A estatística determina quais variáveis são mais relevantes. A análise multivariada do histórico estatístico dos dados de decisão de crédito pode utilizar informações da declaração de contas a receber, financeiro, ou dados de agências de crédito. Esta análise determina quais elementos de dados são mais preditivos. Este processo geralmente encontra muitos dos tradicionais elementos (variáveis) de risco de crédito utilizados num sistema especialista, no entanto pode descobrir elementos menos óbvios para um gerente de crédito.

4) Estes modelos atribuem pesos ideais para as variáveis de crédito de forma a maximizar a previsibilidade. No desenvolvimento de um modelo de pontuação estatística baseada em comportamento, o gerente de crédito não escolhe os pesos do modelo. Os pesos das variáveis são determinados pelo método estatístico de máxima verossimilhança, de forma a maximizar a previsibilidade do modelo. Em outras palavras, este método melhora a separação dos clientes de alto e baixo risco.

5) Uma vez que à saída do modelo de pontuação do comportamento pode ser interpretada como a probabilidade do cliente honrar com seus compromissos financeiros e que estas probabilidades não são lineares, o gerente de crédito pode criar pontos de corte para tomada de decisão massificada, ou seja, qual é o mais baixo escore que pode ser aceito para a aprovação de crédito. Estes pontos de corte são ferramentas muito úteis na gestão do risco, pois flexibilizam o trabalho do gestor: aumentando o ponto de corte, aceita-se menos e melhores clientes, reduzindo a exposição ao risco, e vice-versa. Toda vez que estes pontos de corte são alterados, se pode prever o risco de inadimplência que a empresa será exposta.

O objetivo deste trabalho é realizar um estudo comparativo para averiguar entre os principais modelos de classificação qual proporciona uma maior precisão para um problema de Behavior Scoring. No estudo comparativo foram secionadas as técnicas de modelagem: Redes Neurais Artificiais (Beale & Jackson, 1994), Regressão Logística (Hosmer & Stanley, 2004) e Árvore de Decisão (Quinlan, 1993). O trabalho utiliza uma metodologia experimental com rigorosa base estatística sobre um banco de dados de domínio público, de um conhecido benchmark de importante competição internacional, para realização da comparação. O restante do trabalho está estruturado da seguinte forma: A Seção 2 aborda a definição do problema. A Seção 3 apresenta os trabalhos relacionados. A Seção 4 detalha os modelos de classificação selecionados. A Seção 5 descreve a base de dados selecionada para o estudo. A Seção 6

Page 3: Rosalvo Ferreira de Oliveira Neto, Roberto Maurício ......1 Estudo comparativo entre modelos de classificação para Behavior Scoring em procedimentos de análise de risco de crédito

 

3  

mostra a metodologia experimental. A Seção 7 apresenta os resultados experimentais e a Seção 8 apresenta as conclusões e sugere trabalhos futuros.

Definição do problema O Behavior Scoring pode ser descrito como um problema de classificação relacional. Em um problema de classificação relacional, os dados disponíveis para modelagem estão em um banco de dados R contendo uma determinada tabela alvo Ta e um conjunto de tabelas background Tb1...Tbn. Cada linha pertencente a Ta inclui um atributo único chamado de chave primária (identificador da linha) e uma variável categórica y, que representa o conceito a ser aprendido "variável resposta". A tarefa de classificação relacional é encontrar uma função F(x) que mapeia cada linha x da tabela alvo para a categoria Y. A Figura 1 ilustra o problema de classificação relacional binária no domínio de aplicação concessão de crédito. A tabela alvo é representada pela tabela de Empréstimo na qual a coluna status representa a variável categórica que a função F(x) deve aprender. Esta variável possui dois valores: bom, se o empréstimo foi pago em dia ou mau, caso contrário. As tabelas de background são representadas pelas tabelas que possuem relacionamento com a tabela alvo, o que é o caso no exemplo da Figura 1 das tabelas parcela e cliente.

Antes de iniciar a construção dos modelos é necessário que os dados contidos no banco de dados sejam transformados em um formato que permita a aplicação do modelo e também possibilite as análises necessárias para avaliação dos resultados. Essa transformação consiste em mudar a representação multidimensional dos dados dentro de uma simples relação organizada em uma tabela desnormalizada na granularidade em que se pretende tomar a decisão. Esta tabela transformada contém uma linha para cada objeto de interesse e um conjunto de colunas que descrevem as características destes objetos. Este processo é conhecido como construção de visões de dados (Oliveira, Adeodato, Salgado, & Boratto, 2012).  

Figura 1 - Exemplo de um esquema relacional para um problema de classificação

Relação alvo 

Relações de background

Page 4: Rosalvo Ferreira de Oliveira Neto, Roberto Maurício ......1 Estudo comparativo entre modelos de classificação para Behavior Scoring em procedimentos de análise de risco de crédito

 

4  

Trabalhos Relacionados Poucos estudos são encontrados na literatura confrontando diretamente modelos de Behavior Scoring, a maior parte das pesquisas encontradas faz comparação entre modelos de Credit Scoring, como pode ser visto em (A. Li, Li, & Shi, 2009), (H. Chen, & Chen, 2010) e (Ju, & Sohn, 2013). A escassez de trabalhos nesta área pode ser justificada pela complexidade na construção da visão dos dados, uma vez que as informações necessárias como entrada para os modelos estão em um banco de dados relacional, que é constituído por diversas tabelas, e a construção de tais visões passa a ser um processo lento e muito suscetível a erros. Outra razão se deve a carência de bases de dados públicas disponíveis, por isso grande parte dos estudos recentes sobre modelos de Behavior Scoring utilizam bases de dados privadas o que dificulta a comparação entre estudos.

Sarlija and Zekic-Susac, (2009) realizou um estudo comparativo entre modelos de Redes Neurais Artificiais (RNA) e Análise de Sobrevivência (Harrell, 2001) aplicados a um problema de Behavior scoring. Os dados utilizados para a pesquisa foram coletados de uma instituição financeira privada da Croácia. Os resultados mostraram que o modelo baseado em redes neurais apresentou um desempenho superior. Os autores realizaram teste de hipóteses para assegurar que a diferença era estatisticamente significativa. Hsieh, Lee and Lee (2010) realizou um estudo comparativo entre modelos de classificação para Behavior scoring sobre uma base de dados de uma intuição financeira privada de Taiwan. Para o estudo foram selecionados os modelos de Redes Neurais Artificiais, Máquinas de Vetores Suporte do inglês Suport Vector Machine (Vapnik, 2000) e Análise Discriminante Linear. Foi utilizado como medida de avaliação de desempenho a taxa de erro, os resultaram mostraram que o modelo baseado em redes neurais apresentou um desempenho superior aos outros dois modelos, no entanto não foi realizado teste de hipótese para assegurar que a diferença era estatisticamente significativa.

Em estudo recente Kennedy, Namee, Delany, O’Sullivan and Watson (2013) destaca as oportunidades existentes para soluções de Behavior scoring e descreve os processos envolvidos. Para o autor, a primeira etapa do processo corresponde a seleção de uma amostra de clientes, garantido que os dados referentes aos seus produtos e consumos estejam disponíveis em um determinado ponto de observação. O período antes do ponto de observação é chamado de janela de desempenho. Os dados contidos na janela de desempenho são estruturados em atributos que serão usados como entrada para o modelo de Behavior Scoring. Exemplos de variáveis criadas nesta janela são: máximo dias de atraso, quantidade de parcelas pagas em dia, número de ofertas recebidas, entre outras (McNab & Wynn, 2000). A Figura 2 ilustra como os dados são particionados de acordo com a temporalidade.

Figura 2 - Particionamento dos dados em Behavior Scoring O período após o ponto de observação é chamado de janela de resultado. Os dados contidos na janela de resultado são estruturados em atributos que serão utilizados para avaliar a precisão do modelo, é nesta janela que a variável resposta ("bom" e "mau") é construída.

Page 5: Rosalvo Ferreira de Oliveira Neto, Roberto Maurício ......1 Estudo comparativo entre modelos de classificação para Behavior Scoring em procedimentos de análise de risco de crédito

 

5  

Descrição das técnicas utilizadas

Neste seção, descrevemos as técnicas de modelagem selecionadas para averiguarmos que elas produzem resultados com diferença estatisticamente significativa para o problema de Behavior Scoring. Redes Neurais Artificiais Dentre as redes neurais artificiais, certamente as mais populares são as redes Multi Layer Perceptron (MLP) (Beale, 1994) e (Haykin, 1994). Essas redes são constituídas por unidades de processamento simples que possuem funcionalidades semelhantes àquelas apresentadas pelos neurônios biológicos do cérebro humano. Redes MLP típicas são formadas por uma camada de entrada, uma camada de saída e n camadas escondidas (dispostas entre as duas primeiras), onde todos os neurônios de uma camada são completamente conectados com todos os neurônios da camada precedente. O método de treinamento mais popular para redes do tipo MLP é o algoritmo de retropropagação do erro (error backpropagation algorithm) (Rumelhart, Hinton, & Williams, 1986), que foi utilizado neste estudo. Regressão Logística A regressão logística é um modelo probabilístico que descreve a relação entre uma variável resposta e uma ou mais variáveis explicativas, apresentando a resposta de maneira sucinta, geralmente como um número ou uma série de números. Nos modelos de regressão logística, a variável dependente é, em geral, uma variável binária (nominal ou ordinal) e as variáveis independentes podem ser categóricas (desde que dicotomizadas após transformação) ou contínuas (Hosmer, 2004). No âmbito da aplicação ao risco de crédito, a técnica de regressão logística é utilizada para a avaliação da inadimplência de determinado grupo de clientes em situações relativas à concessão de crédito, assumindo que a probabilidade de inadimplência é logisticamente distribuída, com resultado binomial 0 ou 1. Árvore de decisão A árvore de decisão é um dos modelos de classificação mais utilizados na área de análise de risco de crédito devido a facilidade de compreensão de sua resposta, que é organizada na forma de uma árvore e a partir desta é possível extrair facilmente regras do tipo "Se-Então". Diversos algoritmos de árvore de decisão são encontrados na literatura, porém o mais conhecido é C4.5 proposto por Quinlan (1993). O C4.5 visa a geração de árvores de decisão com tratamento de atributos contínuos e discretos, construindo uma árvore com um número de partições variável e com as folhas sendo indicadas pelos valores do atributo categórico. Para evitar a geração de todas as árvores possíveis, o algoritmo C4.5 se baseia no atributo mais informativo, escolhido entre todos os atributos ainda não considerados no caminho desde a raiz. O algoritmo seleciona como sendo o atributo mais informativo aquele que possuir o maior ganho de informação, resultante da diferença do valor da informação do atributo categórico e do valor da informação do atributo em questão. Para cada atributo é calculado o seu ganho de informação. O atributo que tiver o maior ganho de informação será considerado pelo algoritmo como o próximo nodo da árvore. Assim, a partição começa pelo nodo raiz e continua pelos nodos filhos da mesma maneira, até que todos os exemplos desta partição possuam a mesma classe, rotulando-se este nodo como folha e recebendo sua respectiva classe.

Page 6: Rosalvo Ferreira de Oliveira Neto, Roberto Maurício ......1 Estudo comparativo entre modelos de classificação para Behavior Scoring em procedimentos de análise de risco de crédito

 

6  

Base de Dados Uma das duas bases de dados fornecidas no desafio PKDD em 1999 se refere a operações financeiras dos clientes de uma instituição bancária Checa. Esses dados são comumente referenciados na literatura como financial data set e vários trabalhos utilizaram esta base de dados, que é pública e está disponível em (Berka, 2000). Os dados descrevem os clientes do banco com as suas contas, empréstimos e outras operações sobre essas contas, também seus cartões de crédito e aspectos das regiões onde os clientes e agências bancárias estão situados. A Figura 3 exibe o esquema relacional do banco de dados.

Figura 3 - Esquema relacional do banco de dados do PKDD1999 Para o desafio, as tarefas de aprendizagem não foram especificadas. No entanto, várias tarefas acabaram por se popularizar entre os participantes. Entre essas tarefas está a classificação dos empréstimos quanto ao risco de inadimplência que é o foco deste artigo. O objetivo da tarefa é permitir melhores decisões sobre a concessão de empréstimos pela instituição aos solicitantes. Para a tarefa de aprendizagem, a Tabela Loan (empréstimo) serviu como relação alvo e o atributo status foi utilizado como variável resposta. Este atributo possui quatro valores diferentes, são eles: Classe A: Empréstimo finalizado sem problemas; Classe B: Empréstimo finalizado com problemas; Classe C: Empréstimo não finalizado sem problemas até o momento; Classe D: Empréstimo não finalizado com problemas até o momento. Os problemas podem ser atrasos ou pagamentos incompletos. Seguindo a ideia dos participantes do desafio, as classes A e C foram agrupadas dentro de uma classe positiva e as classes B e D foram agrupadas dentro de uma classe negativa. Desta forma, passamos a ter um problema de Behavior Scoring.

Page 7: Rosalvo Ferreira de Oliveira Neto, Roberto Maurício ......1 Estudo comparativo entre modelos de classificação para Behavior Scoring em procedimentos de análise de risco de crédito

 

7  

Metodologia Experimental Como o principal objetivo desta pesquisa foi realizar uma comparação entre o desempenho de modelos de classificação em problemas de Behavior Scoring, o formalismo apresentado nesta seção é crucial para a relevância do artigo. Tanto o particionamento dos dados como a métrica de avaliação de desempenho foram escolhidos de acordo com a adequação ao problema.

Validação Cruzada k-fold

O método de Validação Cruzada k-fold é uma forma amplamente aceita para dividir uma única amostra (Jain & Mao, 2000) em k conjuntos de testes estatisticamente independentes, permitindo a construção de intervalos de confiança para a medida de desempenho utilizada como critério de avaliação, como recomendado pelos tradicionais autores Witten and Frank, (2005).

Receiver Operating Characteristic (ROC)

Para técnicas que produzem saídas contínuas, a decisão binária é tomada a partir de um limiar, abaixo do qual a decisão é feita para uma classe ou outra. Porém, a definição deste limiar é influenciada de acordo com o objetivo do problema, levando-se em consideração, geralmente, que os custos dos erros são diferentes para cada classe (Adeodato & Monteiro, 2004). Para o estudo foi utilizada uma métrica que é independente deste limiar. A métrica escolhida foi a área sobre a curva ROC. Esta métrica tem sido utilizada em importantes competições internacionais como a Pacific-Asia Knowledge Discovery and Data Mining Conference (PKDD) 2007. A curva ROC é uma ferramenta poderosa para avaliação de modelos. A análise é feita por meio de um método gráfico simples e robusto, o qual permite estudar a variação da sensibilidade e especificidade do modelo, para diferentes valores de ponto de corte (Provost & Fawcett, 1998) e (Fawcett, 2003). As curvas ROC mostram a relação das taxas de falsos positivos (FP) e verdadeiros positivos (VP) através da variação de um limiar. Esta relação prediz o comportamento dos classificadores, independentemente dos custos e da distribuição das classes. Numa curva ROC, o eixo das ordenadas (y) representa VP e o eixo das abscissas (x) representa FP. A Figura 4 e a Figura 5 ilustram a fórmula de cálculo das taxas verdadeiro positivo e falso positivo respectivamente.

Figura 4 - Fórmula da taxa de verdadeiros positivos

Figura 5 - Fórmula da taxa de falsos positivos

Para cada ponto de corte, a sensibilidade e o complemento da especificidade (1 –especificidade) são calculados e colocados um em cada eixo de um gráfico bidimensional (Figura 6), produzindo a curva ROC. A sensibilidade de um sistema de classificação é calculada a partir da razão entre os verdadeiros positivos sobre a soma dos verdadeiros

Page 8: Rosalvo Ferreira de Oliveira Neto, Roberto Maurício ......1 Estudo comparativo entre modelos de classificação para Behavior Scoring em procedimentos de análise de risco de crédito

 

8  

positivos e falsos negativos, e a especificidade é calculada a partir da razão entre os verdadeiros negativos sobre a soma dos verdadeiros negativos e falsos positivos.

Figura 6 - Exemplo de curva ROC

Teste t-Student emparelhado

O teste t-Student emparelhado é um caso especial que se aplica quando as observações nas duas populações de interesse são coletadas em pares tendo cada par de observações tomado sob condições homogêneas (Montgomery & Runger, 2010). Para este estudo, a métrica de desempenho de interesse é a diferença na média da área sobre a curva ROC obtido por cada uma das técnicas quando avaliadas para cada conjunto de teste. A configuração do teste utilizada neste estudo está detalhada abaixo.

Hipótese nula: μd= μ1-μ2=0 Hipótese alternativa: μ1> μ2

Onde

μ1 representa a média da área sobre a curva ROC para a técnica que obteve o melhor desempenho médio nos conjuntos de testes;

μ2 representa a média da área sobre a curva ROC para todas as demais técnicas.

Resultados Experimentais As simulações foram realizadas de acordo com a configuração experimental descrita anteriormente para cada um dos três modelos de classificação selecionado, resultando em dez conjuntos de testes, todos estatisticamente independentes dos conjuntos de treinamentos. A Figura 7 ilustra o procedimento.

Page 9: Rosalvo Ferreira de Oliveira Neto, Roberto Maurício ......1 Estudo comparativo entre modelos de classificação para Behavior Scoring em procedimentos de análise de risco de crédito

 

9  

Figura 7 - Diagrama da metodologia experimental aplicada

Os resultados obtidos são exibidos na Tabela 1, que exibe o valor médio da área sobre a curva ROC para cada um dos dez conjuntos de teste para os três modelos utilizados neste estudo. Os resultados mostraram que o modelo de Redes Neurais Artificial apresentou um melhor desempenho médio, no entanto para assegurar que o resultado é estatisticamente significativo, a Tabela 2 exibe o resumo dos resultados obtidos no teste t-Student emparelhado. Uma vez que o p-value é menor que 0.05, concluímos que o modelo de Redes Neurais Artificial fornece resultados diferentes dos demais modelos. Especificamente, os dados indicam que o modelo de Redes Neurais Artificial produz, em média, maior poder discriminatórios do que os demais modelos utilizados neste estudo com um nível de confiança de 95%.

Page 10: Rosalvo Ferreira de Oliveira Neto, Roberto Maurício ......1 Estudo comparativo entre modelos de classificação para Behavior Scoring em procedimentos de análise de risco de crédito

 

10  

Tabela 1: Resultados obtidos na validação cruzada 10 fold

Área sob a curva ROC FOLD/

MODELO REDE NEURAL ARTIFICIAL REGRESSÃO LOGISTICA ÁRVORE DE DECISÃO

1 0.932 0.924 0.857

2 0.779 0.730 0.740

3 0.910 0.869 0.934

4 0.912 0.934 0.949

5 0.873 0.871 0.863

6 0.863 0.805 0.861

7 0.893 0.932 0.781

8 0.887 0.836 0.859

9 0.988 0.973 0.930

10 0.920 0.846 0.807

MÉDIA 0.896 0.872 0.858

Fonte: Dados da pesquisa

Tabela 2: Resultado do teste-t emparelhado

µd = µ1 - µ2 Limite Inferior Limite Superior p-value µ2

0.0237 0.00235 ∞ 0.03616 Regressão Logística

0.0376 0.00734 ∞ 0.02436 Árvore de Decisão

Fonte: dados da pesquisa

Figura 8. Curva ROC geral para os três modelos utilizados

Page 11: Rosalvo Ferreira de Oliveira Neto, Roberto Maurício ......1 Estudo comparativo entre modelos de classificação para Behavior Scoring em procedimentos de análise de risco de crédito

 

11  

Conclusão

Este trabalho apresentou uma comparação entre os modelos de classificação Redes Neurais Artificiais, Regressão Logística e Árvore de Decisão, no domínio de Behavior Scoring. A comparação foi realizada utilizando um banco de dados relacional de importante competição internacional, considerada um benchmark da área. Como metodologia experimental, foi aplicado o teste t-Student emparelhado unicaudal sobre o desempenho medido pela área da curva ROC nos conjuntos de teste gerados pelo processo de validação cruzada 10 fold. O estudo mostrou que o modelo de Redes Neurais Artificiais supera de forma estatisticamente significativa em desempenho os modelos de Regressão Logística e Árvore de Decisão, quando aplicado ao domínio de Behavior Scoring, com um nível de confiança de 95%. A diferença de desempenho pode ser justificada pelo maior poder de generalização do modelo de Redes Neurais Artificiais, que subdivide o seu conjunto de treinamento em duas partes estatisticamente independente. A primeira parte para ajustar os seus parâmetros livres e a segunda parte para validação. Este conjunto de validação é utilizado para evitar o fenômeno conhecido por overfitting, que é a superespecialização do modelo sobre o conjunto de treinamento o que ocasiona uma baixa capacidade de generalização. O erro estimado sobre o conjunto de validação, dados não utilizados para ajuste de seus parâmetros livre, é utilizado como critério de parada pelo algoritmo. Os modelos de Regressão Logística e Árvore de Decisão, embora apresentem um resultado inferior, oferecem uma vantagem significativa em relação aos modelos de Redes Neurais Artificiais, que é a explicação para a resposta do modelo, para o caso do modelo de regressão é fácil interpretar o escore por ser uma soma ponderada de suas entradas e para árvore de decisão são regras do tipo "Se Então" que são facilmente interpretadas pelo analista de crédito, enquanto a saída da Rede Neural Artificial ainda é considerada uma caixa preta. Como trabalhos futuros, este estudo será expandido para considerar outros modelos de classificação como o support vector machine, e também a utilização de mais bases de dados deste mesmo domínio. Referências Adeodato, P., & Monteiro, D., (2004). Neural networks vs logistic regression: a comparative study on a large data set. In International Conference on Pattern Recognition. Cambridge. Banasiak, M. (2001). Behavior Scoring. Business Credit, vol.103, pp.52-55. Beale, R., & Jackson, T. (1994). Neural Computing, An Introduction, New York: Adam Hilger. Berka, P., (2000). Guide to the nancial data set. PKDD 2000 Discovery Challenge. Chen, H., & Chen, Y., (2010). A comparative study of discrimination methods for credit scoring. Computers and Industrial Engineering (CIE). 40th International Conference on , vol. 1, no. 5, pp. 25-28. Fawcett, T. (2003). Roc Graphs: Notes and Pratical Considerations for Data Mining Researchers, Technical Report, HPL-2003-4, HP Labs. Harrell, F. E., Jr., (2001). Regression modelling strategies. New York: Springer-Verlag. Haykin, S., (2007). Neural Networks: A Comprehensive Foundation. Prentice-Hall, Inc., Upper Saddle River, NJ, USA. Hosmer, D. W., & Lemeshow, S. (2004). Applied logistic regression. Vol. 354. Wiley-Interscience.

Page 12: Rosalvo Ferreira de Oliveira Neto, Roberto Maurício ......1 Estudo comparativo entre modelos de classificação para Behavior Scoring em procedimentos de análise de risco de crédito

 

12  

Hsieh, H., Lee, T., & Lee, T. S, (2010). Data Mining in Building Behavioral Scoring Models, Computational Intelligence and Software Engineering (CiSE). International Conference on , vol. 1, no. 4, pp. 10-12. Jain, A., & Mao, J., (2000). Statistical pattern recognition: A review. IEEE Transactions on Pattern Analysis and Machine Intelligence (22). Ju, Y. H., & Sohn, S. Y., (2013). Updating a credit-scoring model based on new attributes without realization of actual data. European Journal of Operational Research. Kennedy, K., Namee, B. M., Delany, S. J., O’Sullivan, M., & Watson, N., (2013). A window of opportunity: Assessing behavioural scoring. Expert Systems with Applications, vol. 40, no. 4., pp. 1372-1380. Li, A., Li, W., & Shi, Y., (2009). Study on the Application of Data Mining Algorithms in Credit Card Management. E-Business and Information System Security. EBISS '09. International Conference on , vol. 1, no. 5, pp. 23-24. McNab, H., & Wynn, A., (2000). Principles and practice of consumer credit risk management. Chartered Institute of Bankers and Institute of Financial Services and University of Manchester. Institute of Science and Technology. Montgomery, D., & Runger, G. (2010). Applied Statistics and Probability for Engineers. John Wiley & Sons. Oliveira, R. F., Neto, Adeodato, P. J. L., Salgado, A. C., & Boratto, M. C. (2012). Estudo Comparativo entre Proposicionalização e Mineração de Dados Multidimensional sobre um Banco de Dados Relacional. Simpósio Brasileiro de Banco de Dados. Anais do SBBD, pp. 240-247. São Paulo, SP, Brasil. Provost, F., & Fawcett, T. (1998). Robust classiification systems for imprecise environments. Proc. 15th Nat. Conf. on Artificial Intelligence, pp. 706-713. Quinlan, R. (1993). C4.5: Programs for Machine Learning. Morgan Kaufmann, San Mateo, CA. Rumelhart, D. E., Hinton, G. E., & Williams, R. J., (1986). Parallel distributed processing: explorations in the microstructure of cognition, vol. 1. MIT Press, Cambridge, MA, USA, Learning internal representations by error propagation, pp. 318-362. Sarlija, N., Bensic, M., & Zekic-Susac, M., (2009). Comparison procedure of predicting the time to default in behavioural scoring. Expert Syst. Appl. 36(5), pp. 8778-8788. Thomas, L. C. (2000). A Survey of Credit and Behavioral Scoring: Forecasting Financial Risk of Lending to Consumers. International Journal of Forecasting, v. 16, pp. 149-172. Edinburgh, U.K.. Vapnik, V. N., (2000). The Nature of Statistical Learning Theory, 2nd ed., NY: Springer. Witten, I. H. & Frank, E., (2005). Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann Series in Data Management Sys. Morgan Kaufmann.