26
Artigo A Tripartite Scorecard for the Pay/No pay Decision-Making in the Retail Banking Industry de Maria Rocha Sousa e Joaquim Pinto da Costa Analisado por Hélia Monteiro da Costa Seminário de Modelação 2011/2012 18 de janeiro de 2012

A Tripartite Scorecard for the Pay/ No Pay ... - fc.up.pt · Analisado por Hélia Monteiro da Costa ... Para a criação e validação de modelos foi efetuada a seguinte distribuição

  • Upload
    buitu

  • View
    220

  • Download
    0

Embed Size (px)

Citation preview

Page 1: A Tripartite Scorecard for the Pay/ No Pay ... - fc.up.pt · Analisado por Hélia Monteiro da Costa ... Para a criação e validação de modelos foi efetuada a seguinte distribuição

Artigo

A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry

de

Maria Rocha Sousa e Joaquim Pinto da Costa

Analisado por Heacutelia Monteiro da Costa Seminaacuterio de Modelaccedilatildeo 20112012

18 de janeiro de 2012

1

Sumaacuterio

Recolha de dados

Minimizaccedilatildeo das perdas

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

2

Enquadramento

Os bancos suportam a decisatildeo de creacutedito em modelos que preveem o incumprimento a 6 ou mais meses

O deacutebito ou natildeo de uma transaccedilatildeo bancaacuteria numa conta com saldo insuficiente deveria ser decidido com base na probabilidade de o cliente incumprir a 30 dias

Objetivo

Criar modelo para decidir se eacute efetuado ou natildeo o deacutebito de uma transaccedilatildeo numa conta bancaacuteria com saldo insuficiente minimizando as perdas

Processo

1 Modelos binaacuterios usar vaacuterios modelos para distribuir os clientes por duas classes MAU e BOM mediante a probabilidade de incumprirem

2 Modelos ternaacuterios usar vaacuterios modelos para distribuir os clientes por trecircs classes MAU BOM e para REVISAtildeO (decisatildeo manual)

Resultado

Obtida uma automatizaccedilatildeo de 87 que compara favoravelmente com 79 do processo anterior

Sumaacuterio

3

Sumaacuterio

Recolha de dados

Minimizaccedilatildeo das perdas

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

4

Janela de observaccedilatildeo

Periacuteodo associado agrave informaccedilatildeo histoacuterica que permitiraacute caracterizar o cliente

Janela de decisatildeo

Periacuteodo associado agrave decisatildeo de deacutebito ou natildeo de uma transaccedilatildeo na conta com saldo insuficiente

Janela de performance

Periacuteodo durante o qual seraacute avaliada a capacidade de o cliente regularizar a conta a descoberto em 30 dias

Janela de decisatildeo

Janela de performance Janela de observaccedilatildeo

Janrsquo06 Fevrsquo06 Dezrsquo05 Novrsquo05 Outrsquo05

Recolha de dados

5

Atendendo agraves janelas definidas e usando o software SAS Enterprise Miner identificaram-se

187733 transacccedilotildees cujo lanccedilamento nas contas provocaria um descoberto e que requerem decisatildeo de aprovaccedilatildeo ou natildeo de deacutebito em conta

47 caracteriacutesticasatributos dos clientes e contas associadas agraves transacccedilotildees acima referidas

82 das transacccedilotildees eram de clientes que conseguiam regularizar as contas em menos de 30 dias

Para a criaccedilatildeo e validaccedilatildeo de modelos foi efetuada a seguinte distribuiccedilatildeo por conjuntos

187733 transaccedilotildees

70 (131413)

Conjunto de treino

20 (37547)

Conjunto de validaccedilatildeo

10 (18773)

Conjunto de teste

Recolha de dados

6

Sumaacuterio

Recolha de dados

Minimizaccedilatildeo das perdas

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

7

Ao prever a classe do cliente (BOM ou MAU) podemos definir a matriz geneacuterica de perdas L

Para determinar os paracircmetros da matriz de perdas L tem-se em conta que

A aprovaccedilatildeo do deacutebito implica cobranccedila de comissotildees pelo serviccedilo e geraccedilatildeo aumento de descobertos

Os cheques recusados implicam tambeacutem a cobranccedila de uma comissatildeo e o montante meacutedio destas transaccedilotildees e comissotildees eacute superior ao das restantes

Natildeo existem perdas quando a classificaccedilatildeo eacute correta

Classificar como BOM quando eacute MAU gera um descoberto na conta que natildeo seraacute regularizado nos 30 dias seguintes e classificar como MAU quando eacute BOM conduz agrave perda de comissotildeesjuros do serviccedilo

PREVISAtildeO

MAU BOM R

EAL MAU l1 l2

BOM l3 l4

Minimizaccedilatildeo das perdas

8

Definimos entatildeo

M = montante (comissotildees mais juros) a pagar pela aprovaccedilatildeo de qualquer transaccedilatildeo

Pc = proporccedilatildeo de cheques

Po = 1- Pc = proporccedilatildeo de outras transacccedilotildees (natildeo cheques)

Lc = descoberto provocado pela aprovaccedilatildeo de cheques

Lo = descoberto provocado pela aprovaccedilatildeo de outras transacccedilotildees

F+ = comissatildeo adicional por cada aprovaccedilatildeo de cheque

F- = comissatildeo adicional por cada devoluccedilatildeo de cheque

Usando os paracircmetros anteriormente definidos obtemos a matriz

Minimizaccedilatildeo das perdas

PREVISAtildeO

MAU BOM

REA

L MAU 0 Pc Lc + (1 - Pc)Lo

BOM Pc(F+-F-) + M 0

9

Nestas condiccedilotildees o mais importante natildeo eacute minimizar o nuacutemero de erros mas sim minimizar as perdasprejuiacutezos

Usando uma amostra com decisotildees histoacutericas e as respectivas comissotildees e montantes chegou-se agrave matriz

A matriz de perdas obtida reflete os criteacuterios de negoacutecio atualmente em vigor No entanto deve ser sempre levada em conta a variabilidade destes criteacuterios na construccedilatildeo do modelo de decisatildeo

PREVISAtildeO

MAU BOM

REA

L MAU 0 49

BOM 1 0

Minimizaccedilatildeo das perdas

10

Sumaacuterio

Recolha de dados

Minimizaccedilatildeo das perdas

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

11

Pretende-se que o resultado do modelo contenha

a divisatildeo da populaccedilatildeo em duas classes (BOM MAU)

a probabilidade agrave posteriori em cada classe

Na praacutetica pretende-se dividir a populaccedilatildeo em grupos e em funccedilatildeo da probabilidade associada agrave classe dominante em cada grupo definir como classificar os elementos desse grupo minimizando os custosperdas associadas a essa previsatildeo

100 transaccedilotildees

(80 BOM 20 MAU)

60 transaccedilotildees

(55 BOM 5 MAU)

40 transaccedilotildees

(25 BOM 15 MAU)

20 transaccedilotildees

(20 BOM 0 MAU)

20 transaccedilotildees

(5 BOM 15 MAU)

BOM 80

BOM 62

MAU 75 BOM 100

BOM 92

Modelo binaacuterio

12

Seratildeo abordadas duas estrateacutegias

Os dois tipos de erros tecircm o mesmo peso na decisatildeo e incorporar os conceitos do negoacutecio numa decisatildeo baseada na probabilidade agrave posteriori de cada classe

Vantagem faacutecil adaptaccedilatildeo do modelo a variaccedilotildees dos conceitos do negoacutecio

Desvantagem se os conceitos do negoacutecio conduzirem a tipos de erros muito assimeacutetricos poderaacute diminuir a performance do modelo inicial

Considerar diferentes pesos para os diferentes erros incorporando assim os conceitos do negoacutecio no modelo em si

Vantagem modelo mais adaptado aos conceitos do negoacutecio

Desvantagem variaccedilotildees nos conceito de negoacutecio implicam revisatildeo do modelo

A

B

PREVISAtildeO

MAU BOM

REA

L MAU 0 1

BOM 1 0

PREVISAtildeO

MAU BOM

REA

L MAU 0 49

BOM 1 0

Modelo binaacuterio

13

Dado que seratildeo usadas duas estrateacutegias e que iratildeo ser usados trecircs tipos de modelos regressatildeo logiacutestica aacutervores de classificaccedilatildeo e redes neuronais seraacute necessaacuterio analisar o poder discriminativo de cada modelo e comparar resultados Para tal define-se a matriz de confusatildeo C (ou tabela de contingecircncia) como sendo

Onde

P(RMPM) - probabilidade de o modelo prever MAU quando o cliente eacute MAU na realidade

P(RMPB) - probabilidade de o modelo prever BOM quando o cliente eacute MAU na realidade

P(RBPM) - probabilidade de o modelo prever MAU quando o cliente eacute BOM na realidade

P(RBPB) - probabilidade de o modelo prever BOM quando o cliente eacute BOM na realidade

PREVISAtildeO

MAU BOM

REA

L MAU P(RMPM) P(RMPB) P(RM)

BOM P(RBPM) P(RBPB) P(RB)

P(PM) P(PB) 1

Modelo binaacuterio

14

Usando as matrizes L e C definidas anteriormente

Podemos constatar que o valor esperado para as perdas resulta da soma dos pesos associados a cada tipo de perda (li) multiplicados pela probabilidade de ocorrerem ou seja

PREVISAtildeO

MAU BOM

REA

L MAU l1 l2

BOM l3 l4

PREVISAtildeO

MAU BOM

REA

L MAU P(RMPM) P(RMPB)

BOM P(RBPM) P(RBPB)

443221

4321

lP(RB)P(RB)

PB)P(RB1)l(lP(RB)l

P(RM)

PM)P(RM)l(lP(RM)

PB)P(RBlPM)P(RBlPB)P(RMlPM)P(RMlCLE

Sensibilidade 1- Especificidade

Modelo binaacuterio

15

Entatildeo E[LC] pode ser escrita como uma funccedilatildeo linear da forma

E[LC] = a (1 ndash Especificidade) + b (sensibilidade) + c

onde a b e c satildeo paracircmetros dependentes das entradas da matriz L e da proporccedilatildeo de clientes da classe MAU na amostra

A performance de um modelo pode entatildeo ser analisada num espaccedilo a duas dimensotildees

Para efetuar esta anaacutelise usaremos curvas ROC (Receiver Operating Characteristic)

Modelo binaacuterio

16

Ponto oacutetimo P = 90 P = 100 P = 0

Abaixo eacute apresentado um exemplo de curvas ROC para diferentes classificadores

A

Cada ponto da curva representa uma probabilidade a partir da qual classificamos o cliente como MAU Pontos no canto superior direito correspondem a probabilidades reduzidas e no canto inferior esquerdo correspondem a probabilidades elevadas

Modelo binaacuterio

17

Os resultados obtidos foram os seguintes Pesos iguais Pesos diferenciados atendendo aos conceitos do negoacutecio

Modelo binaacuterio

A

B

18

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

19

Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais

O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige

Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo

Objetivos

Minimizar P3 e P4 -gt Diminuir os erros e as perdas

Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

Modelo ternaacuterio

20

Os resultados obtidos foram os seguintes

Maior equiliacutebrio entre Sensibilidade e Especificidade

Previsotildees mais assertivas

15 das transaccedilotildees satildeo decididas manualmente

Modelo ternaacuterio

P3P6 P3+P4

P1+P3 +P4+P6

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

21

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

22

Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios

Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria

Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas

Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante

Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU

O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8

A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados

Discussatildeo

23

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

24

[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45

[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002

[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005

[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986

[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996

[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995

[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005

[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005

Bibliografia

25

Questotildees

Page 2: A Tripartite Scorecard for the Pay/ No Pay ... - fc.up.pt · Analisado por Hélia Monteiro da Costa ... Para a criação e validação de modelos foi efetuada a seguinte distribuição

1

Sumaacuterio

Recolha de dados

Minimizaccedilatildeo das perdas

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

2

Enquadramento

Os bancos suportam a decisatildeo de creacutedito em modelos que preveem o incumprimento a 6 ou mais meses

O deacutebito ou natildeo de uma transaccedilatildeo bancaacuteria numa conta com saldo insuficiente deveria ser decidido com base na probabilidade de o cliente incumprir a 30 dias

Objetivo

Criar modelo para decidir se eacute efetuado ou natildeo o deacutebito de uma transaccedilatildeo numa conta bancaacuteria com saldo insuficiente minimizando as perdas

Processo

1 Modelos binaacuterios usar vaacuterios modelos para distribuir os clientes por duas classes MAU e BOM mediante a probabilidade de incumprirem

2 Modelos ternaacuterios usar vaacuterios modelos para distribuir os clientes por trecircs classes MAU BOM e para REVISAtildeO (decisatildeo manual)

Resultado

Obtida uma automatizaccedilatildeo de 87 que compara favoravelmente com 79 do processo anterior

Sumaacuterio

3

Sumaacuterio

Recolha de dados

Minimizaccedilatildeo das perdas

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

4

Janela de observaccedilatildeo

Periacuteodo associado agrave informaccedilatildeo histoacuterica que permitiraacute caracterizar o cliente

Janela de decisatildeo

Periacuteodo associado agrave decisatildeo de deacutebito ou natildeo de uma transaccedilatildeo na conta com saldo insuficiente

Janela de performance

Periacuteodo durante o qual seraacute avaliada a capacidade de o cliente regularizar a conta a descoberto em 30 dias

Janela de decisatildeo

Janela de performance Janela de observaccedilatildeo

Janrsquo06 Fevrsquo06 Dezrsquo05 Novrsquo05 Outrsquo05

Recolha de dados

5

Atendendo agraves janelas definidas e usando o software SAS Enterprise Miner identificaram-se

187733 transacccedilotildees cujo lanccedilamento nas contas provocaria um descoberto e que requerem decisatildeo de aprovaccedilatildeo ou natildeo de deacutebito em conta

47 caracteriacutesticasatributos dos clientes e contas associadas agraves transacccedilotildees acima referidas

82 das transacccedilotildees eram de clientes que conseguiam regularizar as contas em menos de 30 dias

Para a criaccedilatildeo e validaccedilatildeo de modelos foi efetuada a seguinte distribuiccedilatildeo por conjuntos

187733 transaccedilotildees

70 (131413)

Conjunto de treino

20 (37547)

Conjunto de validaccedilatildeo

10 (18773)

Conjunto de teste

Recolha de dados

6

Sumaacuterio

Recolha de dados

Minimizaccedilatildeo das perdas

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

7

Ao prever a classe do cliente (BOM ou MAU) podemos definir a matriz geneacuterica de perdas L

Para determinar os paracircmetros da matriz de perdas L tem-se em conta que

A aprovaccedilatildeo do deacutebito implica cobranccedila de comissotildees pelo serviccedilo e geraccedilatildeo aumento de descobertos

Os cheques recusados implicam tambeacutem a cobranccedila de uma comissatildeo e o montante meacutedio destas transaccedilotildees e comissotildees eacute superior ao das restantes

Natildeo existem perdas quando a classificaccedilatildeo eacute correta

Classificar como BOM quando eacute MAU gera um descoberto na conta que natildeo seraacute regularizado nos 30 dias seguintes e classificar como MAU quando eacute BOM conduz agrave perda de comissotildeesjuros do serviccedilo

PREVISAtildeO

MAU BOM R

EAL MAU l1 l2

BOM l3 l4

Minimizaccedilatildeo das perdas

8

Definimos entatildeo

M = montante (comissotildees mais juros) a pagar pela aprovaccedilatildeo de qualquer transaccedilatildeo

Pc = proporccedilatildeo de cheques

Po = 1- Pc = proporccedilatildeo de outras transacccedilotildees (natildeo cheques)

Lc = descoberto provocado pela aprovaccedilatildeo de cheques

Lo = descoberto provocado pela aprovaccedilatildeo de outras transacccedilotildees

F+ = comissatildeo adicional por cada aprovaccedilatildeo de cheque

F- = comissatildeo adicional por cada devoluccedilatildeo de cheque

Usando os paracircmetros anteriormente definidos obtemos a matriz

Minimizaccedilatildeo das perdas

PREVISAtildeO

MAU BOM

REA

L MAU 0 Pc Lc + (1 - Pc)Lo

BOM Pc(F+-F-) + M 0

9

Nestas condiccedilotildees o mais importante natildeo eacute minimizar o nuacutemero de erros mas sim minimizar as perdasprejuiacutezos

Usando uma amostra com decisotildees histoacutericas e as respectivas comissotildees e montantes chegou-se agrave matriz

A matriz de perdas obtida reflete os criteacuterios de negoacutecio atualmente em vigor No entanto deve ser sempre levada em conta a variabilidade destes criteacuterios na construccedilatildeo do modelo de decisatildeo

PREVISAtildeO

MAU BOM

REA

L MAU 0 49

BOM 1 0

Minimizaccedilatildeo das perdas

10

Sumaacuterio

Recolha de dados

Minimizaccedilatildeo das perdas

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

11

Pretende-se que o resultado do modelo contenha

a divisatildeo da populaccedilatildeo em duas classes (BOM MAU)

a probabilidade agrave posteriori em cada classe

Na praacutetica pretende-se dividir a populaccedilatildeo em grupos e em funccedilatildeo da probabilidade associada agrave classe dominante em cada grupo definir como classificar os elementos desse grupo minimizando os custosperdas associadas a essa previsatildeo

100 transaccedilotildees

(80 BOM 20 MAU)

60 transaccedilotildees

(55 BOM 5 MAU)

40 transaccedilotildees

(25 BOM 15 MAU)

20 transaccedilotildees

(20 BOM 0 MAU)

20 transaccedilotildees

(5 BOM 15 MAU)

BOM 80

BOM 62

MAU 75 BOM 100

BOM 92

Modelo binaacuterio

12

Seratildeo abordadas duas estrateacutegias

Os dois tipos de erros tecircm o mesmo peso na decisatildeo e incorporar os conceitos do negoacutecio numa decisatildeo baseada na probabilidade agrave posteriori de cada classe

Vantagem faacutecil adaptaccedilatildeo do modelo a variaccedilotildees dos conceitos do negoacutecio

Desvantagem se os conceitos do negoacutecio conduzirem a tipos de erros muito assimeacutetricos poderaacute diminuir a performance do modelo inicial

Considerar diferentes pesos para os diferentes erros incorporando assim os conceitos do negoacutecio no modelo em si

Vantagem modelo mais adaptado aos conceitos do negoacutecio

Desvantagem variaccedilotildees nos conceito de negoacutecio implicam revisatildeo do modelo

A

B

PREVISAtildeO

MAU BOM

REA

L MAU 0 1

BOM 1 0

PREVISAtildeO

MAU BOM

REA

L MAU 0 49

BOM 1 0

Modelo binaacuterio

13

Dado que seratildeo usadas duas estrateacutegias e que iratildeo ser usados trecircs tipos de modelos regressatildeo logiacutestica aacutervores de classificaccedilatildeo e redes neuronais seraacute necessaacuterio analisar o poder discriminativo de cada modelo e comparar resultados Para tal define-se a matriz de confusatildeo C (ou tabela de contingecircncia) como sendo

Onde

P(RMPM) - probabilidade de o modelo prever MAU quando o cliente eacute MAU na realidade

P(RMPB) - probabilidade de o modelo prever BOM quando o cliente eacute MAU na realidade

P(RBPM) - probabilidade de o modelo prever MAU quando o cliente eacute BOM na realidade

P(RBPB) - probabilidade de o modelo prever BOM quando o cliente eacute BOM na realidade

PREVISAtildeO

MAU BOM

REA

L MAU P(RMPM) P(RMPB) P(RM)

BOM P(RBPM) P(RBPB) P(RB)

P(PM) P(PB) 1

Modelo binaacuterio

14

Usando as matrizes L e C definidas anteriormente

Podemos constatar que o valor esperado para as perdas resulta da soma dos pesos associados a cada tipo de perda (li) multiplicados pela probabilidade de ocorrerem ou seja

PREVISAtildeO

MAU BOM

REA

L MAU l1 l2

BOM l3 l4

PREVISAtildeO

MAU BOM

REA

L MAU P(RMPM) P(RMPB)

BOM P(RBPM) P(RBPB)

443221

4321

lP(RB)P(RB)

PB)P(RB1)l(lP(RB)l

P(RM)

PM)P(RM)l(lP(RM)

PB)P(RBlPM)P(RBlPB)P(RMlPM)P(RMlCLE

Sensibilidade 1- Especificidade

Modelo binaacuterio

15

Entatildeo E[LC] pode ser escrita como uma funccedilatildeo linear da forma

E[LC] = a (1 ndash Especificidade) + b (sensibilidade) + c

onde a b e c satildeo paracircmetros dependentes das entradas da matriz L e da proporccedilatildeo de clientes da classe MAU na amostra

A performance de um modelo pode entatildeo ser analisada num espaccedilo a duas dimensotildees

Para efetuar esta anaacutelise usaremos curvas ROC (Receiver Operating Characteristic)

Modelo binaacuterio

16

Ponto oacutetimo P = 90 P = 100 P = 0

Abaixo eacute apresentado um exemplo de curvas ROC para diferentes classificadores

A

Cada ponto da curva representa uma probabilidade a partir da qual classificamos o cliente como MAU Pontos no canto superior direito correspondem a probabilidades reduzidas e no canto inferior esquerdo correspondem a probabilidades elevadas

Modelo binaacuterio

17

Os resultados obtidos foram os seguintes Pesos iguais Pesos diferenciados atendendo aos conceitos do negoacutecio

Modelo binaacuterio

A

B

18

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

19

Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais

O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige

Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo

Objetivos

Minimizar P3 e P4 -gt Diminuir os erros e as perdas

Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

Modelo ternaacuterio

20

Os resultados obtidos foram os seguintes

Maior equiliacutebrio entre Sensibilidade e Especificidade

Previsotildees mais assertivas

15 das transaccedilotildees satildeo decididas manualmente

Modelo ternaacuterio

P3P6 P3+P4

P1+P3 +P4+P6

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

21

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

22

Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios

Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria

Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas

Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante

Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU

O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8

A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados

Discussatildeo

23

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

24

[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45

[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002

[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005

[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986

[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996

[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995

[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005

[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005

Bibliografia

25

Questotildees

Page 3: A Tripartite Scorecard for the Pay/ No Pay ... - fc.up.pt · Analisado por Hélia Monteiro da Costa ... Para a criação e validação de modelos foi efetuada a seguinte distribuição

2

Enquadramento

Os bancos suportam a decisatildeo de creacutedito em modelos que preveem o incumprimento a 6 ou mais meses

O deacutebito ou natildeo de uma transaccedilatildeo bancaacuteria numa conta com saldo insuficiente deveria ser decidido com base na probabilidade de o cliente incumprir a 30 dias

Objetivo

Criar modelo para decidir se eacute efetuado ou natildeo o deacutebito de uma transaccedilatildeo numa conta bancaacuteria com saldo insuficiente minimizando as perdas

Processo

1 Modelos binaacuterios usar vaacuterios modelos para distribuir os clientes por duas classes MAU e BOM mediante a probabilidade de incumprirem

2 Modelos ternaacuterios usar vaacuterios modelos para distribuir os clientes por trecircs classes MAU BOM e para REVISAtildeO (decisatildeo manual)

Resultado

Obtida uma automatizaccedilatildeo de 87 que compara favoravelmente com 79 do processo anterior

Sumaacuterio

3

Sumaacuterio

Recolha de dados

Minimizaccedilatildeo das perdas

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

4

Janela de observaccedilatildeo

Periacuteodo associado agrave informaccedilatildeo histoacuterica que permitiraacute caracterizar o cliente

Janela de decisatildeo

Periacuteodo associado agrave decisatildeo de deacutebito ou natildeo de uma transaccedilatildeo na conta com saldo insuficiente

Janela de performance

Periacuteodo durante o qual seraacute avaliada a capacidade de o cliente regularizar a conta a descoberto em 30 dias

Janela de decisatildeo

Janela de performance Janela de observaccedilatildeo

Janrsquo06 Fevrsquo06 Dezrsquo05 Novrsquo05 Outrsquo05

Recolha de dados

5

Atendendo agraves janelas definidas e usando o software SAS Enterprise Miner identificaram-se

187733 transacccedilotildees cujo lanccedilamento nas contas provocaria um descoberto e que requerem decisatildeo de aprovaccedilatildeo ou natildeo de deacutebito em conta

47 caracteriacutesticasatributos dos clientes e contas associadas agraves transacccedilotildees acima referidas

82 das transacccedilotildees eram de clientes que conseguiam regularizar as contas em menos de 30 dias

Para a criaccedilatildeo e validaccedilatildeo de modelos foi efetuada a seguinte distribuiccedilatildeo por conjuntos

187733 transaccedilotildees

70 (131413)

Conjunto de treino

20 (37547)

Conjunto de validaccedilatildeo

10 (18773)

Conjunto de teste

Recolha de dados

6

Sumaacuterio

Recolha de dados

Minimizaccedilatildeo das perdas

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

7

Ao prever a classe do cliente (BOM ou MAU) podemos definir a matriz geneacuterica de perdas L

Para determinar os paracircmetros da matriz de perdas L tem-se em conta que

A aprovaccedilatildeo do deacutebito implica cobranccedila de comissotildees pelo serviccedilo e geraccedilatildeo aumento de descobertos

Os cheques recusados implicam tambeacutem a cobranccedila de uma comissatildeo e o montante meacutedio destas transaccedilotildees e comissotildees eacute superior ao das restantes

Natildeo existem perdas quando a classificaccedilatildeo eacute correta

Classificar como BOM quando eacute MAU gera um descoberto na conta que natildeo seraacute regularizado nos 30 dias seguintes e classificar como MAU quando eacute BOM conduz agrave perda de comissotildeesjuros do serviccedilo

PREVISAtildeO

MAU BOM R

EAL MAU l1 l2

BOM l3 l4

Minimizaccedilatildeo das perdas

8

Definimos entatildeo

M = montante (comissotildees mais juros) a pagar pela aprovaccedilatildeo de qualquer transaccedilatildeo

Pc = proporccedilatildeo de cheques

Po = 1- Pc = proporccedilatildeo de outras transacccedilotildees (natildeo cheques)

Lc = descoberto provocado pela aprovaccedilatildeo de cheques

Lo = descoberto provocado pela aprovaccedilatildeo de outras transacccedilotildees

F+ = comissatildeo adicional por cada aprovaccedilatildeo de cheque

F- = comissatildeo adicional por cada devoluccedilatildeo de cheque

Usando os paracircmetros anteriormente definidos obtemos a matriz

Minimizaccedilatildeo das perdas

PREVISAtildeO

MAU BOM

REA

L MAU 0 Pc Lc + (1 - Pc)Lo

BOM Pc(F+-F-) + M 0

9

Nestas condiccedilotildees o mais importante natildeo eacute minimizar o nuacutemero de erros mas sim minimizar as perdasprejuiacutezos

Usando uma amostra com decisotildees histoacutericas e as respectivas comissotildees e montantes chegou-se agrave matriz

A matriz de perdas obtida reflete os criteacuterios de negoacutecio atualmente em vigor No entanto deve ser sempre levada em conta a variabilidade destes criteacuterios na construccedilatildeo do modelo de decisatildeo

PREVISAtildeO

MAU BOM

REA

L MAU 0 49

BOM 1 0

Minimizaccedilatildeo das perdas

10

Sumaacuterio

Recolha de dados

Minimizaccedilatildeo das perdas

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

11

Pretende-se que o resultado do modelo contenha

a divisatildeo da populaccedilatildeo em duas classes (BOM MAU)

a probabilidade agrave posteriori em cada classe

Na praacutetica pretende-se dividir a populaccedilatildeo em grupos e em funccedilatildeo da probabilidade associada agrave classe dominante em cada grupo definir como classificar os elementos desse grupo minimizando os custosperdas associadas a essa previsatildeo

100 transaccedilotildees

(80 BOM 20 MAU)

60 transaccedilotildees

(55 BOM 5 MAU)

40 transaccedilotildees

(25 BOM 15 MAU)

20 transaccedilotildees

(20 BOM 0 MAU)

20 transaccedilotildees

(5 BOM 15 MAU)

BOM 80

BOM 62

MAU 75 BOM 100

BOM 92

Modelo binaacuterio

12

Seratildeo abordadas duas estrateacutegias

Os dois tipos de erros tecircm o mesmo peso na decisatildeo e incorporar os conceitos do negoacutecio numa decisatildeo baseada na probabilidade agrave posteriori de cada classe

Vantagem faacutecil adaptaccedilatildeo do modelo a variaccedilotildees dos conceitos do negoacutecio

Desvantagem se os conceitos do negoacutecio conduzirem a tipos de erros muito assimeacutetricos poderaacute diminuir a performance do modelo inicial

Considerar diferentes pesos para os diferentes erros incorporando assim os conceitos do negoacutecio no modelo em si

Vantagem modelo mais adaptado aos conceitos do negoacutecio

Desvantagem variaccedilotildees nos conceito de negoacutecio implicam revisatildeo do modelo

A

B

PREVISAtildeO

MAU BOM

REA

L MAU 0 1

BOM 1 0

PREVISAtildeO

MAU BOM

REA

L MAU 0 49

BOM 1 0

Modelo binaacuterio

13

Dado que seratildeo usadas duas estrateacutegias e que iratildeo ser usados trecircs tipos de modelos regressatildeo logiacutestica aacutervores de classificaccedilatildeo e redes neuronais seraacute necessaacuterio analisar o poder discriminativo de cada modelo e comparar resultados Para tal define-se a matriz de confusatildeo C (ou tabela de contingecircncia) como sendo

Onde

P(RMPM) - probabilidade de o modelo prever MAU quando o cliente eacute MAU na realidade

P(RMPB) - probabilidade de o modelo prever BOM quando o cliente eacute MAU na realidade

P(RBPM) - probabilidade de o modelo prever MAU quando o cliente eacute BOM na realidade

P(RBPB) - probabilidade de o modelo prever BOM quando o cliente eacute BOM na realidade

PREVISAtildeO

MAU BOM

REA

L MAU P(RMPM) P(RMPB) P(RM)

BOM P(RBPM) P(RBPB) P(RB)

P(PM) P(PB) 1

Modelo binaacuterio

14

Usando as matrizes L e C definidas anteriormente

Podemos constatar que o valor esperado para as perdas resulta da soma dos pesos associados a cada tipo de perda (li) multiplicados pela probabilidade de ocorrerem ou seja

PREVISAtildeO

MAU BOM

REA

L MAU l1 l2

BOM l3 l4

PREVISAtildeO

MAU BOM

REA

L MAU P(RMPM) P(RMPB)

BOM P(RBPM) P(RBPB)

443221

4321

lP(RB)P(RB)

PB)P(RB1)l(lP(RB)l

P(RM)

PM)P(RM)l(lP(RM)

PB)P(RBlPM)P(RBlPB)P(RMlPM)P(RMlCLE

Sensibilidade 1- Especificidade

Modelo binaacuterio

15

Entatildeo E[LC] pode ser escrita como uma funccedilatildeo linear da forma

E[LC] = a (1 ndash Especificidade) + b (sensibilidade) + c

onde a b e c satildeo paracircmetros dependentes das entradas da matriz L e da proporccedilatildeo de clientes da classe MAU na amostra

A performance de um modelo pode entatildeo ser analisada num espaccedilo a duas dimensotildees

Para efetuar esta anaacutelise usaremos curvas ROC (Receiver Operating Characteristic)

Modelo binaacuterio

16

Ponto oacutetimo P = 90 P = 100 P = 0

Abaixo eacute apresentado um exemplo de curvas ROC para diferentes classificadores

A

Cada ponto da curva representa uma probabilidade a partir da qual classificamos o cliente como MAU Pontos no canto superior direito correspondem a probabilidades reduzidas e no canto inferior esquerdo correspondem a probabilidades elevadas

Modelo binaacuterio

17

Os resultados obtidos foram os seguintes Pesos iguais Pesos diferenciados atendendo aos conceitos do negoacutecio

Modelo binaacuterio

A

B

18

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

19

Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais

O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige

Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo

Objetivos

Minimizar P3 e P4 -gt Diminuir os erros e as perdas

Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

Modelo ternaacuterio

20

Os resultados obtidos foram os seguintes

Maior equiliacutebrio entre Sensibilidade e Especificidade

Previsotildees mais assertivas

15 das transaccedilotildees satildeo decididas manualmente

Modelo ternaacuterio

P3P6 P3+P4

P1+P3 +P4+P6

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

21

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

22

Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios

Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria

Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas

Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante

Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU

O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8

A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados

Discussatildeo

23

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

24

[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45

[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002

[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005

[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986

[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996

[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995

[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005

[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005

Bibliografia

25

Questotildees

Page 4: A Tripartite Scorecard for the Pay/ No Pay ... - fc.up.pt · Analisado por Hélia Monteiro da Costa ... Para a criação e validação de modelos foi efetuada a seguinte distribuição

3

Sumaacuterio

Recolha de dados

Minimizaccedilatildeo das perdas

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

4

Janela de observaccedilatildeo

Periacuteodo associado agrave informaccedilatildeo histoacuterica que permitiraacute caracterizar o cliente

Janela de decisatildeo

Periacuteodo associado agrave decisatildeo de deacutebito ou natildeo de uma transaccedilatildeo na conta com saldo insuficiente

Janela de performance

Periacuteodo durante o qual seraacute avaliada a capacidade de o cliente regularizar a conta a descoberto em 30 dias

Janela de decisatildeo

Janela de performance Janela de observaccedilatildeo

Janrsquo06 Fevrsquo06 Dezrsquo05 Novrsquo05 Outrsquo05

Recolha de dados

5

Atendendo agraves janelas definidas e usando o software SAS Enterprise Miner identificaram-se

187733 transacccedilotildees cujo lanccedilamento nas contas provocaria um descoberto e que requerem decisatildeo de aprovaccedilatildeo ou natildeo de deacutebito em conta

47 caracteriacutesticasatributos dos clientes e contas associadas agraves transacccedilotildees acima referidas

82 das transacccedilotildees eram de clientes que conseguiam regularizar as contas em menos de 30 dias

Para a criaccedilatildeo e validaccedilatildeo de modelos foi efetuada a seguinte distribuiccedilatildeo por conjuntos

187733 transaccedilotildees

70 (131413)

Conjunto de treino

20 (37547)

Conjunto de validaccedilatildeo

10 (18773)

Conjunto de teste

Recolha de dados

6

Sumaacuterio

Recolha de dados

Minimizaccedilatildeo das perdas

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

7

Ao prever a classe do cliente (BOM ou MAU) podemos definir a matriz geneacuterica de perdas L

Para determinar os paracircmetros da matriz de perdas L tem-se em conta que

A aprovaccedilatildeo do deacutebito implica cobranccedila de comissotildees pelo serviccedilo e geraccedilatildeo aumento de descobertos

Os cheques recusados implicam tambeacutem a cobranccedila de uma comissatildeo e o montante meacutedio destas transaccedilotildees e comissotildees eacute superior ao das restantes

Natildeo existem perdas quando a classificaccedilatildeo eacute correta

Classificar como BOM quando eacute MAU gera um descoberto na conta que natildeo seraacute regularizado nos 30 dias seguintes e classificar como MAU quando eacute BOM conduz agrave perda de comissotildeesjuros do serviccedilo

PREVISAtildeO

MAU BOM R

EAL MAU l1 l2

BOM l3 l4

Minimizaccedilatildeo das perdas

8

Definimos entatildeo

M = montante (comissotildees mais juros) a pagar pela aprovaccedilatildeo de qualquer transaccedilatildeo

Pc = proporccedilatildeo de cheques

Po = 1- Pc = proporccedilatildeo de outras transacccedilotildees (natildeo cheques)

Lc = descoberto provocado pela aprovaccedilatildeo de cheques

Lo = descoberto provocado pela aprovaccedilatildeo de outras transacccedilotildees

F+ = comissatildeo adicional por cada aprovaccedilatildeo de cheque

F- = comissatildeo adicional por cada devoluccedilatildeo de cheque

Usando os paracircmetros anteriormente definidos obtemos a matriz

Minimizaccedilatildeo das perdas

PREVISAtildeO

MAU BOM

REA

L MAU 0 Pc Lc + (1 - Pc)Lo

BOM Pc(F+-F-) + M 0

9

Nestas condiccedilotildees o mais importante natildeo eacute minimizar o nuacutemero de erros mas sim minimizar as perdasprejuiacutezos

Usando uma amostra com decisotildees histoacutericas e as respectivas comissotildees e montantes chegou-se agrave matriz

A matriz de perdas obtida reflete os criteacuterios de negoacutecio atualmente em vigor No entanto deve ser sempre levada em conta a variabilidade destes criteacuterios na construccedilatildeo do modelo de decisatildeo

PREVISAtildeO

MAU BOM

REA

L MAU 0 49

BOM 1 0

Minimizaccedilatildeo das perdas

10

Sumaacuterio

Recolha de dados

Minimizaccedilatildeo das perdas

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

11

Pretende-se que o resultado do modelo contenha

a divisatildeo da populaccedilatildeo em duas classes (BOM MAU)

a probabilidade agrave posteriori em cada classe

Na praacutetica pretende-se dividir a populaccedilatildeo em grupos e em funccedilatildeo da probabilidade associada agrave classe dominante em cada grupo definir como classificar os elementos desse grupo minimizando os custosperdas associadas a essa previsatildeo

100 transaccedilotildees

(80 BOM 20 MAU)

60 transaccedilotildees

(55 BOM 5 MAU)

40 transaccedilotildees

(25 BOM 15 MAU)

20 transaccedilotildees

(20 BOM 0 MAU)

20 transaccedilotildees

(5 BOM 15 MAU)

BOM 80

BOM 62

MAU 75 BOM 100

BOM 92

Modelo binaacuterio

12

Seratildeo abordadas duas estrateacutegias

Os dois tipos de erros tecircm o mesmo peso na decisatildeo e incorporar os conceitos do negoacutecio numa decisatildeo baseada na probabilidade agrave posteriori de cada classe

Vantagem faacutecil adaptaccedilatildeo do modelo a variaccedilotildees dos conceitos do negoacutecio

Desvantagem se os conceitos do negoacutecio conduzirem a tipos de erros muito assimeacutetricos poderaacute diminuir a performance do modelo inicial

Considerar diferentes pesos para os diferentes erros incorporando assim os conceitos do negoacutecio no modelo em si

Vantagem modelo mais adaptado aos conceitos do negoacutecio

Desvantagem variaccedilotildees nos conceito de negoacutecio implicam revisatildeo do modelo

A

B

PREVISAtildeO

MAU BOM

REA

L MAU 0 1

BOM 1 0

PREVISAtildeO

MAU BOM

REA

L MAU 0 49

BOM 1 0

Modelo binaacuterio

13

Dado que seratildeo usadas duas estrateacutegias e que iratildeo ser usados trecircs tipos de modelos regressatildeo logiacutestica aacutervores de classificaccedilatildeo e redes neuronais seraacute necessaacuterio analisar o poder discriminativo de cada modelo e comparar resultados Para tal define-se a matriz de confusatildeo C (ou tabela de contingecircncia) como sendo

Onde

P(RMPM) - probabilidade de o modelo prever MAU quando o cliente eacute MAU na realidade

P(RMPB) - probabilidade de o modelo prever BOM quando o cliente eacute MAU na realidade

P(RBPM) - probabilidade de o modelo prever MAU quando o cliente eacute BOM na realidade

P(RBPB) - probabilidade de o modelo prever BOM quando o cliente eacute BOM na realidade

PREVISAtildeO

MAU BOM

REA

L MAU P(RMPM) P(RMPB) P(RM)

BOM P(RBPM) P(RBPB) P(RB)

P(PM) P(PB) 1

Modelo binaacuterio

14

Usando as matrizes L e C definidas anteriormente

Podemos constatar que o valor esperado para as perdas resulta da soma dos pesos associados a cada tipo de perda (li) multiplicados pela probabilidade de ocorrerem ou seja

PREVISAtildeO

MAU BOM

REA

L MAU l1 l2

BOM l3 l4

PREVISAtildeO

MAU BOM

REA

L MAU P(RMPM) P(RMPB)

BOM P(RBPM) P(RBPB)

443221

4321

lP(RB)P(RB)

PB)P(RB1)l(lP(RB)l

P(RM)

PM)P(RM)l(lP(RM)

PB)P(RBlPM)P(RBlPB)P(RMlPM)P(RMlCLE

Sensibilidade 1- Especificidade

Modelo binaacuterio

15

Entatildeo E[LC] pode ser escrita como uma funccedilatildeo linear da forma

E[LC] = a (1 ndash Especificidade) + b (sensibilidade) + c

onde a b e c satildeo paracircmetros dependentes das entradas da matriz L e da proporccedilatildeo de clientes da classe MAU na amostra

A performance de um modelo pode entatildeo ser analisada num espaccedilo a duas dimensotildees

Para efetuar esta anaacutelise usaremos curvas ROC (Receiver Operating Characteristic)

Modelo binaacuterio

16

Ponto oacutetimo P = 90 P = 100 P = 0

Abaixo eacute apresentado um exemplo de curvas ROC para diferentes classificadores

A

Cada ponto da curva representa uma probabilidade a partir da qual classificamos o cliente como MAU Pontos no canto superior direito correspondem a probabilidades reduzidas e no canto inferior esquerdo correspondem a probabilidades elevadas

Modelo binaacuterio

17

Os resultados obtidos foram os seguintes Pesos iguais Pesos diferenciados atendendo aos conceitos do negoacutecio

Modelo binaacuterio

A

B

18

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

19

Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais

O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige

Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo

Objetivos

Minimizar P3 e P4 -gt Diminuir os erros e as perdas

Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

Modelo ternaacuterio

20

Os resultados obtidos foram os seguintes

Maior equiliacutebrio entre Sensibilidade e Especificidade

Previsotildees mais assertivas

15 das transaccedilotildees satildeo decididas manualmente

Modelo ternaacuterio

P3P6 P3+P4

P1+P3 +P4+P6

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

21

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

22

Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios

Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria

Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas

Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante

Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU

O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8

A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados

Discussatildeo

23

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

24

[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45

[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002

[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005

[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986

[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996

[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995

[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005

[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005

Bibliografia

25

Questotildees

Page 5: A Tripartite Scorecard for the Pay/ No Pay ... - fc.up.pt · Analisado por Hélia Monteiro da Costa ... Para a criação e validação de modelos foi efetuada a seguinte distribuição

4

Janela de observaccedilatildeo

Periacuteodo associado agrave informaccedilatildeo histoacuterica que permitiraacute caracterizar o cliente

Janela de decisatildeo

Periacuteodo associado agrave decisatildeo de deacutebito ou natildeo de uma transaccedilatildeo na conta com saldo insuficiente

Janela de performance

Periacuteodo durante o qual seraacute avaliada a capacidade de o cliente regularizar a conta a descoberto em 30 dias

Janela de decisatildeo

Janela de performance Janela de observaccedilatildeo

Janrsquo06 Fevrsquo06 Dezrsquo05 Novrsquo05 Outrsquo05

Recolha de dados

5

Atendendo agraves janelas definidas e usando o software SAS Enterprise Miner identificaram-se

187733 transacccedilotildees cujo lanccedilamento nas contas provocaria um descoberto e que requerem decisatildeo de aprovaccedilatildeo ou natildeo de deacutebito em conta

47 caracteriacutesticasatributos dos clientes e contas associadas agraves transacccedilotildees acima referidas

82 das transacccedilotildees eram de clientes que conseguiam regularizar as contas em menos de 30 dias

Para a criaccedilatildeo e validaccedilatildeo de modelos foi efetuada a seguinte distribuiccedilatildeo por conjuntos

187733 transaccedilotildees

70 (131413)

Conjunto de treino

20 (37547)

Conjunto de validaccedilatildeo

10 (18773)

Conjunto de teste

Recolha de dados

6

Sumaacuterio

Recolha de dados

Minimizaccedilatildeo das perdas

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

7

Ao prever a classe do cliente (BOM ou MAU) podemos definir a matriz geneacuterica de perdas L

Para determinar os paracircmetros da matriz de perdas L tem-se em conta que

A aprovaccedilatildeo do deacutebito implica cobranccedila de comissotildees pelo serviccedilo e geraccedilatildeo aumento de descobertos

Os cheques recusados implicam tambeacutem a cobranccedila de uma comissatildeo e o montante meacutedio destas transaccedilotildees e comissotildees eacute superior ao das restantes

Natildeo existem perdas quando a classificaccedilatildeo eacute correta

Classificar como BOM quando eacute MAU gera um descoberto na conta que natildeo seraacute regularizado nos 30 dias seguintes e classificar como MAU quando eacute BOM conduz agrave perda de comissotildeesjuros do serviccedilo

PREVISAtildeO

MAU BOM R

EAL MAU l1 l2

BOM l3 l4

Minimizaccedilatildeo das perdas

8

Definimos entatildeo

M = montante (comissotildees mais juros) a pagar pela aprovaccedilatildeo de qualquer transaccedilatildeo

Pc = proporccedilatildeo de cheques

Po = 1- Pc = proporccedilatildeo de outras transacccedilotildees (natildeo cheques)

Lc = descoberto provocado pela aprovaccedilatildeo de cheques

Lo = descoberto provocado pela aprovaccedilatildeo de outras transacccedilotildees

F+ = comissatildeo adicional por cada aprovaccedilatildeo de cheque

F- = comissatildeo adicional por cada devoluccedilatildeo de cheque

Usando os paracircmetros anteriormente definidos obtemos a matriz

Minimizaccedilatildeo das perdas

PREVISAtildeO

MAU BOM

REA

L MAU 0 Pc Lc + (1 - Pc)Lo

BOM Pc(F+-F-) + M 0

9

Nestas condiccedilotildees o mais importante natildeo eacute minimizar o nuacutemero de erros mas sim minimizar as perdasprejuiacutezos

Usando uma amostra com decisotildees histoacutericas e as respectivas comissotildees e montantes chegou-se agrave matriz

A matriz de perdas obtida reflete os criteacuterios de negoacutecio atualmente em vigor No entanto deve ser sempre levada em conta a variabilidade destes criteacuterios na construccedilatildeo do modelo de decisatildeo

PREVISAtildeO

MAU BOM

REA

L MAU 0 49

BOM 1 0

Minimizaccedilatildeo das perdas

10

Sumaacuterio

Recolha de dados

Minimizaccedilatildeo das perdas

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

11

Pretende-se que o resultado do modelo contenha

a divisatildeo da populaccedilatildeo em duas classes (BOM MAU)

a probabilidade agrave posteriori em cada classe

Na praacutetica pretende-se dividir a populaccedilatildeo em grupos e em funccedilatildeo da probabilidade associada agrave classe dominante em cada grupo definir como classificar os elementos desse grupo minimizando os custosperdas associadas a essa previsatildeo

100 transaccedilotildees

(80 BOM 20 MAU)

60 transaccedilotildees

(55 BOM 5 MAU)

40 transaccedilotildees

(25 BOM 15 MAU)

20 transaccedilotildees

(20 BOM 0 MAU)

20 transaccedilotildees

(5 BOM 15 MAU)

BOM 80

BOM 62

MAU 75 BOM 100

BOM 92

Modelo binaacuterio

12

Seratildeo abordadas duas estrateacutegias

Os dois tipos de erros tecircm o mesmo peso na decisatildeo e incorporar os conceitos do negoacutecio numa decisatildeo baseada na probabilidade agrave posteriori de cada classe

Vantagem faacutecil adaptaccedilatildeo do modelo a variaccedilotildees dos conceitos do negoacutecio

Desvantagem se os conceitos do negoacutecio conduzirem a tipos de erros muito assimeacutetricos poderaacute diminuir a performance do modelo inicial

Considerar diferentes pesos para os diferentes erros incorporando assim os conceitos do negoacutecio no modelo em si

Vantagem modelo mais adaptado aos conceitos do negoacutecio

Desvantagem variaccedilotildees nos conceito de negoacutecio implicam revisatildeo do modelo

A

B

PREVISAtildeO

MAU BOM

REA

L MAU 0 1

BOM 1 0

PREVISAtildeO

MAU BOM

REA

L MAU 0 49

BOM 1 0

Modelo binaacuterio

13

Dado que seratildeo usadas duas estrateacutegias e que iratildeo ser usados trecircs tipos de modelos regressatildeo logiacutestica aacutervores de classificaccedilatildeo e redes neuronais seraacute necessaacuterio analisar o poder discriminativo de cada modelo e comparar resultados Para tal define-se a matriz de confusatildeo C (ou tabela de contingecircncia) como sendo

Onde

P(RMPM) - probabilidade de o modelo prever MAU quando o cliente eacute MAU na realidade

P(RMPB) - probabilidade de o modelo prever BOM quando o cliente eacute MAU na realidade

P(RBPM) - probabilidade de o modelo prever MAU quando o cliente eacute BOM na realidade

P(RBPB) - probabilidade de o modelo prever BOM quando o cliente eacute BOM na realidade

PREVISAtildeO

MAU BOM

REA

L MAU P(RMPM) P(RMPB) P(RM)

BOM P(RBPM) P(RBPB) P(RB)

P(PM) P(PB) 1

Modelo binaacuterio

14

Usando as matrizes L e C definidas anteriormente

Podemos constatar que o valor esperado para as perdas resulta da soma dos pesos associados a cada tipo de perda (li) multiplicados pela probabilidade de ocorrerem ou seja

PREVISAtildeO

MAU BOM

REA

L MAU l1 l2

BOM l3 l4

PREVISAtildeO

MAU BOM

REA

L MAU P(RMPM) P(RMPB)

BOM P(RBPM) P(RBPB)

443221

4321

lP(RB)P(RB)

PB)P(RB1)l(lP(RB)l

P(RM)

PM)P(RM)l(lP(RM)

PB)P(RBlPM)P(RBlPB)P(RMlPM)P(RMlCLE

Sensibilidade 1- Especificidade

Modelo binaacuterio

15

Entatildeo E[LC] pode ser escrita como uma funccedilatildeo linear da forma

E[LC] = a (1 ndash Especificidade) + b (sensibilidade) + c

onde a b e c satildeo paracircmetros dependentes das entradas da matriz L e da proporccedilatildeo de clientes da classe MAU na amostra

A performance de um modelo pode entatildeo ser analisada num espaccedilo a duas dimensotildees

Para efetuar esta anaacutelise usaremos curvas ROC (Receiver Operating Characteristic)

Modelo binaacuterio

16

Ponto oacutetimo P = 90 P = 100 P = 0

Abaixo eacute apresentado um exemplo de curvas ROC para diferentes classificadores

A

Cada ponto da curva representa uma probabilidade a partir da qual classificamos o cliente como MAU Pontos no canto superior direito correspondem a probabilidades reduzidas e no canto inferior esquerdo correspondem a probabilidades elevadas

Modelo binaacuterio

17

Os resultados obtidos foram os seguintes Pesos iguais Pesos diferenciados atendendo aos conceitos do negoacutecio

Modelo binaacuterio

A

B

18

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

19

Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais

O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige

Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo

Objetivos

Minimizar P3 e P4 -gt Diminuir os erros e as perdas

Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

Modelo ternaacuterio

20

Os resultados obtidos foram os seguintes

Maior equiliacutebrio entre Sensibilidade e Especificidade

Previsotildees mais assertivas

15 das transaccedilotildees satildeo decididas manualmente

Modelo ternaacuterio

P3P6 P3+P4

P1+P3 +P4+P6

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

21

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

22

Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios

Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria

Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas

Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante

Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU

O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8

A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados

Discussatildeo

23

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

24

[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45

[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002

[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005

[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986

[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996

[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995

[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005

[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005

Bibliografia

25

Questotildees

Page 6: A Tripartite Scorecard for the Pay/ No Pay ... - fc.up.pt · Analisado por Hélia Monteiro da Costa ... Para a criação e validação de modelos foi efetuada a seguinte distribuição

5

Atendendo agraves janelas definidas e usando o software SAS Enterprise Miner identificaram-se

187733 transacccedilotildees cujo lanccedilamento nas contas provocaria um descoberto e que requerem decisatildeo de aprovaccedilatildeo ou natildeo de deacutebito em conta

47 caracteriacutesticasatributos dos clientes e contas associadas agraves transacccedilotildees acima referidas

82 das transacccedilotildees eram de clientes que conseguiam regularizar as contas em menos de 30 dias

Para a criaccedilatildeo e validaccedilatildeo de modelos foi efetuada a seguinte distribuiccedilatildeo por conjuntos

187733 transaccedilotildees

70 (131413)

Conjunto de treino

20 (37547)

Conjunto de validaccedilatildeo

10 (18773)

Conjunto de teste

Recolha de dados

6

Sumaacuterio

Recolha de dados

Minimizaccedilatildeo das perdas

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

7

Ao prever a classe do cliente (BOM ou MAU) podemos definir a matriz geneacuterica de perdas L

Para determinar os paracircmetros da matriz de perdas L tem-se em conta que

A aprovaccedilatildeo do deacutebito implica cobranccedila de comissotildees pelo serviccedilo e geraccedilatildeo aumento de descobertos

Os cheques recusados implicam tambeacutem a cobranccedila de uma comissatildeo e o montante meacutedio destas transaccedilotildees e comissotildees eacute superior ao das restantes

Natildeo existem perdas quando a classificaccedilatildeo eacute correta

Classificar como BOM quando eacute MAU gera um descoberto na conta que natildeo seraacute regularizado nos 30 dias seguintes e classificar como MAU quando eacute BOM conduz agrave perda de comissotildeesjuros do serviccedilo

PREVISAtildeO

MAU BOM R

EAL MAU l1 l2

BOM l3 l4

Minimizaccedilatildeo das perdas

8

Definimos entatildeo

M = montante (comissotildees mais juros) a pagar pela aprovaccedilatildeo de qualquer transaccedilatildeo

Pc = proporccedilatildeo de cheques

Po = 1- Pc = proporccedilatildeo de outras transacccedilotildees (natildeo cheques)

Lc = descoberto provocado pela aprovaccedilatildeo de cheques

Lo = descoberto provocado pela aprovaccedilatildeo de outras transacccedilotildees

F+ = comissatildeo adicional por cada aprovaccedilatildeo de cheque

F- = comissatildeo adicional por cada devoluccedilatildeo de cheque

Usando os paracircmetros anteriormente definidos obtemos a matriz

Minimizaccedilatildeo das perdas

PREVISAtildeO

MAU BOM

REA

L MAU 0 Pc Lc + (1 - Pc)Lo

BOM Pc(F+-F-) + M 0

9

Nestas condiccedilotildees o mais importante natildeo eacute minimizar o nuacutemero de erros mas sim minimizar as perdasprejuiacutezos

Usando uma amostra com decisotildees histoacutericas e as respectivas comissotildees e montantes chegou-se agrave matriz

A matriz de perdas obtida reflete os criteacuterios de negoacutecio atualmente em vigor No entanto deve ser sempre levada em conta a variabilidade destes criteacuterios na construccedilatildeo do modelo de decisatildeo

PREVISAtildeO

MAU BOM

REA

L MAU 0 49

BOM 1 0

Minimizaccedilatildeo das perdas

10

Sumaacuterio

Recolha de dados

Minimizaccedilatildeo das perdas

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

11

Pretende-se que o resultado do modelo contenha

a divisatildeo da populaccedilatildeo em duas classes (BOM MAU)

a probabilidade agrave posteriori em cada classe

Na praacutetica pretende-se dividir a populaccedilatildeo em grupos e em funccedilatildeo da probabilidade associada agrave classe dominante em cada grupo definir como classificar os elementos desse grupo minimizando os custosperdas associadas a essa previsatildeo

100 transaccedilotildees

(80 BOM 20 MAU)

60 transaccedilotildees

(55 BOM 5 MAU)

40 transaccedilotildees

(25 BOM 15 MAU)

20 transaccedilotildees

(20 BOM 0 MAU)

20 transaccedilotildees

(5 BOM 15 MAU)

BOM 80

BOM 62

MAU 75 BOM 100

BOM 92

Modelo binaacuterio

12

Seratildeo abordadas duas estrateacutegias

Os dois tipos de erros tecircm o mesmo peso na decisatildeo e incorporar os conceitos do negoacutecio numa decisatildeo baseada na probabilidade agrave posteriori de cada classe

Vantagem faacutecil adaptaccedilatildeo do modelo a variaccedilotildees dos conceitos do negoacutecio

Desvantagem se os conceitos do negoacutecio conduzirem a tipos de erros muito assimeacutetricos poderaacute diminuir a performance do modelo inicial

Considerar diferentes pesos para os diferentes erros incorporando assim os conceitos do negoacutecio no modelo em si

Vantagem modelo mais adaptado aos conceitos do negoacutecio

Desvantagem variaccedilotildees nos conceito de negoacutecio implicam revisatildeo do modelo

A

B

PREVISAtildeO

MAU BOM

REA

L MAU 0 1

BOM 1 0

PREVISAtildeO

MAU BOM

REA

L MAU 0 49

BOM 1 0

Modelo binaacuterio

13

Dado que seratildeo usadas duas estrateacutegias e que iratildeo ser usados trecircs tipos de modelos regressatildeo logiacutestica aacutervores de classificaccedilatildeo e redes neuronais seraacute necessaacuterio analisar o poder discriminativo de cada modelo e comparar resultados Para tal define-se a matriz de confusatildeo C (ou tabela de contingecircncia) como sendo

Onde

P(RMPM) - probabilidade de o modelo prever MAU quando o cliente eacute MAU na realidade

P(RMPB) - probabilidade de o modelo prever BOM quando o cliente eacute MAU na realidade

P(RBPM) - probabilidade de o modelo prever MAU quando o cliente eacute BOM na realidade

P(RBPB) - probabilidade de o modelo prever BOM quando o cliente eacute BOM na realidade

PREVISAtildeO

MAU BOM

REA

L MAU P(RMPM) P(RMPB) P(RM)

BOM P(RBPM) P(RBPB) P(RB)

P(PM) P(PB) 1

Modelo binaacuterio

14

Usando as matrizes L e C definidas anteriormente

Podemos constatar que o valor esperado para as perdas resulta da soma dos pesos associados a cada tipo de perda (li) multiplicados pela probabilidade de ocorrerem ou seja

PREVISAtildeO

MAU BOM

REA

L MAU l1 l2

BOM l3 l4

PREVISAtildeO

MAU BOM

REA

L MAU P(RMPM) P(RMPB)

BOM P(RBPM) P(RBPB)

443221

4321

lP(RB)P(RB)

PB)P(RB1)l(lP(RB)l

P(RM)

PM)P(RM)l(lP(RM)

PB)P(RBlPM)P(RBlPB)P(RMlPM)P(RMlCLE

Sensibilidade 1- Especificidade

Modelo binaacuterio

15

Entatildeo E[LC] pode ser escrita como uma funccedilatildeo linear da forma

E[LC] = a (1 ndash Especificidade) + b (sensibilidade) + c

onde a b e c satildeo paracircmetros dependentes das entradas da matriz L e da proporccedilatildeo de clientes da classe MAU na amostra

A performance de um modelo pode entatildeo ser analisada num espaccedilo a duas dimensotildees

Para efetuar esta anaacutelise usaremos curvas ROC (Receiver Operating Characteristic)

Modelo binaacuterio

16

Ponto oacutetimo P = 90 P = 100 P = 0

Abaixo eacute apresentado um exemplo de curvas ROC para diferentes classificadores

A

Cada ponto da curva representa uma probabilidade a partir da qual classificamos o cliente como MAU Pontos no canto superior direito correspondem a probabilidades reduzidas e no canto inferior esquerdo correspondem a probabilidades elevadas

Modelo binaacuterio

17

Os resultados obtidos foram os seguintes Pesos iguais Pesos diferenciados atendendo aos conceitos do negoacutecio

Modelo binaacuterio

A

B

18

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

19

Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais

O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige

Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo

Objetivos

Minimizar P3 e P4 -gt Diminuir os erros e as perdas

Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

Modelo ternaacuterio

20

Os resultados obtidos foram os seguintes

Maior equiliacutebrio entre Sensibilidade e Especificidade

Previsotildees mais assertivas

15 das transaccedilotildees satildeo decididas manualmente

Modelo ternaacuterio

P3P6 P3+P4

P1+P3 +P4+P6

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

21

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

22

Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios

Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria

Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas

Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante

Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU

O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8

A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados

Discussatildeo

23

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

24

[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45

[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002

[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005

[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986

[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996

[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995

[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005

[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005

Bibliografia

25

Questotildees

Page 7: A Tripartite Scorecard for the Pay/ No Pay ... - fc.up.pt · Analisado por Hélia Monteiro da Costa ... Para a criação e validação de modelos foi efetuada a seguinte distribuição

6

Sumaacuterio

Recolha de dados

Minimizaccedilatildeo das perdas

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

7

Ao prever a classe do cliente (BOM ou MAU) podemos definir a matriz geneacuterica de perdas L

Para determinar os paracircmetros da matriz de perdas L tem-se em conta que

A aprovaccedilatildeo do deacutebito implica cobranccedila de comissotildees pelo serviccedilo e geraccedilatildeo aumento de descobertos

Os cheques recusados implicam tambeacutem a cobranccedila de uma comissatildeo e o montante meacutedio destas transaccedilotildees e comissotildees eacute superior ao das restantes

Natildeo existem perdas quando a classificaccedilatildeo eacute correta

Classificar como BOM quando eacute MAU gera um descoberto na conta que natildeo seraacute regularizado nos 30 dias seguintes e classificar como MAU quando eacute BOM conduz agrave perda de comissotildeesjuros do serviccedilo

PREVISAtildeO

MAU BOM R

EAL MAU l1 l2

BOM l3 l4

Minimizaccedilatildeo das perdas

8

Definimos entatildeo

M = montante (comissotildees mais juros) a pagar pela aprovaccedilatildeo de qualquer transaccedilatildeo

Pc = proporccedilatildeo de cheques

Po = 1- Pc = proporccedilatildeo de outras transacccedilotildees (natildeo cheques)

Lc = descoberto provocado pela aprovaccedilatildeo de cheques

Lo = descoberto provocado pela aprovaccedilatildeo de outras transacccedilotildees

F+ = comissatildeo adicional por cada aprovaccedilatildeo de cheque

F- = comissatildeo adicional por cada devoluccedilatildeo de cheque

Usando os paracircmetros anteriormente definidos obtemos a matriz

Minimizaccedilatildeo das perdas

PREVISAtildeO

MAU BOM

REA

L MAU 0 Pc Lc + (1 - Pc)Lo

BOM Pc(F+-F-) + M 0

9

Nestas condiccedilotildees o mais importante natildeo eacute minimizar o nuacutemero de erros mas sim minimizar as perdasprejuiacutezos

Usando uma amostra com decisotildees histoacutericas e as respectivas comissotildees e montantes chegou-se agrave matriz

A matriz de perdas obtida reflete os criteacuterios de negoacutecio atualmente em vigor No entanto deve ser sempre levada em conta a variabilidade destes criteacuterios na construccedilatildeo do modelo de decisatildeo

PREVISAtildeO

MAU BOM

REA

L MAU 0 49

BOM 1 0

Minimizaccedilatildeo das perdas

10

Sumaacuterio

Recolha de dados

Minimizaccedilatildeo das perdas

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

11

Pretende-se que o resultado do modelo contenha

a divisatildeo da populaccedilatildeo em duas classes (BOM MAU)

a probabilidade agrave posteriori em cada classe

Na praacutetica pretende-se dividir a populaccedilatildeo em grupos e em funccedilatildeo da probabilidade associada agrave classe dominante em cada grupo definir como classificar os elementos desse grupo minimizando os custosperdas associadas a essa previsatildeo

100 transaccedilotildees

(80 BOM 20 MAU)

60 transaccedilotildees

(55 BOM 5 MAU)

40 transaccedilotildees

(25 BOM 15 MAU)

20 transaccedilotildees

(20 BOM 0 MAU)

20 transaccedilotildees

(5 BOM 15 MAU)

BOM 80

BOM 62

MAU 75 BOM 100

BOM 92

Modelo binaacuterio

12

Seratildeo abordadas duas estrateacutegias

Os dois tipos de erros tecircm o mesmo peso na decisatildeo e incorporar os conceitos do negoacutecio numa decisatildeo baseada na probabilidade agrave posteriori de cada classe

Vantagem faacutecil adaptaccedilatildeo do modelo a variaccedilotildees dos conceitos do negoacutecio

Desvantagem se os conceitos do negoacutecio conduzirem a tipos de erros muito assimeacutetricos poderaacute diminuir a performance do modelo inicial

Considerar diferentes pesos para os diferentes erros incorporando assim os conceitos do negoacutecio no modelo em si

Vantagem modelo mais adaptado aos conceitos do negoacutecio

Desvantagem variaccedilotildees nos conceito de negoacutecio implicam revisatildeo do modelo

A

B

PREVISAtildeO

MAU BOM

REA

L MAU 0 1

BOM 1 0

PREVISAtildeO

MAU BOM

REA

L MAU 0 49

BOM 1 0

Modelo binaacuterio

13

Dado que seratildeo usadas duas estrateacutegias e que iratildeo ser usados trecircs tipos de modelos regressatildeo logiacutestica aacutervores de classificaccedilatildeo e redes neuronais seraacute necessaacuterio analisar o poder discriminativo de cada modelo e comparar resultados Para tal define-se a matriz de confusatildeo C (ou tabela de contingecircncia) como sendo

Onde

P(RMPM) - probabilidade de o modelo prever MAU quando o cliente eacute MAU na realidade

P(RMPB) - probabilidade de o modelo prever BOM quando o cliente eacute MAU na realidade

P(RBPM) - probabilidade de o modelo prever MAU quando o cliente eacute BOM na realidade

P(RBPB) - probabilidade de o modelo prever BOM quando o cliente eacute BOM na realidade

PREVISAtildeO

MAU BOM

REA

L MAU P(RMPM) P(RMPB) P(RM)

BOM P(RBPM) P(RBPB) P(RB)

P(PM) P(PB) 1

Modelo binaacuterio

14

Usando as matrizes L e C definidas anteriormente

Podemos constatar que o valor esperado para as perdas resulta da soma dos pesos associados a cada tipo de perda (li) multiplicados pela probabilidade de ocorrerem ou seja

PREVISAtildeO

MAU BOM

REA

L MAU l1 l2

BOM l3 l4

PREVISAtildeO

MAU BOM

REA

L MAU P(RMPM) P(RMPB)

BOM P(RBPM) P(RBPB)

443221

4321

lP(RB)P(RB)

PB)P(RB1)l(lP(RB)l

P(RM)

PM)P(RM)l(lP(RM)

PB)P(RBlPM)P(RBlPB)P(RMlPM)P(RMlCLE

Sensibilidade 1- Especificidade

Modelo binaacuterio

15

Entatildeo E[LC] pode ser escrita como uma funccedilatildeo linear da forma

E[LC] = a (1 ndash Especificidade) + b (sensibilidade) + c

onde a b e c satildeo paracircmetros dependentes das entradas da matriz L e da proporccedilatildeo de clientes da classe MAU na amostra

A performance de um modelo pode entatildeo ser analisada num espaccedilo a duas dimensotildees

Para efetuar esta anaacutelise usaremos curvas ROC (Receiver Operating Characteristic)

Modelo binaacuterio

16

Ponto oacutetimo P = 90 P = 100 P = 0

Abaixo eacute apresentado um exemplo de curvas ROC para diferentes classificadores

A

Cada ponto da curva representa uma probabilidade a partir da qual classificamos o cliente como MAU Pontos no canto superior direito correspondem a probabilidades reduzidas e no canto inferior esquerdo correspondem a probabilidades elevadas

Modelo binaacuterio

17

Os resultados obtidos foram os seguintes Pesos iguais Pesos diferenciados atendendo aos conceitos do negoacutecio

Modelo binaacuterio

A

B

18

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

19

Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais

O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige

Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo

Objetivos

Minimizar P3 e P4 -gt Diminuir os erros e as perdas

Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

Modelo ternaacuterio

20

Os resultados obtidos foram os seguintes

Maior equiliacutebrio entre Sensibilidade e Especificidade

Previsotildees mais assertivas

15 das transaccedilotildees satildeo decididas manualmente

Modelo ternaacuterio

P3P6 P3+P4

P1+P3 +P4+P6

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

21

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

22

Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios

Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria

Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas

Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante

Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU

O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8

A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados

Discussatildeo

23

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

24

[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45

[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002

[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005

[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986

[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996

[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995

[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005

[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005

Bibliografia

25

Questotildees

Page 8: A Tripartite Scorecard for the Pay/ No Pay ... - fc.up.pt · Analisado por Hélia Monteiro da Costa ... Para a criação e validação de modelos foi efetuada a seguinte distribuição

7

Ao prever a classe do cliente (BOM ou MAU) podemos definir a matriz geneacuterica de perdas L

Para determinar os paracircmetros da matriz de perdas L tem-se em conta que

A aprovaccedilatildeo do deacutebito implica cobranccedila de comissotildees pelo serviccedilo e geraccedilatildeo aumento de descobertos

Os cheques recusados implicam tambeacutem a cobranccedila de uma comissatildeo e o montante meacutedio destas transaccedilotildees e comissotildees eacute superior ao das restantes

Natildeo existem perdas quando a classificaccedilatildeo eacute correta

Classificar como BOM quando eacute MAU gera um descoberto na conta que natildeo seraacute regularizado nos 30 dias seguintes e classificar como MAU quando eacute BOM conduz agrave perda de comissotildeesjuros do serviccedilo

PREVISAtildeO

MAU BOM R

EAL MAU l1 l2

BOM l3 l4

Minimizaccedilatildeo das perdas

8

Definimos entatildeo

M = montante (comissotildees mais juros) a pagar pela aprovaccedilatildeo de qualquer transaccedilatildeo

Pc = proporccedilatildeo de cheques

Po = 1- Pc = proporccedilatildeo de outras transacccedilotildees (natildeo cheques)

Lc = descoberto provocado pela aprovaccedilatildeo de cheques

Lo = descoberto provocado pela aprovaccedilatildeo de outras transacccedilotildees

F+ = comissatildeo adicional por cada aprovaccedilatildeo de cheque

F- = comissatildeo adicional por cada devoluccedilatildeo de cheque

Usando os paracircmetros anteriormente definidos obtemos a matriz

Minimizaccedilatildeo das perdas

PREVISAtildeO

MAU BOM

REA

L MAU 0 Pc Lc + (1 - Pc)Lo

BOM Pc(F+-F-) + M 0

9

Nestas condiccedilotildees o mais importante natildeo eacute minimizar o nuacutemero de erros mas sim minimizar as perdasprejuiacutezos

Usando uma amostra com decisotildees histoacutericas e as respectivas comissotildees e montantes chegou-se agrave matriz

A matriz de perdas obtida reflete os criteacuterios de negoacutecio atualmente em vigor No entanto deve ser sempre levada em conta a variabilidade destes criteacuterios na construccedilatildeo do modelo de decisatildeo

PREVISAtildeO

MAU BOM

REA

L MAU 0 49

BOM 1 0

Minimizaccedilatildeo das perdas

10

Sumaacuterio

Recolha de dados

Minimizaccedilatildeo das perdas

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

11

Pretende-se que o resultado do modelo contenha

a divisatildeo da populaccedilatildeo em duas classes (BOM MAU)

a probabilidade agrave posteriori em cada classe

Na praacutetica pretende-se dividir a populaccedilatildeo em grupos e em funccedilatildeo da probabilidade associada agrave classe dominante em cada grupo definir como classificar os elementos desse grupo minimizando os custosperdas associadas a essa previsatildeo

100 transaccedilotildees

(80 BOM 20 MAU)

60 transaccedilotildees

(55 BOM 5 MAU)

40 transaccedilotildees

(25 BOM 15 MAU)

20 transaccedilotildees

(20 BOM 0 MAU)

20 transaccedilotildees

(5 BOM 15 MAU)

BOM 80

BOM 62

MAU 75 BOM 100

BOM 92

Modelo binaacuterio

12

Seratildeo abordadas duas estrateacutegias

Os dois tipos de erros tecircm o mesmo peso na decisatildeo e incorporar os conceitos do negoacutecio numa decisatildeo baseada na probabilidade agrave posteriori de cada classe

Vantagem faacutecil adaptaccedilatildeo do modelo a variaccedilotildees dos conceitos do negoacutecio

Desvantagem se os conceitos do negoacutecio conduzirem a tipos de erros muito assimeacutetricos poderaacute diminuir a performance do modelo inicial

Considerar diferentes pesos para os diferentes erros incorporando assim os conceitos do negoacutecio no modelo em si

Vantagem modelo mais adaptado aos conceitos do negoacutecio

Desvantagem variaccedilotildees nos conceito de negoacutecio implicam revisatildeo do modelo

A

B

PREVISAtildeO

MAU BOM

REA

L MAU 0 1

BOM 1 0

PREVISAtildeO

MAU BOM

REA

L MAU 0 49

BOM 1 0

Modelo binaacuterio

13

Dado que seratildeo usadas duas estrateacutegias e que iratildeo ser usados trecircs tipos de modelos regressatildeo logiacutestica aacutervores de classificaccedilatildeo e redes neuronais seraacute necessaacuterio analisar o poder discriminativo de cada modelo e comparar resultados Para tal define-se a matriz de confusatildeo C (ou tabela de contingecircncia) como sendo

Onde

P(RMPM) - probabilidade de o modelo prever MAU quando o cliente eacute MAU na realidade

P(RMPB) - probabilidade de o modelo prever BOM quando o cliente eacute MAU na realidade

P(RBPM) - probabilidade de o modelo prever MAU quando o cliente eacute BOM na realidade

P(RBPB) - probabilidade de o modelo prever BOM quando o cliente eacute BOM na realidade

PREVISAtildeO

MAU BOM

REA

L MAU P(RMPM) P(RMPB) P(RM)

BOM P(RBPM) P(RBPB) P(RB)

P(PM) P(PB) 1

Modelo binaacuterio

14

Usando as matrizes L e C definidas anteriormente

Podemos constatar que o valor esperado para as perdas resulta da soma dos pesos associados a cada tipo de perda (li) multiplicados pela probabilidade de ocorrerem ou seja

PREVISAtildeO

MAU BOM

REA

L MAU l1 l2

BOM l3 l4

PREVISAtildeO

MAU BOM

REA

L MAU P(RMPM) P(RMPB)

BOM P(RBPM) P(RBPB)

443221

4321

lP(RB)P(RB)

PB)P(RB1)l(lP(RB)l

P(RM)

PM)P(RM)l(lP(RM)

PB)P(RBlPM)P(RBlPB)P(RMlPM)P(RMlCLE

Sensibilidade 1- Especificidade

Modelo binaacuterio

15

Entatildeo E[LC] pode ser escrita como uma funccedilatildeo linear da forma

E[LC] = a (1 ndash Especificidade) + b (sensibilidade) + c

onde a b e c satildeo paracircmetros dependentes das entradas da matriz L e da proporccedilatildeo de clientes da classe MAU na amostra

A performance de um modelo pode entatildeo ser analisada num espaccedilo a duas dimensotildees

Para efetuar esta anaacutelise usaremos curvas ROC (Receiver Operating Characteristic)

Modelo binaacuterio

16

Ponto oacutetimo P = 90 P = 100 P = 0

Abaixo eacute apresentado um exemplo de curvas ROC para diferentes classificadores

A

Cada ponto da curva representa uma probabilidade a partir da qual classificamos o cliente como MAU Pontos no canto superior direito correspondem a probabilidades reduzidas e no canto inferior esquerdo correspondem a probabilidades elevadas

Modelo binaacuterio

17

Os resultados obtidos foram os seguintes Pesos iguais Pesos diferenciados atendendo aos conceitos do negoacutecio

Modelo binaacuterio

A

B

18

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

19

Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais

O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige

Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo

Objetivos

Minimizar P3 e P4 -gt Diminuir os erros e as perdas

Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

Modelo ternaacuterio

20

Os resultados obtidos foram os seguintes

Maior equiliacutebrio entre Sensibilidade e Especificidade

Previsotildees mais assertivas

15 das transaccedilotildees satildeo decididas manualmente

Modelo ternaacuterio

P3P6 P3+P4

P1+P3 +P4+P6

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

21

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

22

Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios

Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria

Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas

Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante

Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU

O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8

A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados

Discussatildeo

23

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

24

[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45

[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002

[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005

[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986

[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996

[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995

[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005

[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005

Bibliografia

25

Questotildees

Page 9: A Tripartite Scorecard for the Pay/ No Pay ... - fc.up.pt · Analisado por Hélia Monteiro da Costa ... Para a criação e validação de modelos foi efetuada a seguinte distribuição

8

Definimos entatildeo

M = montante (comissotildees mais juros) a pagar pela aprovaccedilatildeo de qualquer transaccedilatildeo

Pc = proporccedilatildeo de cheques

Po = 1- Pc = proporccedilatildeo de outras transacccedilotildees (natildeo cheques)

Lc = descoberto provocado pela aprovaccedilatildeo de cheques

Lo = descoberto provocado pela aprovaccedilatildeo de outras transacccedilotildees

F+ = comissatildeo adicional por cada aprovaccedilatildeo de cheque

F- = comissatildeo adicional por cada devoluccedilatildeo de cheque

Usando os paracircmetros anteriormente definidos obtemos a matriz

Minimizaccedilatildeo das perdas

PREVISAtildeO

MAU BOM

REA

L MAU 0 Pc Lc + (1 - Pc)Lo

BOM Pc(F+-F-) + M 0

9

Nestas condiccedilotildees o mais importante natildeo eacute minimizar o nuacutemero de erros mas sim minimizar as perdasprejuiacutezos

Usando uma amostra com decisotildees histoacutericas e as respectivas comissotildees e montantes chegou-se agrave matriz

A matriz de perdas obtida reflete os criteacuterios de negoacutecio atualmente em vigor No entanto deve ser sempre levada em conta a variabilidade destes criteacuterios na construccedilatildeo do modelo de decisatildeo

PREVISAtildeO

MAU BOM

REA

L MAU 0 49

BOM 1 0

Minimizaccedilatildeo das perdas

10

Sumaacuterio

Recolha de dados

Minimizaccedilatildeo das perdas

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

11

Pretende-se que o resultado do modelo contenha

a divisatildeo da populaccedilatildeo em duas classes (BOM MAU)

a probabilidade agrave posteriori em cada classe

Na praacutetica pretende-se dividir a populaccedilatildeo em grupos e em funccedilatildeo da probabilidade associada agrave classe dominante em cada grupo definir como classificar os elementos desse grupo minimizando os custosperdas associadas a essa previsatildeo

100 transaccedilotildees

(80 BOM 20 MAU)

60 transaccedilotildees

(55 BOM 5 MAU)

40 transaccedilotildees

(25 BOM 15 MAU)

20 transaccedilotildees

(20 BOM 0 MAU)

20 transaccedilotildees

(5 BOM 15 MAU)

BOM 80

BOM 62

MAU 75 BOM 100

BOM 92

Modelo binaacuterio

12

Seratildeo abordadas duas estrateacutegias

Os dois tipos de erros tecircm o mesmo peso na decisatildeo e incorporar os conceitos do negoacutecio numa decisatildeo baseada na probabilidade agrave posteriori de cada classe

Vantagem faacutecil adaptaccedilatildeo do modelo a variaccedilotildees dos conceitos do negoacutecio

Desvantagem se os conceitos do negoacutecio conduzirem a tipos de erros muito assimeacutetricos poderaacute diminuir a performance do modelo inicial

Considerar diferentes pesos para os diferentes erros incorporando assim os conceitos do negoacutecio no modelo em si

Vantagem modelo mais adaptado aos conceitos do negoacutecio

Desvantagem variaccedilotildees nos conceito de negoacutecio implicam revisatildeo do modelo

A

B

PREVISAtildeO

MAU BOM

REA

L MAU 0 1

BOM 1 0

PREVISAtildeO

MAU BOM

REA

L MAU 0 49

BOM 1 0

Modelo binaacuterio

13

Dado que seratildeo usadas duas estrateacutegias e que iratildeo ser usados trecircs tipos de modelos regressatildeo logiacutestica aacutervores de classificaccedilatildeo e redes neuronais seraacute necessaacuterio analisar o poder discriminativo de cada modelo e comparar resultados Para tal define-se a matriz de confusatildeo C (ou tabela de contingecircncia) como sendo

Onde

P(RMPM) - probabilidade de o modelo prever MAU quando o cliente eacute MAU na realidade

P(RMPB) - probabilidade de o modelo prever BOM quando o cliente eacute MAU na realidade

P(RBPM) - probabilidade de o modelo prever MAU quando o cliente eacute BOM na realidade

P(RBPB) - probabilidade de o modelo prever BOM quando o cliente eacute BOM na realidade

PREVISAtildeO

MAU BOM

REA

L MAU P(RMPM) P(RMPB) P(RM)

BOM P(RBPM) P(RBPB) P(RB)

P(PM) P(PB) 1

Modelo binaacuterio

14

Usando as matrizes L e C definidas anteriormente

Podemos constatar que o valor esperado para as perdas resulta da soma dos pesos associados a cada tipo de perda (li) multiplicados pela probabilidade de ocorrerem ou seja

PREVISAtildeO

MAU BOM

REA

L MAU l1 l2

BOM l3 l4

PREVISAtildeO

MAU BOM

REA

L MAU P(RMPM) P(RMPB)

BOM P(RBPM) P(RBPB)

443221

4321

lP(RB)P(RB)

PB)P(RB1)l(lP(RB)l

P(RM)

PM)P(RM)l(lP(RM)

PB)P(RBlPM)P(RBlPB)P(RMlPM)P(RMlCLE

Sensibilidade 1- Especificidade

Modelo binaacuterio

15

Entatildeo E[LC] pode ser escrita como uma funccedilatildeo linear da forma

E[LC] = a (1 ndash Especificidade) + b (sensibilidade) + c

onde a b e c satildeo paracircmetros dependentes das entradas da matriz L e da proporccedilatildeo de clientes da classe MAU na amostra

A performance de um modelo pode entatildeo ser analisada num espaccedilo a duas dimensotildees

Para efetuar esta anaacutelise usaremos curvas ROC (Receiver Operating Characteristic)

Modelo binaacuterio

16

Ponto oacutetimo P = 90 P = 100 P = 0

Abaixo eacute apresentado um exemplo de curvas ROC para diferentes classificadores

A

Cada ponto da curva representa uma probabilidade a partir da qual classificamos o cliente como MAU Pontos no canto superior direito correspondem a probabilidades reduzidas e no canto inferior esquerdo correspondem a probabilidades elevadas

Modelo binaacuterio

17

Os resultados obtidos foram os seguintes Pesos iguais Pesos diferenciados atendendo aos conceitos do negoacutecio

Modelo binaacuterio

A

B

18

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

19

Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais

O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige

Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo

Objetivos

Minimizar P3 e P4 -gt Diminuir os erros e as perdas

Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

Modelo ternaacuterio

20

Os resultados obtidos foram os seguintes

Maior equiliacutebrio entre Sensibilidade e Especificidade

Previsotildees mais assertivas

15 das transaccedilotildees satildeo decididas manualmente

Modelo ternaacuterio

P3P6 P3+P4

P1+P3 +P4+P6

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

21

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

22

Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios

Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria

Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas

Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante

Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU

O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8

A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados

Discussatildeo

23

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

24

[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45

[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002

[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005

[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986

[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996

[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995

[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005

[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005

Bibliografia

25

Questotildees

Page 10: A Tripartite Scorecard for the Pay/ No Pay ... - fc.up.pt · Analisado por Hélia Monteiro da Costa ... Para a criação e validação de modelos foi efetuada a seguinte distribuição

9

Nestas condiccedilotildees o mais importante natildeo eacute minimizar o nuacutemero de erros mas sim minimizar as perdasprejuiacutezos

Usando uma amostra com decisotildees histoacutericas e as respectivas comissotildees e montantes chegou-se agrave matriz

A matriz de perdas obtida reflete os criteacuterios de negoacutecio atualmente em vigor No entanto deve ser sempre levada em conta a variabilidade destes criteacuterios na construccedilatildeo do modelo de decisatildeo

PREVISAtildeO

MAU BOM

REA

L MAU 0 49

BOM 1 0

Minimizaccedilatildeo das perdas

10

Sumaacuterio

Recolha de dados

Minimizaccedilatildeo das perdas

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

11

Pretende-se que o resultado do modelo contenha

a divisatildeo da populaccedilatildeo em duas classes (BOM MAU)

a probabilidade agrave posteriori em cada classe

Na praacutetica pretende-se dividir a populaccedilatildeo em grupos e em funccedilatildeo da probabilidade associada agrave classe dominante em cada grupo definir como classificar os elementos desse grupo minimizando os custosperdas associadas a essa previsatildeo

100 transaccedilotildees

(80 BOM 20 MAU)

60 transaccedilotildees

(55 BOM 5 MAU)

40 transaccedilotildees

(25 BOM 15 MAU)

20 transaccedilotildees

(20 BOM 0 MAU)

20 transaccedilotildees

(5 BOM 15 MAU)

BOM 80

BOM 62

MAU 75 BOM 100

BOM 92

Modelo binaacuterio

12

Seratildeo abordadas duas estrateacutegias

Os dois tipos de erros tecircm o mesmo peso na decisatildeo e incorporar os conceitos do negoacutecio numa decisatildeo baseada na probabilidade agrave posteriori de cada classe

Vantagem faacutecil adaptaccedilatildeo do modelo a variaccedilotildees dos conceitos do negoacutecio

Desvantagem se os conceitos do negoacutecio conduzirem a tipos de erros muito assimeacutetricos poderaacute diminuir a performance do modelo inicial

Considerar diferentes pesos para os diferentes erros incorporando assim os conceitos do negoacutecio no modelo em si

Vantagem modelo mais adaptado aos conceitos do negoacutecio

Desvantagem variaccedilotildees nos conceito de negoacutecio implicam revisatildeo do modelo

A

B

PREVISAtildeO

MAU BOM

REA

L MAU 0 1

BOM 1 0

PREVISAtildeO

MAU BOM

REA

L MAU 0 49

BOM 1 0

Modelo binaacuterio

13

Dado que seratildeo usadas duas estrateacutegias e que iratildeo ser usados trecircs tipos de modelos regressatildeo logiacutestica aacutervores de classificaccedilatildeo e redes neuronais seraacute necessaacuterio analisar o poder discriminativo de cada modelo e comparar resultados Para tal define-se a matriz de confusatildeo C (ou tabela de contingecircncia) como sendo

Onde

P(RMPM) - probabilidade de o modelo prever MAU quando o cliente eacute MAU na realidade

P(RMPB) - probabilidade de o modelo prever BOM quando o cliente eacute MAU na realidade

P(RBPM) - probabilidade de o modelo prever MAU quando o cliente eacute BOM na realidade

P(RBPB) - probabilidade de o modelo prever BOM quando o cliente eacute BOM na realidade

PREVISAtildeO

MAU BOM

REA

L MAU P(RMPM) P(RMPB) P(RM)

BOM P(RBPM) P(RBPB) P(RB)

P(PM) P(PB) 1

Modelo binaacuterio

14

Usando as matrizes L e C definidas anteriormente

Podemos constatar que o valor esperado para as perdas resulta da soma dos pesos associados a cada tipo de perda (li) multiplicados pela probabilidade de ocorrerem ou seja

PREVISAtildeO

MAU BOM

REA

L MAU l1 l2

BOM l3 l4

PREVISAtildeO

MAU BOM

REA

L MAU P(RMPM) P(RMPB)

BOM P(RBPM) P(RBPB)

443221

4321

lP(RB)P(RB)

PB)P(RB1)l(lP(RB)l

P(RM)

PM)P(RM)l(lP(RM)

PB)P(RBlPM)P(RBlPB)P(RMlPM)P(RMlCLE

Sensibilidade 1- Especificidade

Modelo binaacuterio

15

Entatildeo E[LC] pode ser escrita como uma funccedilatildeo linear da forma

E[LC] = a (1 ndash Especificidade) + b (sensibilidade) + c

onde a b e c satildeo paracircmetros dependentes das entradas da matriz L e da proporccedilatildeo de clientes da classe MAU na amostra

A performance de um modelo pode entatildeo ser analisada num espaccedilo a duas dimensotildees

Para efetuar esta anaacutelise usaremos curvas ROC (Receiver Operating Characteristic)

Modelo binaacuterio

16

Ponto oacutetimo P = 90 P = 100 P = 0

Abaixo eacute apresentado um exemplo de curvas ROC para diferentes classificadores

A

Cada ponto da curva representa uma probabilidade a partir da qual classificamos o cliente como MAU Pontos no canto superior direito correspondem a probabilidades reduzidas e no canto inferior esquerdo correspondem a probabilidades elevadas

Modelo binaacuterio

17

Os resultados obtidos foram os seguintes Pesos iguais Pesos diferenciados atendendo aos conceitos do negoacutecio

Modelo binaacuterio

A

B

18

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

19

Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais

O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige

Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo

Objetivos

Minimizar P3 e P4 -gt Diminuir os erros e as perdas

Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

Modelo ternaacuterio

20

Os resultados obtidos foram os seguintes

Maior equiliacutebrio entre Sensibilidade e Especificidade

Previsotildees mais assertivas

15 das transaccedilotildees satildeo decididas manualmente

Modelo ternaacuterio

P3P6 P3+P4

P1+P3 +P4+P6

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

21

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

22

Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios

Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria

Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas

Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante

Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU

O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8

A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados

Discussatildeo

23

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

24

[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45

[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002

[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005

[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986

[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996

[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995

[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005

[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005

Bibliografia

25

Questotildees

Page 11: A Tripartite Scorecard for the Pay/ No Pay ... - fc.up.pt · Analisado por Hélia Monteiro da Costa ... Para a criação e validação de modelos foi efetuada a seguinte distribuição

10

Sumaacuterio

Recolha de dados

Minimizaccedilatildeo das perdas

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

11

Pretende-se que o resultado do modelo contenha

a divisatildeo da populaccedilatildeo em duas classes (BOM MAU)

a probabilidade agrave posteriori em cada classe

Na praacutetica pretende-se dividir a populaccedilatildeo em grupos e em funccedilatildeo da probabilidade associada agrave classe dominante em cada grupo definir como classificar os elementos desse grupo minimizando os custosperdas associadas a essa previsatildeo

100 transaccedilotildees

(80 BOM 20 MAU)

60 transaccedilotildees

(55 BOM 5 MAU)

40 transaccedilotildees

(25 BOM 15 MAU)

20 transaccedilotildees

(20 BOM 0 MAU)

20 transaccedilotildees

(5 BOM 15 MAU)

BOM 80

BOM 62

MAU 75 BOM 100

BOM 92

Modelo binaacuterio

12

Seratildeo abordadas duas estrateacutegias

Os dois tipos de erros tecircm o mesmo peso na decisatildeo e incorporar os conceitos do negoacutecio numa decisatildeo baseada na probabilidade agrave posteriori de cada classe

Vantagem faacutecil adaptaccedilatildeo do modelo a variaccedilotildees dos conceitos do negoacutecio

Desvantagem se os conceitos do negoacutecio conduzirem a tipos de erros muito assimeacutetricos poderaacute diminuir a performance do modelo inicial

Considerar diferentes pesos para os diferentes erros incorporando assim os conceitos do negoacutecio no modelo em si

Vantagem modelo mais adaptado aos conceitos do negoacutecio

Desvantagem variaccedilotildees nos conceito de negoacutecio implicam revisatildeo do modelo

A

B

PREVISAtildeO

MAU BOM

REA

L MAU 0 1

BOM 1 0

PREVISAtildeO

MAU BOM

REA

L MAU 0 49

BOM 1 0

Modelo binaacuterio

13

Dado que seratildeo usadas duas estrateacutegias e que iratildeo ser usados trecircs tipos de modelos regressatildeo logiacutestica aacutervores de classificaccedilatildeo e redes neuronais seraacute necessaacuterio analisar o poder discriminativo de cada modelo e comparar resultados Para tal define-se a matriz de confusatildeo C (ou tabela de contingecircncia) como sendo

Onde

P(RMPM) - probabilidade de o modelo prever MAU quando o cliente eacute MAU na realidade

P(RMPB) - probabilidade de o modelo prever BOM quando o cliente eacute MAU na realidade

P(RBPM) - probabilidade de o modelo prever MAU quando o cliente eacute BOM na realidade

P(RBPB) - probabilidade de o modelo prever BOM quando o cliente eacute BOM na realidade

PREVISAtildeO

MAU BOM

REA

L MAU P(RMPM) P(RMPB) P(RM)

BOM P(RBPM) P(RBPB) P(RB)

P(PM) P(PB) 1

Modelo binaacuterio

14

Usando as matrizes L e C definidas anteriormente

Podemos constatar que o valor esperado para as perdas resulta da soma dos pesos associados a cada tipo de perda (li) multiplicados pela probabilidade de ocorrerem ou seja

PREVISAtildeO

MAU BOM

REA

L MAU l1 l2

BOM l3 l4

PREVISAtildeO

MAU BOM

REA

L MAU P(RMPM) P(RMPB)

BOM P(RBPM) P(RBPB)

443221

4321

lP(RB)P(RB)

PB)P(RB1)l(lP(RB)l

P(RM)

PM)P(RM)l(lP(RM)

PB)P(RBlPM)P(RBlPB)P(RMlPM)P(RMlCLE

Sensibilidade 1- Especificidade

Modelo binaacuterio

15

Entatildeo E[LC] pode ser escrita como uma funccedilatildeo linear da forma

E[LC] = a (1 ndash Especificidade) + b (sensibilidade) + c

onde a b e c satildeo paracircmetros dependentes das entradas da matriz L e da proporccedilatildeo de clientes da classe MAU na amostra

A performance de um modelo pode entatildeo ser analisada num espaccedilo a duas dimensotildees

Para efetuar esta anaacutelise usaremos curvas ROC (Receiver Operating Characteristic)

Modelo binaacuterio

16

Ponto oacutetimo P = 90 P = 100 P = 0

Abaixo eacute apresentado um exemplo de curvas ROC para diferentes classificadores

A

Cada ponto da curva representa uma probabilidade a partir da qual classificamos o cliente como MAU Pontos no canto superior direito correspondem a probabilidades reduzidas e no canto inferior esquerdo correspondem a probabilidades elevadas

Modelo binaacuterio

17

Os resultados obtidos foram os seguintes Pesos iguais Pesos diferenciados atendendo aos conceitos do negoacutecio

Modelo binaacuterio

A

B

18

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

19

Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais

O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige

Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo

Objetivos

Minimizar P3 e P4 -gt Diminuir os erros e as perdas

Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

Modelo ternaacuterio

20

Os resultados obtidos foram os seguintes

Maior equiliacutebrio entre Sensibilidade e Especificidade

Previsotildees mais assertivas

15 das transaccedilotildees satildeo decididas manualmente

Modelo ternaacuterio

P3P6 P3+P4

P1+P3 +P4+P6

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

21

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

22

Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios

Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria

Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas

Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante

Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU

O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8

A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados

Discussatildeo

23

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

24

[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45

[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002

[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005

[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986

[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996

[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995

[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005

[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005

Bibliografia

25

Questotildees

Page 12: A Tripartite Scorecard for the Pay/ No Pay ... - fc.up.pt · Analisado por Hélia Monteiro da Costa ... Para a criação e validação de modelos foi efetuada a seguinte distribuição

11

Pretende-se que o resultado do modelo contenha

a divisatildeo da populaccedilatildeo em duas classes (BOM MAU)

a probabilidade agrave posteriori em cada classe

Na praacutetica pretende-se dividir a populaccedilatildeo em grupos e em funccedilatildeo da probabilidade associada agrave classe dominante em cada grupo definir como classificar os elementos desse grupo minimizando os custosperdas associadas a essa previsatildeo

100 transaccedilotildees

(80 BOM 20 MAU)

60 transaccedilotildees

(55 BOM 5 MAU)

40 transaccedilotildees

(25 BOM 15 MAU)

20 transaccedilotildees

(20 BOM 0 MAU)

20 transaccedilotildees

(5 BOM 15 MAU)

BOM 80

BOM 62

MAU 75 BOM 100

BOM 92

Modelo binaacuterio

12

Seratildeo abordadas duas estrateacutegias

Os dois tipos de erros tecircm o mesmo peso na decisatildeo e incorporar os conceitos do negoacutecio numa decisatildeo baseada na probabilidade agrave posteriori de cada classe

Vantagem faacutecil adaptaccedilatildeo do modelo a variaccedilotildees dos conceitos do negoacutecio

Desvantagem se os conceitos do negoacutecio conduzirem a tipos de erros muito assimeacutetricos poderaacute diminuir a performance do modelo inicial

Considerar diferentes pesos para os diferentes erros incorporando assim os conceitos do negoacutecio no modelo em si

Vantagem modelo mais adaptado aos conceitos do negoacutecio

Desvantagem variaccedilotildees nos conceito de negoacutecio implicam revisatildeo do modelo

A

B

PREVISAtildeO

MAU BOM

REA

L MAU 0 1

BOM 1 0

PREVISAtildeO

MAU BOM

REA

L MAU 0 49

BOM 1 0

Modelo binaacuterio

13

Dado que seratildeo usadas duas estrateacutegias e que iratildeo ser usados trecircs tipos de modelos regressatildeo logiacutestica aacutervores de classificaccedilatildeo e redes neuronais seraacute necessaacuterio analisar o poder discriminativo de cada modelo e comparar resultados Para tal define-se a matriz de confusatildeo C (ou tabela de contingecircncia) como sendo

Onde

P(RMPM) - probabilidade de o modelo prever MAU quando o cliente eacute MAU na realidade

P(RMPB) - probabilidade de o modelo prever BOM quando o cliente eacute MAU na realidade

P(RBPM) - probabilidade de o modelo prever MAU quando o cliente eacute BOM na realidade

P(RBPB) - probabilidade de o modelo prever BOM quando o cliente eacute BOM na realidade

PREVISAtildeO

MAU BOM

REA

L MAU P(RMPM) P(RMPB) P(RM)

BOM P(RBPM) P(RBPB) P(RB)

P(PM) P(PB) 1

Modelo binaacuterio

14

Usando as matrizes L e C definidas anteriormente

Podemos constatar que o valor esperado para as perdas resulta da soma dos pesos associados a cada tipo de perda (li) multiplicados pela probabilidade de ocorrerem ou seja

PREVISAtildeO

MAU BOM

REA

L MAU l1 l2

BOM l3 l4

PREVISAtildeO

MAU BOM

REA

L MAU P(RMPM) P(RMPB)

BOM P(RBPM) P(RBPB)

443221

4321

lP(RB)P(RB)

PB)P(RB1)l(lP(RB)l

P(RM)

PM)P(RM)l(lP(RM)

PB)P(RBlPM)P(RBlPB)P(RMlPM)P(RMlCLE

Sensibilidade 1- Especificidade

Modelo binaacuterio

15

Entatildeo E[LC] pode ser escrita como uma funccedilatildeo linear da forma

E[LC] = a (1 ndash Especificidade) + b (sensibilidade) + c

onde a b e c satildeo paracircmetros dependentes das entradas da matriz L e da proporccedilatildeo de clientes da classe MAU na amostra

A performance de um modelo pode entatildeo ser analisada num espaccedilo a duas dimensotildees

Para efetuar esta anaacutelise usaremos curvas ROC (Receiver Operating Characteristic)

Modelo binaacuterio

16

Ponto oacutetimo P = 90 P = 100 P = 0

Abaixo eacute apresentado um exemplo de curvas ROC para diferentes classificadores

A

Cada ponto da curva representa uma probabilidade a partir da qual classificamos o cliente como MAU Pontos no canto superior direito correspondem a probabilidades reduzidas e no canto inferior esquerdo correspondem a probabilidades elevadas

Modelo binaacuterio

17

Os resultados obtidos foram os seguintes Pesos iguais Pesos diferenciados atendendo aos conceitos do negoacutecio

Modelo binaacuterio

A

B

18

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

19

Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais

O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige

Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo

Objetivos

Minimizar P3 e P4 -gt Diminuir os erros e as perdas

Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

Modelo ternaacuterio

20

Os resultados obtidos foram os seguintes

Maior equiliacutebrio entre Sensibilidade e Especificidade

Previsotildees mais assertivas

15 das transaccedilotildees satildeo decididas manualmente

Modelo ternaacuterio

P3P6 P3+P4

P1+P3 +P4+P6

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

21

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

22

Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios

Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria

Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas

Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante

Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU

O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8

A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados

Discussatildeo

23

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

24

[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45

[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002

[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005

[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986

[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996

[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995

[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005

[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005

Bibliografia

25

Questotildees

Page 13: A Tripartite Scorecard for the Pay/ No Pay ... - fc.up.pt · Analisado por Hélia Monteiro da Costa ... Para a criação e validação de modelos foi efetuada a seguinte distribuição

12

Seratildeo abordadas duas estrateacutegias

Os dois tipos de erros tecircm o mesmo peso na decisatildeo e incorporar os conceitos do negoacutecio numa decisatildeo baseada na probabilidade agrave posteriori de cada classe

Vantagem faacutecil adaptaccedilatildeo do modelo a variaccedilotildees dos conceitos do negoacutecio

Desvantagem se os conceitos do negoacutecio conduzirem a tipos de erros muito assimeacutetricos poderaacute diminuir a performance do modelo inicial

Considerar diferentes pesos para os diferentes erros incorporando assim os conceitos do negoacutecio no modelo em si

Vantagem modelo mais adaptado aos conceitos do negoacutecio

Desvantagem variaccedilotildees nos conceito de negoacutecio implicam revisatildeo do modelo

A

B

PREVISAtildeO

MAU BOM

REA

L MAU 0 1

BOM 1 0

PREVISAtildeO

MAU BOM

REA

L MAU 0 49

BOM 1 0

Modelo binaacuterio

13

Dado que seratildeo usadas duas estrateacutegias e que iratildeo ser usados trecircs tipos de modelos regressatildeo logiacutestica aacutervores de classificaccedilatildeo e redes neuronais seraacute necessaacuterio analisar o poder discriminativo de cada modelo e comparar resultados Para tal define-se a matriz de confusatildeo C (ou tabela de contingecircncia) como sendo

Onde

P(RMPM) - probabilidade de o modelo prever MAU quando o cliente eacute MAU na realidade

P(RMPB) - probabilidade de o modelo prever BOM quando o cliente eacute MAU na realidade

P(RBPM) - probabilidade de o modelo prever MAU quando o cliente eacute BOM na realidade

P(RBPB) - probabilidade de o modelo prever BOM quando o cliente eacute BOM na realidade

PREVISAtildeO

MAU BOM

REA

L MAU P(RMPM) P(RMPB) P(RM)

BOM P(RBPM) P(RBPB) P(RB)

P(PM) P(PB) 1

Modelo binaacuterio

14

Usando as matrizes L e C definidas anteriormente

Podemos constatar que o valor esperado para as perdas resulta da soma dos pesos associados a cada tipo de perda (li) multiplicados pela probabilidade de ocorrerem ou seja

PREVISAtildeO

MAU BOM

REA

L MAU l1 l2

BOM l3 l4

PREVISAtildeO

MAU BOM

REA

L MAU P(RMPM) P(RMPB)

BOM P(RBPM) P(RBPB)

443221

4321

lP(RB)P(RB)

PB)P(RB1)l(lP(RB)l

P(RM)

PM)P(RM)l(lP(RM)

PB)P(RBlPM)P(RBlPB)P(RMlPM)P(RMlCLE

Sensibilidade 1- Especificidade

Modelo binaacuterio

15

Entatildeo E[LC] pode ser escrita como uma funccedilatildeo linear da forma

E[LC] = a (1 ndash Especificidade) + b (sensibilidade) + c

onde a b e c satildeo paracircmetros dependentes das entradas da matriz L e da proporccedilatildeo de clientes da classe MAU na amostra

A performance de um modelo pode entatildeo ser analisada num espaccedilo a duas dimensotildees

Para efetuar esta anaacutelise usaremos curvas ROC (Receiver Operating Characteristic)

Modelo binaacuterio

16

Ponto oacutetimo P = 90 P = 100 P = 0

Abaixo eacute apresentado um exemplo de curvas ROC para diferentes classificadores

A

Cada ponto da curva representa uma probabilidade a partir da qual classificamos o cliente como MAU Pontos no canto superior direito correspondem a probabilidades reduzidas e no canto inferior esquerdo correspondem a probabilidades elevadas

Modelo binaacuterio

17

Os resultados obtidos foram os seguintes Pesos iguais Pesos diferenciados atendendo aos conceitos do negoacutecio

Modelo binaacuterio

A

B

18

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

19

Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais

O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige

Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo

Objetivos

Minimizar P3 e P4 -gt Diminuir os erros e as perdas

Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

Modelo ternaacuterio

20

Os resultados obtidos foram os seguintes

Maior equiliacutebrio entre Sensibilidade e Especificidade

Previsotildees mais assertivas

15 das transaccedilotildees satildeo decididas manualmente

Modelo ternaacuterio

P3P6 P3+P4

P1+P3 +P4+P6

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

21

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

22

Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios

Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria

Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas

Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante

Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU

O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8

A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados

Discussatildeo

23

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

24

[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45

[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002

[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005

[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986

[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996

[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995

[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005

[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005

Bibliografia

25

Questotildees

Page 14: A Tripartite Scorecard for the Pay/ No Pay ... - fc.up.pt · Analisado por Hélia Monteiro da Costa ... Para a criação e validação de modelos foi efetuada a seguinte distribuição

13

Dado que seratildeo usadas duas estrateacutegias e que iratildeo ser usados trecircs tipos de modelos regressatildeo logiacutestica aacutervores de classificaccedilatildeo e redes neuronais seraacute necessaacuterio analisar o poder discriminativo de cada modelo e comparar resultados Para tal define-se a matriz de confusatildeo C (ou tabela de contingecircncia) como sendo

Onde

P(RMPM) - probabilidade de o modelo prever MAU quando o cliente eacute MAU na realidade

P(RMPB) - probabilidade de o modelo prever BOM quando o cliente eacute MAU na realidade

P(RBPM) - probabilidade de o modelo prever MAU quando o cliente eacute BOM na realidade

P(RBPB) - probabilidade de o modelo prever BOM quando o cliente eacute BOM na realidade

PREVISAtildeO

MAU BOM

REA

L MAU P(RMPM) P(RMPB) P(RM)

BOM P(RBPM) P(RBPB) P(RB)

P(PM) P(PB) 1

Modelo binaacuterio

14

Usando as matrizes L e C definidas anteriormente

Podemos constatar que o valor esperado para as perdas resulta da soma dos pesos associados a cada tipo de perda (li) multiplicados pela probabilidade de ocorrerem ou seja

PREVISAtildeO

MAU BOM

REA

L MAU l1 l2

BOM l3 l4

PREVISAtildeO

MAU BOM

REA

L MAU P(RMPM) P(RMPB)

BOM P(RBPM) P(RBPB)

443221

4321

lP(RB)P(RB)

PB)P(RB1)l(lP(RB)l

P(RM)

PM)P(RM)l(lP(RM)

PB)P(RBlPM)P(RBlPB)P(RMlPM)P(RMlCLE

Sensibilidade 1- Especificidade

Modelo binaacuterio

15

Entatildeo E[LC] pode ser escrita como uma funccedilatildeo linear da forma

E[LC] = a (1 ndash Especificidade) + b (sensibilidade) + c

onde a b e c satildeo paracircmetros dependentes das entradas da matriz L e da proporccedilatildeo de clientes da classe MAU na amostra

A performance de um modelo pode entatildeo ser analisada num espaccedilo a duas dimensotildees

Para efetuar esta anaacutelise usaremos curvas ROC (Receiver Operating Characteristic)

Modelo binaacuterio

16

Ponto oacutetimo P = 90 P = 100 P = 0

Abaixo eacute apresentado um exemplo de curvas ROC para diferentes classificadores

A

Cada ponto da curva representa uma probabilidade a partir da qual classificamos o cliente como MAU Pontos no canto superior direito correspondem a probabilidades reduzidas e no canto inferior esquerdo correspondem a probabilidades elevadas

Modelo binaacuterio

17

Os resultados obtidos foram os seguintes Pesos iguais Pesos diferenciados atendendo aos conceitos do negoacutecio

Modelo binaacuterio

A

B

18

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

19

Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais

O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige

Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo

Objetivos

Minimizar P3 e P4 -gt Diminuir os erros e as perdas

Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

Modelo ternaacuterio

20

Os resultados obtidos foram os seguintes

Maior equiliacutebrio entre Sensibilidade e Especificidade

Previsotildees mais assertivas

15 das transaccedilotildees satildeo decididas manualmente

Modelo ternaacuterio

P3P6 P3+P4

P1+P3 +P4+P6

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

21

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

22

Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios

Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria

Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas

Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante

Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU

O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8

A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados

Discussatildeo

23

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

24

[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45

[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002

[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005

[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986

[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996

[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995

[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005

[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005

Bibliografia

25

Questotildees

Page 15: A Tripartite Scorecard for the Pay/ No Pay ... - fc.up.pt · Analisado por Hélia Monteiro da Costa ... Para a criação e validação de modelos foi efetuada a seguinte distribuição

14

Usando as matrizes L e C definidas anteriormente

Podemos constatar que o valor esperado para as perdas resulta da soma dos pesos associados a cada tipo de perda (li) multiplicados pela probabilidade de ocorrerem ou seja

PREVISAtildeO

MAU BOM

REA

L MAU l1 l2

BOM l3 l4

PREVISAtildeO

MAU BOM

REA

L MAU P(RMPM) P(RMPB)

BOM P(RBPM) P(RBPB)

443221

4321

lP(RB)P(RB)

PB)P(RB1)l(lP(RB)l

P(RM)

PM)P(RM)l(lP(RM)

PB)P(RBlPM)P(RBlPB)P(RMlPM)P(RMlCLE

Sensibilidade 1- Especificidade

Modelo binaacuterio

15

Entatildeo E[LC] pode ser escrita como uma funccedilatildeo linear da forma

E[LC] = a (1 ndash Especificidade) + b (sensibilidade) + c

onde a b e c satildeo paracircmetros dependentes das entradas da matriz L e da proporccedilatildeo de clientes da classe MAU na amostra

A performance de um modelo pode entatildeo ser analisada num espaccedilo a duas dimensotildees

Para efetuar esta anaacutelise usaremos curvas ROC (Receiver Operating Characteristic)

Modelo binaacuterio

16

Ponto oacutetimo P = 90 P = 100 P = 0

Abaixo eacute apresentado um exemplo de curvas ROC para diferentes classificadores

A

Cada ponto da curva representa uma probabilidade a partir da qual classificamos o cliente como MAU Pontos no canto superior direito correspondem a probabilidades reduzidas e no canto inferior esquerdo correspondem a probabilidades elevadas

Modelo binaacuterio

17

Os resultados obtidos foram os seguintes Pesos iguais Pesos diferenciados atendendo aos conceitos do negoacutecio

Modelo binaacuterio

A

B

18

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

19

Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais

O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige

Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo

Objetivos

Minimizar P3 e P4 -gt Diminuir os erros e as perdas

Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

Modelo ternaacuterio

20

Os resultados obtidos foram os seguintes

Maior equiliacutebrio entre Sensibilidade e Especificidade

Previsotildees mais assertivas

15 das transaccedilotildees satildeo decididas manualmente

Modelo ternaacuterio

P3P6 P3+P4

P1+P3 +P4+P6

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

21

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

22

Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios

Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria

Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas

Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante

Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU

O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8

A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados

Discussatildeo

23

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

24

[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45

[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002

[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005

[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986

[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996

[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995

[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005

[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005

Bibliografia

25

Questotildees

Page 16: A Tripartite Scorecard for the Pay/ No Pay ... - fc.up.pt · Analisado por Hélia Monteiro da Costa ... Para a criação e validação de modelos foi efetuada a seguinte distribuição

15

Entatildeo E[LC] pode ser escrita como uma funccedilatildeo linear da forma

E[LC] = a (1 ndash Especificidade) + b (sensibilidade) + c

onde a b e c satildeo paracircmetros dependentes das entradas da matriz L e da proporccedilatildeo de clientes da classe MAU na amostra

A performance de um modelo pode entatildeo ser analisada num espaccedilo a duas dimensotildees

Para efetuar esta anaacutelise usaremos curvas ROC (Receiver Operating Characteristic)

Modelo binaacuterio

16

Ponto oacutetimo P = 90 P = 100 P = 0

Abaixo eacute apresentado um exemplo de curvas ROC para diferentes classificadores

A

Cada ponto da curva representa uma probabilidade a partir da qual classificamos o cliente como MAU Pontos no canto superior direito correspondem a probabilidades reduzidas e no canto inferior esquerdo correspondem a probabilidades elevadas

Modelo binaacuterio

17

Os resultados obtidos foram os seguintes Pesos iguais Pesos diferenciados atendendo aos conceitos do negoacutecio

Modelo binaacuterio

A

B

18

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

19

Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais

O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige

Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo

Objetivos

Minimizar P3 e P4 -gt Diminuir os erros e as perdas

Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

Modelo ternaacuterio

20

Os resultados obtidos foram os seguintes

Maior equiliacutebrio entre Sensibilidade e Especificidade

Previsotildees mais assertivas

15 das transaccedilotildees satildeo decididas manualmente

Modelo ternaacuterio

P3P6 P3+P4

P1+P3 +P4+P6

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

21

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

22

Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios

Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria

Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas

Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante

Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU

O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8

A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados

Discussatildeo

23

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

24

[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45

[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002

[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005

[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986

[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996

[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995

[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005

[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005

Bibliografia

25

Questotildees

Page 17: A Tripartite Scorecard for the Pay/ No Pay ... - fc.up.pt · Analisado por Hélia Monteiro da Costa ... Para a criação e validação de modelos foi efetuada a seguinte distribuição

16

Ponto oacutetimo P = 90 P = 100 P = 0

Abaixo eacute apresentado um exemplo de curvas ROC para diferentes classificadores

A

Cada ponto da curva representa uma probabilidade a partir da qual classificamos o cliente como MAU Pontos no canto superior direito correspondem a probabilidades reduzidas e no canto inferior esquerdo correspondem a probabilidades elevadas

Modelo binaacuterio

17

Os resultados obtidos foram os seguintes Pesos iguais Pesos diferenciados atendendo aos conceitos do negoacutecio

Modelo binaacuterio

A

B

18

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

19

Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais

O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige

Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo

Objetivos

Minimizar P3 e P4 -gt Diminuir os erros e as perdas

Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

Modelo ternaacuterio

20

Os resultados obtidos foram os seguintes

Maior equiliacutebrio entre Sensibilidade e Especificidade

Previsotildees mais assertivas

15 das transaccedilotildees satildeo decididas manualmente

Modelo ternaacuterio

P3P6 P3+P4

P1+P3 +P4+P6

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

21

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

22

Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios

Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria

Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas

Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante

Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU

O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8

A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados

Discussatildeo

23

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

24

[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45

[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002

[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005

[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986

[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996

[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995

[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005

[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005

Bibliografia

25

Questotildees

Page 18: A Tripartite Scorecard for the Pay/ No Pay ... - fc.up.pt · Analisado por Hélia Monteiro da Costa ... Para a criação e validação de modelos foi efetuada a seguinte distribuição

17

Os resultados obtidos foram os seguintes Pesos iguais Pesos diferenciados atendendo aos conceitos do negoacutecio

Modelo binaacuterio

A

B

18

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

19

Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais

O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige

Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo

Objetivos

Minimizar P3 e P4 -gt Diminuir os erros e as perdas

Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

Modelo ternaacuterio

20

Os resultados obtidos foram os seguintes

Maior equiliacutebrio entre Sensibilidade e Especificidade

Previsotildees mais assertivas

15 das transaccedilotildees satildeo decididas manualmente

Modelo ternaacuterio

P3P6 P3+P4

P1+P3 +P4+P6

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

21

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

22

Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios

Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria

Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas

Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante

Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU

O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8

A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados

Discussatildeo

23

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

24

[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45

[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002

[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005

[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986

[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996

[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995

[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005

[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005

Bibliografia

25

Questotildees

Page 19: A Tripartite Scorecard for the Pay/ No Pay ... - fc.up.pt · Analisado por Hélia Monteiro da Costa ... Para a criação e validação de modelos foi efetuada a seguinte distribuição

18

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

19

Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais

O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige

Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo

Objetivos

Minimizar P3 e P4 -gt Diminuir os erros e as perdas

Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

Modelo ternaacuterio

20

Os resultados obtidos foram os seguintes

Maior equiliacutebrio entre Sensibilidade e Especificidade

Previsotildees mais assertivas

15 das transaccedilotildees satildeo decididas manualmente

Modelo ternaacuterio

P3P6 P3+P4

P1+P3 +P4+P6

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

21

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

22

Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios

Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria

Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas

Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante

Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU

O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8

A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados

Discussatildeo

23

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

24

[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45

[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002

[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005

[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986

[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996

[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995

[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005

[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005

Bibliografia

25

Questotildees

Page 20: A Tripartite Scorecard for the Pay/ No Pay ... - fc.up.pt · Analisado por Hélia Monteiro da Costa ... Para a criação e validação de modelos foi efetuada a seguinte distribuição

19

Os modelos binaacuterios natildeo descriminam de forma satisfatoacuteria os clientes Para melhorar os resultados permitir-se-aacute uma terceira classe a REVISAtildeO Esta classe implica que as transaccedilotildees necessitaratildeo de anaacutelise manual com eventual recolha de dados adicionais

O nuacutemero de clientes nesta classe deve ser reduzido atendendo aos custos e tempo que tal processo exige

Em analogia ao que foi efetuado para o modelo binaacuterio pode-se entatildeo definir a matriz de confusatildeo

Objetivos

Minimizar P3 e P4 -gt Diminuir os erros e as perdas

Minimizar P2 e P5 -gt Aumentar a decisatildeo automaacutetica

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

Modelo ternaacuterio

20

Os resultados obtidos foram os seguintes

Maior equiliacutebrio entre Sensibilidade e Especificidade

Previsotildees mais assertivas

15 das transaccedilotildees satildeo decididas manualmente

Modelo ternaacuterio

P3P6 P3+P4

P1+P3 +P4+P6

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

21

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

22

Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios

Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria

Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas

Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante

Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU

O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8

A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados

Discussatildeo

23

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

24

[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45

[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002

[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005

[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986

[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996

[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995

[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005

[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005

Bibliografia

25

Questotildees

Page 21: A Tripartite Scorecard for the Pay/ No Pay ... - fc.up.pt · Analisado por Hélia Monteiro da Costa ... Para a criação e validação de modelos foi efetuada a seguinte distribuição

20

Os resultados obtidos foram os seguintes

Maior equiliacutebrio entre Sensibilidade e Especificidade

Previsotildees mais assertivas

15 das transaccedilotildees satildeo decididas manualmente

Modelo ternaacuterio

P3P6 P3+P4

P1+P3 +P4+P6

PREVISAtildeO

MAU REVISAO BOM

REA

L MAU P1 P2 P3

BOM P4 P5 P6

21

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

22

Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios

Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria

Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas

Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante

Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU

O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8

A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados

Discussatildeo

23

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

24

[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45

[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002

[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005

[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986

[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996

[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995

[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005

[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005

Bibliografia

25

Questotildees

Page 22: A Tripartite Scorecard for the Pay/ No Pay ... - fc.up.pt · Analisado por Hélia Monteiro da Costa ... Para a criação e validação de modelos foi efetuada a seguinte distribuição

21

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

22

Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios

Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria

Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas

Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante

Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU

O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8

A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados

Discussatildeo

23

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

24

[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45

[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002

[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005

[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986

[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996

[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995

[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005

[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005

Bibliografia

25

Questotildees

Page 23: A Tripartite Scorecard for the Pay/ No Pay ... - fc.up.pt · Analisado por Hélia Monteiro da Costa ... Para a criação e validação de modelos foi efetuada a seguinte distribuição

22

Com o objetivo de criar um modelo para decidir autorizar ou natildeo o deacutebito de transaccedilotildees em contas com saldo insuficiente foram desenvolvidos dois tipos de modelos binaacuterios e ternaacuterios

Os resultados apresentados com modelos de classificaccedilatildeo binaacuterios revelam que apesar do estudo intensivo efetuado nenhum dos modelos discriminou de forma satisfatoacuteria

Com pesos bastante assimeacutetricos para os dois tipos de erro a decisatildeo foca-se na mitigaccedilatildeo de erro associado agraves perdas mais elevadas

Com pesos iguais a decisatildeo foca-se apenas na previsatildeo da classe dominante

Para melhorar estes resultados construiacuteram-se modelos de classificaccedilatildeo ternaacuterios que possibilitavam a existecircncia da classe REVISAtildeO entre as classes BOM e MAU

O modelo final obtido permitia uma automatizaccedilatildeo de 87 com uma taxa de erro de 8

A incorporaccedilatildeo futura dos criteacuterios usados na revisatildeo manual poderaacute melhorar os resultados

Discussatildeo

23

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

24

[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45

[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002

[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005

[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986

[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996

[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995

[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005

[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005

Bibliografia

25

Questotildees

Page 24: A Tripartite Scorecard for the Pay/ No Pay ... - fc.up.pt · Analisado por Hélia Monteiro da Costa ... Para a criação e validação de modelos foi efetuada a seguinte distribuição

23

Sumaacuterio

Recolha de dados

Maximizaccedilatildeo do lucro

Modelo binaacuterio

Modelo ternaacuterio

Discussatildeo

Bibliografia

Agenda

24

[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45

[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002

[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005

[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986

[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996

[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995

[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005

[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005

Bibliografia

25

Questotildees

Page 25: A Tripartite Scorecard for the Pay/ No Pay ... - fc.up.pt · Analisado por Hélia Monteiro da Costa ... Para a criação e validação de modelos foi efetuada a seguinte distribuição

24

[1] Maria R SOUSA amp Joaquim P Costa A Tripartite Scorecard for the PayNo pay Decision-Making in the Retail Banking Industry Applications of Data Mining in E-Business and Finance C Soares et al (Eds) IOS Press 2008 doi103233978-1-58603-890-8-45

[2] Lyn C Thomas David B Edelman and Jonathan N Crook Credit Scoring and its applications SIAM 2002

[3] Roger M Stein The relationship between default prediction and lending profits Integrating roc analysis and loan pricing Journal of Banking amp Finance 291213ndash1236 2005

[4] J R Quinlan Induction of decision trees Machine Learning 1(1)81ndash106 1986

[5] BD Ripley Pattern Recognition and Neural Networks Cambridge University Press 1996

[6] C M Bishop Neural Networks for Pattern Recognition Oxford University Press 1995

[7] K B Schebesch and R Stecking Support vector machines for classifying and describing credit applicants detecting typical and critical regions Journal of the Operational Research Society 561082ndash1088 2005

[8] David J Hand So Young Sohn and Yoonseong Kim Optimal bipartite scorecards Expert Systems with Applications 29684ndash690 2005

Bibliografia

25

Questotildees

Page 26: A Tripartite Scorecard for the Pay/ No Pay ... - fc.up.pt · Analisado por Hélia Monteiro da Costa ... Para a criação e validação de modelos foi efetuada a seguinte distribuição

25

Questotildees